數據挖掘的系統教程是怎樣的,包含哪些教材?
正統教材: 主要是下面這兩本(第一本好些,雖然第二本好像國內用的比較多):
- Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.
- Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques.
前沿教材:
但比較新的還是推薦Stanford課程講義總結出來的, 課件也很好。跟傳統教材相比,更側重大規模數據處理的一些技術,例如高維數據分析。
Mining of Massive Dataset, by Anand Rajaraman and Jeff Ullman ( Derived from Stanford CS345) (網上可以直接下載: http://infolab.stanford.edu/~ullman/mmds.html )通俗讀本:
更通俗的入門的推薦這本, 很多例子,生動,強調動手和實際問題解決而不是理論: Programming Collective Intelligence, by Toby Segaran, August 2007. (有中文版: http://www.china-pub.com/129896ref=xilie )拓展性讀物:
個人也很喜歡下面這本(網上可以下到PDF),一本多個大牛寫的關於一些大規模數據分析和挖掘的應用合集,適合進階的時候當閑書看看。 Beautiful Data by Toby Segaran, Jeff Hammerbacher ( http://oreilly.com/catalog/9780596157128 )還有兩本參考書是我放在書架上有什麼需要用到,但沒有接觸過就看看的, 兩本都有影印版本:
The Text Mining Handbook by R. Feldman and J. Sanger ( http://book.douban.com/subject/3987475/ )
Web Data Mining by Bing Liu ( http://book.douban.com/subject/3639345/ )基礎理論性讀物:
最後,想要打好基礎,可以回過頭來看看這本偏理論的書: The Elements of Statistical Learning (統計學習基礎) by Trevor Hastie etc (http://book.douban.com/subject/3578359/ ) 當然,如果你是有志於專門深入數據挖掘的某個細分領域,最好直接讀相關的survey論文,和最新的直接看各大數據挖掘相關會議論文即可 ( KDD/SIGMOD/VLDB/ICDE/WSDM/ICDM etc)《數據挖掘:概念與技術》不是那麼好懂,我推薦Liu Bing的《web data mining》
多年前verycd上有個浙大的遠程教育視頻講數據挖掘的,不知還在不在。
mining of massive datasets 的課件http://www.stanford.edu/class/cs246/handouts.html
推薦這個,很好的書
《Mining of Massive Datasets 》
http://infolab.stanford.edu/~ullman/mmds.html 有ppt、全文數據挖掘本來就是很多技術的合體,目前分化的方向也很多,前面提過的可視化挖掘也是一個方向。不過作為入門學習,個人推薦一本《數據挖掘導論》。
《數據挖掘導論》http://book.douban.com/subject/1465939/從這裡了解基本的數據挖掘概念和演算法。然後再根據你工作的方向去深入某一領域,多讀最新的論文。
數據挖掘是一個應用的噱頭,關鍵是支整合的各個方面的學科知識架構,首先要搞清楚應用場景和數據背景,否則挖到的可能只是一些過於符合或者遠遠偏離期望值的特徵和結果。因此,控制特徵選擇的獨立性和依賴的建模以及高維數據處理的失真和漂移現象是十分重要的。
項目經理的角度,推薦看《Making Sense of Data》,系統化的闡述了商業數據挖掘的流程和技術。
Mining of Massive Datasets
《大數據:互聯網大規模數據挖掘與分散式處理》
By Jure Leskovec, Anand Rajaraman and Jeff Ullman
你可能曾經為沒有在斯坦福上過學而感到遺憾,這本書的存在可以在一定程度上彌補你心靈的缺失。它主要是基於斯坦福大學CS246(大資料庫挖掘)和CS345A(數據挖掘)兩門課來編寫的。
這本書的設置遵循了課程本身的設置理念,它是為沒有相關經驗的本科計算機學生準備的。如果讀者想要去了解更深層的東西,大多數章節都附有可以讓你繼續閱讀相關課題的參考書目。
(網上可以直接下載: 公眾號「飛馬會」,在導航欄回複數字「3」)
推薦黃德才老師的數據倉庫與數據挖掘教程,內容詳實,裡邊還有SQL Server數據挖掘的實驗,是可以實踐操作的!
科班入門一般都的是《數據挖掘:概念和技術》。作者jiawei han最近幾年出的異構數據挖掘方面的書也值得讀讀。
不過最近上相關的課程,老師用的textbook除了那些經典,引入了一本2014的新書,我認為是比較容易入門的,書中的例題在內容中都有答案,比較容易循序漸進DATA MINING AND ANALYSIS
補充一本外行人都能入門的初級讀物《大嘴巴漫談數據挖掘》
深入的確實還是找survey,review的文章,頂級會議,期刊的文章《數據挖掘:概念與技術》
香港城市大學qab專業歡迎您
Bishop的PRML, 數學是王道.
數據分析方面,我推薦《精益數據分析》,這本書里講解了創業公司該如何確定指標體系,如何用數據指導產品和運營。本書還針對電商、媒體、SaaS、雙邊市場、Ugc等,列舉了要關注的指標,並有豐富的案例。不足是整個書的內容比較散,系統性不強,但依舊是講互聯網產品數據分析方面我覺得最好的一本了。
數據挖掘方面,我推薦韓家煒的《數據挖掘概念與技術》,我自己就是在工作之後,通過閱讀這本書,對數據挖掘有了系統性的認識,後來我研究用戶行為序列模式挖掘的時候,發現看的許多論文都出自他的實驗室。在兩三年前,他還去百度做過一次報告,有幸去聽了。
當然,光靠看看書是遠遠不夠的,想深入數據分析,就在自己的工作中嘗試用數據指導決策,不管是項目效果的評估,運營活動的評估,都嘗試用數據來驗證。對於數據挖掘,還是找個應用場景,直接寫程序去嘗試一下個性化推薦,分類之類的演算法,這樣就不會覺得雲里霧裡了。作者:徐亞波
鏈接:數據挖掘的系統教程是怎樣的,包含哪些教材? - 徐亞波的回答
來源:知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。正統教材: 主要是下面這兩本(第一本好些,雖然第二本好像國內用的比較多):- Pang-Ning Tan, Michael Steinbach and Vipin Kumar, Introduction to Data Mining.
前沿教材:
但比較新的還是推薦Stanford課程講義總結出來的, 課件也很好。跟傳統教材相比,更側重大規模數據處理的一些技術,例如高維數據分析。 Mining of Massive Dataset, by Anand Rajaraman and Jeff Ullman ( Derived from Stanford CS345) (網上可以直接下載: http://infolab.stanford.edu/~ullman/mmds.html )通俗讀本:
更通俗的入門的推薦這本, 很多例子,生動,強調動手和實際問題解決而不是理論: Programming Collective Intelligence, by Toby Segaran, August 2007. (有中文版: http://www.china-pub.com/129896ref=xilie )拓展性讀物:
個人也很喜歡下面這本(網上可以下到PDF),一本多個大牛寫的關於一些大規模數據分析和挖掘的應用合集,適合進階的時候當閑書看看。 Beautiful Data by Toby Segaran, Jeff Hammerbacher ( http://oreilly.com/catalog/9780596157128 )還有兩本參考書是我放在書架上有什麼需要用到,但沒有接觸過就看看的, 兩本都有影印版本:
The Text Mining Handbook by R. Feldman and J. Sanger ( http://book.douban.com/subject/3987475/ ) Web Data Mining by Bing Liu ( http://book.douban.com/subject/3639345/ )基礎理論性讀物:
最後,想要打好基礎,可以回過頭來看看這本偏理論的書: The Elements of Statistical Learning (統計學習基礎) by Trevor Hastie etc (http://book.douban.com/subject/3578359/ ) 當然,如果你是有志於專門深入數據挖掘的某個細分領域,最好直接讀相關的survey論文,和最新的直接看各大數據挖掘相關會議論文即可 ( KDD/SIGMOD/VLDB/ICDE/WSDM/ICDM etc)有10大數據挖掘經典原理,你可以搜索一下。
重要是把這些原理結合你的數據日誌,編寫出優良合適的演算法。
數據挖掘無非就是想自動或半自動的找到問題,希望你在此有所成。推薦閱讀:
※學習神經網路、SVM等機器學習的知識,為了更好的投入到應用當中,用matlab還是c++好呢?
※在數據量不足的情況下,用哪種數據挖掘模型效果會更好?
※機器學習or電子,我該選哪個?
※想從事大數據、海量數據處理相關的工作,如何自學打基礎?
※PHP或者python進行數據採集和分析,有什麼比較成熟的框架?