數據挖掘區別於數據分析,是通過統計學、人工智慧、機器學習等方法從數據當中挖掘出那些未知的,有價值的信息或知識。
目前,數據挖掘的應用範圍很廣,涉及設計,零售,金融,銀行,醫療,政府決策,企業財務,商業決策等。
如果你想現在開始從事數據挖掘這個行業,可以先從這些資源入手。
◆ ◆ ◆
優 秀 書 單
Introduction to Data Mining
Pang-Ning Tang、Michael Steinbach、Vipin Kumar
本書是數據挖掘領域經典的入門教程,從數據挖掘的概念,到數據的處理方法,再到數據挖掘的具體演算法,結合大量的圖片和案例進行描述,幫助讀者由淺入深的理解數據挖掘基礎。
DataMining: Concepts and Techniques
JiaweiHan、Micheline Kamber、Jian Pei
本書詳盡講述了數據挖掘的基本概念和方法,重點關注了數據挖掘領域最新的技術和發展,還涉及到數據挖掘方法在金融領域的應用,書中的實例講解,採用易於理解的偽代碼進行編寫,適合於大規模的實際挖掘項目。
Mining of Massive Datasets
Anand Rajaraman / Jeffrey David Ullman
本書重點介紹了用於解決數據挖掘中的關鍵問題的使用演算法,還解釋了對位置敏感的演算法和處理的技巧,以及查找頻繁項集和聚類的問題,適合想要入門數據挖掘的讀者。
數據可視化與數據挖掘
王國平
本書通過實際案例介紹,重點介紹了可視化數據挖掘技術在電信、電力、醫藥、銀行、電商和房地產等行業中的應用,通過可視化的手段將數據挖掘過程的各個階段展示給用戶,使數據挖掘技術滿足不同層次用戶的需要。
Recommender Systems: An introduction
Dietmar Jannach、MarkusZanker、Alexander Felfernig、GerhardFriedrich
本書全面的介紹了推薦系統涉及的相關知識點,呈現了許多經典演算法,並討論了如何衡量推薦系統的有效性,廣泛涵蓋了不同類型的推薦系統,適合想要了解推薦系統的基礎和相關研究的讀者作為推薦系統的入門書籍。
Recommender Systems
Charu C. Aggarwal
本書用簡單的語言闡述了推薦系統的基礎,深入地介紹了核心演算法的概念以及數學論證,涵蓋「演算法和評估」,」特定領域和上下文下的的推薦系統「,」高級的主題和應用「三個部分,可以作為推薦系統的入門書籍,也可以作為工具參考書。
Sentiment Analysis
Bing Liu
本書是迄今為止觀點挖掘與情感分析領域最權威、最全面的著作之一,主要從自然語言處理的角度全面地介紹情感分析這個主題中的基礎演算法以及先進的研究技術和科研結果。
移動數據挖掘
連德富、張富崢、王英子、袁晶、謝幸
本書以移動數據為核心,針對移動社交網路的位置數據,並結合人的基本信息及社交網路等相關信息來研究個人與群體的移動模式特性,在介紹了移動數據的概念及其價值的同時,還細緻地講解了移動數據領域內的多個前沿研究課題。
輕鬆學大數據挖掘:演算法、場景與數據產品
汪榕
本書打破數據工具與技術的介紹模式,憑藉作者在大數據價值探索過程中的所感所悟,以故事的形式分享作者的親身數據經歷,在輕鬆的閱讀環境中全面領悟數據產品。
python數據分析與挖掘實戰
張良均
本書由10餘位數據挖掘領域資深專家和科研人員,講述大數據挖掘諮詢與實施經驗結晶。從數據挖掘的應用出發,以電力、航空、醫療、互聯網、生產製造以及公共服務等行業真實案例為主線,深入淺出介紹Python數據挖掘建模過程,實踐性極強。
案 例 欣 賞
>>>>基於分類模型的案例
-QQ圈子把前女友推薦給未婚妻
騰訊2012年推出QQ圈子,依據共同好友的連鎖反應進行好友推薦,將QQ好友進行圈子分類。出現了將用戶前女友推給未婚妻這樣的趣事,利用數據挖掘挖出關係網,大數據的處理能力讓人震撼。
-信用卡分級
將我們需要建設客戶風險模型對客戶的風險進行分類,準確分析申請人的信用風險。
根據不同類別的客戶吸引合適的用戶來使用信用卡,吸引低風險高價值的客戶,盡量避免高風險的信用卡申請者。
>>>>基於預測分析的案例
預測是指建立兩種或者兩種以上變數之間相互依賴的函數模型,然後進行預測或者控制。
-Google成功預測冬季流感
2009年,Google分析了5000萬條美國人最頻繁檢索的辭彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,建立了一個特定的數學模型。
最成功預測了2009冬季流感的傳播,甚至可以具體到特定的地區和州。
-股票預測
公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。
當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。
>>>>基於關聯分析的案例
-沃爾瑪的啤酒尿布
啤酒尿布主要講的是產品之間的關聯性,大量的數據表明,消費者購買尿布的同時,也會順帶著購買啤酒,尿布和啤酒之間存在關聯性。
在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
-超市預知高中生顧客懷孕
明尼蘇達州一家塔吉特門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產品優惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經他逼問後坦承自己真的懷孕了。
塔吉特百貨就是靠著分析用戶所有的購物數據,然後通過相關關係分析得出事情的真實狀況。
>>>>基於聚類分析的案例
無監督學習的結果。聚類的結果將產生一組集合,集合中的對象與同集合中的對象彼此相似,與其他集合中的對象相異。
-零售客戶細分
在商業銀行中,基於零售客戶的特徵變數,計算客戶之間的距離,按照距離的遠近將相似的客戶聚集為一類。
網 站 博 客
01 奧地利人工智慧研究所機器學習和數據挖掘小組
研究區域包括數據挖掘和知識發現,文本挖掘,機器學習,網站還會每天更新行業相關的新聞,介紹相關任務和一些最新的研究。
網址:http://www.oefai.at/oefai/ml/mldm/
02 DMI:數據挖掘學院
於1999年在微軟的數據挖掘小組幫助下建成,將威斯康星州資料庫和數學編程小組的專業知識和經驗結合起來, 利用新穎而強大的工具, 從大量的科學、商業和經濟數據中提取知識。
網址:http://www.cs.wisc.edu/dmi/
03 數據挖掘
成立於1994年,旨在提供有關數據挖掘和知識發現的高質量信息。網站維護一份數據挖掘軟體列表,包括免費數據挖掘軟體和商業數據挖掘軟體,你還可以添加有關數據挖掘軟體的信息。
網址:http://www.the-data-mine.com/
04 數據挖掘實驗室
大數據挖掘中心於2014年成立,研究方向包括數據挖掘、機器學習、多媒體應用和醫學圖像分類,特別集中在屬性約簡理論及其在HASHING,圖像和視頻分類等應用。
網址:http://zhanglab.ci.gxnu.edu.cn/about_us.shtml
05 智能科學網站
智能科學是腦科學、認知科學、 人工智慧等的交叉學科,研究智能的理論和技術。智能科學不僅要進行智能的功能模擬,而且要研究智能的機理, 探索智能的新理論、 新方法
網址:http://http://www.intsci.ac.cn/
06 數據挖掘
這是一個私人博客,記錄了作者研究方向的一些資料、信息。作者主要的興趣所在為:人工智慧、文本挖掘、可視化等
網址:http://datamining.typepad.com/data_mining/
07 50 data miningresources
熱門數據挖掘資源:50個教程,文章和視頻,用於學習數據挖掘方法,分析等。
網址:https://www.ngdata.com/data-mining-resources/
08 Analytics Vidhya
最新的機器學習、數據挖掘的知識更新,涵蓋業內新聞和動態,也可以參與討論。
網址:https://www.analyticsvidhya.com/blog/
09 DataMining
一個關於數據挖掘研究和應用的博客,內容包括研究問題、最近的申請、行業內重要事件、當前的趨勢、書評等。
網址:http://www.dataminingblog.com/
10 R and DataMining
該網站提供有關R和數據挖掘的文檔,示例,教程和資源。
網址:http://www.rdatamining.com/
實 用 工 具
01 Weka
Weka是一款複雜的數據挖掘工具,擁有大量能承擔數據挖掘任務的機器學習演算法,該工具基於Java版本,支持多種標準數據挖掘任務,包括數據預處理、收集、分類、回歸分析、可視化和特徵選取。
下載地址:http://www.cs.waikato.ac.nz/ml/weka/
02 KNIME
KNIME(KonstanzInformation Miner)是基於Eclipse,用Java編寫的一款開源的數據分析、報告和綜合平台,擁有數據提取、集成,處理,分析、轉換以及載入所需的所有數據挖掘工具。
下載地址:https://www.knime.org/
03 Orange
Orange是一個開源數據挖掘和機器學習工具,界面友好易於使用,並且提供了大量可視化方法,可以對數據和模型進行多種圖形化展示。
下載地址:orange.biolab.si
04 NLTK
NLTK適用於語言處理任務,提供包括數據挖掘、機器學習、數據抓取、情感分析等語言處理任務,NLTK用python語言編寫,可以在上面建立應用,還可以自定義它的小任務。
下載地址:http://www.nltk.org/
05 RapidMine
RapidMiner由java語言編寫而成的最受歡迎的免費數據挖掘工具之一,它是一個開源的數據挖掘軟體,提供一些可擴展的數據分析挖掘演算法的實現,旨在幫助開發人員更加方便快捷地創建智能應用程序。除了數據挖掘,RapidMiner還提供如數據預處理和可視化、預測分析和統計建模、評估和部署等功能。
下載地址:https://rapidminer.com/
06 Pentaho
Pentaho為數據集成、業務分析以及大數據處理提供一個全面的平台。使用這種商業工具,你可以輕鬆地混合各種來源的數據,通過對業務數據進行分析可以為未來的決策提供正確的信息引導。
下載地址:http://www.pentaho.com/
07 IBM SPSS Modeler
IBM SPSS Modeler工具工作台最適合處理文本分析等大型項目,其可視化界面非常有價值。它允許您在不編程的情況下生成各種數據挖掘演算法。 它也可以用於異常檢測、貝葉斯網路、CARMA、Cox回歸以及使用多層感知器進行反向傳播學習的基本神經網路。
下載地址:https://www.ibm.com/products/spss-modeler
08 SAS Data Mining
使用SAS Data Mining商業軟體發現數據集模式,提供了一個易於使用的GUI,擁有自動化的數據處理工具,集群到最終可以找到正確決策的最佳結果。用戶不需要寫任何代碼,就可以從中得出最佳結果做出正確決策。
下載地址:https://www.sas.com/
09 Tanagra
TANAGRA是為學術和研究目的開發的數據挖掘軟體,且完全免費。 有探索性數據分析,統計學習,機器學習和資料庫領域的工具。Tanagra缺乏高級的可視化能力,但它的強項是統計分析,提供了眾多的有參和無參檢驗方法。同時它的特徵選取方法也很多。
下載地址:http://eric.univ-lyon2.fr/~ricco/tanagra/en/tanagra.html
10 Oracle DataMining
Oracle是「高級分析資料庫」的一分子,其數據挖掘功能允許用戶發現、預測並利用Oracle數據,還可以構建模型來發現客戶行為、目標客戶和開發概要文件。
下載地址:https://www.oracle.com/
以上介紹的書單、案例、網站和工具都是數據挖掘領域綜合評價較高的資源,各有所長。讀者可以結合自己的需求來進行選擇,從零到一,全面深入數據挖掘領域。
數據挖掘資源:數據、電子書、資料等
我們整理了一個超級棒的資料包
公眾號後台回復「數據挖掘資料」
即可領取
公眾號ID
DataCastle-VIP