標籤：

數據挖掘簡介第一講（已完結）

04-03

相關課件小夥伴可以從我的網盤上下載：

https://pan.baidu.com/s/1sFBAdIx04mntzJYfd-bjhQ?

pan.baidu.com

每天都在生成大量的數據

數據量很大，我們怎麼讓它們產生價值

數據到處都是

我們的購物記錄

使用者評價

文檔集

基因圖譜

金融數據，股票行情

社交網路

數據可以幫助我們解決一些特定的問題

以下這9副圖片怎麼分成3類

這些圖片應該怎麼分類？應該分成幾類？

什麼基因有可能和疾病有關？基因的表達值怎麼樣用於預測存活率？

Amazon（亞馬遜）應該推薦給我什麼？

這是垃圾郵件還是正常郵件？

那這一封呢？

我會喜歡300嗎？

Netflix怎麼會知道我會不會喜歡300呢？（根據我的觀看記錄）

Netflix是怎麼判斷的，Netflix又如何知道自己是否判斷正確？

數據可以幫助我們解答上述問題

什麼是數據挖掘？從數據中提取特徵(patterns)的過程 - Wikipedia

什麼是數據挖掘？搜集大量的數據尋找能夠精確預測消費者和潛在消費者行為的數據特徵(patterns) - Adobe

什麼是數據挖掘？出於營銷目的地對上網者的瀏覽行為、所用的時間、他們點擊的鏈接和其他細節信息進行整合的過程。（消費者隱私指南）

得到數據，分析數據得到特徵，利用得到的特徵去完成一些任務

有監督學習，無監督學習，離散型數據，連續型數據，計算效率

Supervised data: 輸出 y 有分類標籤或者有數值。有標籤的舉例：一些已經被分類好是垃圾郵件 spam 還是正常郵件 ham 的郵件作為已觀測的數據，分析數據特徵，找出分類規則，用以區分新郵件到底是正常郵件還是垃圾郵件。

非監督學習數據沒有標籤。我們想要做的是找到隱藏的數據結構（不可能被完全觀測到的）。舉例：對一些圖片進行分組（事先沒有分什麼組分幾組的信息）。為文集找到一個話題集。很難評價這些模型。

連續型變數舉例：股票收益、溫度；離散型變數舉例：郵件還是垃圾郵件，錯誤、沒錯還是不清楚；

計算效率：大量的數據計算必須注重演算法的效率

有監督學習，連續型：回歸分析（並不是所有回歸）；有監督學習，分類型：分類器；無監督學習，連續型：降維；無監督學習，分類型：聚類；

相關教材小夥伴們可以從我的網盤上下載

An Introduction to Statistical Learning:

https://pan.baidu.com/s/1GZuSR9Ukh4ziPxCGRao7KQ?

pan.baidu.com

The Elements of Statistical Learning:

https://pan.baidu.com/s/1SyXLPKt17d5S8Pyn3Nnzig?

pan.baidu.com

推薦閱讀：

※機器學習（周志華）第一、二章
※Python 數據分析（五）：數據的處理
※了解一點模型部署與上線
※推薦系統日常與工作-PPT
※《Python數據挖掘》筆記（四）網路分析

TAG:數據挖掘 |