機器學習導論——Day1

03-06

第一章引言

機器學習方法在大型資料庫中的應用稱為數據挖掘（Data Mining）。
處於變化環境中的系統必須具有學習能力。
機器學習使用實例數據或過去的經驗訓練計算機來優化某種性能標準。模型依賴於某些參數，學習是執行計算機程序，利用訓練數據或以往經驗來優化該模型的參數。模型可以是預測性的，也可以是描述性的
機器學習的核心任務是樣本推理，計算機科學的角色是雙重的，第一，訓練時需要求解優化問題以及存儲和處理通常所面對的海量數據的高效演算法；第二，一旦學習得到一個模型，它的表示和用於推理的演算法解也必須是高效的。

1.2機器學習的應用實例

1.2.1學習關聯性

購物籃分析basket analysis

關聯規則association rule

數學：概率論

P(X|Y,D)，具有D屬性且購買了Y的顧客有多大概率購買X。

1.2.2分類

資信評分credit ranking

數學 :判別式

IF income> $alpha$ AND savings> $eta$

THEN low-risk ELSE high-risk

模式識別pattern recognition

Optical Character Recognition/Face Recognition/Medical Diagnosis/Speech Recognition/Outliner Detection, etc.

1.2.3回歸regression

數學：擬合曲線

y= $varphi$ x+ $psi$

分類和回歸都是監督學習（supervised learning）

響應面設計（response surface design）

推薦系統（recommendation system）

1.2.4非監督學習

監督學習中，目標是學習從輸入到輸出的映射關係，其中輸出的正確值由指導者提供。然而非監督學習中，沒有指導者，只有輸入數據。目標是發現輸入數據的規律。

密度估計density estimation:

聚類（clustering）：客戶劃分（customer segmentation)、客戶關係管理（customer relationship management）、圖像壓縮（image compression)

1.2.5增強學習

系統輸出是動作的序列，重要的是策略，即達到目標的正確動作的序列。如果一個動作是好的策略的部分，則這是一個好的動作。這種情況下，機器學習程序要能夠評估策略的好壞，並從以往好的動作序列中學習，以便能夠產生策略。這種學習方式叫做增強學習演算法。

1.3注釋

歸納（induction）

推斷（inference）、估計（estimation）

數據挖掘也稱為（knowledge discovery in database，KDD）

1.4相關資源

1.5習題

1.6參考文獻