Python預測分析核心演算法——Day1

03-06

第一章關於預測的兩類核心演算法

函數逼近問題(function approximation)——屬於有監督學習(supervised learning)

線性回歸和邏輯回歸是解決此類函數逼近問題的兩種主要方法。

本書主要介紹：懲罰線性回歸和集成方法。

本章討論構建預測模型的過程。

1.1為什麼這兩類演算法如此有用

正例：一個實驗輸出正向結果。（即出現）
非平衡：某一類的數據（例子）遠多於其他類的數據（例子）。
特徵（屬性）
幾種演算法：BSTDT（Boosted Decision Trees）提升決策樹；RF（Random Forest）隨機森林；BAGDT（Bagged Decision Trees) 投票決策樹；BSTST（Boosted Stumps）提升二叉樹；LR（Logistic Regression）邏輯回歸；SVM（Support Vector ）支持向量機；ANN（Artificial Neural Nets）人工神經網路；KNN（Distance Weighted kNN）距離加權K最近鄰；PRC（Voted Perceptrons）表決感知器；NB（Navie Bayes）樸素貝葉斯。其中提升決策樹和隨機森林在特徵規模大小時，表現均不錯。
懲罰線性回歸的重要優勢是它的訓練時間短，部署已訓練好的模型後進行預測的時間也短。

1.2什麼是懲罰回歸方法

懲罰回歸方法是由普通最小二乘法（Ordinary Least Squares，OLS）。懲罰性回歸是通過減少自由度使之與問題複雜度、數據規模相匹配。對於大量自由度df的情況，適合使用。

普通最小二乘法擬合

1.3什麼是集成方法

集成方法（ensemble methods）基本思想是構建多個不同的預測模型，然後將其輸出作為某種組合作為最終結果，如取平均值或採用多數人意見（投票）。單個預測器叫做基學習器（base learners）,如：二元決策樹。

計算學習理論（Computation Learning Theory）表明只要基學習器比隨機預測稍微好一些，就能大幅改善結果。

1.4演算法的選擇

懲罰線性回歸的優勢：速度快、處理大量特徵；

集成方法優勢：問題複雜度大時優勢明顯。

迭代過程在2個方面都很耗時：數據處理、預測模型的訓練。

1.5構建預測模型的流程

日常語言描述模糊問題——用具體數學語言對問題進行重述（特徵工程）——找到預測所需數據集，訓練預測模型，得出預測結果。

規範流程如下：

1）提取或組合預測所需的特徵；

2）設定訓練目標；

3）訓練模型；

4）評估模型在測試數據上的性能表現。

注意：在完成第一遍過程後，可通過不同特徵集、不同目標來提高預測性能。

機器學習要求不僅熟悉一些工具包，它是開發一個可以實際部署的模型的全部過程，包括對機器學習演算法的理解和實際操作。

1.5.1構造一個機器學習問題

構造一個機器學習問題

通常構造一個機器學習問題可以採用不同方法，因此問題的構造、模型的選擇、模型的訓練、模型性能評估這一過程發生多次迭代。

從問題形式化到性能評估的迭代過程

隨之而來的是定量訓練目標，或者某些任務是數據提取（這些數據稱為目標或標籤）。

1.5.2特徵提取和特徵工程

特徵提取/特徵工程：確定哪些特徵用於預測（需要實驗嘗試）。

特徵提取：把自由形式的各種數據轉化為行、列形式的數字的過程。

特徵工程：對特徵進行整合，已擁有更豐富的信息量。

數據準備和特徵工程會佔據開發一個機器學習模型的80%~90%的時間

1.5.3確定訓練後的模型的性能

訓練集和測試集

1.6各章內容及其依賴關係

各章依賴關係