標籤:

Python預測分析核心演算法——Day1

第一章 關於預測的兩類核心演算法

函數逼近問題(function approximation)——屬於有監督學習(supervised learning)

線性回歸和邏輯回歸是解決此類函數逼近問題的兩種主要方法。

本書主要介紹:懲罰線性回歸和集成方法。

本章討論構建預測模型的過程。


1.1為什麼這兩類演算法如此有用

  • 正例:一個實驗輸出正向結果。(即出現)
  • 非平衡:某一類的數據(例子)遠多於其他類的數據(例子)。
  • 特徵(屬性)
  • 幾種演算法:BSTDT(Boosted Decision Trees)提升決策樹;RF(Random Forest)隨機森林;BAGDT(Bagged Decision Trees) 投票決策樹;BSTST(Boosted Stumps)提升二叉樹;LR(Logistic Regression)邏輯回歸;SVM(Support Vector )支持向量機;ANN(Artificial Neural Nets) 人工神經網路;KNN(Distance Weighted kNN) 距離加權K最近鄰;PRC(Voted Perceptrons) 表決感知器;NB(Navie Bayes) 樸素貝葉斯。 其中提升決策樹和隨機森林在特徵規模大小時,表現均不錯。
  • 懲罰線性回歸的重要優勢是它的訓練時間短,部署已訓練好的模型後進行預測的時間也短。

1.2什麼是懲罰回歸方法

懲罰回歸方法是由普通最小二乘法(Ordinary Least Squares,OLS)。懲罰性回歸是通過減少自由度使之與問題複雜度、數據規模相匹配。對於大量自由度df的情況,適合使用。

普通最小二乘法擬合


1.3什麼是集成方法

集成方法(ensemble methods)基本思想是構建多個不同的預測模型,然後將其輸出作為某種組合作為最終結果,如取平均值或採用多數人意見(投票)。單個預測器叫做基學習器(base learners),如:二元決策樹。

計算學習理論(Computation Learning Theory)表明只要基學習器比隨機預測稍微好一些,就能大幅改善結果。


1.4演算法的選擇

懲罰線性回歸的優勢:速度快、處理大量特徵;

集成方法優勢:問題複雜度大時優勢明顯。

迭代過程在2個方面都很耗時:數據處理、預測模型的訓練。


1.5構建預測模型的流程

日常語言描述模糊問題——用具體數學語言對問題進行重述(特徵工程)——找到預測所需數據集,訓練預測模型,得出預測結果。

規範流程如下:

1)提取或組合預測所需的特徵;

2)設定訓練目標;

3)訓練模型;

4)評估模型在測試數據上的性能表現。

注意:在完成第一遍過程後,可通過不同特徵集、不同目標來提高預測性能。

機器學習要求不僅熟悉一些工具包,它是開發一個可以實際部署的模型的全部過程,包括對機器學習演算法的理解和實際操作。

1.5.1構造一個機器學習問題

構造一個機器學習問題

通常構造一個機器學習問題可以採用不同方法,因此問題的構造、模型的選擇、模型的訓練、模型性能評估這一過程發生多次迭代。

從問題形式化到性能評估的迭代過程

隨之而來的是定量訓練目標,或者某些任務是數據提取(這些數據稱為目標或標籤)。

1.5.2特徵提取和特徵工程

特徵提取/特徵工程:確定哪些特徵用於預測(需要實驗嘗試)。

特徵提取:把自由形式的各種數據轉化為行、列形式的數字的過程。

特徵工程:對特徵進行整合,已擁有更豐富的信息量。

數據準備和特徵工程會佔據開發一個機器學習模型的80%~90%的時間

1.5.3確定訓練後的模型的性能

訓練集和測試集


1.6各章內容及其依賴關係

各章依賴關係


推薦閱讀:

python與numpy使用的一些小tips[6]
如何用Python和深度神經網路識別圖像?
複雜網路分析之數據準備篇
《機器學習實戰》學習總結(六)——支持向量機SVM(一)
這或許是對小白最友好的python入門了吧——14,遍歷字典

TAG:Python |