Python預測分析核心演算法——Day1
第一章 關於預測的兩類核心演算法
函數逼近問題(function approximation)——屬於有監督學習(supervised learning)
線性回歸和邏輯回歸是解決此類函數逼近問題的兩種主要方法。
本書主要介紹:懲罰線性回歸和集成方法。
本章討論構建預測模型的過程。
1.1為什麼這兩類演算法如此有用
- 正例:一個實驗輸出正向結果。(即出現)
- 非平衡:某一類的數據(例子)遠多於其他類的數據(例子)。
- 特徵(屬性)
- 幾種演算法:BSTDT(Boosted Decision Trees)提升決策樹;RF(Random Forest)隨機森林;BAGDT(Bagged Decision Trees) 投票決策樹;BSTST(Boosted Stumps)提升二叉樹;LR(Logistic Regression)邏輯回歸;SVM(Support Vector )支持向量機;ANN(Artificial Neural Nets) 人工神經網路;KNN(Distance Weighted kNN) 距離加權K最近鄰;PRC(Voted Perceptrons) 表決感知器;NB(Navie Bayes) 樸素貝葉斯。 其中提升決策樹和隨機森林在特徵規模大小時,表現均不錯。
- 懲罰線性回歸的重要優勢是它的訓練時間短,部署已訓練好的模型後進行預測的時間也短。
1.2什麼是懲罰回歸方法
懲罰回歸方法是由普通最小二乘法(Ordinary Least Squares,OLS)。懲罰性回歸是通過減少自由度使之與問題複雜度、數據規模相匹配。對於大量自由度df的情況,適合使用。
1.3什麼是集成方法
集成方法(ensemble methods)基本思想是構建多個不同的預測模型,然後將其輸出作為某種組合作為最終結果,如取平均值或採用多數人意見(投票)。單個預測器叫做基學習器(base learners),如:二元決策樹。
計算學習理論(Computation Learning Theory)表明只要基學習器比隨機預測稍微好一些,就能大幅改善結果。
1.4演算法的選擇
懲罰線性回歸的優勢:速度快、處理大量特徵;
集成方法優勢:問題複雜度大時優勢明顯。
迭代過程在2個方面都很耗時:數據處理、預測模型的訓練。
1.5構建預測模型的流程
日常語言描述模糊問題——用具體數學語言對問題進行重述(特徵工程)——找到預測所需數據集,訓練預測模型,得出預測結果。
規範流程如下:
1)提取或組合預測所需的特徵;
2)設定訓練目標;
3)訓練模型;
4)評估模型在測試數據上的性能表現。
注意:在完成第一遍過程後,可通過不同特徵集、不同目標來提高預測性能。
機器學習要求不僅熟悉一些工具包,它是開發一個可以實際部署的模型的全部過程,包括對機器學習演算法的理解和實際操作。
1.5.1構造一個機器學習問題
通常構造一個機器學習問題可以採用不同方法,因此問題的構造、模型的選擇、模型的訓練、模型性能評估這一過程發生多次迭代。
隨之而來的是定量訓練目標,或者某些任務是數據提取(這些數據稱為目標或標籤)。
1.5.2特徵提取和特徵工程
特徵提取/特徵工程:確定哪些特徵用於預測(需要實驗嘗試)。
特徵提取:把自由形式的各種數據轉化為行、列形式的數字的過程。
特徵工程:對特徵進行整合,已擁有更豐富的信息量。
數據準備和特徵工程會佔據開發一個機器學習模型的80%~90%的時間
1.5.3確定訓練後的模型的性能
訓練集和測試集
1.6各章內容及其依賴關係
推薦閱讀:
※python與numpy使用的一些小tips[6]
※如何用Python和深度神經網路識別圖像?
※複雜網路分析之數據準備篇
※《機器學習實戰》學習總結(六)——支持向量機SVM(一)
※這或許是對小白最友好的python入門了吧——14,遍歷字典
TAG:Python |