BAT面試題精選 | 一個完整機器學習項目的流程(視頻)
請簡要說說一個完整機器學習項目的流程。
作者:@寒小陽、龍心塵
收入《BAT機器學習面試1000題系列》第30題,其他題目見文末鏈接
1 抽象成數學問題
明確問題是進行機器學習的第一步。機器學習的訓練過程通常都是一件非常耗時的事情,胡亂嘗試時間成本是非常高的。
這裡的抽象成數學問題,指的我們明確我們可以獲得什麼樣的數據,目標是一個分類還是回歸或者是聚類的問題,如果都不是的話,如果劃歸為其中的某類問題。
2 獲取數據
數據決定了機器學習結果的上限,而演算法只是儘可能逼近這個上限。 數據要有代表性,否則必然會過擬合。 而且對於分類問題,數據偏斜不能過於嚴重,不同類別的數據數量不要有數個數量級的差距。 而且還要對數據的量級有一個評估,多少個樣本,多少個特徵,可以估算出其對內存的消耗程度,判斷訓練過程中內存是否能夠放得下。如果放不下就得考慮改進演算法或者使用一些降維的技巧了。如果數據量實在太大,那就要考慮分散式了。
3 特徵預處理與特徵選擇
良好的數據要能夠提取出良好的特徵才能真正發揮效力。 特徵預處理、數據清洗是很關鍵的步驟,往往能夠使得演算法的效果和性能得到顯著提高。歸一化、離散化、因子化、缺失值處理、去除共線性等,數據挖掘過程中很多時間就花在它們上面。這些工作簡單可複製,收益穩定可預期,是機器學習的基礎必備步驟。 篩選出顯著特徵、摒棄非顯著特徵,需要機器學習工程師反覆理解業務。這對很多結果有決定性的影響。特徵選擇好了,非常簡單的演算法也能得出良好、穩定的結果。這需要運用特徵有效性分析的相關技術,如相關係數、卡方檢驗、平均互信息、條件熵、後驗概率、邏輯回歸權重等方法。
4 訓練模型與調優
直到這一步才用到我們上面說的演算法進行訓練。現在很多演算法都能夠封裝成黑盒供人使用。但是真正考驗水平的是調整這些演算法的(超)參數,使得結果變得更加優良。這需要我們對演算法的原理有深入的理解。理解越深入,就越能發現問題的癥結,提出良好的調優方案。
5 模型診斷
如何確定模型調優的方向與思路呢?這就需要對模型進行診斷的技術。 過擬合、欠擬合 判斷是模型診斷中至關重要的一步。常見的方法如交叉驗證,繪製學習曲線等。過擬合的基本調優思路是增加數據量,降低模型複雜度。欠擬合的基本調優思路是提高特徵數量和質量,增加模型複雜度。 誤差分析 也是機器學習至關重要的步驟。通過觀察誤差樣本,全面分析誤差產生誤差的原因:是參數的問題還是演算法選擇的問題,是特徵的問題還是數據本身的問題…… 診斷後的模型需要進行調優,調優後的新模型需要重新進行診斷,這是一個反覆迭代不斷逼近的過程,需要不斷地嘗試, 進而達到最優狀態。
6 模型融合
一般來說,模型融合後都能使得效果有一定提升。而且效果很好。 工程上,主要提升演算法準確度的方法是分別在模型的前端(特徵清洗和預處理,不同的採樣模式)與後端(模型融合)上下功夫。因為他們比較標準可複製,效果比較穩定。而直接調參的工作不會很多,畢竟大量數據訓練起來太慢了,而且效果難以保證。
7.上線運行
這一部分內容主要跟工程實現的相關性比較大。工程上是結果導向,模型在線上運行的效果直接決定模型的成敗。 不單純包括其準確程度、誤差等情況,還包括其運行的速度(時間複雜度)、資源消耗程度(空間複雜度)、穩定性是否可接受。 這些工作流程主要是工程實踐上總結出的一些經驗。並不是每個項目都包含完整的一個流程。這裡的部分只是一個指導性的說明,只有大家自己多實踐,多積累項目經驗,才會有自己更深刻的認識。 故,基於此,七月在線每一期ML演算法班都特此增加特徵工程、模型調優等相關課。比如,這裡有個公開課視頻http://www.julyedu.com/video/play/18/186
推薦閱讀:
※神經網路NN演算法(應用篇)
※(一)深度學習基礎(基本概念、優化演算法、初始化、正則化等)
※科普:分散式深度學習系統(二)
※樸素貝葉斯分類實例-單詞糾正問題
TAG:机器学习 |