調參這事兒,為什麼越干越覺得像老中醫看病?
只能通過摸索調參的經歷,讓我覺得很不嚴謹很不舒服,這個過程真的好煩。
在不同的模型下都有不同的超參數,而每個超參的意義又不同。
在不同實驗結果下,調的參數和調的方向又都不一樣。
有沒有可能做出比較成熟的自動化調參方案呢?
丫的這拓碼簡直就是玄學啊?
調參這條路分為幾個階段:
1 不懂參數的意義,保持默認值
2 不懂參數的意義,嘗試性調整
3 懂參數的意義,但無從下手,於是一股腦丟給半自動化調參技術(Grid Search)
4 懂參數的意義,基於經驗或理論,結合半自動化調參技術
和大多數初學者一樣,我腦子裡也一閃而過調參是門玄學的問題。調參之所以難調,是因為其可看做一個多元函數F的最優化問題(這裡所指的最優化並不是對目標函數最優化),而這個多元函數F的梯度不好求解,故凡是使用梯度的最優化技術都不太好用了。
然而,我們還可以借鑒一些非梯度方法的思想,同時結合對參數的理解與調參經驗,從而把參數調好。這個回答引自於我的博文《使用sklearn進行集成學習——實踐》,首先詳述了Random Forest和Gradient Tree Boosting兩個模型的各參數的含義,然後分析了這些參數對整體模型性能的影響,接著借鑒了坐標下降法這種非梯度最優化方法的思想,結合Kaggle和Analytics Vidhya上的兩個比賽具體講述了一下調參的過程,最後峰迴路轉,介紹了一種經驗性的調參方法,說明了之前坐標下降的局限性。
這篇回答的重點並不是介紹一種最準確的調參方法,而是總結了一下調參過程中可能遇到的種種陷阱以及解決方案。我認為,分析加經驗可以在比較短的時間內調教模型至一個理想的程度,並不是說每次調參都要花大量的時間去試探,特別是時間有限的話,我們更應該把精力投入到特徵工程當中。
使用sklearn進行集成學習——實踐
系列
- 《使用sklearn進行集成學習——理論》
- 《使用sklearn進行集成學習——實踐》
目錄
1 Random Forest和Gradient Tree Boosting參數詳解
2 如何調參?
2.1 調參的目標:偏差和方差的協調
2.2 參數對整體模型性能的影響
2.3 一個樸實的方案:貪心的坐標下降法
2.3.1 Random Forest調參案例:Digit Recognizer
2.3.1.1 調整過程影響類參數
2.3.1.2 調整子模型影響類參數
2.3.2 Gradient Tree Boosting調參案例:Hackathon3.x
2.3.2.1 調整過程影響類參數
2.3.2.2 調整子模型影響類參數
2.3.2.3 殺一記回馬槍
2.4 「局部最優解」(溫馨提示:看到這裡有彩蛋!)
2.5 類別不均衡的陷阱
3 總結
4 參考資料
在sklearn.ensemble庫中,我們可以找到Random Forest分類和回歸的實現:RandomForestClassifier和RandomForestRegression,Gradient Tree Boosting分類和回歸的實現:GradientBoostingClassifier和GradientBoostingRegression。有了這些模型後,立馬上手操練起來?少俠請留步!且聽我說一說,使用這些模型時常遇到的問題:
- 明明模型調教得很好了,可是效果離我的想像總有些偏差?——模型訓練的第一步就是要定好目標,往錯誤的方向走太多也是後退。
- 憑直覺調了某個參數,可是居然沒有任何作用,有時甚至起到反作用?——定好目標後,接下來就是要確定哪些參數是影響目標的,其對目標是正影響還是負影響,影響的大小。
- 感覺訓練結束遙遙無期,sklearn只是個在小數據上的玩具?——雖然sklearn並不是基於分散式計算環境而設計的,但我們還是可以通過某些策略提高訓練的效率。
- 模型開始訓練了,但是訓練到哪一步了呢?——飽暖思淫慾啊,目標,性能和效率都得了滿足後,我們有時還需要有別的追求,例如訓練過程的輸出,袋外得分計算等等。
通過總結這些常見的問題,我們可以把模型的參數分為4類:目標類、性能類、效率類和附加類。下表詳細地展示了4個模型參數的意義:
# :默認值
不難發現,基於bagging的Random Forest模型和基於boosting的Gradient Tree Boosting模型有不少共同的參數,然而某些參數的默認值又相差甚遠。在《使用sklearn進行集成學習——理論》一文中,我們對bagging和boosting兩種集成學習技術有了初步的了解。Random Forest的子模型都擁有較低的偏差,整體模型的訓練過程旨在降低方差,故其需要較少的子模型(n_estimators默認值為10)且子模型不為弱模型(max_depth的默認值為None),同時,降低子模型間的相關度可以起到減少整體模型的方差的效果(max_features的默認值為auto)。另一方面,Gradient Tree Boosting的子模型都擁有較低的方差,整體模型的訓練過程旨在降低偏差,故其需要較多的子模型(n_estimators默認值為100)且子模型為弱模型(max_depth的默認值為3),但是降低子模型間的相關度不能顯著減少整體模型的方差(max_features的默認值為None)。
2 如何調參?聰明的讀者應當要發問了:」博主,就算你列出來每個參數的意義,然並卵啊!我還是不知道無從下手啊!」
參數分類的目的在於縮小調參的範圍,首先我們要明確訓練的目標,把目標類的參數定下來。接下來,我們需要根據數據集的大小,考慮是否採用一些提高訓練效率的策略,否則一次訓練就三天三夜,法國人孩子都生出來了。然後,我們終於進入到了重中之重的環節:調整那些影響整體模型性能的參數。
2.1 調參的目標:偏差和方差的協調同樣在《使用sklearn進行集成學習——理論》中,我們已討論過偏差和方差是怎樣影響著模型的性能——準確度。調參的目標就是為了達到整體模型的偏差和方差的大和諧!進一步,這些參數又可分為兩類:過程影響類及子模型影響類。在子模型不變的前提下,某些參數可以通過改變訓練的過程,從而影響模型的性能,諸如:「子模型數」(n_estimators)、「學習率」(learning_rate)等。另外,我們還可以通過改變子模型性能來影響整體模型的性能,諸如:「最大樹深度」(max_depth)、「分裂條件」(criterion)等。正由於bagging的訓練過程旨在降低方差,而boosting的訓練過程旨在降低偏差,過程影響類的參數能夠引起整體模型性能的大幅度變化。一般來說,在此前提下,我們繼續微調子模型影響類的參數,從而進一步提高模型的性能。
2.2 參數對整體模型性能的影響假設模型是一個多元函數F,其輸出值為模型的準確度。我們可以固定其他參數,從而對某個參數對整體模型性能的影響進行分析:是正影響還是負影響,影響的單調性?
對Random Forest來說,增加「子模型數」(n_estimators)可以明顯降低整體模型的方差,且不會對子模型的偏差和方差有任何影響。模型的準確度會隨著「子模型數」的增加而提高。由於減少的是整體模型方差公式的第二項,故準確度的提高有一個上限。在不同的場景下,「分裂條件」(criterion)對模型的準確度的影響也不一樣,該參數需要在實際運用時靈活調整。調整「最大葉節點數」(max_leaf_nodes)以及「最大樹深度」(max_depth)之一,可以粗粒度地調整樹的結構:葉節點越多或者樹越深,意味著子模型的偏差越低,方差越高;同時,調整「分裂所需最小樣本數」(min_samples_split)、「葉節點最小樣本數」(min_samples_leaf)及「葉節點最小權重總值」(min_weight_fraction_leaf),可以更細粒度地調整樹的結構:分裂所需樣本數越少或者葉節點所需樣本越少,也意味著子模型越複雜。一般來說,我們總採用bootstrap對樣本進行子採樣來降低子模型之間的關聯度,從而降低整體模型的方差。適當地減少「分裂時考慮的最大特徵數」(max_features),給子模型注入了另外的隨機性,同樣也達到了降低子模型之間關聯度的效果。但是一味地降低該參數也是不行的,因為分裂時可選特徵變少,模型的偏差會越來越大。在下圖中,我們可以看到這些參數對Random Forest整體模型性能的影響:
對Gradient Tree Boosting來說,「子模型數」(n_estimators)和「學習率」(learning_rate)需要聯合調整才能儘可能地提高模型的準確度:想像一下,A方案是走4步,每步走3米,B方案是走5步,每步走2米,哪個方案可以更接近10米遠的終點?同理,子模型越複雜,對應整體模型偏差低,方差高,故「最大葉節點數」(max_leaf_nodes)、「最大樹深度」(max_depth)等控制子模型結構的參數是與Random Forest一致的。類似「分裂時考慮的最大特徵數」(max_features),降低「子採樣率」(subsample),也會造成子模型間的關聯度降低,整體模型的方差減小,但是當子採樣率低到一定程度時,子模型的偏差增大,將引起整體模型的準確度降低。還記得「初始模型」(init)是什麼嗎?不同的損失函數有不一樣的初始模型定義,通常,初始模型是一個更加弱的模型(以「平均」情況來預測),雖說支持自定義,大多數情況下保持默認即可。在下圖中,我們可以看到這些參數對Gradient Tree Boosting整體模型性能的影響:
2.3 一個樸實的方案:貪心的坐標下降法
到此為止,我們終於知道需要調整哪些參數,對於單個參數,我們也知道怎麼調整才能提升性能。然而,表示模型的函數F並不是一元函數,這些參數需要共同調整才能得到全局最優解。也就是說,把這些參數丟給調參演算法(諸如Grid Search)咯?對於小數據集,我們還能這麼任性,但是參數組合爆炸,在大數據集上,或許我的子子孫孫能夠看到訓練結果吧。實際上網格搜索也不一定能得到全局最優解,而另一些研究者從解優化問題的角度嘗試解決調參問題。
坐標下降法是一類優化演算法,其最大的優勢在於不用計算待優化的目標函數的梯度。我們最容易想到一種特別樸實的類似於坐標下降法的方法,與坐標下降法不同的是,其不是循環使用各個參數進行調整,而是貪心地選取了對整體模型性能影響最大的參數。參數對整體模型性能的影響力是動態變化的,故每一輪坐標選取的過程中,這種方法在對每個坐標的下降方向進行一次直線搜索(line search)。首先,找到那些能夠提升整體模型性能的參數,其次確保提升是單調或近似單調的。這意味著,我們篩選出來的參數是對整體模型性能有正影響的,且這種影響不是偶然性的,要知道,訓練過程的隨機性也會導致整體模型性能的細微區別,而這種區別是不具有單調性的。最後,在這些篩選出來的參數中,選取影響最大的參數進行調整即可。
無法對整體模型性能進行量化,也就談不上去比較參數影響整體模型性能的程度。是的,我們還沒有一個準確的方法來量化整體模型性能,只能通過交叉驗證來近似計算整體模型性能。然而交叉驗證也存在隨機性,假設我們以驗證集上的平均準確度作為整體模型的準確度,我們還得關心在各個驗證集上準確度的變異係數,如果變異係數過大,則平均值作為整體模型的準確度也是不合適的。在接下來的案例分析中,我們所談及的整體模型性能均是指平均準確度,請各位留心。
2.3.1 Random Forest調參案例:Digit Recognizer在這裡,我們選取Kaggle上101教學賽中的Digit Recognizer作為案例來演示對RandomForestClassifier調參的過程。當然,我們也不要傻乎乎地手工去設定不同的參數,然後訓練模型。藉助sklearn.grid_search庫中的GridSearchCV類,不僅可以自動化調參,同時還可以對每一種參數組合進行交叉驗證計算平均準確度。
2.3.1.1 調整過程影響類參數首先,我們需要對過程影響類參數進行調整,而Random Forest的過程影響類參數只有「子模型數」(n_estimators)。「子模型數」的默認值為10,在此基礎上,我們以10為單位,考察取值範圍在1至201的調參情況:
# 左圖為模型在驗證集上的平均準確度,右圖為準確度的變異係數。橫軸為參數的取值。
通過上圖我們可以看到,隨著「子模型數」的增加,整體模型的方差減少,其防止過擬合的能力增強,故整體模型的準確度提高。當「子模型數」增加到40以上時,準確度的提升逐漸不明顯。考慮到訓練的效率,最終我們選擇「子模型數」為200。此時,在Kaggle上提交結果,得分為:0.96500,很湊合。
2.3.1.2 調整子模型影響類參數在設定「子模型數」(n_estimators)為200的前提下,我們依次對子模型影響類的參數對整體模型性能的影響力進行分析。
對「分裂條件」(criterion)分別取值gini和entropy,得到調參結果如下:
顯見,在此問題中,「分裂條件」保持默認值gini更加合適。
對「分裂時參與判斷的最大特徵數」(max_feature)以1為單位,設定取值範圍為28至47,得到調參結果如下:
「分裂時參與判斷的最大特徵數」的默認值auto,即總特徵數(sqrt(784)=28)的開方。通過提升該參數,整體模型的準確度得到了提升。可見,該參數的默認值過小,導致了子模型的偏差過大,從而整體模型的偏差過大。同時,我們還注意到,該參數對整體模型性能的影響是近似單調的:從28到38,模型的準確度逐步抖動提升。所以,我們可考慮將該參數納入下一步的調參工作。
對「最大深度」(max_depth)以10為單位,設定取值範圍為10到100,得到調參結果如下:
隨著樹的深度加深,子模型的偏差減少,整體模型的準確度得到提升。從理論上來說,子模型訓練的後期,隨著方差增大,子模型的準確度稍微降低,從而影響整體模型的準確度降低。看圖中,似乎取值範圍從40到60的情況可以印證這一觀點。不妨以1為單位,設定取值範圍為40到59,更加細緻地分析:
有點傻眼了,怎麼跟預想的不太一樣?為什麼模型準確度的變化在40到59之間沒有鮮明的「規律」了?要分析這個問題,我們得先思考一下,少一層子節點對子模型意味著什麼?若少的那一層給原子模型帶來的是方差增大,則新子模型會準確度提高;若少的那一層給原子模型帶來的是偏差減小,則新子模型會準確度降低。所以,細粒度的層次變化既可能使整體模型的準確度提升,也可能使整體模型的準確度降低。從而也說明了,該參數更適合進行粗粒度的調整。在訓練的現階段,「抖動」現象的發生說明,此時對該參數的調整已不太合適了。
對「分裂所需的最小樣本數」(min_samples_split)以1為單位,設定取值範圍為2到11,得到調參的結果:
我們看到,隨著分裂所需的最小樣本數的增加,子模型的結構變得越來越簡單,理論上來說,首先應當因方差減小導致整體模型的準確度提升。但是,在訓練的現階段,子模型的偏差增大的幅度比方差減小的幅度更大,所以整體模型的準確度持續下降。該參數的默認值為2,調參後,最優解保持2不變。
對「葉節點最小樣本數」(min_samples_leaf)以1為單位,設定取值範圍為1到10,得到調參結果如下:
同「分裂所需的最小樣本數」,該參數也在調參後,保持最優解1不變。
對「最大葉節點數」(max_leaf_nodes)以100為單位,設定取值範圍為2500到3400,得到調參結果如下:
類似於「最大深度」,該參數的增大會帶來模型準確的提升,可是由於後期「不規律」的抖動,我們暫時不進行處理。
通過對以上參數的調參情況,我們可以總結如下:
接下來,我們固定分裂時參與判斷的最大特徵(max_features)為38,在Kaggle上提交一次結果:0.96671,比上一次調參好了0.00171,基本與我們預期的提升效果一致。
還需要繼續下一輪坐標下降式調參嗎?一般來說沒有太大的必要,在本輪中出現了兩個發生抖動現象的參數,而其他參數的調整均沒有提升整體模型的性能。還是得老調重彈:數據和特徵決定了機器學習的上限,而模型和演算法只是逼近這個上限而已。在DR競賽中,與其期待通過對RandomForestClassifier調參來進一步提升整體模型的性能,不如挖掘出更有價值的特徵,或者使用自帶特徵挖掘技能的模型(正如此題,圖分類的問題更適合用神經網路來學習)。但是,在這裡,我們還是可以自信地說,通過貪心的坐標下降法,比那些用網格搜索法窮舉所有參數組合,自以為得到最優解的朋友們更進了一步。
2.3.2 Gradient Tree Boosting調參案例:Hackathon3.x
在這裡,我們選取Analytics Vidhya上的Hackathon3.x作為案例來演示對GradientBoostingClassifier調參的過程。
2.3.2.1 調整過程影響類參數GradientBoostingClassifier的過程影響類參數有「子模型數」(n_estimators)和「學習率」(learning_rate),我們可以使用GridSearchCV找到關於這兩個參數的最優解。慢著!這裡留了一個很大的陷阱:「子模型數」和「學習率」帶來的性能提升是不均衡的,在前期會比較高,在後期會比較低,如果一開始我們將這兩個參數調成最優,這樣很容易陷入一個「局部最優解」。在目標函數都不確定的情況下(如是否凸?),談局部最優解就是耍流氓,本文中「局部最優解」指的是調整各參數都無明顯性能提升的一種狀態,所以打了引號。下圖中展示了這個兩個參數的調參結果:
# 圖中顏色越深表示整體模型的性能越高
在此,我們先直覺地選擇「子模型數」為60,「學習率」為0.1,此時的整體模型性能(平均準確度為0.8253)不是最好,但是也不差,良好水準。
2.3.2.2 調整子模型影響類參數對子模型影響類參數的調整與Random Forest類似。最終我們對參數的調整如下:
到此,整體模型性能為0.8313,與workbench(0.8253)相比,提升了約0.006。
2.3.2.3 殺一記回馬槍還記得一開始我們對「子模型數」(n_estimators)和「學習率」(learning_rate)手下留情了嗎?現在我們可以回過頭來,調整這兩個參數,調整的方法為成倍地放大「子模型數」,對應成倍地縮小「學習率」(learning_rate)。通過該方法,本例中整體模型性能又提升了約0.002。
2.4 「局部最優解」 目前來說,在調參工作中,廣泛使用的仍是一些經驗法則。Aarshay Jain對Gradient Tree Boosting總結了一套調參方法,其核心思想在於:對過程影響類參數進行調整,畢竟它們對整體模型性能的影響最大,然後依據經驗,在其他參數中選擇對整體模型性能影響最大的參數,進行下一步調參。這種方法的關鍵是依照對整體模型性能的影響力給參數排序,然後按照該順序對的參數進行調整。如何衡量參數對整體模型性能的影響力呢?基於經驗,Aarshay提出他的見解:「最大葉節點數」(max_leaf_nodes)和「最大樹深度」(max_depth)對整體模型性能的影響大於「分裂所需最小樣本數」(min_samples_split)、「葉節點最小樣本數」(min_samples_leaf)及「葉節點最小權重總值」(min_weight_fraction_leaf),而「分裂時考慮的最大特徵數」(max_features)的影響力最小。
Aarshay提出的方法和貪心的坐標下降法最大的區別在於前者在調參之前就依照對整體模型性能的影響力給參數排序,而後者是一種「很自然」的貪心過程。還記得2.3.2.1小節中我們討論過「子模型數」(n_estimators)和「學習率」(learning_rate)的調參問題嗎?同理,貪心的坐標下降法容易陷入「局部最優解」。對Random Forest調參時會稍微好一點,因為當「子模型數」調到最佳狀態時,有時就只剩下諸如「「分裂時參與判斷的最大特徵數」等Aarshay認為影響力最小的參數可調了。但是,對Gradient Tree Boosting調參時,遇到「局部最優解」的可能性就大得多。
Aarshay同樣對Hackathon3.x進行了調參試驗,由於特徵提取方式的差異,參數賦值相同的情況下,本文的整體模型性能仍與其相差0.007左右(唉,不得不再說一次,特徵工程真的很重要)。首先,在過程影響類參數的選擇上,Aarshay的方法與貪心的坐標下降法均選擇了「子模型數」為60,「學習率」為0.1。接下來,Aarshay按照其定義的參數對整體模型性能的影響力,按序依次對參數進行調整。當子模型影響類參數確定完成後,Aarshay的方法提升了約0.008的整體模型性能,略勝於貪心的坐標下降法的0.006。但是,回過頭來繼續調試「子模型數」和「學習率」之後,Aarshay的方法又提升了約0.01的整體模型性能,遠勝於貪心的坐標下降法的0.002。
誒!誒!誒!少俠請住手!你說我為什麼要在這篇博文中介紹這種「無用」的貪心的坐標下降法?首先,這種方法很容易憑直覺就想到。人們往往花了很多的時間去搞懂模型的參數是什麼含義,對整體模型性能有什麼影響,搞懂這些已經不易了,所以接下來很多人選擇了最直觀的貪心的坐標下降法。通過一個實例,我們更容易記住這種方法的局限性。除了作為反面教材,貪心的坐標下降法就沒有意義了嗎?不難看到,Aarshay的方法仍有改進的地方,在依次對參數進行調整時,還是需要像貪心的坐標下降法中一樣對參數的「動態」影響力進行分析一下,如果這種影響力是「抖動」的,可有可無的,那麼我們就不需要對該參數進行調整。
2.5 類別不均衡的陷阱哈哈哈,這篇博文再次留了個陷阱,此段文字並不是跟全文一起發布!有人要說了,按照我的描述,Aarshay的調參試驗不可再現啊!其實,我故意沒說Aarshay的另一個關鍵處理:調參前的參數初始值。因為Hackathon3.x是一個類別不均衡的問題,所以如果直接先調試「最大深度」(max_depth),會發現其會保持默認值3作為最優解,而後面的調參中,「分裂所需最小樣本數」(min_samples_split)、「葉節點最小樣本數」(min_samples_leaf)再怎麼調都沒有很大作用。這是因為,正例樣本遠遠小於反例,所以在低深度時,子模型就可能已經對正例過擬合了。所以,在類別不均衡時,只有先確定「葉節點最小樣本數」(min_samples_leaf),再確定「分裂所需最小樣本數」(min_samples_split),才能確定「最大深度」。而Aarshay設定的初始值,則以經驗和直覺避開了這個險惡的陷阱。
如果實在覺得經驗和直覺不靠譜,我還嘗試了一種策略:首先,我們需要初步地調一次「子採樣率」(subsample)和「分裂時考慮的最大特徵數」(max_features),在此基礎上依次調好「葉節點最小樣本數」(min_samples_leaf)、「分裂所需最小樣本數」(min_samples_split)以及「最大深度」(max_depth)。然後,按照Aarshay的方法,按影響力從大到小再調一次。通過這種方法,整體模型性能在未等比縮放過程影響類參數前,已達到約0.8352左右,比workbench相比,提升了約0.1,與Aarshay的調參試驗差不多,甚至更好一點點。
回過頭來,我們再次看看貪心的坐標下降法是怎麼掉入這個陷阱的。在確定過程影響類參數後,貪心的坐標下降法按照「動態」的對整體模型性能的影響力大小,選擇了「葉節點最小樣本數」進行調參。這一步看似和上一段的描述是一致的,但是,一般來說,含隨機性(「子採樣率」和「分裂時考慮的最大特徵數」先初步調過)的「葉節點最小樣本數」要大於無隨機性。舉個例來說,因為增加了隨機性,導致了子採樣後,某子樣本中只有一個正例,且其可以通過唯一的特徵將其分類,但是這個特徵並不是所有正例的共性,所以此時就要求「葉節點最小樣本數」需要比無隨機性時大。對貪心的坐標下降來說,「子採樣率」和「分裂時考慮的最大特徵數」在當下,對整體模型性能的影響比不上「葉節點最小樣本數」,所以栽了個大跟頭。
3 總結在這篇博文中,我一反常態,花了大部分時間去試驗和說明一個有瑕疵的方案。數據挖掘的工作中的方法和技巧,有很大一部分暫時還未被嚴謹地證明,所以有很大部分人,特別是剛入門的小青年們(也包括曾經的我),誤以為其是一門玄學。實際上,儘管沒有被嚴謹地證明,我們還是可以通過試驗、分析,特別是與現有方法進行對比,得到一個近似的合理性論證。
另外,小夥伴們你們有什麼獨到的調參方法嗎?請不要有絲毫吝嗇,狠狠地將你們的獨門絕技全釋放在我身上吧,請大膽留言,殘酷批評!
4 參考資料- 《使用sklearn進行集成學習——理論》
Complete Guide to Parameter Tuning in Gradient Boosting (GBM) in Python
- 坐標下降法
- Digit Recognizer
- Hackathon3.x
用bayesian optimization - 我最經常用的代碼是 mlcircus / bayesopt.m
基本上除神經網路以外的模型,我們組都在用BO自動調參 - 至少我參與的非deep learning 的論文里 nontrivial 的參數全部都是BO調的,最大程度上避免人工的 arbitrariness. 做深度學習也有用BO的各種技巧和paper,但還沒有實用到能讓我樂意放棄手動調參的程度
想明白BO背後的機理,可以看這個課的lecture note #12。貝葉斯方法博大精深,這一套課程其實依然只涵蓋了一些皮毛:
CSE 515T: Bayesian Methods in Machine Learning
也可以看看這個比較老的paper,很多用BO的paper都會引:
https://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf
BO背後是 gaussian process。關於GP,可以看Rasmussen Williams的經典 Gaussian Processes for Machine Learning: Book webpage。GPML 這本書值得從頭到尾讀一遍,但想理解GP regression看完前兩章就夠了。這些依然是一個active research area,歡迎交流!
出處見水印,侵刪
這回知道學化學的人不容易了吧……
樓主可以看看Learning to learn by gradient descent by gradient descent那篇文章,自動學習超參數,以後調參俠們也要下崗。
其實,參數本身才是最有價值的。連技術保密,保的都是具體參數。大方向、大框架全告訴你都可以,中間一兩步的小技巧、催化劑、小秘方才是解決問題的關鍵。(原子彈的原理全世界的人都知道 )
前一陣做過一些演算法的對比,被人們所鄙視的傳統方法真的沒有多不堪,經過仔細調參,甚至有可能比新方法性能更好。
無奈學術界有流行癖,不流行的演算法就發不了文章,造成很多人對傳統方法不重視、輕易退出。
其實,演算法與演算法之間的差距,在絕大多數情況下,遠小於參數的影響。
新的基於大數據的學習演算法的最大優點是,減少了學習專門領域的專家知識的負擔,但並不一定就能保證性能,尤其是與經過長期改進的傳統演算法相比。
PS. 不懂中醫的,不要隨便調侃。如果有那麼一點意願,想看看問題的另一面,想了解一下學中醫的人的想法,請參考這個問題的回答:你為什麼如此堅定地學中醫? - 醫學。身為計算機系調參俠的我,也搞過一點中醫的東西,情感上不太接受不了解中醫的人隨便調侃中醫,如果想了解我之前參與的中醫客觀化項目,可以參見:怎麼看待言大官人(言凌)拚命攻擊中醫的現象? - 曲曉峰的回答。在筆記本上用遺傳演算法全局調參的路過。。。。
後來把程序停了,就這樣,太慢了
出處:新浪微博-南大周志華
每個人都有自己獨特的經歷、感情和喜好,獨一無二的你,也能調出獨一無二的參。
因此,某細分領域領先的公司,他們就用了很多獨立的個體來調參。
我有一個朋友,由於在世界第二的名企工作,所以內心比較膨脹。
他批判了這種多人調參的行為,斥之為山炮,我當場對他進行了批評教育。
最終,讓他認識到了獨立個體對於參數不同的望聞問切處理能得到不同的結果。
1. 調參不是科學,不是數學公式,能通過嚴密的推理得出結論
2. 調參有理論,但理論不是科學,理論是對現象的一種解釋方法,你有你的理論,我有我的理論,最後誰的理論work誰就好
3. 說中醫是調參也沒錯,但給你一堆中藥,你能調成華佗扁鵲嗎?不要以為人家一出生就是神醫而忽略了人家幾十年的調參經驗
祝題主早日成為調參界一代宗師。
參數裡面是你對問題的先驗。
你沒有先驗玩個屁啊。
就是為了能夠讓人具體問題具體分析才引入這些參數的啊。
你把參數全固定住不就得到了一個不需要調參的模型了么?但這樣的模型有屁用啊。
標籤里有deep learning,deep learning 雖然說調參很重要,但是實際上合理的模型大部分都是不用調的,隨便怎麼搞都能訓得很好。
只是現在的人們不知道什麼模型訓得好又沒總結出什麼規律所以只能瞎jb調了。但是如果一個模型要靠慢慢調參才能搞出來,多半是廢了,至少沒啥前途。
放心,至少最有價值的模型不是靠調參調出來的。
最後,調參是基本功,分析問題,憑藉直覺尋找對問題有影響的參數並手動或者自動調整,這些活雖然骯髒,但是其實這就是實際需要解決的問題,總得做,且總得有人來做。你不能因為像老中醫就再也不看病了吧。
補充一下,調參這種體力活是無可避免的,妄想靠推推無腦公式就來擬合這個世界,這種想法未免太過狂妄了吧。
當然,你可以用RL來替換掉所有調參的過程,或者使用meta learning來自動調參。但是根據我自己的經驗,這兩玩意本身調起參來可是要命的。
本來就是啊。。在調參的過程中,訓練自己對參數的理解。。
自動控制跟實際控制機構相關,除非你把整個控制系統全都完整量化建模,不然只能調參。。。
老中醫的確就是這麼做的~~這居然還跟化學有關係
這比喻很真實啊。
ML本來就是模擬的過程....又不是演算法求解,好好壞壞就看經驗調了。
從中醫來看是不是能說藥方=模型,參數等於劑量/葯的選擇。然後學好數學就是苦學中醫原理,從源頭上將調整參數的過程儘可能的非玄學化~
這樣的話實驗復現不出來可以說是你參數沒調好
當初我說神經網路是經驗科學,沒有理論基礎,還不少人噴我,認為我在宣揚人工智慧威脅論。
題主,你不覺得
調參
是一件非常具體而且有意義有價值的事情么?
哈哈,人工智慧深度學習,也不是萬能解藥,越來越像機械加工,材料處理中的工藝問題了,就是累積就是試額。
參數本身才是最有價值的。連技術保密,保的都是具體參數。大方向、大框架全告訴你都可以,中間一兩步的小技巧、催化劑、小秘方才是解決問題的關鍵。(原子彈的原理全世界的人都知道 點擊圖片看大圖 )
前一陣做過一些演算法的對比,被人們所鄙視的傳統方法真的沒有多不堪,經過仔細調參,甚至有可能比新方法性能更好。
無奈學術界有流行癖,不流行的演算法就發不了文章,造成很多人對傳統方法不重視、輕易退出。
其實,演算法與演算法之間的差距,在絕大多數情況下,遠小於參數的影響。
新的基於大數據的學習演算法的最大優點是,減少了學習專門領域的專家知識的負擔,但並不一定就能保證性能,尤其是與經過長期改進的傳統演算法相比。
推薦閱讀:
※有什麼好的模型可以做高精度的時間序列預測呢?
※機器學習中的Bias(偏差),Error(誤差),和Variance(方差)有什麼區別和聯繫?
※如何迅速成長成為一名數據分析師?
※如何在業餘時學數據分析?
※用於數據挖掘的分類演算法有哪些,各有何優劣?