NIPS結果 + 新學期

01-24

這一周這幾天真是忙，趕上新的一屆數據科學碩士生開學+選指導老師，每天都在 meeting 和新來的學生聊下一步的打算，也非常感謝他們對我的認可，其實潛台詞是他們對深度學習/強化學習這些個熱詞和方向太「認可」了， :). 最大一個感受就是學生們的對機器學習/深度學習的背景知識缺一些，背後的基礎課程有的學的也不是很紮實，代碼基礎有的也不是很充分。這個領域是個數學，計算機都要求的交叉學科，如果是嘗試做應用領域，還需要對領域知識有較為全面的認知。個人覺得本科生有志於搞 AI ，要紮實學好的一些科目：微積分、高等代數、統計學、數值方法，以及程序設計類的，尤其養成良好的編程習慣，抽時間熟悉 Python，儘早的做一些 AI 方面的本科科研。

除了忙還是傳來喜訊，投的兩篇 NIPS 文章中了一篇。今年 NIPS 的投稿真是爆炸了，3240篇，足見 NIPS 在整個 AI 學術界和工業界的地位。12月份會在加州的 Long Beach 開會，估計會議人數至少7000人左右。

先說說沒中的這個工作，Perspective of Loss Landscapes 這個是和鄂老師的一個高年級博士一起做的工作，是關於理解為什麼 deep neural network 相比於其他模型有很好的泛化能力(generalization)，我們從分析神經網路的目標函數的角度來解釋這個問題，提出了一種新的猜想：神經網路的具有好的泛化能力的解在目標函數的參數空間是大量存在的，而且其volume of attractor basin 在空間中是統治的，也就是遠大於那些 generalization 差的解。並在淺網路中有一些理論分析以及在深層網路下的實驗佐證。我個人本來對這個工作信心滿懷，但 NIPS 的review 結果真是讓人大跌眼鏡。究其原因就是我們沒怎麼寫好，沒能很好的呈現給讀者我們具體的思路，教訓就是很好的講一個故事在當前深度學習理論方面的研究是非常重要的。不過我繼續加了一些新的內容，投一下ICLR試試。

關於中了 NIPS的這篇工作，是研究如何訓練神經網路使其能夠找到generalization 很好的解，[1703.04379] Langevin Dynamics with Continuous Tempering for Training Deep Neural Networks 我去年夏天的時候就有關於這篇 paper具體的想法，當時剛來到北大工作，各種雜事，就指導一位清華的研究生來做這個工作，後來他去劍橋讀博，我們只能遠程聯繫，導致進度緩慢，實驗不 solid，還被 ICML 拒過一次。不過認真修改之後， NIPS最終還是中了。簡單來說思想就將優化過程分為兩步：首先先將目標函數做成Gibbs 分布，利用 MCMC 採樣這個分布，以大概率找到 fat mode 就是比較寬的區域，也就是 flat minima 所在的區域 (flat minima 一般具有更好泛化能力，Generalization Gap and Sharp Minima)，接著用標準的 SGD with momentum 做 fine tuning. 方法的關鍵在於第一步 MCMC 過程中，我們借鑒了分子動力學中的 continous tempering 的思想能夠給系統自動調溫，讓 sampler 跳出那些局部的略窄的 mode，最終跑到 fat mode 上，具體細節可以看看文章，目前還不是 camera ready version, 後期我們會對文章根據審稿意見做一些修改。

新學期下周就開始了，我組織開了一門深度學習的高級課程，很多事情需要安排，還要將一部分課，希望學生們經過一學期的課能夠有所進階，做出一些 impressive 的應用或者理論的東西！

先說到這裡，十一和中秋要來了，附一張去年十一假期時候在老家拍的黃昏：