如何看待Jeff Dean&Hinton投到ICLR17的MoE的工作?

Open Review的Link在這裡:

Open Review


這篇paper中心思想很簡潔,但是實現起來trick茫茫多。另外Google一如既往的沒有公開代碼,個人感覺又是一篇看起來很美但是沒人能重現的典型G家paper。。。

中心思想一幅圖兩條公式就總結完了:

簡單來說每個E(Expert)是一個網路,G是用softmax算出來的一個類似於attention的gate,每個sample會根據gate被分配給k個Expert,隨後再加起來。這樣的好處是大大提高了模型參數數量,但是計算量不會提高太多。

可但是,細節裡面trick太多了,比如G並不是簡單的Softmax算出來的,很醜陋的加了個noise,然後更醜陋的強行取了k個。noise的計算方法也很醜,主要目的是為了防止訓練開始的時候收斂到永遠用固定的k個Expert。這裡應該有不小的研究空間,可以做的更系統更美觀一點。。。

這個想法看起來比較像attention,但是我認為首先應該聯繫最近的Xeption(Google)和ResNext(Facebook)來看。一個很有意思的insight是:跟傳統機器學習模型不同,一個DNN的計算量和它含有的參數數量並不一定要是正相關的。通過把一層拆成很多並行的層,可以固定計算量而調整參數的數量。

現有經驗看來,parameter數量決定了一個DNN有多容易overfit/underfit(傳統VC維分析),但是同樣參數數量的情況下計算量對DNN最終建模能力的影響很大,甚至起到決定性作用。於是通過固定計算量,單獨改變參數數量可以有效的解決overfitting/underfitting的問題。我認為這個方向上還大有文章可以做,想搞深度學習理論的同學也可以關注一下。


畢竟Jeff Dean……


推薦閱讀:

有沒有非線性版本的 矩陣分解,壓縮感知,稀疏編碼?
深度學習在量化投資方面都有哪些可以借鑒應用的地方?如何結合一些策略方法?
在機器學習領域, 不同框架實現的相同演算法,差別能有多大?
截至2017年3月,音樂和人聲分離的研究有哪些最新進展?
深度学习现在坑还多吗?

TAG:深度學習DeepLearning |