ICLR 2018 有什麼值得關注的亮點？

11-23

ICLR 2018已經結束提交，這次ICLR有什麼值得圈點之處？

https://einstein.ai/static/images/pages/research/non-autoregressive-neural-mt.pdf Non-autoregressive neural machine translation

這篇文章一定是做機器翻譯必看的一篇文章。是佳濤在Saleforce Research做的工作。這個工作成功實現了non-autoregressive 的機器翻譯，並獲得了非常接近SoTA的成績。傳統的autoregressive翻譯需要在decoding的時候每次生成一個詞，並把生成的詞放到下一個timestamp的decoding輸入中，再生成下一個輸出。而這篇文章成功地將inference簡化為一次，也就是說，將在inference過程中將省下80％～90%的計算量，粗略估計可以為機器翻譯服務省下近80%的成本。之前很多優秀的研究者包括Kyunghyun Cho也探索過這個領域，不過無疾而終，因為這個確實是一個很難的問題。而這個工作讓我們看到了曙光。很期待接下來有別的工作可以在這個基礎上展開。

以下可以看到即使非常複雜的結構也比普通transformer上要快一倍。

介紹一個隔壁組Ilya LoshchilovFrank Hutter教授的成果, 應該是重劍無鋒, 大巧不工的典範了.

[1711.05101] Fixing Weight Decay Regularization in Adam

Adam作為一個非常常用的深度學習優化方法, 可以說用途非常廣泛了(三年不到引用4000+...). Weight Decay也是大量數據優化時, 訓練後期非常常用的一個trick. 出發點是目前分類分割最好的一些結果, 都發現自適應梯度方法(比如Adam)的擴展性不如SGD+Momentum. 這篇paper發現了一個簡單, 但是很少有人注意的事實, 那就是現行的所有深度學習框架(TensorFlow, Keras, PyTorch,Torch, and Lasagne), 在同時處理自適應梯度類方法(比如Adam)和weight decay的時候, 一定程度上抵消了weight decay的作用. Weight decay本身的目的是限制一下值比較大的weight, 使值比較大的weight下降的更多, 從而避免模型過擬合於某幾個大的weight.

而目前L2的實現方法, 使梯度值較大的weight, 下降的比預想的要少. 換句話說, 兩個weight一樣大, weight decay對他們應該起到的作用是一樣的. 但是其中梯度比較大的那個因為Adam的歸一化, 反而下降的比較小. 從而指出L2和weight decay並非完全等價.

解決的辦法也非常簡單:

現行框架都是在優化器之前加上L2項, 這樣L2的作用就受到了優化器和learning rate(alpha)的影響. Adam的自適應歸一化, 將梯度大的weight也進行了歸一化, 抵消了L2帶來的weight decay的作用. 這篇paper按照weight decay原始的概念, 把它加到了優化器作用之後, 使其與learning rate完全脫鉤, 真正發揮weight decay的作用. (公式中SetScheduleMultiplier來自Frank2017年的ICLR SGDR: Stochastic Gradient Descent with Warm Restarts)

下面這張圖給出了完美的實驗結果展示:

橫縱坐標分別是不同的weight decay和learning rate的組合, 左邊可以看到, 原始的實現方法, 最優化區域很小, 而且learning rate和weight decay有極大的相關性, 也就是說固定一個去調整另一個, 馬上就會結果變差. 而右邊作者提出的實現方法, 最優化區域明顯增大, 固定一個去調整另一個, 才會真正的實現結果優化, 找到最優的參數組合.

這篇paper得到了Adam原作者Durk Kingma和Kaggle首席科學家Jeremy Howard的高度評價

目前正在給pytorch和tensorflow提pull request (onlytailei/pytorch), 希望早日造福所有深度學習研究者.

關注生活的研究。。。

AirNet: a machine learning dataset for air quality forecasting

Abstract: In the past decade, many urban areas in China have suffered from serious air pollution problems, making air quality forecast techniques a hot spot. Conventional approaches rely on the numerical method to estimate the pollutant concentration and require lots of computing power. To solve this problem, we applied deep learning methods which have already achieved major breakthroughs in many other areas. Deep learning requires large-scale datasets to train an effective model. In this paper, we introduced a new dataset, entitled as 『AirNet』, containing the 0.25 longitudinal and latitudinal degree grid map of mainland China, with more than two years of continued air quality measurement and meteorological data. We published this dataset as an open resource for machine learning researches and set up a baseline to a 5-day air pollution forecast. Through our experiments, it was demonstrated that this dataset could facilitate the development of new algorithms on forecasting the air quality.

有空就會持續更新我讀過的這次iclr有意思的文章

mixup: Beyond Empirical Risk Minimization

mixup: Beyond Empirical Risk Minimization

非常非常有意思的一個工作，做的事情很簡單，直接對training data裡面的(x_i,y_i)和(x_j,y_j)做linear interpolate作為新的樣本，就可以在imagenet, cifar上取得sota的效果。之前有一些工作在feature層面做interpolate/extrapolate，或者在label上做label smoothing，但是這篇文章是直接對圖片raw pixel和label直接做average，作為一種不同的基於樣本的對true data distribution的近似。作者也在speech recognition和gan上做了試驗。

作者主要想說的motivation是這種直接在數據樣本上做linear interpolate可以看作一種對dnn的regularization，讓decision boundary更加的平滑。

nvidia那篇用GAN生成超高解析度圖片的？有點Resnet的感覺，分階段慢慢合成

傳送門：Progressive Growing of GANs for Improved Quality, Stability, and Variation

有空看完paper之後回來補細節

這篇diss前一段時間大火的用Information Bottleneck來解釋 deep learning generalization的理論的。。。讓我們暗中觀察

https://openreview.net/pdf?id=ry_WPG-A-