ICML 2017上哪些論文值得關注?
ICML 2017 Accepted Papers
前幾天剛從澳大利亞回來,悉尼離波士頓20多個小時的飛機,也是挑戰我坐飛機的極限了。老實說,ICML『17之行比我在夏威夷參加的CVPR"17收穫更大,這其中一個原因可能是我已經很熟悉CVPR上面發表的工作的套路了,ICML相關的paper還涉及比較少。我在實驗室里分享了一個總結 ,順便也在知乎分享一些我開會的片段吧。這裡分享的主要跟我關注相關的論文,不喜勿拍。
參加ICML對我來說是個很好的學習交流機會,正好ICML一個workshop我有個invited talk,所以在夏威夷開完CVPR直接飛悉尼了。總的來說,ICML的開會行程非常緊湊,白天是oral session和keynote,晚上是poster session。因為每篇論文都有oral presentation,同時有8個parallel session,所以只能挑自己最感興趣的去參加。這次ICML大概有400篇論文,2500註冊人數,比起CVPR『17的5000人大會,還是稍微好了點。
前面第一天和最後兩天是tutorial和workshop。往往一個頂會的tutorial和workshop能反映目前研究的熱點。我參加了下面幾個,
Tutorial on Interpretable Machine Learning
- Webpage: (http://people.csail.mit.edu/beenkim/icml_tutorial.html).
- Given by Been Kim (slide: http://people.csail.mit.edu/beenkim/papers/BeenK_FinaleDV_ICML2017_tutorial.pdf )
挺high-level的介紹了什麼是機器學習演算法的可解釋性,以及相關的問題和研究工作。我之前CVPR『17的那個network dissection也被提了一下。
Tutorial on Seq2seq learning
- https://sites.google.com/view/seq2seq-icml17, Given by Oriol Vinyals
- Slides: https://docs.google.com/presentation/d/1quIMxEEPEf5EkRHc2USQaoJRC4QNX6_KomdZTBMBWjk/edit#slide=id.g2349e758b6_0_293
Oriol風頭十足,他在sequence learning上面也做了一系列工作。從RNN,到attention-based sequence model,以及到怎麼用pixelCNN去估計natural image statistics。這個slide是個很好的總結。不過最近RNN好像並不是這麼火了,FAIR那邊更推崇直接用CNN取代RNN,ICML的那篇Convoluaiton sequence to sequence learning (https://arxiv.org/pdf/1705.03122.pdf) 可能是一個新起點,畢竟RNN的訓練和測試速度都有瓶頸。
Tutorial on Deep Reinforcement Learning, decision making, and control
- Given by Sergey Levine and Chelsea Finn.
- https://sites.google.com/view/icml17deeprl
- Slide: https://drive.google.com/file/d/0B_j5EZzjlxchV2l3TGJPdTljM1k/view
DRL不用說了,絕對熱點。Chelsea Finn也是炙手可熱的AI紅人。。。
Workshop on Visualization for Deep Learning.
- http://icmlviz.github.io/schedule/
我在這個workshop上面有個invited talk,講了Interpreting deep visual representation的相關工作,slide在這裡:http://people.csail.mit.edu/bzhou/ppt/presentation_ICML_workshop.pdf.
Workshop on Video gaming and machine learning
- https://syhw.github.io/vgml_workshop_icml2017/
打遊戲也是目前AI的熱點問題啊。幾家大公司如DeepMind, OpenAI, FAIR都在猛搞。DeepMind在這個時間點上公布跟暴雪合作開放Starcraft API。OpenAI也在ICML的最後一天搞個大新聞。看Dota和Starcraft打完了大家又該打啥。。
正會
開場的keynote是Bernard Scholopf做的,關於Causality inference的,topic很有意思,但是talk講得並不是很有意思。提到了一本新書Elements of Causaul inference: PDF draft: http://www.math.ku.dk/~peters/jonas_files/bookDRAFT11-online-2017-06-28.pdf
- The loss surface of deep and wide neural networks: http://proceedings.mlr.press/v70/nguyen17a/nguyen17a.pdf
it argues that all local minima are global optimal given that the number of hidden units of one layer of the network is larger than the number of training points.
- On expressive power of deep neural networks: http://proceedings.mlr.press/v70/raghu17a/raghu17a.pdf
On the problem of neural network expressivity, which seeks to characterize how structural properties of a neural network affect the functions it is able to compute
兩篇deep learning theory相關的論文。
- Video Pixel CNN (https://arxiv.org/pdf/1610.00527.pdf ):
把pixelCNN的擴展到video上面,直接暴力地學習natural video statistics。我一直覺得PixelCNN可以跟GAN匹敵,但是好像Deepmind的東西並不是很積極的open-source, reddit上面大家都吐槽無法復現PixelCNN的結果。
- Model-agnostic meta-learning for fast adaption of deep networks (https://arxiv.org/pdf/1703.03400.pdf)
關於few-shot learning的論文。這一兩年meta-learning蠻火(呃,meta-learning的大致意思是meta-learner learns how to update the parameters of the learner』s model)。是個非常簡單的思路,實驗在supervised learning和reinforcement learning都有測試,屬於想法簡單,實驗非常solid的套路。
- Understanding the black-box predictions via influence functions (https://arxiv.org/pdf/1703.04730.pdf)
今年的ICML的best paper。恭喜Percy Liang,今年ICML和COLT都是best paper。這篇論文我也是非常推崇。首先是分析的問題很重要,如何去理解黑箱分類器。再者是分析的手法挺另闢蹊徑,從training data本身去尋找跟testing data預測的相關性,挺elegant地用了統計裡面叫做influence function的東西作為量度。
- Curiosity-driven exploration by self-supervised prediction (https://arxiv.org/pdf/1705.05363.pdf) :
Berkeley那邊做CV的組出的關於DRL的論文,在VizDoom和超級馬里奧上面都有測試(https://pathak22.github.io/noreward-rl/) 大致是在rl模型裡面更強調exploration without extrinsic reward.
- Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics (https://arxiv.org/pdf/1706.04317.pdf ):
Vicarious AI公司的工作。Vicarious一直很神秘,一直號稱做強AI。這個工作跟Q-learning不一樣的地方是直接對環境進行explictly建模,這樣環境裡面每個東西就變成了個entity,訓練過程中得到的weight其實就是各個entity之間的關係,形成了各種human interpretable schema。而且這些schema更像是遊戲之中的物理定律,很容易解釋和擴展到新的任務之中去。挺有insight的工作。
- Test of time award paper: Combining online and offline knowledge in UST (http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf)
十年沉澱下來的paper。想不到David Silver在Go上面已經有十多年的積累。David和Sylvain沒能到場,但是錄製了一段視頻,從這篇test of time award paper說起,在一小時的時間裡給大家分享了AlphaGo的前世今生。從改進UCT,到value network,從9x9格子圍棋上嘗試模仿業餘選手,到19x19格子圍棋戰勝人類世界冠軍,一個人在同一個問題上花費十年寒暑,真是讓人動容。真希望這個視頻能放出來。
- Cognitive psychology for deep neural networks: a shape bias case study (https://arxiv.org/pdf/1706.08606.pdf)
DeepMind的一篇從設計心理學實驗來分析深度學習網路的論文,讓人耳目一新。關於這篇論文的科普帖子:https://deepmind.com/blog/cognitive-psychology/
還有一些基於神經網路的炫酷的應用:比如說跳舞機,流體力學模擬,網頁瀏覽AI agent,量子化學。。。
- Dance Dance Convolution (https://arxiv.org/pdf/1703.06891.pdf)
- Accelerating Eulerian Fluid Simulation With Convolutional Networks (http://proceedings.mlr.press/v70/tompson17a/tompson17a.pdf) :
project page: http://cims.nyu.edu/~schlacht/CNNFluids.htm
- World of Bits: An Open-Domain Platform for Web-Based Agents (http://proceedings.mlr.press/v70/shi17a/shi17a.pdf)
- Neural Message Passing for Quantum Chemistry (https://arxiv.org/pdf/1704.01212.pdf)
-----------分割線-----------
(圖文無關:悉尼冬日暖陽下公然打劫小夥伴午餐的海鷗)
我在實驗室內部還分享了個ICML"17 note,感興趣的話請移步(國內Google Doc需要翻牆):https://docs.google.com/document/d/1MJRNTGccyU3Jv_slB5PE85PcKsyk5CgCASqfiQZLO5s/edit?usp=sharing
厚著臉皮上來自賣自誇一下,今年optimal transport方向有五、六篇文章 (目測我的那篇不是最水的,lol)
- Co-clustering through Optimal Transport https://arxiv.org/pdf/1705.06189.pdf
- Sliced Wasserstein Kernel for Persistence Diagrams
- Multilevel Clustering via Wasserstein Means
- A Simulated Annealing Based Inexact Oracle for Wasserstein Loss Minimization https://arxiv.org/pdf/1608.03859.pdf (我的文章。。。還在準備camera ready,希望有朝一日能看到和神經網路的訓練結合起來,基本想法就是用MCMC來sample Gradient
- Wasserstein Generative Adversarial Networks (之前搞得很火的WGAN。。。文章還沒發表就收穫幾十個citation。。。。
- Soft-DTW: a Differentiable Loss Function for Time-Series https://arxiv.org/pdf/1703.01541.pdf (用到了OT的思想來做alignment,我們組之前一篇ECCV做HMM也是用到類似思想
總體感覺感覺今年ICML 2017上感興趣的文章比較少 (我辣雞),這裡指的是結合圖模型和DL(比如GAN,CONV, deep generative model, etc)的工作不如去年NIPS多。大概是加上graphical model要好的intuition又要效果好太難搞了,看去年NIPS那篇structured VI([1603.06277] Composing graphical models with neural networks for structured representations and fast inference) 的實現也是夠複雜的(此處應再次強調我辣雞)。
- Unifying Variational Autoencoders and Generative Adversarial Networks 搞了個VAE+ GAN,推薦讀啊。不過其中為了用GAN做的假設實驗中搞了一下發現做不到。
- 有一些感覺很喜歡但是看不懂需要大神帶路的papers: Curiosity-driven Exploration by Self-supervised Prediction; Learning the Structure of Generative Models without Labeled Data;
- Gumbel trick剛提出來不久, 已經在ICML上出現了很多應用文章, 在頁面搜索Gumbel或者Concrete可以看到。
- 似乎歷來approximate inference的文章不如NIPS多
小的細節:
- Mingsheng Long大神發transfer learning/domain transfer的文章為啥老是有Jordan巨神坐鎮... (辣雞我表示極其羨慕)
- The Predictron: End-To-End Learning and Planning 和 Understanding Synthetic Gradients and Decoupled Neural Interfaces 是好文章!但是作者需要辣么多嗎?
- 圖草一下優化文章怎麼這麼多,尤其是以MIT的幾個大神啊,搞的文章里除了Bayes的外辣雞我根本不知所云,excited! 不過整個ICML似乎搞Bayesian opt的文章不多?
Follow up paper:
[1706.08224] Do GANs actually learn the distribution? An empirical study貌似掛上arxiv一天已經在twitter和reddit上激起了不少討論
------------------------------------原答案-------------------------
不要臉的自賣一下:
[1703.00573] Generalization and Equilibrium in Generative Adversarial Nets (GANs)老闆在Simons給的talk:
這應該是第一個認真研究 theoretical guarantees of GANs的工作
使用的techniques比較簡單,但得到了一些insightful的結論:
1. generalization of GANs
在只給定training samples 而不知道true data training distribution的情況下,generator"s distribution會不會converge to the true data training distribution.
答案是否定的。 假設discriminator有p個parameters, 那麼generator 使用O(p log p) samples 就能夠fool discriminator, 即使有infinitely many training data。
這點十分反直覺,因為對於一般的learning machines, getting more data always helps.
2. Existence of equilibrium
幾乎所有的GAN papers都會提到GANs" training procedure is a two-player game, and it"s computing a Nash Equilibrium. 但是沒有人提到此equilibrium是否存在。
大家都知道對於pure strategy, equilibrium doesn"t always exist。很不幸的是,GANs 的結構使用的正是pure strategy。
很自然的我們想到把GANs擴展到mixed strategy, 讓equilibrium永遠存在。
In practice, 我們只能使用finitely supported mixed strategy, 即同時訓練多個generator和多個discriminator。藉此方法,我們在CIFAR-10上獲得了比DCGAN高許多的inception score.
3. Diversity of GANs
通過分析GANs" generalization, 我們發現GANs training objective doesn"t encourage diversity. 所以經常會發現mode collapse的情況。但至今沒有paper嚴格定義diversity或者分析各種模型mode collapse的嚴重情況。
關於這點在這片論文里討論的不多。我們有一篇follow up paper用實驗的方法估計各種GAN model的diversity, 會在這一兩天掛到arxiv上。
周一:
雖然早到一天,但俺晚上在旅館看電視劇,結果睡到早上11點,錯過了一些報告。呵呵,錯過了就錯過了,反正總是要錯過。不過還是聽/看到幾個不錯的報告/poster。
best paper award: understanding black-box prediction by influencing function.
https://arxiv.org/pdf/1703.04730.pdf
雖然idea 很簡單,推導貌似也不複雜,但提出了一個通用的框架來解釋預測效果。創新點是切換了問題的角度,問每個樣例對預測標籤有多大意義。提了好幾個應用場景,還是很有insight
generalization and equilibrium in GAN
http://www.offconvex.org/2017/03/30/GANs2/
這篇文章前面作者有介紹,不多說,找作者聊吧。其實俺蠻喜歡這篇文章的,準備好好讀一下。
McGAN: Mean and Covariance Feature Matching GAN
Mean and Covariance Feature Matching GAN
是GAN/WGAN的泛化吧 。。。
Depth-width tradeoffs in Approximating natural functions with neural networks
http://proceedings.mlr.press/v70/safran17a/safran17a.pdf
證明了些expressivity 的結論, 大致就是說: 寬不夠,深來湊。淺的網路必須 exponentially wide 才能跟深度網路叫板。
AdaNet: Adaptive Structural Learning of Artificial Neural Networks
Adaptive Structural Learning of Artificial Neural Networks
模型倒是一般,不過裡面有個定理倒是有點意思。
Convexified Convolutional Networks
[1609.01000] Convexified Convolutional Neural Networks
這篇也不錯。 Martin Wainwright 一出手,必定是要把它弄 convex 了。那少年報告做得也好,英文流暢,看起來很有前途的樣子。
有印象的就這些了。
周二:
為保證睡眠,早上開場的 test of time award 俺沒去。下午的 invited talk 講什麼醫療大數據,也不是俺的菜,俺也沒去。今天聽到的talk 水平明顯下滑,也許是俺挑的不好。差的報告就不吐槽了。提幾個稍微有點興趣的。
Parseval Networks: improving robustness to adversarial examples.
http://proceedings.mlr.press/v70/cisse17a/cisse17a.pdf
Facebook 做的。之所以有點興趣是因為 training with adversarial examples 是個有趣的概念,在本質上應該跟模型的 generalization 能力密切相關。其中另一個亮點是他的構造跟俺一直關注的 hopfield network 有一定聯繫,可能值得茶前飯後體會一下。他們昨天也有一篇不錯的工作,可能忘了提了:unsupervised learning by predicting noise. 名字有點misleading。我問作者標題貌似不相關,他笑笑說,是想換標題的,但too late 了。那篇文章的主要是之前 discriminative clustering 的概念bring 進來,讓俺想起來unsupervised learning 不只是那些常見的 generative/energy model。
A closer look at memorization in deep networks
http://proceedings.mlr.press/v70/arpit17a/arpit17a.pdf
斑鳩組做的。基本上是ICLR那篇 rethinking generalization 的下集,a.k.a. 狗尾續貂。百分之百的實驗,沒有任何理論結論。這樣的文章能進ICML告訴同學們這樣一個做科研的思路:找個大家關注的問題(比如generalization),打開腦洞,猛做實驗,彙報一些沒人觀察到的現象,再提一些發人深省的問題,就差不多OK 了。當然,吐槽歸吐槽,畢竟深度學習目前仍然只是實驗科學,實驗性的研究(i.e. 俺建議的思路)也是允許的。因此,這篇文章中觀察到的實驗現象還是有點價值,值得想想。
On calibration of modern neural networks
http://proceedings.mlr.press/v70/guo17a/guo17a.pdf
也是在deep learning session, 也是百分之百的實驗。不過它報告了一個俺從來沒有注意過的有趣現象:基於深度網路的分類器輸出的class label probability 都over-confident;而這種現象在淺層網路中並不存在。這後面沒準有東西可以挖一挖。
另外聽了幾個應用類的報告,值得一提的是這篇:
Compressed sensing using generative models
http://proceedings.mlr.press/v70/bora17a/bora17a.pdf
很簡單的思想,把GAN 用於compressive sensing. 效果很好,還有一個performance guarantee 的證明。這個寓言告訴我們:他山之石,可以攻玉,現在是deep learning 入侵各個領域的大好時機。少年,抓緊!
周三:
應用的報告多一些,俺聽了幾個就決定,還是去看海吧。
不要臉的來宣傳一下我們在ICML上的工作:
[1702.08396] Learning Hierarchical Features from Generative Models說來非常搞笑,這個文章是我們在14個小時內寫完的……
文章裡面的實驗我們其實在去年都做完了,想投arXiv但總覺得沒有很好的理論就一直拖著;結果距離deadline還有16個小時的時候,這個文章還基本處於一筆沒動的狀態;然後我們和老闆說:要麼我們這波不做了吧,放棄治療,睡過deadline吧。
老闆說:沒事我們還可以拯救一下。
結果我們一個人寫了一半,硬是在deadline前把文章寫完了。(還睡了一會)不過文章的寫作質量可想而知,交到arXiv後才發現各種小毛病;review卻異常的好,大家並沒有關注寫作水平,有個人還給了特別高的分,所以這篇就中了
文章的思路非常簡單。(假設你知道Variational Autoencoder, VAE)
在VAE中有一些隱變數可以用來表示數據,我們可以把這些隱變數當做特徵。如果我們的目標是學到層級(Hierarchical)特徵,一種方法是將VAE堆疊起來,變成Hierarchical VAE;但實際操作中,這樣堆疊學到的特徵並不是特別有效,我們在論文里也論證了這樣的堆疊大多數情況下是無效的。為了學到層級特徵,我們並沒有採取Hierarchical VAE的方法,而是在一層VAE的訓練框架下,採用了梯型結構(就像Ladder Networks)。我們的直覺是:複雜的特徵要用複雜的網路結構,簡單的特徵要用簡單的網路結構。這樣我們把不同層的網路拼到一起,就可以很容易的學到分層的,和InfoGAN很像的特徵。例如在下面的SVHN實驗中,底層學到了簡單的顏色特徵,而上面依次學到了形狀,數字類別等更複雜的特徵。
代碼在github上,雖然實現起來應該也不難:ermongroup/Variational-Ladder-Autoencoder
相關的英文blog:Learning Hierarchical Features from Generative Models
關於這個方向的坑應該很好填,如果大家感興趣的話歡迎討論交流,我們應該會在6月12號前再更新一版。
===
順便宣傳一下同學和Andrej Karparthy的工作(World of Bits),是一個訓練人工智慧在網頁操作的環境,已經集成到OpenAI Universe中:Mini World of Bits benchmark
目前貌似還沒有arXiv版本,但是已經確定中了ICML,估計不久就會出現正文了。
===
順便不要臉的宣傳一下我們的主頁:
我:http://tsong.me/
Shengjia Zhao:Shengjia Zhao
今年的最佳論文還是不錯的:
ICML 2017論文精選#1 用影響函數(Influence Functions)理解機器學習中的黑盒預測(Best paper award 最佳論文獎@斯坦福)
Self-Paced Cotraining
@Flowerfan
這兩年ICML NIPS里優化方向的兩個爛坑,一個是Nesterov 加速,一個是Variance Reduction。今年尤為明顯。不得不說這兩個會的reviewer里真是摻進了大量優化小白,真是什麼破文章都敢給中。
[1705.03122] Convolutional Sequence to Sequence Learning from Facebook AI Research.
Pure CNN 模型,在機器翻譯任務上取得了State-of-the-art
1. 相對RNN更快(雖然我們的實驗里沒有他聲稱的那麼快)
2. 由於它快,網路就可以很深,加上positional embedding, 可以捕捉時序信息,這就可以取代RNN(我的淺薄理解)。
3. 每一層都用attention (RNN深層encoder-decoder框架也可以用),並且它的attention有點兒意思。。
4. 它開源。。。facebookresearch/fairseq
剛才那個人提到的
Self-Paced Cotraining
是一個大坑!
一定不要入坑!self paced learning的很多文章都是編故事,靠trick堆出來的效果,一定不要入坑,樓上請不要害人了。
我是同行,怕得罪人,匿了。
ICML-2017-Papers下載,文件名有分類。
周志華組的《Multi-Class Optimal Margin Distribution Machine》
Re: Self-Paced Cotraining
第一次回答知乎上的技術問題。恰巧我對這個方向相對了解,盡我最大努力,從客觀的角度講一下我的看法:
首先一個理論和方法都有適用範圍,好比在文本分類上CNN的feature learning效果並沒有像圖像和語音上面的明顯。在我的論文7.5.2節(103頁)裡面列舉里當前self-paced and cirrulumn learning系列方法的三個局限。建議大家在嘗試此類方法前,可以閱讀一下,看看是否適用,然後再進行探索研究。比如當數據存在弱標註時候,此類方法會提供一個穩健的誤差,效果可能會好。
當前方法確實有很多不足的地方,比如如何調節hyper-parameters,和如何決定什麼時候收斂。這些都是在具體的問題中按照經驗找到的解決方案,還不存在一個通用的解決方案來解決所有的機器學習問題。這也是現在科研的重點。這也是為什麼這類方法並不容易直接拿來用到一個問題中,通常都要去仔細的根據模型來調節參數。
當然我們不能保證所有這一系列工作都是高質量的論文。個人覺得,這個需要我們科研人自己加強的約束自己,做到問心無愧,嚴謹和客觀的論證和實驗,等待時間來檢驗。
最後,一個理論的提出到成熟,需要時間來進行探索。此類方法沒有被大量的應用可能與當前方法的自身的不足和主流機器學習大環境,也就是數據集還是做完全準確標註的數據集合有關。
歡迎匿名交流您在具體問題上的work或者不work的結果。希望可以此經驗,來為機器學習和人工智慧發展做力所能及的一點點貢獻。
推薦閱讀:
※怎樣評價「微軟亞洲研究院4人團隊完成視覺識別里程碑式突破」?
※做底層 AI 框架和做上層 AI 應用,哪個對自己的學術水平(或綜合能力)促進更大?
※OPTA 發布的球員在每場比賽中的熱點圖和傳球線路是怎樣製作出來的?
※CV/ML頂級會議上的灌水文都有哪些特徵?如何快速判斷頂會論文是在灌水?
※如何評價 Kaiming He 最新的 Mask R-CNN?