NIPS 2018丨解讀微軟亞洲研究院10篇入選論文
86 人贊了文章
這幾天,比國慶火車票還一票難求的NIPS 2018出最終結果了!
作為機器學習領域的頂級會議,今年NIPS 之火爆達到了驚人的程度,投稿數量上升至史無前例的 4856 篇,比去年增加了約 50%,接受率保持著與去年持平的20.8%,共接受論文 1011 篇,其中168 篇Spotlight(3.5%),30 篇Oral(0.6%)。
今年,微軟亞洲研究院共有10篇論文入選,研究主題涵蓋詞向量、機器翻譯、神經網路優化、社群探索等等。我們在第一時間為大家梳理了這10篇論文的概要。關於論文的詳細內容,我們也會在之後陸續推出。
Community Exploration: From Offline Optimization to Online Learning
Xiaowei Chen, Weiran Huang, John Lui, and Wei Chen
假象一個社會場景:作為剛入校的大學生,你想在新學校里通過參加學生活動,在最短的時間內認識儘可能多的朋友。但你參加活動的時間和精力有限,規模不同的社群活動使你結交朋友的幾率不同,但你還不了解社群的規模,需要參加活動得到這些信息。怎麼樣才能最有效地安排參與活動的策略呢?
這個問題可以在在線廣告分配、社會調查等很多問題中找到實際的應用場景。在我們的論文中,我們把這一問題抽象定義為社群探索(community exploration)問題:有m個社群,每次你訪問一個社群,並在這次訪問中以等概率隨機遇到一個社群成員;如果你總共有K次訪問機會,你該如何將這K次訪問分配給m個社群,使得你在這K次訪問中遇到的不同人的總人數最多?根據你是否預知每個社群的人數,該問題分為已知社群人數的離線優化問題和未知社群人數的在線學習問題。根據你是事先決定 次訪問的分配方案,還是每訪問一次後根據反饋調整策略,問題又進一步分為非自適應性和自適應性的問題。我們對這些問題進行了系統性的研究,在離線優化方面,我們證明了貪心演算法在非自適應性和自適應性情形下都能給出最優解。在在線學習方面,我們給出了基於置信上界(UCB)的在線學習演算法,並給出了演算法遺憾度(regret)的分析。
Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base
Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin
對話中的多輪問答(conversational question answering)和語義分析(semantic parsing)是自然語言處理領域的兩個核心問題,對語音助手、聊天機器人和搜索引擎都至關重要。在本文中,我們提出了基於知識圖譜的對話式語義分析模型,該模型可以有效地處理多輪問答中的上下文指代和省略現象,合理利用對話歷史理解當前問題的語義,並推斷出其對應的邏輯表達(logical form)。具體來說,輸入用戶當前的問題及對話歷史,該模型會以包含多種邏輯操作(如查找、比較、計數、複製歷史邏輯表達等)的語法為基礎,使用自頂向下的方式預測出當前問題的邏輯表達。我們在包含20萬輪對話的CSQA數據集上進行實驗,使用「問題-答案」對作為有指導信息訓練模型,結果表明該模型的精度顯著優於對比基線演算法,並且可以有效地利用歷史問題的語義解析結果推斷當前問題的邏輯表達。
Frequency-Agnostic Word Representation
Chengyue Gong, Di He, Xu Tan, Tao Qin, Liwei Wang, Tie-Yan Liu
詞向量(word embedding)是自然語言處理任務中不可或缺的組成部分。通常人們認為詞向量包含豐富的語義信息,語義相似的詞具有相似的詞向量。然而我們在多種任務中發現事實並非如此。我們發現低頻詞的詞向量編碼了更多的詞頻信息而非語義信息:在詞向量空間中,絕大部分低頻詞的周圍聚集了與其含義截然不同的低頻詞,而那些真正與其語義相似的高頻詞與這些低頻詞的距離反而相差甚遠。於是,這種編碼了詞頻信息的詞向量對於語義分析任務並不完美。
為了消除詞表徵中的詞頻信息,我們設計了一個基於對抗神經網路的訓練演算法。實驗表明,基於該演算法,新的模型在語義相似度、語言模型、機器翻譯、文本分類的十項任務中都取得了更好結果,特別是在語言模型以及機器翻譯的四項任務中達到世界最佳。
Frequency-Domain Dynamic Pruning for Convolutional Neural Networks
Zhenhua Liu, Jizheng Xu, Xiulian Peng, Ruiqin Xiong
與傳統方法相比,卷積神經網路大幅提高了計算機視覺應用的性能,但需要極大的計算資源和存儲要求。裁剪網路係數是減少存儲、簡化計算的一種有效方法。考慮到卷積神經網路中,卷積濾波器會有很大的空間冗餘,我們提出在頻率域進行網路係數的動態裁剪的方法,針對每次訓練迭代和不同的頻帶,用動態的閾值來指導裁剪。實驗結果表明,頻域動態裁剪顯著優於傳統的空域裁剪方法。特別是對於ResNet-110,在不犧牲網路性能甚至有所提高的情況下,我們的方法可以達到8倍的係數壓縮和8.9倍的計算加速。
Layer-Wise Coordination between Encoder and Decoder for Neural Machine Translation
Tianyu He, Xu Tan, Yingce Xia, Di He, Tao Qin, Zhibo Chen, Tie-Yan Liu
神經機器翻譯近年來取得的重要進展,依賴於模型結構的逐漸發展演化。在本文中,我們為神經機器翻譯提出了逐層協調的概念,用來顯式地協調編碼器和解碼器隱層向量的學習,這種協調是逐層從低級別的向量表示到高級別的向量表示學習。同時,我們通過共享編碼器和解碼器每層的模型參數,來約束並且協調訓練過程。實驗表明,結合目前最好的Transformer模型,我們的逐層協調機制在3個IWSLT和2個WMT翻譯數據集上取得了較大的精度提升,在WMT16 英語-羅馬尼亞、WMT14 英語-德語翻譯任務上超過了目前最好的Transformer基準模型。
Learning to Teach with Dynamic Loss Functions
Lijun Wu, Fei Tian, Yingce Xia, Yang Fan, Tao Qin, Jianhuang Lai, Tie-Yan Liu
在教學場景中,一個好的教師會全面考慮學生的學習狀況,為學生設置良好的學習目標。對於人工智慧而言,如果我們將機器學習模型看做學生,模型的損失函數(Loss Function)就扮演了上述的學習目標的角色。在經典的學習情境中,損失函數通常是預先給定、保持不變的。在這篇論文中,我們模仿人類老師的行為,用一個機器學習模型(即教師)自動、動態地為另一個機器學習模型(即學生)訓練的不同階段指定不同的損失函數,以提升機器學習(學生)的性能。我們設計了一種高效的基於梯度的優化演算法來優化教師模型,避免了傳統的基於強化學習演算法的採樣效率不高的缺陷。在圖像分類和機器翻譯任務上的大量實驗驗證了我們的演算法的有效性。
Neural Architecture Optimization
Renqian Luo, Fei Tian, Tao Qin, Enhong Chen, Tie-Yan Liu
自動的神經網路結構搜索(Neural Architecture Search,NAS)已經展示了其強大的發現優良神經網路結構的能力。現有的NAS演算法主要有兩種:一種基於強化學習(Reinforcement Learning),另外一種基於演化計算(evolutionary computing)。兩種都在離散的結構空間中進行搜索,因而不夠高效。
因此我們提出了一種簡單有效的、基於連續空間的優化演算法來進行自動結構設計的方法,我們稱之為神經網路結構優化(Neural Architecture Optimization, NAO)。NAO的設計核心由三部分組成:
1)一個編碼器,將離散的神經網路的結構編碼成連續的嵌入向量(embedding vector);
2)一個性能預測器,基於上述的嵌入向量進行神經網路性能的預測;
3)一個解碼器,將嵌入向量解碼回離散的網路結構。
通過編碼器,我們可以在連續的向量空間中進行基於梯度的優化,從而得到一個新的、可能有更好的預測性能的嵌入向量。然後通過解碼器,該嵌入向量被解碼回一個具體的神經網路結構。實驗結果證明NAO非常有效:在CIFAR-10上,NAO得到的網路可以達到2.07%的分類錯誤率,在PTB上也可以得到56.0的困惑度(perplexity)。同時搜索出的結構可以泛化到新的數據集(例如CIFAR-100和WikiText-2), 同樣有非常好的性能。我們更進一步,嘗試將權重共享(Weight Sharing)的機制融合進NAO,得到了非常好的搜索效率。
On the local Hessian of back propagation
Huishuai Zhang, Wei Chen, and Tie-Yan Liu
這篇論文中,我們研究訓練深度神經網路的反向傳播(Back Propagation,BP)演算法有效性的問題。BP是成功訓練深度神經網路的基礎,但BP有效性的決定因素並不明確,有時會出現梯度消失現象,難以有效地傳播學習信號,而當BP在與一些「設計技巧」如正交初始化、批標準化和跳連接相結合時經常運行良好。因此本文嘗試回答這個問題。
我們引入了「反向匹配傳播」的概念,研究了反向匹配損失的Hessian矩陣(稱之為局部Hessian)並將其與BP的效率聯繫起來。事實證明,那些「設計技巧」是通過使局部Hessian的頻譜更均勻來促進BP的效率。此外,我們提出可以利用局部Hessian的信息來平衡每個區塊/層的訓練速度,並設計新的訓練演算法。通過對局部Hessian的標量近似,我們提出了一種尺度修正的SGD演算法。我們將其用於訓練帶有批歸一化的神經網路,取得了比原始SGD更好的結果,從另一方面證實了局部Hessian矩陣的重要性。
Recurrent Transformer Networks for Semantic Correspondence
Seungryong Kim, Stephen Lin, Sangryul Jeon, Dongbo Min, Kwanghoon Sohn
這篇文章提出了一個循環轉換網路(Recurrent Transformer Networks, RTNs)來獲取語義相似的圖像之間的對應關係。RTN通過估計輸入圖像之間的空間變換關係,並借之生成對齊的卷積層激活值。通過直接估計圖相對之間的變換,而非對每一張圖像單獨用空間轉換網路(STNs)進行標準化,我們證明了該方法可以達到更高的精度。整個過程是以遞歸的方式去提升轉換關係的估計和特徵表示。此外,我們還提出了一種基於該分類損失函數的RTN弱監督訓練技術。利用RTN,我們在語義相關的幾個標準上達到了目前最先進的性能。
Weakly Supervised Dense Event Captioning in Videos
Xuguang Duan, Wenbing Huang, Chuang Gan, Jingdong Wang,Wenwu Zhu, Junzhou Huang
視頻稠密事件描述任務是指檢測並描述視頻中的所有事件。要解決這一問題,通常需要給出所有描述、標出與之對應的時間,建立這樣的訓練數據集成本很高。因此,本文提出了具有挑戰性的新問題:弱監督視頻稠密事件描述,其優勢在於,訓練數據集只要求給出所有描述,不要求標註描述與時間的對應關係。本文給出了基於不動點的訓練方法,自動挖掘出訓練數據集中的描述與時間對應關係,學習出高效的自動檢測並描述視頻事件的模型,取得了非常好的效果。
本賬號為微軟亞洲研究院的官方知乎賬號。本賬號立足於計算機領域,特別是人工智慧相關的前沿研究,旨在為人工智慧的相關研究提供範例,從專業的角度促進公眾對人工智慧的理解,並為研究人員提供討論和參與的開放平台,從而共建計算機領域的未來。
微軟亞洲研究院的每一位專家都是我們的智囊團,你在這個賬號可以閱讀到來自計算機科學領域各個不同方向的專家們的見解。請大家不要吝惜手裡的「邀請」,讓我們在分享中共同進步。
也歡迎大家關注我們的微博和微信 (ID:MSRAsia) 賬號,了解更多我們的研究。
推薦閱讀:
※轉角背後有什麼?揭秘隱藏空間的成像技術
※CS231n筆記|2 圖像分類流程
※YOLO 的發展
※[Paper] Deep Image Prior
※大話人臉識別(七):我的心思真的不難猜