千萬不要錯過!ICLR-2018精品論文解析
ICLR 2018年的接收的論文已經release出來很久了,鏈接:https://chillee.github.io/OpenReviewExplorer/index.html
最近整理了其中一些論文的摘要和官方評價做了翻譯整理和分類,涉及分散式訓練、模型壓縮、模型訓練優化、生成式模型等,分享給大家,感興趣的可以看看,了解下學術界前沿的研究熱點。
分散式訓練
Deep Gradient Compression: Reducing the Communication Bandwidth for Distributed Training
摘要:大規模分散式訓練需要大量的通信帶寬用於梯度交換,這限制了多節點訓練的可擴展性,並且需要昂貴的高帶寬網路基礎設施。在移動設備上進行分散式訓練(聯合學習,federated learning)時,情況會變得更糟,這種情況會導致延遲更高、吞吐量更低以及間歇性連接不良等問題。本文發現分散式SGD中99.9 %的梯度交換是冗餘的,並提出了深度梯度壓縮( DGC )來大大降低通信帶寬。為了在壓縮過程中保持精度,DGC採用了四種方法:動量修正、局部梯度裁剪、動量因子掩蔽和預熱訓練。在cifar 10、ImageNet、Penn Treebank和Librispeech語料庫等多個數據集上,我們將深度梯度壓縮應用於圖像分類、語音識別和語言建模。在這些場景中,深度梯度壓縮實現了從270到600倍的梯度壓縮比而不損失精度,將ResNet-50的梯度大小從97MB減少到0.35 MB,將深度語音的梯度大小從480 MB減少到0.74 MB。深度梯度壓縮實現了在廉價的商用1Gbps乙太網上的大規模分散式訓練,並有助於移動設備上的分散式訓練。
ICLR官方評價:本文提出了一種面向大規模分散式聯合訓練的深度網路混合訓練系統。這一問題引起了廣泛的興趣,這些方法有可能產生重大影響,對這項工作的積極和有趣的討論證明了這一點。起初有人質疑這項研究的原創性,但似乎作者現在增加了額外的參考和比較。
評審人對論文本身的清晰度意見不一。有人指出,「總的來說很清楚」,但另一個人認為它過於密集、雜亂無章,需要更清楚的解釋。評審人員還擔心,這些方法有點啟發式,可以從更多細節中獲益。論壇上也有很多關於這些細節的問題,這些問題應該會在下一個版本中得到解決。這項工作的主要亮點是實驗結果,評審人稱之為「徹底」,並指出它們令人信服。模型壓縮
Model compression via distillation and quantization
摘要:深層神經網路( DNNs )在解決圖像分類、翻譯和強化學習等問題上不斷取得重大進展。受到相當關注的領域的一個方面是在諸如移動或嵌入式設備等資源受限環境中高效地運行深度學習模型。本文針對這一問題,提出了兩種新的壓縮方法,將較大的教師網路的權重量化和抽取聯合應用到較小的學生網路中。我們提出的第一種方法稱為量化抽取(quantized distillation),在訓練過程中利用抽取,將抽取損失(相對於教師網路表示)結合到學生網路的訓練中,該學生網路的權重被量化到有限的一組水平。第二種方法是可微量化,通過隨機梯度下降發優化量化點的位置,以更好地擬合教師網路模型的行為。通過卷積和遞歸結構的實驗驗證了這兩種方法的有效性。實驗結果表明,量化後的淺層學生網路可以達到與全精度教師網路模型相似的精度水平,同時實現了數量級的壓縮和深度網路推理呈線性加速。總之,我們的結果使資源受限環境的DNNs能夠利用在功能更強大的設備上開發的體系結構和準確性改進。
ICLR官方評價:該論文提出了一種新的量化方法。該方法相當簡單,並總結在演算法1中。更有趣的是,分析表明量化與加高斯雜訊(附錄B )之間的關係—激勵量化作為正則化。
該論文具有經驗和理論結果的合理混合,激勵了一種易於實現的演算法。所有三名審查人員都建議接受。Apprentice: Using Knowledge Distillation Techniques To Improve Low-Precision Network Accuracy
摘要:深度學習網路在圖像分類和目標檢測等計算機視覺工作應用方面已經取得了最優的精度。然而,性能系統通常涉及具有許多參數的大模型。一旦訓練完畢,這種性能最好的模型的一個具有挑戰性的方面是在資源受限的推理系統上進行部署-這些模型(通常是較深的網路或較寬網路或兩者都具備)是計算和內存密集型的。低精度數值計算和使用知識抽取的模型壓縮是降低這些需要部署的模型的計算要求和內存佔用的常用技術。本文對這兩種技術的結合進行了研究,結果表明利用知識抽取技術可以顯著提高低精度網路的性能。我們將我們的方法稱為學徒(Apprentice),並在ImageNet數據集上使用三進位精度和4位精度來顯示最先進的精度。我們研究了三種方案,在這三種方案中,人們可以將知識抽取技術應用於訓練和部署pipeline的各個階段。
ICLR官方評價:本文將低精度計算與不同的teacher-student知識抽取方法相結合。實驗結果良好,實驗分析良好。寫得很清楚。其主要貢獻在於不同形式的teacher-student知識抽取方法與低精度quantization方法相結合。
專業人士:
-良好的實際貢獻 -好的實驗 -很好的分析 -寫得好缺點: -創意有限Alternating Multi-bit Quantization for Recurrent Neural Networks
摘要:遞歸神經網路在許多應用中取得了良好的性能。但是,在資源有限的攜帶型設備上,模型通常太大而無法部署。對於伺服器上具有大規模並發請求的應用程序,reference期間的延遲對於昂貴的計算資源也可能非常關鍵。在本工作中,我們通過將網路的權重和activation量化為多個二進位碼{ -1,+1},來解決這些問題。我們把量化表述為一個優化問題。在量化係數固定的情況下,通過二進位搜索樹可以有效地導出二進位碼,然後採用交替最小化方法。我們在語言模型上測試了兩個著名的rnn模型的量化,即長短期記憶單元( LSTM )和門限遞歸單元( GRU )。與全精度計數器部分相比,通過2位量化,在CPU上實現了約16x的內存節省和約6x的實際推理加速,精度損失較小。通過3位量化,我們可以獲得幾乎沒有損失的精度,甚至超過原來的模型,節省了約10.5倍的內存和約3倍的實際推理加速。這兩個結果都以較大的倍數擊敗了現有的量化工作。我們將交替量化擴展到圖像分類任務。在RNNs和前饋神經網路中,該方法也取得了良好的性能。
ICLR官方評價:評審人員一致認為,這篇文章值得在ICLR上發表。請回答評審人員的反饋,並在附錄中詳細討論如何計算潛在的加速率。我加快了不同設備的速率。
Variational Network Quantization
摘要:本文將剪枝和少比特量化神經網路的構造問題歸結為一個變分推理問題。為此,引入了一種量化先驗,該先驗導致多模態稀疏的權值後驗分布,並導出了該先驗的可微Kullback - Leibler散度近似。經過變分網路量化訓練後,權重可以被確定性量化值代替,相關任務精度損失很小或可以忽略(包括通過將權重設置為0進行修剪)。該方法不需要在量化之後進行微調。給出了LeNet - 5 ( MNIST )和Densent ( CIFAR - 10 )的三值量化結果。
ICLR官方評價:本文提出了一種變分貝葉斯方法來量化神經網路權值,並在現在日益流行的深度學習領域中提出了有趣而有用的步驟。
模型優化
On the Convergence of Adam and Beyond
摘要:最近提出的幾種隨機優化方法已經成功地用於訓練深層網路,例如RMSProp、Adam、Adadelta、Nadam,這些方法基於梯度進行更新,梯度更新的幅度由過去梯度平方的指數移動平均值控制。在許多應用中,例如針對具有大輸出空間的學習任務,經驗上觀察到這些演算法未能收斂到最優解(或非凸場景下的臨界點)。我們證明了這種失敗的原因之一是演算法中使用的指數移動平均。本文給出了一個Adam不收斂於最優解的簡單凸優化場景的例子,並通過前面對Adam演算法的分析,準確的描述了這個問題。我們的分析表明,可以通過賦予這類演算法過去梯度的「長期記憶」來解決收斂問題,並提出了Adam演算法的新變型,這種新變型不僅解決了收斂問題,而且使得性能得到很大的提升。
ICLR官方評價:本文分析了Adam的收斂性問題,並給出了一個解決方案。本文指出了Adam收斂問題中的一個錯誤(也適用於相關方法,如RMSProp ),並給出了一個無法收斂的簡單示例。然後,在不引入大量計算或內存開銷的情況下,在保證收斂的條件下修復該演算法。本文中有很多有趣的地方: Adam是一個被廣泛使用的演算法,但有時在某些問題上表現不如SGD,這可能是解釋的一部分。解決辦法既有原則,又切合實際。總的來說,這是一篇很強的論文,我建議接受。
SGD Learns Over-parameterized Networks that Provably Generalize on Linearly Separable Data
摘要:當網路參數超過觀測值時,神經網路具有良好的泛化性能。然而,目前神經網路的泛化邊界無法解釋這一現象。為了彌補這一不足,我們研究了當數據由線性可分函數生成時,兩層超參數神經網路的學習問題。在網路存在Leaky ReLU激活的情況下,我們為參數化網路提供了優化和泛化保證。具體地說,我們證明了SGD的收斂速度是全局最小值,並為這個全局最小值提供了與網路規模無關的泛化保證。因此,我們的結果清楚地表明,使用SGD進行優化既能找到全局最小值,又能避免模型容量過大時的過擬合。這是SGD在學習過指定的神經網路分類器時,能夠避免過擬合的首次理論證明。
ICLR官方評價:這是一份高質量的論文,字跡清楚,高度原創,意義明確。本文對二層網路中的SGD進行了完整的分析,其中的第二層網路不進行訓練,數據是線性可分的。實驗結果驗證了理論假設,即只要權值符號不改變並保持有界,就可以訓練第二層網路。作者討論了審評員的主要關切的點(即,假設這些結果是否具有指示性)。這一系列的工作似乎很有希望。
Fraternal Dropout
摘要:遞歸神經網路( RNNs )是用於語言建模和序列預測的一類重要的神經網路模型。然而,優化RNNs比優化前饋神經網路更難。文獻中已經提出了許多技術來解決這個問題。本文提出了一種簡單的技術,稱為Fraternal Dropout,利用dropout來實現這一目標。特別是,我們建議訓練具有不同dropout值的RNN (共享參數)的兩個相同副本,同時最小化它們(進行softmax操作之前的)預測值之間的差異。通過這種方式,我們的正則化操作鼓勵RNNs的表示對於不同的dropout值是不變的,因此是魯棒的。我們證明了我們正則化項的上界是期望線性(expectation-linear)dropout目標函數,這種期望線性dropout目標(object)解決了由於dropout在訓練階段和推理階段的不同而產生的差距。我們對我們的模型進行了評估,並在兩個基準數據集( Penn Treebank和Wikitext - 2 )上,取得了序列建模任務的最優結果。我們還證明,我們的方法可以顯著提高圖像標註( Microsoft COCO )和半監督( CIFAR - 10 )任務的性能。
ICLR官方評價:本文研究了一種dropout的變體,稱為fraternal dropout。該方法與期望線性dropout密切相關,因此具有一定的增量性。儘管如此,fraternal dropout確實將PTB和wikitext 2上語言模型最優結果提高了約0.5 - 1.7個perplexity 。這篇論文寫得很好,技術上看起來很好。
一些評審員抱怨說,作者可以對fraternal dropout模型進行更仔細的超參數搜索。作者似乎已經部分解決了這些問題,坦率地說,我也不太同意。通過只進行有限的超參數優化,作者將他們自己的方法置於不利地位。如果有的話,他們的方法儘管有這種缺點(與非常強的base模型相比)卻獲得了很強的性能,這是一個支持fraternal dropout的理由。Adaptive Dropout with Rademacher Complexity Regularization
摘要:我們提出了一種基於Rademacher complexity bound的深度神經網路dropout自適應調整框架。現有的深度學習演算法採用dropout來防止特徵學習過擬合情況。然而,dropout的選擇仍然是啟發式的方式,或者依賴於對某些超參數空間的經驗的網格搜索。本文證明了網路的Rademacher complexity是由一個與dropout rate和權重係數矩陣(weight coefficient metrics)相關的函數來定義的。隨後,我們將這一約束作為正則化項,並提供了一種在模型複雜性和表達能力(representation power)之間進行權衡的理論上合理的方法。因此,dropout和經驗損失被統一為相同的目標函數,然後使用塊坐標下降演算法(block coordinate descent algorithm)進行優化。我們發現自適應調整的dropout會收斂到一些有趣的分布,這些分布揭示了一些有意義的模式(pattern)。在圖像和文檔分類相關的實驗也表明,與現有的dropout演算法相比,該方法具有更好的性能。
ICLR官方評價:評審員們一致認為,這項工作處理了一個重要問題。對於論文中論點的正確性存在分歧:其中一位評審員最終被說服了。另一位在最後一篇文章中指出了另外兩個問題,但似乎是1、第一種方法簡單易行,不影響實驗的正確性。2、第二個問題在第二次修訂中被解決了。理想情況下,這些將由第三個評審員重新檢查,但最終工作的正確性是作者的責任。
Adversarial Dropout Regularization
摘要:本文提出了一種將神經表徵從標記豐富(label-rich)的源領域(source domain)遷移到無標記(unlabel)的目標領域(target domain)的領域自適應(domain adaptation)方法。最近為此任務提出的對抗方法通過「愚弄」一個特殊的領域分類器(domain classifier)網路來學習跨域對齊特徵(align features)。然而,這種方法的缺點在於,領域分類器簡單地將生成的特徵標記為域內或域外,而不考慮類之間的邊界。這意味著可以在類邊界附近生成模糊的目標特徵,從而降低目標分類精度。我們提出了一種新的方法,對抗式dropout正則化( ADR ),它鼓勵生成器輸出更多的區分特徵(discriminative features)到目標域。我們的核心思想是用一個在分類器網路上利用dropout來檢測一個非確定性的特徵(non-discriminative features)構成的critic來代替傳統的critic。然後,生成器然後學習卻避開特徵空間的這些區域,從而創建更好的特徵。我們將ADR方法應用於圖像分類和語義分割任務中的無監督域自適應問題,並證明相對現有技術取得顯著提高。
ICLR官方評價:評審員們普遍認為這種方法為無監督領域自適應提供了一種實用而有趣的方法。一位評審員比較關心最優的baseline相關的比較,但後期修改中中已設計這些問題。
此外,由於人工拼寫輸入錯誤,還存在正確性問題。根據這些反應和偽代碼,結果似乎沒有問題,比如像熵目標的報告一樣。
可能需要考慮將評審員2給出的示例中的一個負例,在該示例中,您希望該方法失敗。這將有助於研究人員使用和復現您的論文。最優論文
Certifying Some Distributional Robustness with Principled Adversarial Training
摘要:神經網路容易受到對抗樣本的攻擊,研究人員提出了許多啟發式的攻擊和防禦機制。我們通過分散式魯棒優化的原則透鏡來解決這個問題,保證在對抗性輸入擾動下的性能。通過考慮Wasserstein球中,擾動底層數據分布的拉格朗日罰函數,我們提出了一種利用訓練數據的最壞情況擾動來更新經過增強的模型參數更新的訓練方法。對於平滑損失,相對於經驗風險最小化,我們的方法可以以很少的計算或統計代價成本實現中等程度的魯棒性。此外,我們的統計證據使我們能夠有效地證明對群體損失的魯棒性。對於不可察覺的擾動,我們的方法匹配或優於啟發式方法。
ICLR官方評價:這篇文章得到了評審員們的高度評價,他們認為它具有很高的質量和獨創性。文章處理的問題廣泛且重要。
該文章也引起了其他領域專家的注意,他們對該文章的說法持懷疑態度。技術上的優點似乎沒有問題,而是對其解釋/應用抱有疑問。某一群人對某個重要問題是否已基本解決的看法,可能會影響其他審閱者在決定從事什麼工作、評估等方面的選擇。重要的是,主張要保守,並強調目前的工作沒有充分解決更廣泛的對抗例子問題的方式。
最後,我們認為這篇論文會引起學術界和工業界的極大興趣。作者還被委託負責審議非本領域的專家在其最後修訂中提出的問題(隨後得到諮詢委員會的贊同)。 最後一點:在對非本領域的專家的答覆中,作者多次指出,本文所作的保證在形式上與標準的學習理論主張沒有什麼不同:「然而,這種批評適用於許多學習理論成果(包括應用於深度學習的成果)。「我在這種說法中找不到任何安慰。學習論者通常關注於邊界的形式( sqrt ( m )依賴且獨立於加權數),然後他們藉助於相關的經驗觀察來證明:邊界的值對於泛化是預測性的。當對真實數據集進行評估時,邊界通常是無意義的(「真空的」)。(最近有一些例子支持這一趨勢。從某種意義上說,學習理論家們已經變得容易了。然而,對抗的例子涉及安全,因此存在更多的利害關係。在這種新的背景下,可能我們對學習理論家的懈怠的容忍是不合適的。我支持一點,作者清楚地解釋,要從「足夠好的學習理論」轉變為「足夠好的安全」還需要做哪些工作。作者承諾為社會列舉出未來重要的工作/公開問題。我絕對鼓勵這樣做。機器翻譯
Unsupervised Machine Translation Using Monolingual Corpora Only
摘要:近年來,由於深度學習和大規模並行語料庫的出現,機器翻譯取得了令人矚目的成績。已經有許多嘗試將這些成功擴展到低資源語言對(語料不足的語言),但需要數萬個並行語句。在這項工作中,我們將這一研究方向推向了一個極端,並探討了即使沒有任何並行數據也能學會翻譯的可能性。本文提出了一種從兩種不同語言的單語語料庫中抽取句子,並將其映射到同一潛在空間的模型。通過學習,基於該共享特徵空間來重構兩種語言,該模型有效地學習翻譯而不使用任何標記的數據。我們在兩個廣泛使用的數據集和兩個語言對上驗證了我們的模型,在Multi30k和WMT英語-法語數據集上獲得了32.8和15.1的BLEU分數,在訓練時甚至一個並行語句對也不需要。
ICLR官方評價:本文介紹了無監督神經機器翻譯的一些初步結果。評審組的成員在機器翻譯方面有著豐富的知識,他們對這篇文章的結果印象極為深刻,認為這是一個全新的研究領域,並指出「這一點是顯而易見的"。有人對所文章提出的部分細節是否清楚以及如何復現文章結果表示關切,但討論中似乎澄清了其中的許多問題。評審人員普遍稱讚該方法的徹底性、實驗的清晰度和消融的使用。一位評審員對此印象不太深,認為應該做更多的比較。
Synthetic and Natural Noise Both Break Neural Machine Translation
摘要:基於字元的神經機器翻譯( NMT )模型減輕了集外詞(out-of-vocabulary)導致的問題,學習了形態學,使我們更接近於完全端到端的翻譯系統。不幸的是,它們也是非常脆弱的,並且當處理嘈雜的數據時,往往不夠魯棒。在本文中,我們面對具有合成和自然雜訊源的NMT模型。我們發現,即使是針對中等噪音的文本,最先進的模型也無法翻譯,但人類理解起來卻沒有困難。我們探索了兩種提高模型魯棒性的方法:結構不變的詞表示和對雜訊文本的魯棒性訓練。我們發現基於字元(character-level)卷積神經網路的模型能夠同時學習對多種雜訊具有魯棒性的表示。
ICLR官方評價:評審員所指出的,本文的利弊可以概括如下:
優點: *本文首次嘗試研究神經MT中的一個未研究領域(以及序列到序列模型的潛在其他應用)。 *這一領域可能產生重大影響;Google Translate等現有模型在針對有雜訊的輸入,翻譯效果很差。 *實驗設計非常仔細和徹底*對合成雜訊和自然雜訊進行的實驗增強了文章結果的可靠性
*文章寫得很好,容易理解 缺點: *對於此問題,可能有比此文章所提出的體系結構更好的體系結構 *即使是自然雜訊也不是完全自然的,例如人為地限制存在於單詞內 *文章並不完全適合ICLR 這篇文章得到了一致的積極評價,並有可能產生巨大的現實影響。Towards Neural Phrase-based Machine Translation
摘要:本文提出了基於短語的神經機器翻譯( NPMT )。該方法利用Sleep-WAke Networks( SWAN )對輸出序列中的短語結構進行了顯式建模,這是一種新近提出的基於分段的序列建模方法。為了降低SWAN的單調對齊要求,我們引入了一個新的層來執行對輸入序列的(軟)局部重排。與現有的神經機器翻譯( NMT )方法不同,NPMT不使用基於注意力機制的解碼方式。取而代之的是,它直接按順序輸出短語,並且可以線性時間解碼。實驗表明,與最優的NMT結果相比,NPMT在IWSLT 2014德語/英語/德語和IWSLT 2015英語/越南語機器翻譯任務上取得了優異的性能。我們還觀察到我們的方法在輸出語言中產生有意義的短語。
ICLR官方評價:該論文將軟本地重排序(soft local reordering)引入到最近提出的SWAN層中[王等人,2017 ]使其適合於機器翻譯。雖然只是在小規模的實驗中,結果還是令人信服的。
Non-Autoregressive Neural Machine Translation
摘要:神經機器翻譯的現有方法都是基於先前生成的輸出token來生成下一個token。我們引入了一個避免這種自回歸特性的模型,並且並行地產生它的輸出,從而使reference過程中的延遲降低了一個數量級。通過知識抽取、使用輸入token fertilities作為潛在變數和策略梯度微調,相對於用作Teacher的Transfomer網路,我們以只減少了2.0 BLEU點的代價來實現這一點。我們展示了與我們訓練策略相關的三個方面的大量累積改進,並在2016年IWSLT英語-德語和兩種WMT語言對上驗證了我們的方法。通過在reference時並行採樣fertilities,我們的非自回歸模型在WMT 2016英語-羅馬尼亞語上實現了29.8 BLEU的最優成績。
ICLR官方評價:提出了一種基於預訓練自回歸模型來訓練一個非自回歸機器翻譯模型的一種訓練方法。該方法有趣,評價效果良好。然而,應當指出,訓練程序的相對複雜性(涉及多個階段和外部監督訓練)可能會限制該技術的實際可用性和影響。
Unsupervised Neural Machine Translation
摘要:儘管最近神經機器翻譯( NMT )在標準評測中取得了很大的成功,但是大規模並行語料庫的缺乏對許多語言對來說是一個重大的實際問題。有一些建議,例如三角法和半監督學習技術來緩解這一問題,但它們仍然需要強有力的跨語言的信號。在本文中,我們完全取消了對並行數據的需求,並提出了一種新的方法來訓練一個完全無監督的NMT系統。該模型建立在無監督嵌入映射(unsupervised embedding mapping)的基礎上,包括一個稍加修改的注意編碼-解碼模型,該模型可以通過去噪(denoising)和回譯(backtranslation)相結合的方法在單語語料庫上進行訓練。儘管方法簡單,但我們的系統在WMT 2014法語到英語和德語到英語翻譯中獲得了15.56和10.21 BLEU。該模型還可以從小型平行語料庫中獲益,與10萬個平行句子組合後,分別達到21.81和15.24個點。
ICLR官方評價:這項工作使用巧妙的組合技術,在無監督機器翻譯方向上,達到了新的結果。就原創性而言,評審員發現這篇文章誇大了自己的觀點,並承諾了一項突破,但他們並不認為這是合理的。
然而,在新任務上有「足夠多的新內容」和「初步」結果。實驗質量也存在一些問題,缺乏較好的定性分析,評審人員覺得關於半監督相關的工作的說明有問題。然而,主要的數字是一個良好的開端,作者正確地注意到,還有另一項工作具有類似的有希望的結果。在這兩項工作中,評審人員發現另一項工作寫得更清楚,實驗分析也更好,他們指出,這兩項工作在新穎性方面都超過了要求。這項工作最有希望的方面可能是這項任務今後的意義,因為現在人們對使用多語言嵌入(multi-lingual embeddings)和NMT作為基準任務更感興趣。生成模型
Spectral Normalization for Generative Adversarial Networks
摘要:生成對抗網路研究面臨的挑戰之一是其訓練的不穩定性。本文提出了一種新的加權歸一化技術——譜歸一化,以穩定判別器的訓練。我們提出的新規範化技術(Normalization technique)計算量小,易於集成到現有實現中。我們在cifar 10、STL-10和ILSVRC2012數據集上測試了譜歸一化(spectral normalization )的效果,並通過實驗驗證了經過spectral normalized的GANs ( SN - GANs )能夠生成與先前訓練穩定技術相比質量更好或相等的圖像。
ICLR官方評價:本文將scaling GAN用於包含大量類別ILSVRC2012數據集上,並取得了令人印象深刻結果。為此,作者提出了「譜歸一化(spectral normalization)」來歸一化權值和穩定訓練,這有助於克服模式崩潰問題(mode collapse issues)。所提出的方法是有原則的,寫得很好。作者在處理評審人的評論方面做得很好,並在相關方法上增加了更多的比較結果,以證明所提方法的優越性。審查人員一致認為,這是改進GAN訓練的一個重大步驟。我建議你接受。
Wasserstein Auto-Encoders
摘要:我們提出了一種用於建立數據分布的新的生成模型演算法—Wasserstein Auto-Encoder( WAE )。 WAE最小化模型分布和目標分布之間的Wasserstein距離,以此作為目標函數,這是一種與變分自動編碼器( VAE )使用的正則化不同的正則化。
該正則化項鼓勵編碼的訓練分布與先驗相匹配。通過與其他幾種編碼方法的比較,證明了該演算法是對抗式自動編碼器( AAE )的一種推廣。實驗結果表明,WAE不僅具有很多VAEs的優點(訓練穩定、編碼解碼結構、良好的隱流形結構),同時生成更高質量的樣本。ICLR官方評價:本文提出了一種新的生成模型,該模型具有變分自動編碼器( VAE )的穩定性,同時生成更好的樣本。作者將他們的工作與之前將VAEs和GAN相結合的產生模型的進行了詳細的比較。結果表明,該演算法是對抗性自動編碼器( AAE )的推廣,使模型分布與真實分布之間的距離最小。這篇論文寫得很好,結果令人信服。評審員一致認為該演算法新穎實用;並對該演算法與相關方法的密切聯繫進行了討論。總的來說,這篇文章很不錯,建議接受。
其他
Spherical CNNs
摘要:卷積神經網路( CNNs )已成為二維平面圖像學習問題的首選方法。然而,最近大家感興趣的一些問題已經產生了對能夠分析球形圖像的模型的一些需求。比如,包括無人駕駛飛機、機器人和自動駕駛的全向視覺、分子回歸問題以及全球天氣和氣候建模。卷積網路對球面信號的平面投影的這種天真嘗試是註定會失敗的,因為由這種投影引入的空間變化失真將使得水平方向上的權重共享變得無效。
本文介紹了一個用於構建球形CNNs的構造塊(building block)。我們提出了一個既有極強表達能力又有旋轉等變(expressive and rotation-equivariant)的球面互相關(spherical cross-correlation)的定義。球面相關性(spherical correlation)滿足廣義傅里葉定理,這允許我們使用廣義(非交換)快速傅里葉變換( FFT )演算法有效地計算它。我們證明了球形CNNs在三維模型識別和霧化能量回歸中(atomization energy regression)的計算效率、數值精度和有效性。ICLR官方評價:本文通過將CNNs擴展到相應的組SO(3),提出了一種可訓練的球面信號表示(定義在球面中的函數),該球面信號通過設計可旋轉地等變(rotationally equivariant )。該方法利用球面上的快速傅里葉變換實現,並以三維形狀識別和分子能量預測為例進行了說明。
評審員一致認為這是一篇堅實的、寫得很好的論文,它證明了在真實場景中,群不變性/等方差比標準歐氏翻譯群(standard Euclidean translation group )更有用。這將是對會議的一大補充。往期精品內容推薦
VAST最佳論文推薦-Tensorflow中深度學習模型可視化的研究
斯坦福大學2017年-Spring-最新強化學習(Reinforcement Learning)課程分享
神經機器翻譯(NMT)的一些重要資源分享
深度學習(AI)在醫療領域應用、需求及未來發展概述
麻省理工學院-2017年-深度學習與自動駕駛視頻課程分享
模型匯總22 機器學習相關基礎數學理論、概念、模型思維導圖分享
《純乾貨16》調整學習速率以優化神經網路訓練
《模型匯總-20》深度學習背後的秘密:初學者指南-深度學習激活函數大全
深度學習模型、概念思維導圖分享
深度學習在自然語言處理中的應用綜述
深度學習/機器學習的處理器列表(最全_中文版)
吳恩達深度學習專業化課程第一次課視頻分享
推薦閱讀:
※機器學習項目流程清單
※2 最簡單的驗證碼生成
※2-3 Cost Function-Intuition I
※2017年深度學習頂級論文盤點
※機器學習中關於偏差、方差和誤差的理解
TAG:深度學習DeepLearning | 機器學習 | 數據挖掘 |