學界 | 從剪枝法到低秩分解,手機端語言模型的神經網路壓縮
日前,機器之心介紹了一種壓縮手機端計算機視覺模型的方法。在這篇文章中,我們介紹了一篇論文,介紹和對比了手機端語言模型的神經網路壓縮方法。
神經網路模型需要大量的磁碟與存儲空間,也需要大量的時間進行推理,特別是對部署到手機這樣的設備上的模型而言。
在目前的研究中,業內已有多種方法解決該難題。部分是基於稀疏計算,也包括剪枝或其他更高級的方法。總而言之,在將模型存儲到磁碟時,這樣的方法能夠大大降低訓練網路的大小。
但是,當用模型進行推理時,還存在其他問題。這些問題是由稀疏計算的高計算時間造成的。有一種解決方式是使用神經網路中不同的基於矩陣的方法。因此,Lu,Z等人2016年ICASSP的論文提出基於使用Toeplitz-like結構化矩陣的方法。此外還有其他的矩陣分解技術:低秩分解、TT分解(張量訓練分解)。YoshuaBengio等人2016年ICML論文提出的uRNN(UnitaryEvolutionRecurrentNeuralNetworks)也是一種新型RNN。
在這篇論文中,來自俄羅斯三星研發機構、俄羅斯高等經濟研究大學的研究人員對上述的研究方法進行了分析。首先,他們對語言模型方法進行了概述,然後介紹了不同類型的壓縮方法。這些方法包括剪枝、量化這樣的簡單方法,也包括基於不同的矩陣分解方法的神經網路壓縮。更多論文細節如下,具體信息可點論文鏈接查看。
論文:NeuralNetworksCompressionforLanguageModeling
論文鏈接:https://arxiv.org/abs/1708.05963
摘要:在本論文中,我們考慮了多種壓縮技術,對基於RNN的語言模型進行壓縮。我們知道,傳統的RNN(例如基於LSTM的語言模型),要麼具有很高的空間複雜度,要麼需要大量的推理時間。對手機應用而言,這一問題非常關鍵,在手機中與遠程伺服器持續互動很不合適。通過使用PennTreebank(PTB)數據集,我們對比了LSTM模型在剪枝、量化、低秩分解、張量訓練分解之後的模型大小與對快速推斷的適應性。
3. 壓縮方法統計
3.1剪枝與量化
圖1:剪枝前後的權重分布
3.2低秩分解
3.3TT分解法(張量訓練分解)
4.結果
表1:在PTB數據集上的剪枝和量化結果
表2:在PTB數據集上的矩陣分解結果
5.結論
在此論文中,我們考慮語言模型神經網路壓縮的多種方法。文章第一部分介紹剪枝與量化方法,結果顯示這兩種技術應用於語言模型壓縮時毫無差別。文章第二部分介紹矩陣分解方法,我們演示了在設備上實現模型時,這些方法的優勢。移動設備任務對模型大小與結構都有嚴格的限制。從這個角度來看,LRLSTM650-650模型有更好的特性。它比PTB數據集上的最小基準還要小,且其質量可與PTB上的中型模型媲美。
推薦閱讀:
※言辭的力量:語言是人類最偉大的工具
※幼兒園小班秋天語言教案:片片飛來象蝴蝶
※小S減肥語錄語言火爆給力
※裁決書書寫語言表述(一)
※泡妞秘籍!條理分明語言詼諧的技術貼!(六)