如何看待顧險峰《看穿機器學習(W-GAN模型)的黑箱》這篇文章?
http://mp.weixin.qq.com/s/5gyZqxhdvtH-zIxKini2TQ
我們可以利用量子物理學和深度卷積網路的共同點來嘗試打開機器學習的「黑箱」。
首先,顧博士將機器學習看作為「黑箱」模型的觀點顯然有些過於嚴厲了,對於機器學習而言,輸出關係已經被人類清楚地掌握,而同時人類也並沒有向機器輸入閉源演算法,這就使得深度學習的理論結構與「黑箱」理論部分相悖。不過正如顧博士的文章中所指,我們現在依然無法嚴謹的解釋機器學習演算法的有效性,無可否認的是線性回歸和相關性模型的標準偏差只能作為一種檢驗函數關係擬合好壞的標準。
深度卷積網路已經在許多不同的機器學習應用中取得了成功,但其中的大部分內容還有可供進一步揭秘的深層次奧義。歸納偏置是其中之一,其反映了嵌入在網路架構中的先驗知識。在這項成果中,研究者建立了量子物理領域和深度學習領域的一種基本聯繫。研究者使用這種聯繫斷言了全新的理論觀察,該觀察是關於卷積網路每一層的通道的數量在整體的歸納偏置中的作用。具體來說,研究者給出了深度卷積算術電路所實現的函數和量子多體波函數之間的等價性,這取決於它們共同的基礎張量結構。通過這種方式,研究者向我們展示了一種用深度卷積網路的通道數量來直接控制機器學習的歸納偏置的方法,而這些通道正是其相關最小切割。這項成果同時也架起了兩個跨界學科的橋樑:用良好定義的圖論工具對深度卷積網路的描述以及與量子糾纏的形式連接。
(原本的卷積算術電路網路)
當描述一個由多個相互作用粒子所構成的系統的量子力學性質時,物理學家需要使用能夠表示許多輸入和單一輸出之間的複雜關係的函數。恰好,監督學習和無監督學習等機器學習方法也需要使用能夠表示許多輸入和單一輸出之間的複雜關係的函數。通過由卷積算術電路所帶來的對深度卷積網路的張量描述,人類可以在機器學習和量子物理之間構建起一種可靠的結構聯繫。
(張量網路形式的奇異值分解:Λ 節點表示一個對角矩陣、U 和 V 節點表示正交矩陣)
多體波函數和深度卷積算術電路所實現的函數之間的形式聯繫讓我們有機會使用已有的物理見解和數學工具來分析卷積網路。對於表徵多體波函數的粒子間的相關性結構,物理學家給予了特別關注,因為其對被觀測系統的物理性質有廣泛的影響。在解決一個機器學習問題時,我們應該考慮到表徵該問題的相關性,對於函數的表示的需求實際上是對該函數建模複雜相關性結構的需求,不管這個函數是由卷積網路實現的或者正是一個等價的多體波函數。
引用論文:https://arxiv.org/abs/1704.01552v1
最近在讀wgan的論文,鄭華濱的《 令人拍案叫絕的Wasserstein GAN》、洪佳鵬的《 來聊聊最近很火的WGAN》和顧險峰的《看穿機器學習(W-GAN模型)的黑箱》啟發都很大,感謝並佩服。
GAN演算法要完成目標是,努力使生成的Pg分布向著真實的Pr分布靠攏。這個目標按照我具象理解,就是如何把一灘散沙變成一幅美麗沙畫。散沙就是輸入噪音參數z,人手就是G(z)函數,使得沙畫活靈活現。
這樣的問題在丘成桐先生的學生顧險峰先生看來,就是最優傳輸問題。2013年顧先生給出Alexandrov定理的構造性證明(《海天講座(四)最優傳輸理論》),Alexandrov定理給出離散最優傳輸問題的解,也就是說,給定Pr分布,G(z)的函數是存在演算法直接計算出來。我想,在這之前應該有其他演算法能算出G函數,只不過一個是四次方程的根式解,一個是五次方程近似解。
顧先生在講最優傳輸理論時,舉的最優傳輸問題的例子,一下讓我明白了測度是什麼,測度與概率的關係。測度就是沙畫中某一塊的沙子稠密程度。概率就是測度。於是明白了WGAN論文中KL散度公式中的那個mu。例子引用過來。
我們給出一個粗淺的例子來解釋最優傳輸問題。假設U是整個美國領土,概率密度mu是美國每英畝土豆年產量,v是美國每英畝土豆年消耗率。美國政府需要制定一個土豆運輸方案,將土豆由鄉村產地運輸到城市消耗地,記為f:U-&>U。傳輸方案需要滿足供需平衡條件,對於任意一座城市,其土豆年消耗總量等於其供應地土豆年生產總量,換言之,映射f是保測度的;同時,土豆運輸方案使得運輸成本最小。因此,政府所尋求的最優傳輸方案就是最優傳輸映射。由此可見為什麼康塔洛維奇(Kantorovich)獲得諾貝爾經濟學獎。
其實WGAN論文中,引出公式(2)中,引用的論文[22]就是講最優傳輸理論的書。
最後顧先生在後面的總結還是讓我浮想很多,很多。如下:
人類的低級視覺在很大程度上依賴於統計特性,因此可以歸結為對概率分布的處理和演算。人腦是否真的在計算最優傳輸映射、計算Wasserstein距離?在歷史上,人類經常首先發現某些數學原理,然後又發現這些原理在生物器官上早已應用。例如,人類首先發現了傅里葉分解原理,然後發現人類耳蝸神經結構就是在對聲音信號進行傅里葉分解;又如,人類首先發現了保角變換(共形變換),後來發現從視網膜到第一級的視覺中樞就是保角變換,如圖4所示。這項工作曾經獲得過諾貝爾獎。因此,如果若干年後,人們證實大腦的確在計算概率分布之間的距離,老顧也不會覺得意外。
從另外一個角度分析這個問題,寫的蠻好的。不過數學家看機器學習和機器學習從業者看同樣的問題有很大不同。
不懂的東東,特意進來看看
推薦閱讀:
※分散式深度學習系統與傳統的分散式系統的區別?
※求台大林軒田的learning from data (yaser)這本書後面的problem的答案?
※最近看到udacity的納米學位很火,號稱學完可以找到工作了,這是真的嗎?
※哪裡有受限玻爾茲曼機、卷積神經網路 的講解課程?
※如何評價Hinton在加拿大多倫多大學關於用「capsule」作為下一代CNN的演講?
TAG:人工智慧 | 機器學習 | 概率論 | 深度學習DeepLearning | 生成對抗網路GAN |