如何理解「深度學習和重整化群可以建立嚴格映射」?這一結論對領域有何影響?
參考文獻:
http://arxiv.org/abs/1410.3831
http://arxiv.org/abs/1301.3124
前一段時間剛剛討論過這些文章,看見這個題真是手痒痒。不過 @齊鵬和 @andrew shen回答得已經很棒了, @齊鵬的回答比較專業而且準確, @andrew shen的回答有些有點靠猜,有些論述事實上與本題無關,雖然不失為一個很好的個人理解和展望但畢竟離目前理解到的水平相差太遠,並不一定靠譜。在他們的基礎上,我也想稍微補充解釋一點點:
先說結論:影響不大。RBM 只是 DL 中的一個方法而已,而他們只是將這個方法中的一個架構映射到了 Ising model 的 RG 上,但是他們的方法並沒有 generalization 的能力。其他的 Neural network 架構是否能對應 RG 呢, 對應的物理模型的 energy function 怎麼寫呢?用他們的方法是做不了的,甚至給不了什麼 insight,有可能這個對應只是個巧合。可更嚴重的問題是,這些工作並不能回答 DL 中的任何一個問題,比如 @Droking提到的設計神經網路不用靠猜,這是想多了,如果說不是靠猜還需要回答「為什麼是 Ising model?」「 Ising model 的什麼性質決定了它適合此類問題?」「採取實空間 group spin 的 RG 還是 DMRG 還是 MERA 還是什麼別的?」這個在他們的工作中並不能給出答案。就算每一個 DL 架構都能對應一個 RG,那以後還是一樣得猜模型,猜 RG strategy,這並不能說明對 DL 的理解更深刻了,或者 DL 可解釋性增強了,只是用另一個沒什麼可解釋性的方法替代了目前的方法而已。至於 DL 中各類小 trick 的解釋性,跟這個工作更是沒有什麼關係了。總而言之,這些工作很 fancy,但是距離解決 DL 中的某一個(無論是哪一個)具體的問題還是太遠,遠得有點讓人看不到確定的方向和希望。謝邀。為了回答這個問題專門把兩篇paper都讀了一遍。先聲明,本人物理不好,所以理解錯的說錯的還望大拿指正。
首先,Renormalization Group (RG)這個假設建立在信息嚴格壓縮的基礎上。這一點似乎是RG建模逃不掉的,而且兩篇文章都在不斷強調obtain a coarser-grain representation。這就限制了這個框架在Deep Learning (DL)里的應用範圍,因為很多實際應用中的DL模型都是over-complete的(Mehta Schwab這篇也有提到這一點)。而且很多實踐證明這種over-completeness對最終任務(比如分類精度)有幫助。
其次,兩篇文章似乎都關心的是純unsupervised learning,而似乎沒給supervised learning什麼想像空間。兩篇文章最終做的事情都是,建立一個generative model來解釋數據分布,但這件事ML的人自己也能做。
再次,就是兩篇文章都只是(不完全的)理論映射,但沒有說這種理論映射帶來什麼好處。誠然,可以用一個新思路看物理學家怎麼理解RBM的很有意思,但ML的人最終關心的還是這種理論映射能不能帶來模型參數訓練的新方法、或者模型結構選取的理論指導。
最後,Beny這篇文章整個基於一個指數遞減的壓縮模型,花費了大量口舌試圖推廣一個現實中幾乎沒人會用的模型。如果輸入維度是100,輸出是10,那多半人會選擇一個100-400-400-400-10的over-complete網路,而不是100-50-20-10這樣的指數瓶頸,因為後者直接限制了模型的表達能力。Mehta Schwab類似的用到了一個類似9年前Hinton論文里的瓶頸網路在合成數據集上跑結果,似乎也沒特別說明他們的框架帶來了什麼優勢。
題外話:DL實踐中常用、有效的模型似乎都比這兩組物理學家理解的複雜許多,加上兩篇論文給了湯沒給勺,也沒花功夫證明湯有多好喝——對領域的影響就見仁見智吧。謝邀。
兩位知友的回答很完整,我就加點個人意見吧。
這是一個很好的想法,而在深度學習每一層中把一些無關的數據的權重降低,就像重整化群每一步把irrelevant的參數壓抑下來,很有趣。這為深度學習的良好表現給了個解釋。至於在應用上的影響,想像不到??看了之前 CS 行業給出的回答, 覺得十分有趣. 我嘗試從一個理論學家的角度, 一個或許不是那麼實用主義的角度來談談自己的看法.
我只讀過 http://arxiv.org/abs/1410.3831. 這篇文章的內容可以用兩句話概括: RBM 這種神經網路, 每多做一層就相當於 Ising Model 做一次實空間 RG. 並且在 RBM 學習的過程中, 就自動顯示出 RG 的結構.
(什麼是重整化群, 即 RG, 這又是一個複雜的問題. 限於篇幅, 不在此贅述. )
對於一維 Ising Model, 眾所周知只有在 J=0 處有一個穩定不動點. 映射到 RBM 去, 這意味著當 RBM 網路的層數足夠多時, hidden units 之間反而失去了耦合(輸入的和輸出的無關). 對於二維 Ising Model, 在 J=0 和 J=+∞ 處有兩個穩定不動點, 映射到 RBM 去, 這意味著當 RBM 網路的層數足夠多時, hidden units 之間要麼是無耦合, 要麼是強耦合(輸入的和輸出的相同), 取決於第一層 DBM 的 J 在 J_c=0.4352 之上還是之下. 無需任何計算, 只需要依賴物理學家對 Ising Model 的認識, 我們就可以對 RBM 下這樣的斷言. 這或許可以在某種程度上解釋為什麼對於多層 RBM, 即 DBL, 層數增多以後學習效果反而更差.
這一結論對 DL 領域有什麼影響, 完全超出了我的能力範圍, 只能簡單談談拙見.
重整化群(RG), 作為一種最終成型於1970年左右的技術, 背後隱含的思想可以說是近代物理學在觀念上最重要的突破. RG 告訴我們, 任何一個物理理論都是有效理論, 只在特定的能標下才有意義. RG 在某種程度上回答了一個重要的問題: 為什麼如此複雜的現實世界可以用簡單的模型來描述: 通過粗粒平均(coarse-graining), 我們把更高能/更微小, 然而也是在當前觀測尺度下不需要關心的細節模糊處理, 最終得到一個簡單的模型. (參考: 在推導物理的基本方程時,我們有什麼理由相信拉氏函只含有低階導數? - Sherlock Dirac 的回答)
那麼將 RG 應用在 DL 上我們也有理由期望它能對回答這樣的問題有一定的幫助: 為什麼簡單的機器學習模型可以十分有效? 一個複雜的神經網路模型, 經過多層迭代之後, 實際起作用的部分是否只是一個簡單的模型?
在物理學中, RG 一個重要的應用是給臨界現象分類. 各種看似不相關的現象, 不同的模型, 在臨界點附近的行為可能是完全相同的. 我們也有理由期望, 這種分類方式也可以應用在 DL 上, 給各種表面不同的 DL 模型進行分類.
當然, 以上展望是絲毫不負責任的. 首先, 並非所有 DL 模型都能像 RBM 一樣有著清晰的物理詮釋(Ising Model)以及到 RG 的映射; 其次, 物理模型由於對稱性等大大加強了對其的限制, 這些在 DL 中是不存在的. 事實上根據我淺薄的知識, 除了 RBM 以外, 物理學目前對 DL 的影響還十分有限.
這兩篇文章我在它們剛出來不久的時候看過。關於怎麼理解這一結論(並不嚴格),現在已經有了許多答案。直觀地看,重正化群作為一種粗粒化的方法,與深度學習網路各層提取信息有些類似之處,現在已經有很多答案提到對這一問題的理解,我就不再繼續贅述。
不過我想簡單地從生物物理和複雜系統的角度說說這一結論可能產生的影響,可能顯得有些腦洞大開,但其實我自己最近一段時間一直在做相關的問題,所以這個也並沒有那麼腦洞大開。先一句話總結一下我的結論:這個研究對某些特殊情況下深度學習的工作原理進行了解釋,但這一解釋對深度學習技術本身的發展可能並沒有太大的作用,反而可能對我們理解大腦的工作原理有一定的意義。
我本來以為這只是我自己一個人的看法,然後在網上搜索的時候突然發現早就有其他人有類似的看法,我還是先引用其他人在閱讀了這兩篇論文之後的觀點吧:
For example, the finding appears to support the emerging hypothesis that parts of the brain operate at a 「critical point,」 where every neuron influences the network as a whole. In physics, renormalization is performed mathematically at the critical point of a physical system, explained Sejnowski, a professor at the Salk Institute for Biological Studies in La Jolla, Calif. 「So the only way it could be relevant to the brain is if it is at the critical point.」
——Deep Learning Relies on Renormalization, Physicists Find
有興趣的朋友可以去閱讀上面的兩個鏈接中的詳細內容。這裡我僅對這個觀點具體的意思進行一個比較簡單的闡述:
- 臨界現象是一種物理現象,它最早在一些相變的過程中被發現和研究,而重正化群提供了一種在臨界點附近進行分析的方法。
- 臨界現象中有許多有趣的性質,例如在臨界點附近隨著體系尺寸的增大,關聯長度也會增大,同時對擾動的弛豫時間變得無限長等等,這些性質在簡單的物理體系中只有在臨界點附近才存在,但是這些性質對生物體系來說卻是非常自然的。鳥群、昆蟲群、細菌團簇、我們的大腦都表現得就如同處在臨界點附近(大家可以參考:Physics - Viewpoint: The Critical Brain,Physics - Viewpoint: Insect Swarms Go Critical)。以昆蟲的運動為例,一種昆蟲的體長不過是毫米級,蟲間距也是這一數量級,但在一個昆蟲群體中,蟲與蟲之間的關聯長度卻可以達到半米長左右,這是它們體長的數百倍,這種現象即為生物體系中的臨界現象。生物體系似乎是在臨界點附近被組織起來的,這種臨界現象對生物系統的好處在於它可以維持群體的存在和穩定,但又讓群體不至於過於剛性,它保證了生物系統適應各種不同的環境(面對各種來自不同方向的天敵,在整個群體中產生反應,這也類似一個無監督學習的過程)。對大腦而言,這種「臨界性」正反映了某種穩定性(記憶)和可塑性(學習)的平衡。
- 大腦中的臨界性從被發現到現在已經有了十多年的歷史(J Beggs, D Plenz 2003),而這些關於深度學習與重正化群進行聯繫的方法,讓深度學習的演算法真的(或者似乎是真的)從臨界性的角度建立起了某種與生物體系的聯繫,這種可以與重正化群對應起來的深度學習方法,很可能就是(或者某種意義上接近於)我們大腦在解決某些問題時的原理。
「臨界性」對我們的大腦在解決問題時究竟可以提供哪些幫助呢?首先的一種解釋就是從類似自組織臨界的角度來說的,大腦類似於處在臨界態的沙堆,一些較小的擾動就可能形成較大範圍的雪崩現象,大腦的信號發放也會出現類似的情況,如果記錄一小塊區域內的神經信號發放,大多數時候只能觀察到局部的激發,但仍然有時候可以觀察到一大片的神經元被激活,並且被激活的區域的尺寸統計分布是滿足冪律分布的。這就非常類似於地震、雪崩,因此認為大腦是處在臨界態。關於這個問題還有一些新聞報道,如:「譯言網 | 無序的天才:大腦中如何產生混沌?」「大腦雪崩現象有助於儲存記憶」就簡單介紹了有關的生物背景。
另一層解釋則更類似於傳統研究相變的思路,直接從關聯函數出發,因為觀察到雪崩現象(以及雪崩事件的統計)並不能嚴格地導出大腦里神經元的連通狀態,甚至連關聯的情況也不能得到。從物理學的角度來說,我們顯然更希望直接測量大腦(或者大腦裡面某個區域內)的「關聯函數」,如果我們發現如前面我所補充的,發現關聯長度與體系尺寸成正比,這也就說明了大腦是是處在「臨界態」的。
如圖,現在我們可以對大腦中的一些漲落關聯進行研究 (Ariel Haimovici, Enzo Tagliazucchi, Pablo Balenzuela, and Dante R. Chialvo Phys. Rev. Lett. 110, 178101)。如果說全腦的上圖是對大腦中的一些 Cluster 進行的 scaling。按我的理解,儘管可能大腦中存在一些長程的相互作用,但針對某些具體的 Cluster,這種效應應該是相對比較小的。從中可以看到某種尺度不變性(所選擇的 cluster size 與關聯長度粗略地成正比)。
在這個意義上,我們可以再看看其他物理學家對「臨界的大腦」這一問題的看法:
Furthermore, a brain not only has to remember, but also has to forget and adapt. In a subcritical brain, memories would be frozen. In a supercritical brain, patterns change continuously so no long-term memory would be possible. To be highly susceptible, the brain itself has to be in an in-between, critical state.
——Dante Chialvo. Nature Physics 6, 744–750 (2010) doi:10.1038/nphys1803
因此在我看來,這類研究真正的意義在於——它可能暗示了生物系統(大腦)解決這一問題的某種方案,需要注意的是:這種方案並不是最適合計算機的,正如 @齊鵬 所提到的,在實際應用中,工業界通常會選擇一個各層次形如 100-400-400-400-10 的 over-complete 網路來解決問題,這種方法是適合計算機的方案,但並不是重正化群,更不太可能是大腦的解決方案。在經過了長期的進化之後,大腦通過把自己調整到某個臨界態,能夠在很多自然界的約束條件下找到優化的解決方案(例如大腦運轉時消耗的能量就遠低於計算機),並且能具有超強的適應性。
另外一個值得一提的問題在於——為什麼關注的是無監督學習,這裡可以參考 Facebook AI Director Yann LeCun on His Quest to Unleash Deep Learning and Make Machines Smarter 訪談中的觀點(中文翻譯版節選自《中國計算機學會通訊》上發表的翻譯稿):
但從研究的角度來看,我們一直感興趣的是如何恰當地做好無監督學習。我們現在已經擁有了可以應用到實際的無監督學習技術,只是問題在於,我們只要收集更多數據,有監督學習就能勝過無監督學習。這就是為什麼在現階段的產業中,深度學習的應用基本上都是有監督的。但將來未必是這種方式。
歸根結底,在無監督學習方面,大腦遠好於我們的模型,這意味著我們的人工智慧學習系統對許多生物機理學習的基本原理還沒有掌握。
But from a research point of view, what we』ve been interested in is how to do unsupervised learning properly. We now have unsupervised techniques that actually work. The problem is that you can beat them by just collecting more data, and then using supervised learning. This is why in industry, the applications of Deep Learning are currently all supervised. But it won』t be that way in the future.
The bottom line is that the brain is much better than our model at doing unsupervised learning. That means that our artificial learning systems are missing some very basic principles of biological learning.
從這個意義上,我相信這個研究的意義就在於,它可能真的暗示了某種在臨界點附近實現其功能的生物系統的工作機理。從這個意義上,類似 Information-based fitness and the emergence of criticality in living systems 的方法如果被用到這一問題上,可能會有某些類似的結論。
按理來講,我也是在用物理的手段,尤其是量子物理/概率模型的工具,研究機器學習,應該與這個工作算沾邊的。但是讀了讀後發現用到的工具和解決的問題都差別很大,我更偏重的方向是有實際效果的演算法,所以還是不敢隨便亂講。
不過看了前面幾位的答案有一些感想,我也參與一下討論吧。
可以用一個新思路看物理學家怎麼理解RBM的很有意思,但ML的人最終關心的還是這種理論映射能不能帶來模型參數訓練的新方法、或者模型結構選取的理論指導。 @齊鵬
我一直覺得物理學是一門很有野心的學科。物理學家這個群體幾乎不會放過任何潛在的獵物。一定把X Science還原到最基本的尺度或者推進到X Engineering才肯罷休。
而且他們總是喜歡從「真空中各向同性的球形雞」這種naive的模型開始研究,最後發展出的理論卻又是普適的。從解釋氫原子光譜開始到量子化學,從熱力學/統計物理到分子生物學、生物物理等,物理學家總是喜歡用自己的理論去征服越來越多的領域。
總的來說,他們有這樣一個信仰,大自然有著統一而普適的規律。
這裡有兩個關鍵詞,一是物理意義,二是數學結構。
而物理學家進入其他領域的法寶就是找數學結構和物理還原。
只要被發現有和某個物理模型類似的數學結構,那麼他們要研究的問題就變成了一個物理問題。為了更清晰地理解這個問題,他們會試著找出對應的物理模型,去完成未知問題到已知物理模型的映射。映射一旦完成,這個問題幾乎就被攻克了。只要對應的物理理論不是弦論,那麼從數學工具到模型圖像都會變得很清晰。
「深度學習和重整化群可以建立嚴格映射」就是這群飢餓的物理學家的獵物。
然後大家可以想一下,為什麼「真空中各向同性的球形雞」可以引出極為有用且普適的定律。
RBM 只是 DL 中的一個方法而已,而他們只是將這個方法中的一個架構映射到了 Ising model 的 RG 上,但是他們的方法並沒有 generalization 的能力。其他的 Neural network 架構是否能對應 RG 呢, 對應的物理模型的 energy function 怎麼寫呢?用他們的方法是做不了的,甚至給不了什麼 insight,有可能這個對應只是個巧合。可更嚴重的問題是,這些工作並不能回答 DL 中的任何一個問題,比如 @Droking提到的設計神經網路不用靠猜,這是想多了,如果說不是靠猜還需要回答「為什麼是 Ising model?」 @劉慎修
如果說是其他模型的話反而不好辦。但是偏偏是Ising Model實在是太巧了。
量子退火演算法是基於什麼模型?Dwave的硬體構造是什麼樣子的?
量子退火就是基於Ising Model的,Dwave硬體構造就是在用超導環構造Ising Model.
這個工作說明,之前研究Dwave/量子退火/絕熱量子計算的物理學家們的眼光很準確。機器學習的確是量子計算的最佳搭檔。因為太多地方可以找到類似的數學結構。現在連重整化群都被發現了。
Quantum Computing和Quantum Information是可以涵蓋經典計算機和資訊理論的一套工具。這個時候我更願意把量子計算和量子信息視為一種數學框架,而不是物理理論。
現在幾乎所有在建的量子計算機實驗室的目標都是機器學習。說明從IBM到微軟,從CIA到洛克馬丁的選擇都是對的。
機器學習里會有越來越多的物理模型被發現。這個信號越來越明顯了。
我隨便翻一翻桌上已經列印出的paper,除了常提到的量子退火和伊辛模型外,應用到的模型還有:信息檢索-密度矩陣,NLP里的語義近似度-量子糾纏,經典概率對應純態-量子概率對應混態,異常探測-費米子/費米狄拉克分布,CV里的對象提取-量子隧穿效應..
還有幾個月前微軟出爐了一篇《quantum deep learning》.
【http://arxiv.org/pdf/1412.3489v1.pdf】
如果這個工作的方向能引導我們把deep learning的映射到某種物理模型,那麼deep learning就就會變得非常清晰。如果是Ising Model那就最好不過,量子計算直接就能跑。如果是包含Ising Model的某一類模型,事情也會簡單很多。除了弦論以外,物理學家處理這些模型都是很有經驗。
【為什麼說弦論呢?因為從理論上來講,弦論可以統一描述四種基本力。是物理學目前擁有的最general的工具,但由於太過general,我們也還不太理解這個東西... 大約就是雖然我們知道那是弦論,但我們其實不太明白弦論中出現的一些東西到底意味著什麼。】
回到原題。個人覺得,能完成一個簡單的映射就是非常好的開始,哪怕這個映射只能描述「真空中各向同性的球形雞」。如果真的能在deep learning上獲得更general的結果的話,deep learning很可能就用Ising Model或者類Ising Model就足夠了。如果不能得到general的結果,試著針對deep learning用不同類型的模型也無妨。重要的是數學結構的相似性。
【從目前的量子機器學習的進展來看,我根本不信deep learning會需要我們動用弦論這種物理學最尖端的工具。弦論畢竟是我們目前描述自然的終極絕招。學一些deep learning再學一下弦論,就很容易感受到,數學上來講就是TNT對原子彈的感覺。等 computer science真的變成很science的東西,弦論中一些似曾相識的數學結構會在CS里再次出現也不一定。不過這是後天的事,人類可以明天再想。】
3)匿名用戶和 @傅渥成 給出關於臨界現象的想法也很棒。
在物理學中, RG 一個重要的應用是給臨界現象分類. 各種看似不相關的現象, 不同的模型, 在臨界點附近的行為可能是完全相同的. 我們也有理由期望, 這種分類方式也可以應用在 DL 上, 給各種表面不同的 DL 模型進行分類.
Ising Model以及類似於神經網路結構的物理系統里,系統一般會有幾個不同的相/Phase.
那麼深度神經網路里,不同的相,各個臨界狀態對deep learning來說意味著什麼?處於不同臨界點或者相里的深度神經網路會不會有完全不同的行為?這不是很有趣的一個問題嗎。
事實證明
在做理論分析的時候
還是要靠有實踐經驗的人來做
自己去想現在的NN裡面冗餘系統部分多還是粗粒化部分多。。。。
一個層層信息壓縮的系統效果會好真的見鬼
對應是個巧合就算了關鍵是沒有冗餘的系統能generalize就怪了
這類理論是描述如何壓縮信號的,只適用於使用重構誤差的DL方法,例如RBM、AE等,而對於語義抽象等DL的精髓,還是無法解釋。
我同意最終DL也許會從物理學中得到啟發,但我覺得應該從對稱性原理角度入手,」舉一反三「這種能力實際上就是找到了某種對稱性。
當然我這是一家之言,且無理論依據,歡迎討論,請輕噴。
這句標題反過來說也可以啊 這是我的第一個反應
深度學習模式有很多不僅僅是結構上的也存在一個數據處理種類等等的問題 但是rg主要是一個對數據的整體協調以達到和現實相符的模型 這裡可以看到其中的共同點 那就是都是類似於教師學習的方法以得到和現實更契合的模型
相對原理來說rg略遜一籌 rg僅僅是事物的通性能和深度學習原理有關係(通性就是世界上很多事物都共有的表現宇宙進化的特性表現 比如黃金分割等等的通用公共設施...)
深度學習雖然和rg類似但是不局限於一直數據上的處理問題 我覺得這其中甚至包含了一種類似思維原理模擬的模式存在 馬上格調高了許多 超越數學模型的限制就是這麼任性...
總之呢這些研究課題和計算模型本身就是對自然原理的一種逆向破譯 最後來用簡陋的數學公式來表達然後沾沾自喜一下
繼續在自然的淫威下繼續埋頭奮鬥 rg只是對物質原理的模擬就算有第一性原理 本身也是漏洞百出 猜個大概 想深度學習這類已經超出了物質基礎換為更加高級的存在形式模擬 兩者相較還是不要再看了...
淡化又說回來 額 兩者都是我們研究中重要的不能忽視的問題 偶爾也能相互靠通性來啟發一下 然後再進化成為個性鮮明的特性理論
推薦閱讀: