人工神經網路——跨學科應用的大殺器

作者:許鐵

本文為巡洋艦神經網路分享會總結,以人工神經網路為圓心,介紹神經網路在跨學科研究中的神奇應用,以饗讀者。

感謝本次邀請嘉賓 - 楊東平博士的貢獻。楊東平博士在複雜系統,平衡態神經網路領域均有建樹, 目前在悉尼大學從事博士後工作。

神經網路這個東西,隨著最近阿法狗和深度學習的熱絡, 真是火遍全球, 人們已經快把它看成一種新興生物 , 卻忘記了它的真實出處, 我在巡洋艦的此次講座, 從物理學,複雜科學 ,計算神經科學與人工智慧的角度綜合分析了神經網路這個玩意。

從物理角度看神經網路: 自組織湧現與複雜科學

要說物理學家看神經網路, 就不能離開統計物理。 物理學家把神經網路看成無數神經細胞相互作用組成的一個整體。就如同理想氣體是無數分子的組合或金屬晶體是原子的組合類似。 雖然單個神經細胞只有一個簡單的作用, 就是把接收到的信號(stimulus)轉化為一定的輸出(spike) 。 但是這樣一個簡單的東西通過大量加和的網路效應卻可以產生智能這種十分複雜的現象,這正是物理里說的湧現性。所謂簡單的東西堆在一起足夠多, 突然之間產生了一個更加複雜和高級的現象。 這種由於尺度跨越造成的飛躍性變化。 物理學認為是自然界各種複雜的東西形成秘密之所在。

然而和神經網路最接近的物理恐怕是易辛模型。易辛模型特別簡單易懂,說的是在一個網路里,每個單元都只受到自己鄰居的影響,大家在一個集體里, 每個個體都有到與周圍人做類似行為的趨勢(趨同力), 同時也受到各種隨機性的影響來破壞這種趨同效應(溫度, 熱擾動), 最終整個網路的狀態是這兩種力量平衡的結果。 如果溫度比較低的話, 最終網路將會呈現一種整體一致的狀態,因為這個時候系統總體能量最低。而溫度高的時候,系統更加趨於無序。 這種從有序到無序,無序到有序的變化在某個溫度上突然發生。 易辛模型解釋了大規模宏觀秩序是如何從自由散漫的群體中湧現的, 還真的被用在了生物神經網路的研究上, 大名鼎鼎的Hopefield網路的理論就是用這種機制解釋大量神經元在一起如何通過微弱的相互作用來實現集體編碼和儲存一個信息的。在此處物理系統喜歡呆在能量極小點的原理忽然變成了神經網路進行決策的物理基礎。 那個使得網路總體能量最小的狀態,對應你做的決策。

易辛模型: 每個磁針都有和鄰居保持一致方向的趨勢, 這種簡單的作用力導致大規模的秩序的產生, 比如一個社區群體的意志是如何趨於一致的。

從相變的角度看神經網路, 我們可以理解很多我們常常百思不得其解的問題, 如我們是如何睡覺的。 從醒著到睡覺, 人腦會發生一個劇烈的變化, 這個變化其實跟物理裡面水結冰的現象很像。 是從自由的狀態, 到極為有序的狀態。 如果你觀察從醒著到睡著的腦電波變化,你會發現波形湊某一點上一下子變掉了,這過程與相變是多麼相似。 睡眠,冥想,愛上一個人, 或許都可以看做這種大量神經單元 在某種條件下從一個整體狀態跳到另一個整體狀態的相變。

多種多樣的腦電波反應大腦的宏觀狀態

物理學角度對神經網路的貢獻當然不止於相變和湧現性 , 更主要的貢獻是非線性動力學。非線性動力學的方程式甚至精準的預測了神經細胞放電這個極為複雜的理化過程, 這就是大名鼎鼎的Hodykin-Hulex 模型, 在這個模型中, 巨多繁瑣的實驗現象被一組精心編排的微分方程同時消滅掉, 堪稱物理解釋生物的神跡。你如果在電腦上跑一些這個方程,得到的現象近乎和細胞真正放電時候不可區分。

Hodykin Huley model預測的神經元放電動力學模型: 左圖是複雜的方程,右圖是神經元放電電位隨時間的變化,我們可以看到這組複雜的方程把神經元的離子通道變化進行了精確的定量描述。

對於神經網路的動力學解釋主要基於物理的混沌理論。 因為神經網路作為一個高維繫統, 它的行為正好符合混沌的框架, 你去擾動任何一個神經元, 則產生的後果不可預料, 符合南美洲的蝴蝶扇扇翅膀引來北美的颶風這個比喻。 我們都知道生物的神經網路可以極為精準而穩定的決定動物的各種行為, 這樣一個混沌充滿隨機性,看似不可控的網路, 是如何給出那麼精準確定的行為的? 這就與物理里降維的思想暗自相通。高維度的網路系統在某個任務的時候, 可以被化解到更低的維度里用動力學完全解釋,這個過程暗自通向人工智慧的核心。

從生物角度看神經網路

生物學眼裡的神經網路估計是最複雜的,生物學家注重細節和功能, 我們要理解網路,就要去解剖, 做電生理實驗, 做各種神經成像。 首先我們關注神經細胞之間的具體鏈接,然後我們關注這些連接實現的載體- 突觸的性質。研究細胞之間通訊的關鍵,神經遞質。 神經遞質又是由一定的DNA編碼的,最後我們又回到了遺傳學。 跑完一圈我們得到感知, 到決策,從而心理現象的生物解釋。懂得吃哪一種葯可以讓你春心大作。

再次強調生物學家是特別重視細節的, 因為生物神經網路的研究思維也是一個一個搞清楚網路的連接,搞清哪個細胞是輸入, 哪個是輸出。 來自這方面的觀點認為, 如果我們能繪製一個神經元之間聯繫的精密地圖, 我們就搞清楚了大腦是怎麼回事。 這種觀點又叫connectionsim。可惜的是這個工作太艱巨,目前離這個目標還非常遙遠。

生物對神經網路解釋最有意思的現象還是學習,神經細胞之間的連接-神經突觸是隨時間不停變化,這種微妙的變化由神經活動所致,一個細胞經常和另一個細胞一起放電,他們的聯繫就加強,因而他們所代表的信息就聯繫起來,這就是學習的基礎(Hebbian learning)。

生物學家的工作是整個學科的脊樑,尤其是有關神經活動成像的工具。 沒有光遺傳這些生物技術的開發, 人是無論如何可以直接看清大腦網路里到底在幹什麼的。 還有鈣離子成像, 神經白質成像等, 沒有神經生物學家日復一日的工作, 我們對神經網路的思考只能是一種YY, 而人工智慧也難以有更長遠的發展。

光遺傳學, 即用光對神經細胞的離子通道進行有效控制而操縱神經元的手段,是研究神經網路的神器之一

從信息角度看神經網路

從信息學的角度看, 神經網路這個東西就是整合各種信息的工具。 生物進化出神經網路, 是因為他們所面臨的信息錯綜複雜, 而如何把不同的信息整合在一起, 判斷誰是獵物誰是天地什麼時候該走什麼時候該留, 事關生死。 那麼整合信息, 就是第一要務。

信息學喜歡從貝葉斯分析的角度看神經網路。所謂貝葉斯分析, 就是把新增加的證據和之前形成的信念不停進行綜合,來做當下的決斷。要做這種綜合, 顯然一要能夠不停收集新的信息,二要儲存和調用之前信息,三要根據前兩者對未來做出預測並行動, 最後要能夠根據之前信息改變現有網路的狀態 , 這三種分別對應感知,記憶,行為和學習。

感知信息要做到盡量精準的反應與決策相關的外界信號的特徵,如在人海中抓取出一個美女。 處理信息在做的把之前的經驗和現在的信息結合在一起預測未來,如你知道根據以往的經驗美女難追, 但是這一次美女特別熱情所以你預測她和之前人不同。 最後根據這個預測進行有效的行動,並根據反饋進行學習,比如還是失敗了或被騙了錢, 那就加固你的信仰-美女難追,如果成功了,就修改之前的信仰-美女也是可以追的。 這樣一個精美的框架不僅給生物神經網路的運轉提供了天衣無縫的解釋,而且也與機器學習里的統計學習理論不謀而合 。 用這個框架我們可以很好的推測大腦是如何把所謂視覺聽覺嗅覺信號綜合在一起的,我們為什麼要思考要理解世界,我們為什麼既關注過去也關注未來,一切都是為了形成一個更準確的對世界的建模, 來預測, 預測,預測。

貝葉斯公式- 把新的證據和舊經驗結合的概率方法

作為AI基礎的神經網路

AI這個東西, 的確是靠著神經網路的功力得以發展壯大, 不過它最初倒不是模擬神經網路, 而是想要直接做出一台會思維的機器, 可惜人類的思維畢竟有瓶頸。 我們發現還是要藉助仿生,從生物那裡吸取營養, 於是有了人工神經網路。因此, 無論人工智慧無論如何吹它和其他門類神經網路的不同, 都不可擺脫其仿生基礎。

人工神經網路的第一個里程碑是感知機perceptron, 這個名字其實有點誤導, 因為它根本上是做決策的。 一個感知機其實是對神經元最基本概念的模擬 ,都未必有多少網路概念,他就是一個自動做決策的機器

比如說你要決定今天出不出去看電影, 你要考慮3個因素, 一個是女朋友在不在, 一個是電影好不好看, 另一個是今天有沒有工作, 這三個因素每個人的權重都不同,有的人看重女朋友, 有的人看重工作,所以權重就不等, 最後每個人根據自己的權重做出0或1,去或不去, to be or not to be的決策。那麼你怎麼做呢? 你把三個要素按照它們需要的權重加和在一起, 在把這個分數送到一個叫sigmoid的門面前得到去或不去的決定, 工作原理如上圖。

比單層感知機更複雜的多層感知機-或者我們常說的深度網路, 是進行數據處理和模式識別的利器。 深度神經網路之所以能夠處理這些數據類型,主要是因為這些數據本身具有的複雜結構很適合被NN識別, 而人類不需要預先設計識別這些結構的函數而是任由網路學習, D-CNN 深度卷積網路能夠同時看到一個圖像從細節到抽象的結構,所以能夠抓住一些我們人類都說不出的細節。

DCNN 深度卷積網路,信號在多級網路里一級級傳遞, 從而使得從微觀到宏觀的特徵都得到分辨 。 每一層神經元之間沒有相互連接。

而RNN- 反饋式神經網路(每一層神經元之間有相互連接)則適合處理sequnce序列類的數據, 發現序列內部的時間結構。

RNN 之所以具有這個能力,就是因為網路內部通過自反饋, 具有之前各個時間點的輸入信息, 因此它可以從無限久遠的歷史裡推測系統的未來,RNN與之前的卷積網路相比最大的特點是它包含了動力學特性,如果說卷積網路是任意函數逼近器,那麼RNN就是任意程序逼近器。 猶如包含某種工作記憶。用一個比喻來說, 就是RNN猶如一個寬闊的池塘寧靜的水面, 當你投入一個石子, 激起的漣漪會在水池裡不停反射傳播, 這是對石頭進入那一時刻信息的保存, 如果之後在落入一個石頭, 那麼它再度激起的漣漪會和之前的水波疊加作用, 形成更複雜的相互作用和紋樣。

RNN示意圖, 同層神經元之間有相互連接,從而使得歷史信息在網路里向回聲一般交替傳遞

RNN 具有相互連接的反饋式神經網路也是最接近生物組織神經網路的人工神經網路, 具有更多的未來潛力,只是它的訓練比feed forward network更複雜。

人工神經網路的訓練就如同生物神經網路的學習, 都是一個不停試錯並減少錯誤的原理, 不過人工神經網路的方法更加簡單化, 比如gradient descent,就是說在參數空間里尋找使得錯誤減少最快的方法改進。

人工神經網路對於生物神經網路的奇妙之處在於, 它反過來啟迪了生物神經網路是在幹什麼的, 就好像費曼的那句話「 你要想真正理解一個東西, 就造出一台」。

不同領域的神經網路的交叉

神經網路這個東西是最能體現跨學科交叉的概念之一。既然自然界選擇這樣一種結構作為生物決策和智能的必殺器, 必有其道理, 人類只模擬了十之一二,配以強大的計算機集群,就能夠產生阿法狗這樣的利器, 其未來潛能未曾可知。

其實各種角度的神經網路,是互相交叉, 你中有我, 我中有你的。比如物理的神經網路, 和資訊理論的神經網路有非常緊密的關係。 而它們都與生物神經網路和AI有千絲萬縷的聯繫。AI里最近引入的注意力,記憶等演算法, 也都能找到其生物學對應。區別只是AI並不關注那些生物的限制, 而可以通過任意虐計算機在一些局部領域超越生物。

各個領域的神經網路都以「學習理論」為核心, 物理里叫做尋找能量最低的解, 生物里叫神經可塑性, AI里叫深度學習,其實都是把網路理解成一個根據外界輸入不停調整的變化過程,不同學科對這過程的最終目的提出不同的解讀。

各個學科眼裡的神經網路你中有我,我中有你的關係在AI里體現特別深刻。 比如, 目前的人工神經網路不僅加入了記憶, 還加入了注意力, 甚至加入了好奇心, 一個不懂AI的人很可能誤解為這是心理學研究, 而事實上, 心理學研究的人也可以從這些AI里得到啟迪。

回到那個深刻的問題, 神經網路為什麼有作用? 單獨站在一個學科的角度絕不可能明白。 人工智慧的人研究了半個世紀, 最終回到類似生物網路的結構, 忍受因此帶來的複雜度, 這背後必有其深刻的原因。 這個深刻的原因只能通過物理和複雜科學揭示。

為了一個簡單的任務,生物進化出那個複雜的網路,為什麼? 這就與生物要適應多種而非一種複雜的環境有關, 或者說適應性, 或者說魯棒性, 一個沒有適應性的生物是沒有前途的。 同理,一個沒有類似生物的適應性和魯棒性的AI也走不了多遠。 神經網路的功用正是由於它引入了生物複雜系統的基本原理, 雖然只是冰山一角。

也正如前文不斷提到的, 從各個角度對神經網路理解的突破, 會很好的促進其他領域的理解。現在人們對AI的熱情容易讓人忽略了其他幾個角度, 而單純把神經網路變成一場集體調參數的盛宴, 則對整個領域來說是某種損失, 減少了許多發展的可能性。

本文轉載自微信公眾號混沌巡洋艦(chaoscruiser)。

(作者許鐵 微信號 562763765)


推薦閱讀:

《A Decomposable Attention Model for Natural Language Inference》閱讀筆記
BP神經網路優化方程式的推導
Google黑科技系列 4:自動修正你的靈魂畫作autodraw.com
可怕!斯坦福AI看臉即知性取向,國外媒體和網友都炸了

TAG:神经网络 | 跨学科 | 人工智能 |