從一個生物物理模型看數據科學思維

數據不是全能的,沒有數據是萬萬不能的, 數據終結者鐵哥的一天又在上午十點準時開始了, 他打了一杯卡布奇諾咖啡, 翻開郵箱 , 看到一組新的數據, 哇, 原來是一些新的神經細胞放電數據:

看到這樣一組數據, 你會想到什麼? 真是tmd頭大, 這都是些什麼鬼數字 , ,這就是時間序列, 一組量(神經細胞放電)隨時間的變化而已。此處神經細胞放電是由外電極刺激引起的(有點像扎針灸),如下圖, 一組隨時間均勻分布的電極刺激引起細胞放電(AP=Action Potential),得到的結果一代表放電,0代表不放電。

不要怕,有數據終結者鐵哥。其實數據科學家好比老中醫,講的是望聞問切,看我有耐心的一步步給你講來:

一所謂,鐵哥給你用另一個方法展現一下這些數字。 數據科學家有一種點,其實也要做到這一點,首先要做的是合理的呈現數字,也就是讓肉眼都能看出門道來。

呈現數據最難的是畫什麼,低手關注局部, 高手以小見大。我們設計一組能夠全面總結數據特點的特徵量對數據集做總結幫你看到數據的全貌。 此處的研究一個圍繞某個均值擾動的時間序列, 你最重要的特徵之一就是是它的波動性(隨機性),而總結波動性要在不同時間窗口裡對變數進行平均,來看變數背後的動力學模式。為什麼要在不同的時間窗口做平均呢? 因為我們認識事物總是從不同尺度入手的,你要了解你的住處, 你要看從你的房子,街道,直到城市國家, 所謂全局觀。深度卷積神經網路不就是類似的思路嗎? 所以, 我們一口氣把時間序列在不同時間尺度上看到的波動圖都畫出來:

Time(s)

看來我們在不同時間尺度里得到的波動是非常不同還是非常相似(相當於我們用一個放大鏡不停的zoom-in,觀測曲線圍繞均值的波動,圖中不同顏色的曲線代表不同尺度下平均到的信號)。衡量波動大小的方差在任何尺度下都非常巨大, 比如我們看到藍色(10s)和紅色(1000s)的線波動真的好一致,這說明波動在任何尺度下都非常顯著,也就是神經元的輸出極端不穩定(有點像股市大盤)。

這樣的波動術語叫粉色雜訊,相對於我們熟悉的白雜訊(沒有記憶, 無時間關聯),粉雜訊是一種隨時間放大的不穩定性,這意味著當你在某一個時間點打碎了一個杯子, 這個影響可以擴算開去影響你的整個一生(許多系統具有類似粉色雜訊特性,如大盤)。粉色雜訊使得細胞的輸出變得高度的不穩定, 你在一點的隨機性可以導致整個未來的改變, 因此你看到複雜無序的變化, 所謂波動無常 。想想神經細胞通常被認為如電子管一樣是一種精確處理信息的工具, 這樣的混亂無序讓人感到無法接受。

不過我們很快有一個好消息,剛剛忘記說我們細胞輸出是在電極輸入隨時間均勻分布下得到的,當我們把這種分布打亂(也就是使輸入變得不穩定,隨時間變化,如下圖紫線),我們得到如下結果:

我們用同樣的方法對輸出做平均, 得到不穩定輸入下的細胞輸出, 你發現大部分信號的波動變成可預測的,你拋出一個波動巨大的外部信號, 細胞的活動卻變得很一致。 穩定的輸入下輸出混亂不堪, 而不穩定輸入下輸出卻高度一致一唱一和。 這不是逆天了嗎?你不要騙我啊。

在此我們我們進入了第二個環節, 「問 ! 」

這就是數據科學家從大量數據垃圾中挖出寶的過程。 機械的數據背後,潛藏著深邃的解釋世界變化的理論, 一旦犀利的問題揭示出理論本身的不自洽, 就有可能有一座金山等待我們去挖掘!

數據背後真實的東西,是非同尋常的生物本質,它如此鍾愛那些混亂的,複雜的, 隨時間劇烈波動的輸入, 在它們的指揮下變得有序,如同待命哨兵。

也許此種深藏的,就是大腦處理信息的某種深藏機制,也就是對波動和暫態的喜好, 如果你給它一個自身靜止的數據,它反而無所適從啊。

當然如我停留於此, 則謂之玄學, 而數據科學家與玄學家的區別,是下一步,「切!」 即提出一套提出假設並檢驗的辦法,我們用模型來驗證假設帶來的結果, 看這種結果和真實是否一致。 由此知道我們能否真的洞察本質, 以及是否得到了新的現象,如同大偵探和預言家。

這就是模型大行其道的時候了, 我們大膽的提出問題, 神經信號不穩定的來源是什麼? 我們開始看到在信號剛到的前60秒那可不是這樣的,那個時候每個細胞的反應如此有序, 如此有求必應。 後面怎麼就不行了呢? 想想我們人上課也是這樣的, 開頭5分鐘個個精神, 後來就不行了。為什麼? 累了 , 餓了,就會帶來風險和波動。

神經元為什麼會累了呢?我們發現了一個有趣的東西, 叫做鈉離子通道,神經元之所以會放電,是因為無數離子通道的開啟導致的電壓瞬時升高, 外輸入到來, 離子通道打開,可惜的是離子通道的開合是耗能量的, 隨著時間遷移, 神經元逐步疲憊, 一旦疲憊了, 它就停下來不再能跟著外輸入動了,自己先歇一會, 再不定時的打開 ,這樣就引入了隨機性。 你瞧, 多聰明的想法,看似複雜無序的反應,不過是一種如此簡單的機制就可以是說清。

btw: 鐵哥告你這招也可以用於追女孩,所謂死纏爛打,就是總有等到她累了餓了,然後大腦意志出現隨機性的時候, 然後你用cookies引導一下就有可能僥倖成功了。

或許我們只要抓住這個機制模型就成功了! 在數學物理家的眼裡,說這麼多, 無非是一個小小的微分方程(下圖中心), 我們用興奮性(x)表示神經元的能量,你神經元放一次電(y), 就耗費一點能量(U), 不放電它又會自然恢復, 當然這個恢復不是立即的,而是有一個遲滯時間(取名tau)。 這樣的機制使得一旦細胞放電多了則休息, 休息多了又自然開啟,就引入了波動性,而且這個波動性跟遲滯時間tau高度相關。

圖: 簡單模型, 模型是一個轉化器,把輸入通過微分方程轉化為輸出。 左下圖是微分方程描述的過程,右下圖是放電和興奮性的概率關係。

這個模型得到的結果的確可以解釋細胞在穩定輸入下的波動性, 卻無法解釋在不穩定輸入下的一致輸出。 當一個側面得到擬合,則另一個方面變得很差,模型一定走錯了。

最終一點點靈感加上機器學習救了我們。 神經細胞具有對多變信號的偏好, 一個可能的原因,是神經細胞內部具有某種跟隨外界的信號而變的特徵,或者說細胞是一個自適應的體系, 隨著外部信號變化系統參數, 通過大量讀文獻(此處省略萬言)我們選擇恢復時間tau作為這個隨時間變化的參量, 我們大膽假設這種tau隨時間變化, 並且這個變法方式和細胞興奮性有關, 用機器學習,我們求得最佳擬合實驗數據的這一函數:

模型得出在穩定輸入下的複雜波動和波動輸入下的穩定輸出,跟實驗現象一致。我們通過機器學習的交叉驗證大法, 得到接近理論預測的預測效果,而且預測精度接近理論極限。 不要忘記我們只有6個參數要求,鐵哥-數據的終結者!

圖: 神奇的模型效果, 藍色為訓練集,紅色為測試集。

不思考問題數理本質的數據科學家都不是好科學家。模型是否能再幫我們找到神經元表現的這種神秘性質的原因?我們拋出動力學大法動力學的世界觀(一)!

我們進一步發現了神經元變化的動力學機制- 所謂邊緣穩定性,即神經元的變化處於穩定與不穩定的邊緣, 一方面在無外界變化驅動下, 它傾向於走向失序。而一旦出現外界信號的劇烈變化, 這種邊緣穩定性反而提供更為靈活的適應力,可以根據外信號本身靈活的變化自身時間尺度,如同某種「彈性」 , 具有對多鐘不同時間尺度的信號進行學習的潛質。

致辭鐵哥完成了望聞問切的過程。如果我們具有無數這樣的神經元,或許得到了一個新的AI模型,可以很靈活的處理和時間相關的問題。

比如說siri吧, 她已經可以很輕鬆的在安靜的環境下和你對話, 然而一旦外界有雜訊siri語音識別的準確率會迅速下降,這裡面的問題是她很難從背景里識別出人聲來。 而人類神經元完成這類任務得心應手, 會不會引入自適應性模型和動態神經尺度就可以解決這個問題呢? 我們可以從相對緩慢變化的背景里挑選出快速變化的人聲並加強對它的反應,猶如某種注意力機制,說不定鐵哥模型真的會是未來啊 。

這就是數據終結者鐵哥的一天。它拿到一堆沒用的數據,動動草稿紙想出幾個問題, 做幾個不靠譜的假設, 然後再用機器學習把它變成靠譜的模型, 最後鐵哥不僅解釋了他看到的,還預測了無數他看不到的,驗證了一個哲學,得到了一個工具。想想如果把這項技術用於金融和商業, 是不是很可怕呢?

該文是鐵哥博士期間研究成果之一, 目前處於神經科學頂級期刊Journal of Neuroscience最後一輪審稿階段。


推薦閱讀:

中國學者構建高精度乙醯膽鹼能神經元全腦圖譜 | 前沿
總覺得有人在暗中觀察?難道我有神秘的第六感?
智能可穿戴設備 Thync 使用體驗怎麼樣?
項鏈細胞:氣味信息處理的新邏輯
專欄專屬小密圈「腦人言」開通了!

TAG:大数据 | 机器学习 | 神经科学 |