工程領域的人工神經網路和深度學習等方法，是否需要尋求其在神經科學、認知科學和生物學等其他領域的合理性？

01-05

借鑒生物科學來進行機器學習研究的例子比較多，比如神經科學中的赫布學習機制（Hebbian learning mechanism），等等。與此同時，也有一些學者對已經在機器學習中實測有效的技術和方法，嘗試從其他學科的角度進行解釋：例如深度學習中的ReLU函數（Rectified Linear Units），有學者從大腦神經元的電特性角度出發，對其合理性進行了分析和討論，等等。
本人同意，從生物學等角度來思考問題，可以提供新的問題解決思路（比如最直觀的，人工神經網路本身就借鑒了大腦皮層的結構特徵）。但是，比較疑惑的是，是否有必要為這些方法或技術尋求在其他領域的理論依據或事實支撐（就比如ReLU函數，已經在實際中體現出了有效好用、簡便易行的優點，何必bother再去尋找其他的justification呢）？或者，探索這些方法或技術與其他領域的相似性/相通性，能夠對各自的研究產生什麼樣的助益？以及，在這些學科之間長期以來的相互影響中，已經產生了什麼樣的助益？

新近入坑，請不吝賜教。歡迎各學科各領域各專業的各路大神，先行謝過。
本題已加入圓桌 ? 漫談機器智能，更多「人工智慧」相關的話題歡迎關注討論

我覺得問題中至少包含兩個子問題：

1. 如何定義合理性？什麼叫做『神經科學、認知科學和生物學等其他領域的合理性』？
2. 為什麼我們需要尋找生物合理性？給工程方法尋找生物合理性的原因和動力是什麼？

首先的問題在於：什麼叫做『神經科學、認知科學和生物學等其他領域的合理性』？

根據我的觀察，很多時候，所謂的合理性指的是符合對應科學的觀察和現象。這些觀察和現象能夠在一定的層面上解釋神經系統信息加工機制，但是並不代表這就是整個故事了。因為這樣一個具有神經科學合理性的理論或者現象很有可能是一個結果，而不是一個原因，而你需要解釋為什麼這個生物合理性的規律是『合理的』。比如我們說Hebbian Rule，這樣一個神經科學理論用一句話描述是fire together, wire together。這個規則主要是描述了神經元連接的一種規律。但是，為什麼會需要有這樣一種規律？這種規律要完成什麼樣的目的和功能？每一個所謂生物合理性的設計背後都需要有更多的研究來解釋：為什麼這個設計是合理的？如果工程領域的研究能夠解釋這個『為什麼』，那麼就是這個工程方法來解釋生物合理性，而不是尋求生物合理性。

舉個例子，我們看到鳥在飛，然後我們決定做一個飛行器。在做這個飛行器的過程中，我們使用很多工程的方法。我們在這個過程中是否單純地尋求這些飛行相關的工程方法和原理的生物合理性呢？我覺得不是。我覺得是這些方法的研究使得『鳥有翅膀』、『鳥長成流線型的樣子』這樣的生物學現象更加合理了，而不是『鳥有翅膀』、『鳥長成流線型的樣子』使得這些方法更加合理了。這些方法本身的合理性是需要大量的物理學實驗和理論推導來證明和支持的。

第二個問題在於：為什麼我們需要尋找生物合理性？我們是希望用生物學的合理性的規律使得工程學的方法看起來更合理一些，還是怎麼樣？

如果我們說『這個工程方法是合理的，因為人腦也是這麼做的』，這完全沒有解釋這個工程方法的合理性，這叫甩鍋，一口鍋全甩到了人腦研究的研究者身上。為什麼人腦要這麼做？為什麼人腦這麼做是合理的？為什麼人腦這麼做就是高效的？為什麼？

我們的根本的目的在於：我們是為了解釋和理解事物背後的原理，而從各種不同的角度和學科來思考，我們當然不能只停留在『這方法好用』，我們還要了解『為什麼這個方法好用』，對工程方法也是這樣，對神經科學研究也是這樣——這也是我們為什麼能夠有無窮盡的研究可以做的原因之一。如果神經科學上相關的知識，能夠幫助我們理解工程方法的工作原理，我們當然可以使用我們懂得稍微多一點的神經科學研究結果來解釋現在我們並不是太懂工程方法。我們的目的始終是為了更好地了解工程方法本身的原理，而尋求生物合理性只是一種工具和途徑，能夠幫助我們達到我們的目的。

比如神經科學中的『感受野』這個概念，很有可能在工程上發現這是一種合理的控制計算複雜度的過程（我都是猜的，我不是研究深度網路的）。將來的深度網路研究很有可能從數學的角度解釋為什麼『感受野』這樣的設計能夠是的運算更加高效——比如有可能是減少冗餘，或者降低相關，或者其他的什麼的。如果我們知道了數學方面的解釋，我們可以回到大腦系統來看，在整個大腦皮層為什麼需要這些功能——比如減少冗餘，或者降低相關——從而幫助我們了解大腦皮層到底在進行什麼樣的信息加工：處理了哪些信息，丟掉了哪些信息，為什麼要丟掉這些信息，為什麼要保留另外的信息，這些保留了的信息是如何決定我們的感覺和知覺的。這兩個學科的共同進步，我相信是可以同時推動這兩個學科的共同發展的。就像當年數學和物理兩個學科互相促進，共同推進發展一樣。

為了說明這種相互性，我試著舉這樣一個例子：如果一個工程方法，比如人工神經網路，沒有使用Hebbian Rule，但是照樣很高效，那又怎麼樣呢？這只是說明我們不能借Hebbian Rule來理解人工神經網路，僅此而已。這既不能證明這個人工網路就一定是不行的，也不能證明Hebbian Rule就是唯一的正確解，也不能說明人工網路就沒有進行Hebbian Rule背後所需要的計算過程和功能。萬一，一個沒有把Hebbian Rule放入設計的人工神經網路，在數萬次迭代之後，自然而然地出現了Hebbian Rule類似的現象——如果不同節點信息傳遞頻繁，他們之間的連接更加緊密——我們到底是去用Hebbian Rule在解釋這個人工網路，還是去用人工網路在解釋Hebbian Rule？

最後，在這裡吐個槽。認知科學家和神經科學家之間經常看不上眼，吐槽對方的研究。

神經科學家看到認知科學家構建那些貝葉斯模型，概率模型，就嘲笑說：神經元怎麼可能做貝葉斯，你這個模型在生物學上就不合理。

你怎麼就知道貝葉斯不具有生物合理性？誠然，一個神經元的動作電位可能很難讓人想像怎麼做貝葉斯模型，但是這並不代表大腦就不在做貝葉斯運算啊。神經元組成環路，環路組成腦區，你怎麼就知道神經環路不能進行貝葉斯運算，你怎麼就知道腦區裡面那麼多神經元一起不能進行貝葉斯運算了？計算機最基本的元件只有0/1兩種狀態，跟神經元比起來差多了，但是連這些元件組成的整個計算機系統都可以非常順利地進行各種貝葉斯運算——不信的話你可以打開Matlab、R、Python，隨你喜歡——為什麼一個更加厲害的信息處理系統反倒是不能做貝葉斯推論了？

我們不能用不具備生物合理性來說一個模型是不合理的，也不能為了讓一個模型合理而強行給它加上所謂生物合理性，因為很有可能是我們現在既不了解生物，也不了解模型。等到我們都了解得更多的時候，等我們逐漸知道背後原理到底是什麼，我們才有可能發現他們可能都是合理的，而且還有可能是同一種計算過程的不同實現方式。

「一千個讀者，就有一千個哈姆雷特。」——科學研究中的品味（或稱為taste）亦然。不同研究背景、科學成長環境下的科研人員對事物的理解和訴求可以說截然不同。

就拿深度學習為例：

以計算機視覺、語音識別等應用問題為研究背景的科研人員基本全是靠效果說話，非常直白的反應了「實用至上」主義，能刷到state-of-the-art的就是好「貓」；
相反，以機器學習，甚至計算理論為背景的研究者則時不時給DL潑點冷水，因為他們更喜歡「知其所以然」。

對於模型可解釋性，Pedro Domingos在今年KDD Plenary Panel上曾語驚四座：

Model Interpretative可能是一個偽問題。在精確的模型和有解釋意義的模型之前，寧願選擇精確的模型。人類的認知局限，恰恰是希望能夠發展出人類所不能解釋的，超過人類能力的模型。如果是為了解釋性，從而降低了模型的準確度，那就違背了Machine Learning的初衷。人類理解不了模型是好事，需要提高的人類的認知能力。

我自己的觀點較傾向於從神經科學等自然科學尋求insight，畢竟「存在即合理」，進化了數百萬年的複雜生物系統還是有它存在和借鑒的必要。不過生物系統與計算機系統仍有極大不同，故切不可完全照搬，需要靈活變通，巧妙嵌入。近期也有不少計算機科學和神經科學領域的專家試圖互通有無，從這條路子做一些微小的工作，詳細內容請移步我的專欄文章：AI vs. Brain - 欲窮千里目 - 知乎專欄。

謝邀，簡單回答，大部分人不需要，工程領域之所以叫工程，檢驗的唯一標準就是高效好用。深度學習最近幾年火熱也並不是因為找到了生物方面的合理性，歸根結底是比別的演算法更好用。

你也說了，『一些學者。。。』，你看paper的這些學者，是在科研最前沿，他們做這個是有意義的。一些世界級大牛，比如Hinton等人，也許尋求在最基礎理論上有突破而關注神經科學。但是大部分人，都是工程人員，活躍在公司，做個項目沒必要去找生物學支持。對於一般人來說，沒啥用。

今天在看一本DL的新書，引言部分里有一些內容跟這個話題相關，暫且引用過來，以便後詳。

先貼出處：

I. Goodfellow, Y. Bengio, and A. Courville, 「Deep Learning,」 2016, book in preparation for MIT Press. [Online]. Available: http://www.deeplearningbook.org/

對神經科學角色淡化的原因的論述，簡單來說是目前的「無知」：

「The main reason for the diminished role of neuroscience in deep learning

research today is that we simply do not have enough information about the brain

to use it as a guide. To obtain a deep understanding of the actual algorithms used

by the brain, we would need to be able to monitor the activity of (at the very

least) thousands of interconnected neurons simultaneously. Because we are not

able to do this, we are far from understanding even some of the most simple and

well-studied parts of the brain (Olshausen and Field, 2005).」

對神經科學在DL中應該扮演的角色的定位，是「啟發」；雖然ReLU等不「切實」，但是目前相對更「切實」的效果卻並不更好：

「While neuroscience

is an important source of inspiration, it need not be taken as a rigid guide. We

know that actual neurons compute very different functions than modern rectified

linear units, but greater neural realism has not yet led to an improvement in

machine learning performance. Also, while neuroscience has successfully inspired

several neural network architectures, we do not yet know enough about biological

learning for neuroscience to offer much guidance for the learning algorithms we

use to train these architectures.」

再貼出處：

I. Goodfellow, Y. Bengio, and A. Courville, 「Deep Learning,」 2016, book in preparation for MIT Press. [Online]. Available: http://www.deeplearningbook.org/

雖然這些論述仍未完全解答本人關於這個話題的種種疑問，但是已經是近期看到的最為客觀、最為合理、也最為無奈的探討了。暫且按下，bearing this in mind，看哪天能不能有所頓悟吧……

看到題主的問題，忍不住過來回答，因為曾經也有過類似的想法。後來也想了一下，得出了以下的結論：

1. 機器有機器的邏輯，而且從最開始的組成就決定了和人類的發展並不是並行的，更不應該刻意去讓機器模仿人類的想法。

以人工智慧為例（答主我是做AICV的），舉個例子，計算機在存儲一張圖片的時候就決定了他的數據結構和數據格式，存儲格式，這些最基礎的開端和人類就很可能南轅北轍，那為什麼要強求兩者以同樣的原理髮展呢？

2. 人類自己都沒理解好自己的大腦是怎麼運作的。

如果人工智慧一直是模仿人類的話，那麼永遠也超越不了人類，因為人類自己都沒理解好自己的大腦是怎麼運作的。個人在學術上看到很多優秀有創新的演算法，陸續出現了很多都是人類智慧想像的結果，從新在定義智能演算法，而不是一味模仿人類。

3. 人類最大的邊界就是想像力。

我個人的觀點是，我們應該多用人類最大的優勢——想像力，而不是去想方設法的利用連我們都只是知道了一點兒皮毛的人腦知識，揚長避短。

循例順一則公司的廣告（不帶不行，近期的目標是要聚集一幫同行）：

我司組織了一個計算機視覺的開發者交流微信群，目標是彙集【計算機視覺，圖像處理，3D圖像，視頻處理，深度學習，機器學習】的開發者，一起分享開發經驗，共同探討技術，有興趣入群的可以加我微信（WeChat: LaurenLuoYun，二維碼如下），請註明「姓名-公司/學校-技術方向-加群」(純交流的無需添加「加群」)，謝謝。

這就涉及到到底哪個層面才是最 fundamental 的層面。

如果從數學層面來說，本質上都是函數映射。

先做此一結論，有時間再展開。

從Neural Network的簡要發展史來看，其基礎模型確實是基於對生物神經系統的模擬。但是模型歸模性，對解決稍複雜些的Machine Learning問題，就要對模型加以數學改造。

比如說，神經突觸釋放的刺激信號（化學物質）始終是個正值，但是改造後的NN模型里這個刺激信號可以是取值為[0,1]的step function，也可以倍增後加上offset，用取值為[-1,1]的hyperbolic tangent 去做activation function。實際上，負數就已經不存在生物學意義了。

以上只是個簡單的例子，為了擬合工程實際，這種改造不一而足。

其實，很多的Neural Network 演算法，譬如說Multilayer Perceptron (MLP) 最大的特點就是其"黑箱"特質。"黑箱"這種特性吧，看你怎麼看待。缺點的話，正如題主所言，脫離了生物學意義，神經突觸的權重沒有任何實際意義。通俗點說，就是訓練後的模型能解決某一類問題，但"為什麼"能解決，解決的實際原理是什麼，都不知道。但也正是這種"不知道"，給了神經網路演算法足夠的的flexibility。理論上來說，再高維的模型，都可以拿神經網路來訓練，而且有一些確實也能產生很好的效果。當然了，用好的預處理方法進行降維以預防curse of dimensionality還是很有必要的。

Machine Learning領域的研究現在好像特別火，智能時代的大門似乎也允許我們往裡面瞄上幾眼。很難想像，這些靈感來源於人類生物學，又註定脫離生物實際條條框框限制的演算法，會把我們引領到一個怎樣的科技世界。

說實話，如果有一天機器學會了Coding（而且這一天肯定會到），那就相當於機器得以以一種形而上的角度繁衍，生物學人類的存在，會不會是一種科技拖累呢？

跑題了。就此打住。

謝邀。題主屬於想太多了，借鑒大腦神經皮層叫做神經網路，其實本質是一個複合函數而已。

雖然確實是一種從底層到頂層的結構，可能受到了生物學的啟發，但是要像真的從生物學角度解決這個問題運算量一定是瓶頸。

人的思考模式很特殊，換成計算機思考運算量會大的驚人。但是人類有特殊的方式抽取特徵，從目前和可預見未來內，人工智慧更多會作為輔助決策系統而不是核心決策系統。所以順著這個方向研究和開發會更靠譜一些，感覺跟生物、神經之類交叉會走歪。

在《神經網路哲學的數學原理》出版前，你提出的任何新穎的技術方案，除了實際效果還不錯外，可能真的沒有一點可以證明其正確性和適用性的依據。

如果稍微換個模型，這套技術方案的效果還能保證么？或許只有實踐才知道。如果依靠神經科學，能將這個方案的適用範圍描述出來，多少給出一點理論依據，那麼是否也可以減少很多不必要的嘗試呢？

工程領域的話不需要。

事實上在工程領域你都不需要知道你在做什麼，只要掌握好每個黑箱的輸入和輸出然後將它們以正確的順序堆在一起就行了。

目前深度學習的研究很像早期的化學研究，沒有一個統一的理論指導，所以很多研究都是借鑒人腦而來的，這個階段估計要持續很長一段時間。

研究領域尚且如此，工程領域就更加如是了，如果對於學術沒有興趣的話，做好一個堆箱人就好了，沒有必要去了解其它學科。

新人不需要。這就像你要先完成機器學習的本科學位，才能做博士碩士研究。

頂級專家，想多倫多大學Hinton他搞了各個領域的專家團隊研究一些基礎問題和理論前沿，然後應用到各個領域。

從功利的角度上來說, 發DL/AI 相關論文的時候, 如果能不咸不淡,沒有太大錯誤的加入一些來自Cognitive Psychology (CP) 的啟發, 會使文章的逼格上升一個檔次. 比如 GoogLeNet, Neural Turing Machine 以及一些列打著 "Attention" 噱頭, 實則weak localization的論文 (你看看人家@周博磊那篇CVPR2016多踏實, 實驗結果畫滿了Heatmap 愣是沒提一句 Attention Prediction) .

從學科上來說, 個人認為感知神經科學和DL之間還是有著比較緊密的關係的:

1. CP--&> DL: 感知神經科學"似乎"為DL的發展提供了一些靈感, 這裡說"似乎" 是因為靈感這種東西本身是說不清楚,不好證明的. 不過看Hinton, Feifei Li 以及Feifei Li的老闆, 看他們早期的研究, 你會發現他們是比較多涉及CP的. 雖然不清楚這些研究是不是對他們以後的發展起了作用.

2. DL --&> CP: DL複雜, 但是相比人類大腦來說簡單得多. @Feitong Yang 專欄中很有創意的提及CPj簡而言之就是一幫100年前的軟體學家對Macbook Pro(大腦)進行研究. 但Macbook Pro 太精密了, 並且功能太多. 相比Macbook Pro, 現有的DL模型大概像是一個模擬計算器: 功能單一, 又比較容易研究, 所以如果能建立起DL 模型和感知理論的關係的話, 就相當於用DL簡潔的為大腦建立了模型. 之前有人試著把AlexNet中的層和視覺系統中的V1, V2, IT等聯繫起來, 個人認為還是比較有理有據的. 前兩年有很多研究在試圖找FMRI下大腦的激發態和DL中間層的激發態找聯繫, 從而更好地理解大腦的工作.

這種聯繫其實不只會在學界有, 工業界其實也在關注, 最近比較火的一個公司叫Vicarious 似乎就比較將注意二者的聯繫: 從這篇文章(馬斯克都投資的矽谷最神秘人工智慧公司在幹什麼-搜狐科技)可以看出他們大概的論點, 個人認為是合理的.

再扯遠一點, CP和DL之間的關係可能還有待商榷, 但是CP和computer vision之間的聯繫則是非常緊密的: 第一, CV早期的時候和CP是不分家的, 第二, 很多CV的經典演算法(Image Pyramid, GIST)是可以比較確定的說其靈感來自於CP的. CV和CP聯繫上的代表人物, 大家可以看下 MIT 的 ANTONIO TORRALBA那兩口子的研究.

膚淺一點來看, CV和CP聯繫緊密, CV和DL聯繫緊密, 因此, CP和DL的聯繫也應該比較緊密吧...

需要尋找合理性, 但是不需要在"神經科學、認知科學和生物學等其他領域"尋找合理性.

讓計算機的歸計算機, 讓生物的歸生物. 不同領域之間有啟發很正常. 但是就因為有啟發一定要在這些領域去找合理性, 這和神棍有什麼區別.

也就是最近幾年DL被媒體和資本炒的火熱, 才會有這種問題.

這世界上相互啟發的事情多了去了, 只是沒人炒, 所以沒幾個人知道, 自然不會有這種問題.

當年神經網路被業界否定,冷門的一塌糊塗的時候, 難道是別的領域的人來找合理性幫助突破的么?

不需要