人腦有海量的神經元（參數），那麼人腦有沒有「過擬合」行為？

11-23

人腦有海量的神經元（參數），那麼人腦有沒有過擬合行為？

根據人們對過擬合的理解不同，答案也不同。這裡不談過擬合的原因，僅談我理解的過擬合的表現：訓練集上表現優秀，測試集上表現欠佳；換通俗的話說，已見過的題目會解答，未見過的題目解不開。

不同意上述對過擬合描述的朋友不需要往下看了。

語音：

聽不懂其他地區人的同國話：

a. 音調/頓挫：排除辭彙不同的情況，即便是相同辭彙，很多人聽不懂大連話的抑揚頓挫。同樣現象的有日本的大阪弁，印度和紐西蘭等英語。
b. 音節：同樣的發音，在某些人的口中會有些許不同。內容相同時，很多人會聽不懂老年人和小孩的發音。
c. 噪音：透過對講機的話，無法聽清從未遇到過的噪音環境的對話。

這些現象的共性都是大家熟悉（表現良好）舊環境（已見的訓練樣本），而不適應（表現不佳）新環境（未見的測試樣本）所造成的。例子中造成「過擬合」的具體原因會有不同。

其他原因造成的聲音會被識別成「合理的聲音」

a. 有個被洗澡的貓的叫聲就被中國人識別成了「巧克力」
b. 外語的很多音會被中國人識別成中文音，中文注音W（打不溜）

這類現象是腦中的神經元的組合只為完成對中文的識別即可，而這種組合有無數種，構建出還能顧及外語音節的神經元方式的可能性較低。

其他例子

畫面：
1. 看不懂別人的字體，只能看懂「規整」的字體
2. 這張海豚圖對曾經純真的我來說越來越模糊了

題海：只會做已經做過的題，而不會做沒見過的題。高考前的題海戰術就是在抑制過擬合。
施工：在熟悉的廚房做飯好吃，。。。

生物學系和機器學習的方式不同，但目的是相同的。
兩者都是從有限的數據中找到可以解釋該數據的映射f，並且再次使用。
只要數據是有限的，那麼過擬合就無法避免。但反過來，如果可以獲得所有數據，用無限大的查找表就能完美表示該映射，這同時失去了學習的意義。

因為學習就是要從有限的數據中獲得較好的f。

過擬合是無法被完全消除的，只能被抑制。大家所說的防止過擬合往往也都是指抑制過擬合。

機器學習和人類學習雖然實現方式不同，但要達成的目的類似。
機器學習所面臨的問題，人類學習同樣面對。
不過大腦有非常好的克服機制。可以嘗試比較一下：

神經網路抑制過擬合有以下常用的幾點，而這幾點在人們日常學習中同樣適用。

拿平時做題為訓練集，高考為測試集來說。

dropout（遺忘），細節有時也能形成規律，但不會每次都形成。遺忘可以去掉那些偶然形成的細節規律，提高普遍性。
shuffle（亂序），訓練的樣本不要有固定順序，而要隨機打亂，同樣可以抑制偶然形成的細節規律。比如不要一直從abandon開始背單詞一樣。
L2 regularization（保持最簡化），解決的方案不要過於複雜。不然只能顧及特例而失去普遍性。
mini-batch（多題一起做），相互比較後得出結論。比如同時看兩本描述不同的書可以得到更好地理解。
noisy layer（加噪音），題目加入一些干擾項、改變考前環境、教室、平時狀態等。

又如下圖中對於是否有教師指到的問題上比較人類學習和深層學習對應的類似點。
a. 人類若有老師，當將問題想偏或想複雜時，老師可以提醒你；當深層學習找出的解過於複雜時，L2 regularization會產生較高的懲罰。
b. 人類若有老師，可以不用從零開始學習，而知道從哪裡開始；當深層學習預訓練時，同樣可以找到一個較好的起點來避開局部極小值或鞍點。

說深層學習和人腦中的神經網路不相同，相當於是說計算機在算乘法和人類大腦在算乘法時不相同。二者的實現方式當然不同。當關注點不該在此，而要考慮如何彼此借鑒和指導。

谷歌的deep mind難道是覺得好玩才研究deep dream嗎？背後的邏輯更可能是既然做夢被自然選擇留下來，就或許有其潛在的對學習有利的作用在其中。

題外話：
學習是為了再次使用，而再次使用的場景往往會比被學習所用到的內容大無數倍。學習同時也是一個動態過程，因為應用的場景也會隨時間和需求改變。
這種改變是對於智能而言非常重要的能力之一。人類在這方面做的就比較好。

但對於目前的機器學習而言，這種改變往往意味著重新訓練一個神經網路，但這樣好時巨大，以前學過的內容全部都白費了。很多研究都是努力解決該問題。這是機器學習正在不斷努力的方向，也同時是想要超越人類的地方。因為「調節」能力對於人腦而言同樣非常困難。想想成人從中文學習英語的過程。

很遺憾還沒有看到切中要害的答案。

人腦確實有時也會過擬合，但遠遠沒有現有的機器學習模型容易過擬合。典型的例子就是物體識別的任務中，現有的機器學習模型需要成百萬的樣本來訓練，而人類需要的樣本比這要少很多，但人類識別的效果依然比機器好。

這與人腦的不變性表達（invariant representation）是分不開的。人腦的表達本身就利用了平移（translations）,尺度（scale）, 旋轉（rotations）甚至姿態（pose）的不變性。這樣的表達可以讓用於分類的特徵空間變得很小，也就不容易過擬合了。但目前的機器學習模型（比如CNN，卷積神經網路）只利用了平移不變性和很有限的尺度不變性，所以更容易overfiting。data augmentation可以一定程度上緩解這個問題，但效果肯定沒有像人腦這樣直接encode不變性要好。

不會過擬合這個說法是不正確的
不信請看

...

....

----並不奇怪的分割線-----

玩笑開夠了可以談談正事，過擬合這個討論範圍太大，我們不妨縮小範圍，看object recognition會不會過擬合

其實人的object recognition是hierarchical的，基本上就是線條逐漸拼接變成各種簡單的多線條，然後這些多線條繼續拼接成更複雜的東西，這些東西里有人臉，或者其他東西比如汽車什麼的。這些「濾鏡」，就是你判斷是不是看到了張三還是李四還是法拉利還是菊花或者是耶穌的標準。

Hubel Wiesel, Receptive fields and functional architecture of monkey striate cortex
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1557912/pdf/jphysiol01104-0228.pdf
https://www.youtube.com/watch?v=jw6nBWo21Zk

Maximilian Riesenhuber Tomaso Poggio, Hierarchical models of object
recognition in cortex
http://cbcl.mit.edu/publications/ps/nn99.pdf

這些連接之所以能連接是靠訓練得到的，你整天盯著耶穌看到處都是耶穌。整天盯著臉看到處都是臉。這就是過擬合了。

每次考試就是過擬合啊！

為什麼你看過的都沒考，為什麼完全不按歷年題的套路出卷子？不是因為你看了假書，上了假課，做了假題，只是因為對於歷史數據（歷年題）過擬合了。年輕人還是要提高姿勢水平，提高泛化能力，這才是墜吼的！

有。

一見短袖子，立刻想到白臂膊，立刻想到全裸體，立刻想到生殖器，立刻想到性交，立刻想到雜交，立刻想到私生子。
——魯迅

=========補充==========

看到有人在討論『過度聯想』是不是屬於過擬合的問題。我這邊簡單解釋一下：

過擬合 Overfitting 是在用複雜模型擬合較少的數據過程中，容易出現的問題。現象就是：對訓練樣本的數據擬合非常好，甚至將採樣雜訊也給擬合進去了；這樣，在測試的時候，在測試集上效果可能會很差。

所以，造成過擬合的一個主要問題是訓練樣本太少。

我們現在一到夏天，每天都能見到『短袖子』，見的多了，也就自然能防止過擬合——不會將其分類成『有私生子』；

魯迅在文中描述的社會，大家見得少，每個人都包得嚴嚴實實的，訓練集不夠，就會發生分類錯誤，也即將『短袖子』分類成『有私生子』。

題主的問題其實挺經典。
我博士做的模式識別，按照本組研究結論，這個問題的回答是：
人腦具有流型降維的功能。
即
雖然視網膜細胞，腦神經元很多，但是分類的時候，人腦只是根據非常少的幾個維度信息進行分類。
其中有個結論：
你看到熟人的時候，你先識別出了那個人，然後你再「看到」了他。
「看」和「觀察」是完全不同的。

PS：
高票答案把：想像力=過擬合，個人覺得不妥。

記得高中的時候有一次考試，穿了件新的藍襯衣，考好了。
下次考試又穿了那件藍襯衣，考的更好了，印象中是全班第一（在美國考美國文學那是）。
期末考試的時候，藍襯衣正好洗了，結果考砸！
這類現象反覆發生過好幾次，我應該攢了得有十來個數據點。記得有一次考化學故意沒有穿，想反正我也不在乎，結果果然考砸了。
從此以後，我開始碰到考試，做presentation，paper ddl等『上了規格』的事情，都穿那件藍襯衣。現在已經穿出補丁了！
請同學們看到我穿那件藍襯衣講poster的時候不要笑：）
----------------------------------------
為了證明自己不是逗比，我來仔細說下這背後的思考。
在很多任務上，人是不容易overfit的，比如視覺。一是因為生物進化這麼久，視覺的prior已經很發達了，就像 @Xun Huang說的。二是因為我們的視覺樣本量大，雖然監督弱。人類unsupervised learning的能力的確是很強的。
然而出了這個範圍，人還是很容易的overfit的。比如我考試。這是最近一千年才有的一個新鮮事，雖然事關生存，但我們還沒能進化出來好的prior。二是樣本量的確小，像我頂多也就考過一百次。另外它的機制複雜，複習的好不好，掌握的扎不紮實，前一天晚上睡得好不好，對出題者摸得準不準，有時候都不如粗心算錯一個數重要。所以考分怎樣的確是一個超高維空間的複雜函數，是用一百個數據點無論如何都不能擬合的。最後它噪音大，比如閱卷老師心情。。。這種distribution，人會ovefit，機器也會。千百年來，凡是符合以上幾個條件的，比如天文占卜，國事戰爭，婚姻嫁娶，陞官買房，我們都形成了很多『迷信』，其實就是overfit的模型，有的還一代一代傳了下來：）
抽象出來講，overfitting的理論關心的都是model class和sample size這兩個東西。只要人不能比機器選出更合適的model class（with prior knowledge），獲取更大的sample size，人在overfitting面前也同樣脆弱。

本乎好可怕，一堆不知道什麼叫「過擬合」的人跑來回答這個問題，還一堆人點贊，這是藥丸啊……

看到大部分答主，甚至包括一些高贊答主，都把「過度聯想」當作過擬合了，請大家抖機靈也要按照基本法好么，實在不懂，實在想逗機靈，也請先查查wiki好不好哇

要說人腦的過擬合行為，典型的就是死記硬背，不能舉一反三。雖然能保證對於訓練過的問題結果正確，但卻不能適應問題的變化。通俗地說就是做過的題都會（訓練集擬合得很好），沒做過的題都不會（一到測試集上就掉鏈子）。

像很多這個問題的答主，看到「過擬合」三個字就望文生義，過度聯想，連書上寫得清清楚楚的概念都吃不透（訓練集都擬合不好），這個叫「欠擬合」。

-----------------
本來想把wiki截圖放上來，然而圖被劉看山吃了，你們找它要吧……

怎麼沒有過擬合行為？中學時候那些沒講過的題就不會做的同學，不都是過擬合嗎？

因為對某個特定刺激響應的神經細胞數目要少得多，類似於機器學習中的連接的稀疏性。

人腦怎麼就沒有過擬合了？沒有過擬合的話，你告訴我這張圖裡你看到的是什麼？

以偏概全，地域歧視，先入為主都是人類的過度擬合

其實知乎上就到處都是例子：
看到一個"個例" 就認為全世界都是這樣的。
函數完全擬合到自己那一點點的經驗集上完美擬合

思維定式就是過擬合。

誰說沒有過擬合
那些整天自以為是把自己剛剛在某處看到的一丁點知識當作是一切真理為了某些觀點爭得面紅耳赤的還少么

人類之所以過擬合了還能發現，是因為我們還有邏輯推理的能力，知道有什麼東西是不可能出現的，並不僅僅是模式識別。這可以使得我們可以在合理的情況下不挑選評分最高的匹配結果。

你這問題就是過擬合

李嘉誠打了馬賽克就是他了

人類過擬合起來也是相當可怕的。

我小時候在東部某省會城市的一個還不錯的小學上學。學校里周末有一個英語班。那時候英語教學也非常的不系統，就是找幾個大學生過來想怎麼講怎麼講。也只是講一些基本的內容比如26個英文字母，簡單單詞簡單句型之類。就這樣上了半年還是一年，突然有一天老師心血來潮要聽寫字母。

然後老師非常驚奇的發現，班上有一半以上的學生不認識26個字母。

其實也不是完全不認識。因為每個學生都能非常熟練的唱字母歌，按順序可以從ABCD背誦到XYZ。但是把單獨一個字母拿出來問他是什麼，他就完全答不上來了！

這種過擬合的假象，導致老師和家長很長時間以來，一直認為這些孩子認識26個字母。

此時此刻，回想當年老師的心情，發現第一個孩子不認識字母的時候，是驚奇。發現三個孩子不認識字母的時候，是憤怒。最後發現全班大多數人都不認識字母的時候，一定是透心涼的絕望。一屋子學生一個接一個站起來，又一個接一個答不上來，只能繼續站著的荒誕場景，讓我至今記憶深刻。

----

我們說一個人聰明，說這個人能夠「舉一反三」，「靈活變通」。說一個人笨，叫「知其然不知其所以然」，「拘泥成法」。這些東西往往就是在說一個人能不能克服過擬合的傾向。

而人類本身也進化出了一些能夠幫助克服過擬合的能力。比如好奇心，對於未知事物的主動探索，就應該有這方面的優勢。

1、神經網路和人腦的神經元根本不是一回事
2、即便是一回事，訓練樣本也足夠多。（雙眼超高清視頻實時拍攝……O_O