從香農的老鼠到大數據

作者:桑文鋒,神策數據創始人兼 CEO,前百度大數據部技術經理

1952 年,克勞德·香農在一次會議上展示了他製造的一隻老鼠,不是滑鼠,而是一隻可以走迷宮的機械鼠。

這隻老鼠有三個輪子,一根磁鐵,以及銅線做成的鬍鬚。通過鬍鬚,老鼠可以感知是不是碰到了走不通的迷宮牆。迷宮地板背面有一個機械手臂,上面也有一個電磁鐵,這樣就可以移動機械手臂,帶動機械鼠在迷宮裡走動。

如果老鼠發現正對的牆走不通,就會退回格子中間,旋轉 90 度,去嘗試下一個方向,然後繼續行走。直到走到終點,由一枚金屬幣標識,老鼠停止。

這是老鼠走過的一條痕迹,記錄了老鼠的探索過程。

神奇的是如果把老鼠重新放回到起點,它會直接沿著正確的路走到終點。如果我們調整了中間的線路隔板情況,老鼠還是重新探索路線,正確走到終點。

這隻智能的老鼠是怎麼實現的呢?原來,老鼠的腦子不是長在身上,而是長在迷宮板子的下面。香農在演示時掀開了迷宮的底板,展示了機械手臂,還有電路設計。

在整個電路中,香農用 50 個繼電器控制機械手臂的移動,又用 75 個繼電器來記錄老鼠探索的每面牆是否能走通。繼電器是個什麼東西?現在的計算機早就不用這種零件了,而是採用晶體管,或者說由晶體管組成的集成電路,如內存條、CPU 等。繼電器的原理是這樣的,通過一個線圈接通與否實現一個電磁鐵,通過電磁鐵來吸引一塊鐵片,來控制一個線路的開關。如圖所示,通過橙色的電磁鐵,就能控制燈泡的線路是否接通了。

通過一個繼電器,我們就可以控制電路的開關,而電路的開關,就可以表示 0 和 1 兩個狀態。我去年在看《矽谷百年史》時,曾經好奇誰將開關電路和二進位等價起來的。結果發現香農在 1938 年寫的碩士論文,就是講繼電器開關電路和布爾代數的等價關係,布爾代數即與或非,又是和二進位可以等價的。所以他在迷宮老鼠中用繼電器作為狀態記錄,也就毫不奇怪了。

香農還給老鼠起了個名字叫「忒休斯」,在希臘神話中,忒休斯破解了迷宮,殺死了怪獸。我們思考一個問題,這隻老鼠有智能嗎?這要看你對智能怎麼定義了。我理解的智能,就是具有學習能力。這隻老鼠顯然是學習了迷宮路徑,能夠重複正確的路徑。那它的智能是怎麼來的呢?靠的是通過繼電器記錄了路徑狀態,也就是說,老鼠通過掌握了更多的數據,從而實現了這種智能。這裡甚至沒有牽涉對數據的處理,僅僅是記憶這些數據,就可以擁有智能了。

我在之前的一篇文章中,講解了大數據的本質是消除不確定性。而這一觀點的來源正是香農在 1948 年關於信息的觀點,即信息是一種消除隨機不確定性的東西。顯然,大數據就是一種信息。從老鼠的例子中,我們可以清晰的看出智能和數據的關係。掌握更多的數據,消除更多的不確定性,這就是大數據所帶來的意義。在我看來,數據的價值一方面是驅動決策,另一方面是驅動產品智能。而產品智能,就是指在數據的基礎上,通過一定的策略演算法,將結果回灌到產品中,讓產品具有學習能力,可以自我迭代,推薦引擎、精準廣告之類的,都是這種模式。

我們割裂的去看一些新概念,會感覺抽象和難以理解。把它們放到歷史的長河中,就會變得清晰自然。

參考資料:

1. 克勞德香農與早期機器學習

2. 1952 – 「Theseus」 Maze-Solving Mouse – Claude Shannon (American)


推薦閱讀:

人工智慧究竟需要多少人工?

TAG:香农ClaudeShannon | 大数据 | 人工智能 |