搜索引擎到人工智慧的終極演進
K.K在紀錄片《Google and the World Brain》中提到,他在谷歌創業初期問Larry Page,現在已經有了一個性能不錯的搜索引擎,為什麼還要做一個?Larry Page解釋說,不是要開發新的搜索引擎,我們要做的是人工智慧。搜索引擎是我們的主動意識與互聯網世界之間最重要的連接方式,並且在長期數據積累、存儲技術、雲服務、超級計算和機器學習等方面具有獨特優勢,或許它們將成為最接近人工智慧的互聯網應用。
從目前看來,谷歌創始人當初的願望實現了—谷歌成為了全世界在人工智慧方面最有建樹的互聯網公司。國內搜索巨頭百度,也在上兩周的技術開放日詳細介紹了「大數據引擎」計劃,裡面提到數據挖掘和機器學習等技術、大數據的具體應用、以及對未來趨勢的把握,同樣令人興奮。
一、腦機界面的雛形—搜索引擎
腦機界面(Brain-Computer Interface,也稱腦機介面)主要研究我們如何通過思維與外部機器進行直接交互,通過建立一個將大腦與機器聯繫起來的統一準則,實現「用意念來控制機器」的終極夢想,是人工智慧的重要技術支持。電影《黑客帝國》和《阿凡達》中用意識來控制虛擬世界中「化身」;俄羅斯「Global Future 2045」預測科學家將於2020年通過腦機介面來實現用意識控制機器人;Ray Kurzweil認為30年後人類能夠將自己的意識上傳到電腦實現「數字永生」;這些終極人工智慧都是通過腦機介面來實現的。
那些夢幻版的目標還離我們太過遙遠,對於廣大互聯網用戶來說,離我們最近的腦機界面類應用就是搜索引擎,腦機界面在本質上是為我們提供了一種主動意識與外部環境進行交互的方式,從意識的源頭—大腦出發,與外界實現了最直接的聯繫和互動。搜索引擎與腦機界面的共同點主要體現在兩個方面。
1、意識向外界的主動連接
腦機界面將我們最初的意識動機—神經衝動傳遞給外界並獲得反饋。而當我們使用搜索引擎時,同樣是先產生意識,然後轉化成關鍵詞輸入到搜索引擎,後者通過搜索將我們的意識與外界信息進行匹配,在多次反覆調試後,為我們找到準確答案。所以,搜索引擎承載了我們主動聯繫外部世界的意願,通過有價值的反饋解決了我們提出的問題,充分體現了我們的意識主動性。
這可能也是搜索工具與其他互聯網服務的本質區別,我們在瀏覽網頁、觀看視頻或者查看社交工具時,都是處在一種被動的信息接收者的地位,我們看到的內容其實全部取決於對方展示了什麼。而使用搜索工具卻是一種主動行為,我們需要大腦思考和手動輸入,還需要根據得到的信息進行調整,直到最終的搜索結果符合我們的原始動機。我們可以在不動腦筋的情況下使用其他互聯網服務,卻無法在不懂腦筋的情況下進行網路搜索,當我們將關鍵詞輸入到搜索框這一行為發生時,就已經體現了我們的主動意識。也正因如此,比起其他互聯網工具,搜索引擎需要我們更多的「動腦」和「動手」,而這些相對繁瑣的操作其實就是我們的意識在行為中的轉化。
2、信息傳輸和互動的過程
腦機界面以掌握大腦原理為基礎,在大腦和外部對象之間建立了統一的交互規則,使得大腦與外界完美對接,其最終目的還是為信息傳輸提供一個最理想化的管道。我們的神經系統也可以看成是一個通過生物電交流信息的「計算機」結構。相互連接神經元通過電信號交流,通過神經遞質傳遞信息,構成了多層的、不同功能的神經迴路和電子迴路。因此,電信號成為被大腦和外部智能機器所共同接受並進行交流的溝通介質。
對於搜索來說,關鍵詞就充當了我們與搜索工具之間的這種溝通介質,藉助關鍵詞這個「編譯器」,我們實現了自我意識與搜索引擎之間的交流,形成了一個意識產生、關鍵詞轉化、搜索、信息獲取、動機滿足的信息閉環。
總之,搜索工具體現了我們的意識主動性,也為我們創造了與外界進行信息交互的有效途徑,在這方面與腦機界面並無二致。雖然它是在技術和效率上還與理想中的腦機界面存在巨大差距,但已經在為我們充當了智能助手的角色。所以,我們可以將目前廣泛使用的搜索引擎看成是未來高級腦機界面的雛形或是初級狀態,換句話說,目前的搜索引擎是目前最有希望進化成腦機界面、實現人工智慧的互聯網服務形態。
二、搜索引擎向人工智慧演變的必要因素
與人機界面相似的搜索引擎具備天然優勢,但如果想在機器學習和人工智慧的道路上走的更遠還需具備以下條件。
1、重視戰略數據而非「大數據」
如果把將要實現的人工智慧比作大腦的話,那互聯網就是人體頭部的血管,一個抵達各部位的網狀系統,而數據和信息便是最重要的、能夠為大腦活動提供能量的血液,它們也是進行機器學習所必需的的輸入量和研究基礎。百度「大數據引擎」結構中最底層的「開放雲」服務就是在實現這個功能。
在數據獲取方面,不能漫無目的追求大而全的數據,因為大數據追求的「N=所有」的全樣本是無法實現的,同時大數據樣本非但不能解決樣本偏差問題,反而引發了大量的小數據問題。搜索引擎應該更加重視篩選過的、有價值的戰略數據。例如,不久前的MIT大數據挑戰就是以波士頓交通為主題;谷歌的大數據功能是從預測流感開始;而百度的「大數據引擎」也首先選擇了醫療、交通和金融領域為大數據戰略的具體應用方向。搜索引擎在PC端已經有了足夠的積累,隨著手機和其他可穿戴智能設備的爆發,搜索引擎將獲得更多有戰略意義的、細分化和情景化的數據。「百度遷徙」、「景點舒適度預測」和「城市旅遊預測」就是百度以細分化的戰略數據為切入點的成功案例。
2、搜索引擎的數據挖掘優勢
當信息爆炸時代來臨,是否擁有信息已經不再重要,重要的是如何能夠快速的找到所需信息,而搜索引擎在這方面有著天然優勢,也是解決信息數量和信息(有價值的)獲取效率之間矛盾的唯一途徑,而搜索引擎的數據挖掘將產生更加明顯的效果。例如,在智力節目中擊敗人類的沃森就是因為「海量數據加搜索匹配」而產生了學習能力。
互聯網搜索的驚人效率與傳統的信息搜索方式形成了鮮明對比,因此每個理性的人在獲取信息時都會優先使用互聯網搜索工具,在享受搜索帶來的高效率時貢獻出個人信息,促使搜索工具對我們更加了解,從而在下次為我們提供更有效率、更準確、更個性化的搜索服務,隨著信息獲取速度和準確率的提高,我們也將更加頻繁的使用搜索工具從而貢獻出更多的個人數據……這便形成了Jeff Bezos提出的那個「飛輪模型」,一個封閉的良性循環過程。
這個良性循環為搜索工具帶來了持續增長的用戶習慣和數據量,更重要的是當數據積累到一定程度,搜索引擎將掌握足夠多的用戶個人標籤和行業標籤,在多維度的信息整合後對用戶和行業形成準確定義,從而通過自身的數據積累和挖掘為用戶和行業提供更加智能的信息服務。而這個過程應該就是李彥宏在「大數據引擎」會議上提到的「技術變革的臨界點」,也是副總裁王勁口中那個「百度多年深厚技術積累的一次質變過程」。定義個人的各種標籤是一個個標準的數據元,這個把所有用戶都貼上標準化的標籤進行統計分析的過程就是會上提到的「量化自我」。而百度「大數據引擎」的相關負責人也提到除了搜索工具在PC端的積累,手機、可穿戴智能設備的增長也加速了數據量的增長,這將貢獻可以「量化自我」的更多數字標籤。
因此,搜索引擎在數據挖掘方面的優勢不僅體現在自身演算法和計算能力,更是體現在對用戶信息的量化分析和數據挖掘,並以此基礎上提供的更加智能的信息服務。值得一提的是,這些有價值的標籤只有經過長時間積累和長期用戶沉澱才能取得,就像人與人只有在長期交流溝通後才能深入了解對方,機器對用戶的了解也是建立在長期的、無數次交互的基礎之上,而對用戶的了解程度又決定了機器學習的核心演算法。因此,已經在市場上佔據領導地位的搜索引擎在這方面的優勢會較為明顯。
3、技術奇點的出現
在搜索引擎收集戰略數據並進行數據挖掘之後,接下來將是實現人工智慧的最後一個階段—機器深度學習。搜索引擎實現從傳統搜索到人工智慧的過渡,不僅是因為自身積累的數據量達到了質變的水平,還因為硬體存儲、雲計算、超級計算、模擬神經網路等相關技術的成熟。
搜索引擎可以憑藉自身的獨特優勢成為此次技術變革中的領導者,並且他們也已經開始了相關的準備工作。谷歌很早就通過自主研發和收購的方式來彙集實現人工智慧的必要技術,包括利用1.6萬個處理器構建的模擬人腦神經系統的且具備學習功能的Google Brain;將收購的Deepmind的機器學習技術應用於聲音和文本搜索以更好的讀懂人類自然語言;將機器深度學習領軍人物Geoffrey Hinton招致麾下。而百度也是國內第一家提出機器學習(百度大腦)和組建相關研究機構(IDL,百度深度學習研究院)的互聯網公司;提出「少帥計劃」招攬青年科學家;擁有了超越天河二號的超級計算能力;組建起了世界上最大的擁有200億個參數的深度神經網路。這些技術都將與搜索引擎自身積累的數據優勢一起成為他們率先進入人工智慧領域的重要推動力。
4、正確的機器學習之路
在此前的文章《潛伏的強大暗流:終極智能的群組進化路徑》中曾提過通往終極人工智慧有兩條道路,一是從理論研究出發,在完全掌握人類的智力原理後再通過技術進行複製;二是從基礎技術和具體應用出發,結合人腦各階段的研究成果來得到相應水平的人工智慧,再通過漫長的技術進化提高智能水平。
如果採取第一種途徑,在沒有完全弄清大腦原理之前,只對大腦結構進行模擬是沒有任何實際意義的。因此,這種方式不適合要向用戶持續提供服務的搜索引擎公司。加利福尼亞斯坦福大學的Andrew Ng完成了世界上最大的擁有110億神經連接的人工大腦,但谷歌大腦工程的兩位研究者指出這個神經網路計算機甚至都沒達到老鼠的智力水平。
長達十年且耗資數十億歐元的歐盟人腦計劃也沒有把目標定為完全掌握人腦原理並對其進行模擬,而是一直在強調每個階段的研究成果都要付諸實踐,通過模仿部分人腦原理來創造出一些類人腦功能(Human-like)的智能系統或應用。而對於一直面向用戶的搜索引擎來說更是如此,它們應該選擇第二種自下而上的、分散式的智力實現方式,每一次技術的智能化革新都是從用戶的實際需求出發,每一次技術進步都代表著機器智能的進一步發展。谷歌在收購Deepmind之後明確表示不會首先將其應用在機器人部門,而是先從基礎的語義識別開始。而百度也是將深度學習技術應用在了具體的用戶服務方面,比如說降低語音技術的相對錯誤率,提高中文語音識別率、完善圖像識別能力、全球首個全網人臉搜索引擎等。
上文提到,搜索引擎構建了人與信息的意識主動化的連接,而且用戶與搜索引擎的每次交互都是一種相互了解、共同成長的過程。與其他互聯網服務不同,用戶在使用搜索引擎時也是在作為一個「開發者」參與其中,這也就是在百度「大數據引擎」開放日上北航校長講到的,「一種超越眾包的、融合計算機與人群」的軟體開發新思路。
5、基於人腦神經網路的機器學習
人腦與計算機最大的區別就在於它是一種雙向聯繫,可以不停地把新信息反饋回去,加固已有東西,這就是我們的學習功能。我們大腦的層級並非生而有之,與生俱來的是毫無關聯的模塊,相互之間沒有形成任何模式,所有模塊之間的連接和增強都是通過後天學習來實現的。
我們大腦的學習和推理能力符合貝葉斯數學原則,推理是基於由經驗而來的概率,我們在遇到新情況時,總是要追溯自己的已有記憶和經驗,然後再根據新情況進行調整,最後得出一個概率相對較高的應對策略,所以我們才學會了如何應對這個或然的世界。我們在執行「貝葉斯原則」進行學習時,首先將遇到的新情況在此前的記憶和經驗庫中進行搜索和匹配,找到成功概率較高的決策付諸實踐,然後再根據現實反饋進行調整,再重複上述過程,直到找到最佳方案。經過這樣一次次的貝葉斯行動,我們構成了特定的自我,也形成了那種重要的學習能力。
而目前先進的計算機技術可以使貝葉斯計算方法能夠更加有效地執行,《最有人性的「人」》作者克里斯蒂安認為計算機將一改非1即0、非真即假的科學邏輯,能夠理解和使用貝葉斯概率推理。在認識到人腦的學習原理之後,藉助數字化「神經網路」來模擬大腦並獨立的收集和反饋信息已經成為深度學習領域的一個突破性進展,例如,機器人專家Hod Lipson研發出的機器人在觀察和觸摸鐘擺一整天之後,通過學習推算出了F=ma,而人類花費了幾千年才得出這個公式。
而搜索引擎的那種「關鍵詞輸入、資料庫搜索、信息匹配、多次調整、返回結果」不恰恰也是完全符合貝葉斯學習原則嗎?所以,我們有理由相信,搜索引擎通過構建模擬神經網路已經可以獲得人類一定程度上的學習能力,例如,目前「百度大腦」已經達到2歲兒童的智力水平。美國兒科學會的《育兒百科》中將兒童稱為「恐怖的2歲」,他的辭彙量開始豐富;能夠在心裡想像出事物、行為和概念的圖像;他開始理解物體之間的關係;他開始將不同的活動串聯在一起形成一個邏輯關係;當他意識到社會希望他遵循某些規則後,他會開始培養起一定程度的自控能力。雖然「百度大腦」可能無法與這些智力表現形式一一匹配,但我們還是從中感覺出機器智能的巨大進步。
6、更加開放的搜索引擎平台
對於機器學習和人工智慧這類研究周期長、學科跨度大的研究課題,必須保持開放的心態和積極合作的意願。歐盟人腦計劃就一直在強調開放式平台的建立、開發介面的開放和多學科的融合等等。對於搜索引擎來說,開放一直是其獨特優勢,其幾乎可以覆蓋所有的用戶和行業。但機器學習和人工智慧這個長期目標還需要搜索引擎保持持續開放,我們也可以從百度的「大數據引擎」戰略中看出其對開放和合作的重視程度,它將大數據存儲、分析和智能化處理等一整套核心能力通過平台化、介面化的方式對外開放,以吸引更多的合作方;與北京航空航天大學共同進行科學研究;與交通、金融、醫療行業的深度合作等。平台的開放不僅可以使現有的機器學習功能發揮更加廣泛的價值,還能通過更多的應用和外部資源的引入來對現有的機器學習模型進行驗證和完善。
三、搜索引擎過渡到人工智慧的憂慮
1、個人數據隱私
我們可以對實驗室中的人工智慧漠不關心,因為無論它的研究進展到何種程度,都不會與我們產生直接關係。但我們對每天都在使用的搜索引擎智能化的態度則完全不同,搜索引擎人工智慧化的動因是我們與其之間進行的無數次交互,我們對其智能化的定義是它能更快、更準確的幫我們找到所需信息,它之所以如此智能是因為更加了解我們的需求,而它對我們的了解是基於我們給它提供的個人信息越來越多,這當然就意味著我們的隱私越來越少。
搜索引擎知道我們的出行路線、地理位置、工作信息、日常行為模式和交際圈子,它比任何保險公司或銀行都了解我們的風險狀況,隨著可穿戴智能設備的興起,它也可能比醫生更了解我們自身的身體狀況。或者說,搜索引擎將變得比我們自己更了解自己。
這是信息時代獨特的背景,對於效率的追求使我們不可避免的享受互聯網搜索引擎等服務帶給我們的信息服務,同時也不可避免的享受個人信息外泄的苦惱。我們觀察到越來越智能化和人性化的信息服務帶來的世界的改變,帶給我們效率的提升,卻忽視了隨著我們個人信息的越發公開,我們的一舉一動正在被人察覺。搜索引擎的機器學習勢必需要越來越多的用戶信息,這與我們的隱私權存在本質上的衝突。或許,我們已經意識到這一點,但在效率面前對此無能為力。
2、我們把記憶交給了搜索引擎
《淺薄》里提到,互聯網正在塑造著我們的大腦,無時無刻不在改變著我們,而搜索引擎則首當其衝搶佔了我們的記憶。幾千年來,人類都依賴彼此記憶日常生活的細枝末節。現在,我們依賴的是電子設備和「雲」,它們正在改變我們感知和記憶周圍世界的方式。互聯網不僅可能取代了「他人」這種外援式的記憶資源,也取代了我們本身的認知官能。互聯網不僅消除了我們與同伴分享信息的需要,也瓦解了將即時習得的重要信息,存儲進生物式記憶系統的衝動。這就是所謂的「搜索引擎效應」。
如果把我們的記憶看做資料庫,我們的每次記憶存儲是為了將來在某個時刻得到所需要的信息,我們的每次回憶也是在這個資料庫進行一次搜索。試想一下,如果更加智能的搜索引擎對我們了如指掌,當我們通過互聯網搜索信息的速度比從大腦的記憶中搜索更快、更準確時,我們當然會毫不猶豫的選擇前者,全然在乎這部分「記憶」是存在於外部的互聯網,還是存在於自己的大腦中。
對於這種結果的優劣依然也存在爭論,一種觀點認為,我們將一部分記憶分攤給搜索引擎之後,他們開始認為比以往任何人都懂得多;但事實上,對搜索引擎的依賴恰恰說明他們對周圍世界的認識少之又少,我們完全將谷歌演算法的產物當做了自己「知道」的東西。而另一種對立觀點則認為,在我們成為「互聯腦」(Inter-mind)一員的同時,會發展出一種不再依賴我們大腦中本地記憶的新型智力。當我們從記憶日常事實的需求中解放,就可以利用空餘出來的這部分腦力資源,去實現個人的雄心。這種進化之中的「互聯腦」,或許可以將人類個體的創造力與互聯網上豐沛的知識結合在一起,使我們有能力突破一些自己製造的困境。
3、終極智力的移交
雖然意識之謎仍然未解,但至少我們已經知道,我們的意識和思考源於我們的神經連接,在神經元之間進行傳遞的神經遞質所攜帶的信息構成了我們自身,就像Sebastian Seung所說「我是我的連接體」。神經科學的出現正在抹殺「靈魂」,在任何一個人中並不存在一個所謂的真正自我,我們所擁有的只有自己的大腦,這意味著我們只是大腦在特定時間中所呈現的狀態而已,而這種狀態完全可以通過信息來體現。當然,我們也可以像Hinton一樣把大腦的神經網路看作一個運行在多層面上的軟體。或者說,我們的神經活動在本質上也是一種信息傳輸和計算。《黑客帝國》中有段台詞對此做了最為精闢的概括:「什麼是真實?該怎麼定義?如果真實指的是觸覺、嗅覺、味覺和視覺等,這些其實都是大腦接受的信號和信息。」
當體現我們意識的各種互聯網行為被搜索引擎量化、統計和重新組合時,這是否就意味著他們可以從中掌握那些原本屬於我們自身的智力?它們通過機器學習模擬出我們的智力,再結合它們生來就優於人類的強大功能,甚至可以解答出人類自身永遠無法企及的難題。百度的「大數據引擎」除了提到大數據和機器學習在許多重點行業的應用,還提到可以「利用機器學習重新認識外部世界,發現我們沒有發現過的自然規律」。如果這種情況出現,我們人類最偉大的職業哲學家、科學家和藝術家可能都要讓位於搜索引擎了。
搜索引擎通過機器學習掌握人類智力雖然不是此消彼長的掠奪,但可能會是一次關於控制權的移交。我們從自然進化過渡到技術進化,科技帶來超人類主義。搜索引擎等互聯網服務讓我們變為了Cyborg(電子人),而其進化的方向—人工智慧則模糊了人腦與機器間的界限,我們可以藉此超越人類自身的認知極限,但這種改變並不意味著我們從此陷入失去自我的危機,相反,我們是與逐步走向智能的搜索引擎建立起了強大的史無前例的聯繫—我們只是將自我融入了一個更偉大的事物之中。
推薦閱讀:
※用智慧陪孩子長大(13-15)
※文殊菩薩心咒,文殊三大智慧咒:
※明空智慧便是無為法
※曾國藩將周易渙卦智慧發揮到極致
※心理學:越是智慧的人,越明白這3種人「不能幫」,否則必受其害