人工智慧的方法轉變(筆記)
人工智慧的飛鳥派
傳統的人工智慧方法1.0,這類科學家堅持「機器要像人一樣思考才能獲得智能」,就像人類想要飛行時期,第一步都是模仿鳥,將翅膀綁在身上,向下跳一樣。他們用的是仿生學,而不是最後真正成功的「空氣動力學」。
最初人工智慧提出時候,大家非常有信心。不過很快,大家發現人工智慧發展不下去了,有人發現人工智慧的局限性。比如「the box is in the pen」和「the pen is in the box」之間的差別,人們對於語言的理解不僅來自於語法分析和語意本身,而是來自於人類的常識和關於世界的知識(world knowledge)。
人工智慧的統計+數據派
直到1972年,Jelinek在IBM進行語音識別研究的時候,利用傳統的數學邏輯,將語音識別分成「編碼」「解碼」過程,建立出一個數學模型。正好當時IBM有大量電傳機讀文本數據,於是他將當時IBM的語音識別準確率從70%提高到90%,單詞數從幾百提高到幾萬。
至此,開創了「數據驅動的方法」這個人工智慧新的方法。
李開復,洪小文等人在數據驅動方法的基礎上,構建了第一個大辭彙量,非特定人,連續語音的識別系統。
隨後,在翻譯領域,2002年前,整個翻譯領域一直是systran公司是最好的,但是到了21世紀,他們仍然組織了大量的人力編寫機器翻譯使用的語法規則。比如英語和漢語,每個語言他們要編寫幾萬條規則。
進入21世紀後,互聯網的大量推進,奧科博士建立的模型,在google 數據支持下,模型的三元性提高至六元模型。至此之後,翻譯領域之下的機器智能都走向了數據驅動法。
ps:傳統的翻譯方法,是類似於人學習的翻譯方法,先讓人學習完中文,和英文的所有的語言邏輯,語法關係。翻譯的時候,先讀中文的文章,理解中文的意思,然後再根據英文語法和語意,用英語寫出來。
奧科的方法類似於死記硬背,直接學到不同語言之間很長的句子之間成的對應,然後直接翻譯出來。類似於一個單詞,一個單詞,一個句子,一個句子的學習,而不是系統的方法。因此對於數據的質量(完備性)要求很高,在當時只有google才能做到。
大數據的特徵
大量性(vast):體量感要大
多維性(variety):比如百度知道獲得的數據,年齡,性別,文化背景,大家喜歡吃什麼,大家生活習慣怎麼樣,收入情況如何,他們喜歡問什麼類型的問題等各種信息之間的關係。
完備性:數據的質量要足夠的完善,覆蓋範圍夠大。不如12年silver成功預測51個州的選舉結果,他們數據儘可能地收集了facebook, twitter等各種社交媒體的發言與回復,新聞媒體的數據,留言板的數據,地方新聞的數據,候選人選戰數據等各項的數據。
及時性(velocity):及時性不是必須,不過有了及時的數據,可以做到以前做不到的事情。比如地圖的道路擁堵情況,及時的數據(用戶手機等)可以讓擁堵信息更精準,甚至可以做信息的預測。
解決Why,How的問題
2012年時,人類的所有WH問題中。其中When,What,Where,Which,Who 的問題,人工智慧是比較容易解答的,但是對於 詢問原因的「Why」 ,詢問過程的「How」問題,自然語言處理專家和機器智能專家都沒有找到最好的solution。
吳軍在2012年的google,發現用戶在google 問的Why,How問題70-80%可以在第一頁找到答案,其中20%-30%的問題答案已經在摘要中。於是他將用戶的Why,How的問題,與網頁中的每句話匹配,最後用machine learning 挑選最可能是答案的多個片段;最後將每個片段,利用自然語言處理的技術,合成成一個完整的段落。直接回答給用戶。解決了20-30%的why how 問題。
推薦閱讀:
※微軟洪小文:真正的AI不應基於大數據,而需從小數據、零數據著手
※這段視頻嚇死十幾個CEO:這個「小蜜蜂」能追身能爆頭!
※莫要瞧不起土豆廠:遊戲界最牛的AI就藏在他家
※機器學習:雲端訓練模型的大數據解決方案
TAG:人工智能 |