Siri 是如何識別語義的?


siri包含了語音識別和語義識別;並且,語音識別和語義識別僅是其龐大系統的一部分。

除了這兩個,siri還包括了自學習、知識判斷、自優化這幾個重要的特性。

僅有語音和語義識別是不能稱為人工智慧的,因為這兩個功能都可以通過龐大的資料庫和巨大的人工錄入工作來使得前端性能表現的很好,而這種方式的確不夠智能,並且不能自我「成長」,如果僅滿足語義識別,或者看起來像語義識別,搜索引擎完全能滿足這一特性,不信大家用同樣的知識性問題來比對siri和百度。

而什麼是語義識別,和為什麼搜索引擎(其實就是分詞+關鍵詞匹配)把這件事已經做的還不錯了卻還非要整個複雜的語義識別來跟自己過不去,這其實是很多人沒搞明白的,千萬別回答說語義識別能讓答案更精準,你試試目前所有的所謂的語義識別系統能比百度精確嗎?這就是當資料庫足夠大的時候(其實也不用多大,每個知識點多些關鍵詞而已)語義識別並沒有比傳統搜索技術更精確。

做語義識別最重要的原因是將各類知識提取出了相對統一的「格式」,並且在檢索時,可以按照統一的格式檢索出資料庫中的知識,而這個統一的格式並非死板的格式,而是將自然語言處理成統一的檢索格式。也就是格式化知識,這個怎麼理解呢,傳統搜索基本是存儲整段知識和整句問題或關鍵詞。語義識別存儲零散知識點,關聯到最小元素的詞或物,回答時進行組合。

為什麼要搞這麼麻煩?搜索引擎雖然牛,但他的精確答案大多來自百科等需要人工編輯或處理的答案;語義識別沒有下面說的這一部分的時候,同樣答案來自人工編輯,但是當知識被格式化之後,機器就可以做一件累死搜索引擎也做不好的事了:學習!

學習不是簡單的記錄,而是抽取、拆分、判斷、記錄。回想一下你看書的過程,你是記住了整本書的內容,還是記住了知識點?搜索引擎能做的是記住整本書;語義識別的格式化知識能做到的是抽取、拆分和記錄知識點,原因前面已經解釋了:格式化知識;判斷大家都能做了,不是語言範疇,簡單的說,多讀幾本書,知識點重疊的部分權重加高,不同的部分取相同百分比最大的,當然可以更複雜了,加入用戶行為判斷的邏輯等等…。

有了這些,一個真正的人工智慧系統出現在我們眼前了,利用搜索技術抓取各類網頁、書籍、文獻,然後學習裡面的知識,最後為人類作出貢獻。在很少的人工干預的情況下,回答的精確度甚至高於搜索引擎,並且他可以回答更多的專業性、複雜性的問題。這才是人工智慧思想下的Siri。

有了上面的描述,我們發現其實怎樣實現語義識別一點都不重要,只要能格式化數據,走到最後,大家的結果都差不多,差的只是性能,而這個指標在目前的技術初期混亂狀態並不是關鍵,並且不同的系統最終會有不同的用戶群和使用場景,就像oracle和mysql,跑車和卡車。

沒了學習,只有語義識別,永遠做不出一個令人滿意的Siri,鸚鵡學舌只能稱為搜索引擎。

甚至,Siri非常有可能已經具有了「自我進化」的特性,不但能對已有知識進行優化(就是前面說的判斷),還能對學習的方法進行優化(比方說通過方法A優化了知識B生成新的知識C,發現知識C的用戶滿意率反而下降了,此時回頭對方法A進行優化),如何做到自動化這個過程就超出這裡討論範圍太遠了。

題主的問題也總得回答啊:僅討論語義識別的話,無非就是分詞-轉義-關聯-檢索,至於如何實現這幾個步驟,差別只是性能,精度由資料庫來補償吧。

-------

留一個作紀念。2016.4.14


推薦閱讀:

吳亦凡事件能不能通過技術手段甄別?
有哪些普通人可以見到的東西代表了人工智慧最高水平?
"What"s zero divided by zero?" 為什麼Siri可以回答這種問題?
智能音箱是否有必要加人臉識別功能?

TAG:人工智慧 | 自然語言處理 | 語音識別 | 語義分析 |