人工智慧理解自然語言的原理是什麼?

本題已收錄至知乎圓桌:機器之能 X 語言之美,更多「人工智慧」相關話題歡迎關注討論。

比如siri


人工智慧有很多很多的模型/方法來實現,我這裡主要談談在深度學習下,特別是在編/解碼器架構下,機器理解自然語言的原理。

深度學習理解自然語言是通過編碼器(Encoder)來實現的。對於自然語言的句子,機器並沒有辦法直接理解它的意思,我們需要用編碼器把句子轉換成機器比較容易理解的編碼才行。

以如下郵件自動回復模型為例,

http://www.wildml.com/2016/04/deep-learning-for-chatbots-part-1-introduction/

左邊編碼器(ENCODER)以LSTM為基本網路結構(LSTM是RNN的一種經典實現),依次從左要右讀入郵件中的詞,最終所有詞都讀完後,得到的輸出(圖中的thought vector)是一個浮點數向量。我們稱這個向量是該郵件的編碼,該編碼中隱含了機器對這個郵件的理解。

當然,這個浮點數向量本身對於人類來說是不可閱讀的,所以我們要用解碼器(DECODER)讓機器輸出我們能理解句子。上圖中,解碼器也是一個LSMT,它依次輸出各個詞,直到輸出&為止。

聽起來這確實有點玄乎,但在實際運用中卻能夠取得不錯的效果。我覺得這主要還是得益於我們用大量的訓練數據(&<郵件原文,郵件回復&>)去訓練這組編解碼器,使得網路中的各種權重擬合了數據的樣式。

在上述例子中,ENCODER和DECODER都是LSTM來實現的,因為LSTM擅長處理序列輸入和序列輸出。但這並不意味著我們在理解自然語言的任務中只有這樣一種選擇,特別是當我們要解決一個分類問題的時候,我們會更加自然地用一個簡單的Softmax層作為DECODER。哪怕在一個郵件自動回復系統或者機器翻譯任務中,只要網路的組合方式合理得當,我們仍然可以選擇CNN[Gehring et al. 2017],ATTENTION[Vaswani, et al., 2017]等非RNN的網路作為Encoder、Decoder的基本結構,並取得不錯的效果。

最後,值得一提的是,在上述例子中,我們一般不會把詞語直接讀入LSTM,而是先把詞語映射成一個浮點數向量(不同的詞語對應不同的向量),用來表示這個詞的語義。假設你的詞典裡面有100,000個詞,那麼就有100,000個向量。我們稱這樣的向量為embedding或者word vector。增加這個步驟的目的是為了增強編/解碼器對於詞語的理解。當我們訓練完這組編/解碼器之後,就會神奇地發現,詞向量具有了詞語的語義。如下圖所示,

embedding(king) - embedding(queen) ~= embedding(man) - embedding(woman)

這也就給詞語的加減運算賦予了物理意義,這對於神經網路理解整個文本是很有益處的。


機器是

統計下的概率預測

人類是

認知下的概念理解


我們來嚴肅地回答下這個問題:

人工智慧理解自然語言的原理是什麼?要有針對性地回答該問題,需先將它的議題邊界進行明確定義。如果將該問題理解為如何利用計算機工具處理和分析自然語言,以實現人與計算機通過自然語言進行的有效溝通,那麼可以得到一個相對狹義的回答;如果要梳理「人工智慧」、「理解」、「自然語言」等問題中的概念,那麼也可以獲得一個相對廣義的探討。

狹義地講,利用計算機進行語言分析的研究是一門語言學與計算機科學的交叉學科,學術界稱之為「計算語言學」(Computational Linguistics),或者是「自然語言處理」(Natural Language Processing, 縮寫:NLP)。如果將程序理解為「數據結構+演算法」,那麼NLP可以類比的理解為「語言學範疇+計算模型」。其中,語言學範疇是指由語言學家定義的語言學概念和標準(如詞、詞性、語法、語義角色、篇章結構等),NLP處理的任務大多來源於此;具體實現的計算模型或演算法通常由計算機學家研製。

一般來說,通用的基礎NLP總是與語言學領域的範疇直接相關聯的,研究包括:詞幹提取(Stemming)、詞形還原(Lemmatization)、分詞(Word Segmentation)、詞性標註(Part-of-speech, POS)、命名實體識別(Named Entity Recognition, NER)、詞義消歧(Word Sense Disambiguation, WSD)、組塊識別(Chunk Recognition)、句法分析(例:Phrase Structure Grammar Parsing、Dependency Parsing)、語義角色標註(Semantic Role Labelling, SRL)、共指消解(Coreference Resolution)、篇章分析(Discourse Analysis)等。還有一些NLP研究不與語言學範疇直接關聯,而是面向文本處理應用的,比如:機器翻譯、文本摘要、信息抽取、情感分類、信息檢索、問答系統等,這些面嚮應用的NLP技術多多少少會依賴於前面所介紹的幾類NLP基礎研究。例如,文本摘要可能用到的NLP基礎技術一般就涉及分詞、命名實體識別等。

在計算模型研究方面,有理性主義和經驗主義兩條研究路線可以走,即所謂的「規則方法」和「統計方法」。由於自然語言在本質上屬於人類社會因交流需要而產生的符號系統,其規則和推理特徵鮮明,因此早期NLP的研究首要採用規則方法。然而,一方面,人類語言畢竟不是形式語言,規則模式往往隱式存在語言當中(比如漢語的語法規則是相當的含糊不精確),規則的制定並不容易;另一方面,自然語言的複雜性使得規則很難既無衝突又能涵蓋全部的語言現象,於是這種基於理性主義的規則方法使得NLP研究長時間停留在一種小範圍可用的Toy階段。直到大規模語料庫的建設和統計機器學習方法流行開來後,NLP研究才逐漸走向了面向實用化的道路。統計方法省去了很多人工編製規則的負擔,在模型生成方面自動評估特徵的權重,具有較好的魯棒性。然而,當我們想要得到一個好的自然語言處理結果時,在設計反映語言現象洞見(Insight)的模型結構以及合適的特徵設計方面,仍離不開NLP研究人員對語言的深入理解及其智力的支持。

可以看到,NLP的處理方式是將理解自然語言的過程看作是一種對語言現象的數學建模。一方面要求研究者有紮實的語言學知識背景,另一方面也要具備深厚的數理功底和機器學習經驗。這樣在面對一個具體的自然語言處理問題時,才能將其分解為具備可操作性的建模任務。從這個角度講,NLP並非是真正理解自然語言,只是將語言處理當作一種計算任務。

如果不把理解自然語言簡單地看作是數學建模,那麼從廣義層面,人工智慧理解自然語言指的是什麼呢?首先,需要明確一下所謂的「自然語言」、「人工智慧」、「理解」等概念。

「自然語言」的含義相對明確,一般是指人類社會中逐漸發明和演變的用於溝通交流的語言,比如語音、手勢語、書面語言等。這裡為論述方便,將討論範圍約束在文本形式為載體的語言中,主要是書面自然語言,也包括口語表達的語言。

「人工智慧」不是個能夠清晰定義的概念。泛泛地說,人工智慧是指機器智能體(Agent)模擬人類所表現出的智能活動,包括人類感知外界的能力、決策推理的能力、甚至擁有情感、意志的能力等。從外延構成上,人工智慧包括兩個方面:研究內容和方法論。研究內容即大家熟知的在科研機構開展的各類研究課題,包括:知識表達與推理、語音識別、計算機視覺、自然語言處理、自動規劃與調度、機器人學等。而方法論是指實現人工智慧模擬人類智能的視角和指導原則。實現人工智慧主要有三種主流的觀點和視角:符號主義、聯結主義、行為主義。符號主義(Symbolism)認為,應該從數理邏輯演繹的角度來模擬人的思維智能活動。知識工程、專家系統等一系列理論與技術的發展無不受到符號主義思潮的影響。聯結主義(Connectionism)源於對人腦模型的仿生學研究。McCulloch和Pitts提出的神經元腦模型M-P模型、Hebb提出的神經元學習規則、Rosenblatt的感知器概念等研究儘可能的從仿生學角度模擬了人腦結構。而後來的BP反向傳播演算法、將受限Boltzmann機引入深度學習等研究則更多的是從可計算性的角度大大擴展了神經網路模型的大規模應用性。行為主義(Behaviorism)將重點關注在可觀測的人類行為上,認為人類通過行為與外界環境的交互而得到自適應性,從而獲得智能。行為主義研究中常見的實現技術有進化計算(遺傳演算法)、強化學習等。現有主流的以規則和統計相結合的自然語言處理技術,其規則的一面與符號主義演繹推理的視角是相一致的;其統計的一面側重於從數據中挖掘出語言學的一般性規律,屬於歸納性思維。近些年來,詞向量(如word2vec)等語言知識的分散式表示開始流行,這種分散式表示能夠很自然的接入到神經網路模型,進行數據歸納學習,在一定程度上促進了聯結主義自然語言處理的發展。

說到「理解」,大多數人的共識是機器無法真正理解然語言,但是人類可以理解。一個典型的證據來源於美國哲學家John Searle通過「中文房間」思想實驗對圖靈測試的反駁。圖靈測試用於判斷機器是否具備人類智能。該測試的實驗思路是:讓一個不知情的質問者詢問一台計算機和一個志願者,通過多輪檢驗後如果質問者仍然無法判別誰是計算機和志願者,那麼說明計算機通過了圖靈測試,意味著計算機具備了人類智能,擁有理解能力。Searle利用「中文房間」思想實驗對圖靈測試進行了批駁。該思想實驗的大意是,一個說英語的人在房間內通過查找中文對照表與屋外人用中文交流。在屋外人看來,房間內的人會說流利的中文,而實際上他卻完全不懂中文。在本文作者看來,暫且不必太糾結機器能否真的理解自然語言。事實上,人在語言交流時很多情況下也未必做的很好。例如,在談及「元宵」時,全國各個地方對「元宵」的具體理解是有差異的;在談及「豪宅」時,香港和內地人在房屋尺寸上的理解也是不同的;一些溫度感受的概念如「冷/熱」,生活在不同緯度地區的人們對標的溫度也是有別的。在認知語言學看來,概念的語義並非是從字典中羅列的靜態含義,事實上,每個人對概念的理解與他個人特異化的體驗環境有關。即便是同一概念,不同人也有不同的解讀。例如,在多數情況下,擁有相似生活體驗的人們,談論某一共同話題時才更有可能產生所謂的「感同身受」。語義理解的困難尚且如此,人們在日常會話交際時還會產生語用理解的困難。請看這樣一對會話,甲:「晚上KTV去嗎」?乙:「我爸從天津回來了」。如果僅僅從字面語義來看待甲乙兩人的會話是無法理解乙的回答的。實際上,乙通過告訴對方「我爸從天津回來了」來暗示自己沒有辦法接受甲的邀請,這是一種涉及語用的間接拒絕,反映了言語交際的真正意圖。充分理解會話雙方的語用意圖需要藉助會話的語境推理,影響推理的因素不僅包括會話上下文、會話時間地點等物理環境,也包括會話雙方的共識知識、性格特點、文化背景等。人與人在語言交流中的相互理解仍是不易的,更何況是機器的真正理解。那麼我們在利用機器處理自然語言時,可以不必過多在意它是否真的能理解這個問題本身,而是將精力關注在如何讓智能體在儘可能多地模擬人的智能,讓機器具備人一樣的功能。

自然語言理解方面,雖然以聯結主義為代表的神經網路模型在物理表徵層面儘可能地嘗試模仿人腦結構,然而在一些處理機制方面仍與人腦存在巨大的差異。這裡討論三個問題。

一.人腦如何從底層的聯結計算向上自動形成出可推理的符號計算?人腦的基礎構成是數億萬神經元及其形成的聯結結構,信息輸入是連續數值形式的,然而通過人腦的層層高級加工最終卻可以將信息概念化,進而形成高效的符號計算與推理。新的知識可以通過概念組合或者推理獲得,而無需再通過大規模的數據驅動得到。例如,如果人腦從大量文本素材中學習得到句子的「主(noun)+謂(verb)+賓(noun)」模式,那麼當看到一句話「a1a2b1b2c1」,已知「b1b2」是動詞,「c1」是名詞,那麼很有可能推理出「a1a2」是名詞也是句子的主語。進一步的,如果已知「b1b2」是個體才能實施的動作,那麼可以推斷出「a1a2」很有可能是命名實體,即使我們不預先知道「a1a2」的內部用詞構成。在圖像處理領域,目前的深度學習技術可以將圖像信息逐層抽象,自發的學習出高層特徵,形成高級語義模式。這對自動化的模擬自然語言理解具有借鑒意義,然而實際上處理自然語言則困難的多。目前,如何利用底層的文本輸入,讓機器像人腦一樣通過逐層信息加工自動生成高級的語言學離散符號及其模式規則,其形成機制並不清晰。

二.如何讓機器像人腦一樣實現反饋式的自然語言理解?NLP研究的主流做法是將單個自然語言任務封裝成一個模塊,模塊之間根據自然語言任務的高低級之分按照次序串聯起來。例如,對於句子的句法分析,通常的做法是先分詞、詞性標註、命名實體識別、組塊識別等,這些信息可以作為高層句法分析的特徵。然而,低級語言分析的錯誤也會傳導到高級語言分析任務上來。如果分詞有錯誤,也會影響到最終句法分析的性能。與之相反的是,人腦在進行自然語言理解時,並非總是按照各個語言分析模塊以串列相接的方式進行。例如前面給出的句子「a1a2b1b2c1」,當我們暫時無法辨別「a1a2」是否是命名實體時,暫且將這個任務放一放,轉而考慮句子後面的信息,當我們逐漸分析出來整個句子可能是「主(noun)+謂(verb)+賓(noun)」的句法模式時,這種更高層的信息作為正面反饋有利於反過來推測「a1a2」是命名實體。這個例子中,命名實體的識別反而採用了更高層的句法信息作為線索。現有的人工智慧的自然語言處理流程是固定的,而人腦對自然語言處理的流程則可以根據實際情況做出改變。

三.語義流變的自動學習。大量的辭彙在社會的不同歷史時期會有不同的語義,形成語義流變。例如,「小姐」一詞的內涵從古至今就一直發生著變化。「小姐」在中國封建社會通常是指大戶人家有著良好教養的未婚年輕女子;新中國建立後,隨著傳統封建社會中「小姐」對應的人物角色在社會中逐漸消失,「小姐」一詞的使用也越來越少;然而,當人們對從事色情行業的女子冠以「小姐」的稱呼時,「小姐」一詞又產生了相應的新詞義。因此,出於辭彙語義流變的客觀存在性,不可能一次性設計出一個完整而全面的機讀詞義辭典來支持自然語言的語義理解。當社會上出現辭彙的新解時,一般就需要手動維護和更新語義辭典。如果對機器概念和知識的更新只停留在人工輸入階段,那麼機器就永遠無法實現像人一樣的自動學習與進化。

一方面,人們對人腦的語言與思維的研究尚且並不充分。另一方面,現有的人工智慧在理解自然語言的處理機制方面與人腦存在巨大的差異,那麼是否意味著人工智慧在自然語言理解的發展存在著難以克服的瓶頸呢?答案未必這樣悲觀。如果我們審視人類自身,會發現語言與思維的產生不僅與人腦基礎的神經連接結構有關,也受到外界語言環境激勵的影響。如果將聯結主義和行為主義的思想結合起來,以仿生模擬的方式來「調教」機器智能體,就像教育兒童習得語言那樣以交互激勵的方式學習語言,那麼經過很多代的更新和迭代後,機器智能體可能會進化出自己的語言習得裝置,產生特異化的語言模式,而這些語言模式在表徵上以分散式的形式存儲於神經權值網路之中,使得人類理解起來異常困難。就像AlphaGo戰勝了世界圍棋高手,但是它的出棋策略已經很難被製造者所理解。採用仿生學模擬的方式讓機器進化,意味著創造者對機器放棄了一定的控制權。正如凱文·凱利在《失控》中所說,一旦讓機器進化出了智能,那麼其代價是人類終將失去對機器的控制。人類可能最終不僅不理解人腦中語言與思維的產生機制,也難以理解機器智能體中的語言和思維是如何形成的。

以上是雲知聲NLP團隊的一點心得和思考,限於篇幅,在這裡先分享這麼多。歡迎大家在評論區與我們多多交流。

答主相關:

作為一家專註物聯網人工智慧服務、世界頂尖智能語音識別技術的高新技術企業,雲知聲的NLP團隊一直在為提升人與機器的會話交互體驗而努力,從提升語義理解能力到突破語用理解、讓機器生成更人性化的應答反饋,以及逐漸讓機器成為可自動回答的「知識專家」……持續不懈的升級過程既很有挑戰性、也非常有趣。我們的努力目標是讓人與機器實現自然語言交互、可順利進行多輪對話、擁有強大的語用計算能力,讓機器有知識、能決策、自學習,並且有性格、有情感。

我們已經在2013年開放了業內第一個同時支持語義解析、問答和多輪對話的語義雲,還在2016年推出業內第一個語用計算引擎,支持融合語境信息的理解、生成和交互框架。深度學習技術是我們提升機器理解能力的主要「法寶」,目前已經能讓機器理解60+垂直領域(例如醫療、家居等),平均語義解析準確率達到93%。NLP可以深耕的點很多,希望與對NLP感興趣的童鞋多多探討。

供稿:Starking@雲知聲NLP團隊

歡迎關注云知聲微信公眾號

http://weixin.qq.com/r/Okx8ZALEz1_wrUYH9xko (二維碼自動識別)


能理解抽象概念的人工智慧還不存在

現在處理數據的依據是數學和概率上的關聯性,但關聯性不等於因果性,所以這種模仿是很機械死板僵硬的。


同意Benjamin的觀點。

所謂統計的方法,主要指分析單詞的統計量作為「特徵」,將它們輸入到一大堆公式(計算模型)里,算出一個結果,最終輸出成詞句。

舉個具體的例子。比如 TFIDF (term frequency–inverse document frequency) 就是個頗為成功的統計量。它計算一個詞在當前文章中出現的次數(term frequency),除以這個詞在其餘海量文章中出現的平均次數的log。

在一篇文章中,TFIDF值比較高的那些詞,就代表了該文章的關鍵詞。

siri的基本原理與上面的例子不會差太多。但是一個最主要的區別,是siri肯定會通過用戶反饋來充實自己的ontology。但這更多是collaborative filtering,而非NLP (natural language processing)的問題了。


siri離AI還差得很遠呢好么。。。

刨除語音方面的問題,siri就是一個基本的QA,或者dialog系統

文本--&>parser,siri的parsing大概也就到syntax層面,不涉及semantic

然後根據這些feature在資料庫里找對應的答案/匹配句式

不到語義層面,基本上不能說是「理解」了這段文本。

語義表達可以有很多形式,

可以是純邏輯的,基於FOL或者Description Logic,比如DRS是一種類似FOL的representation。這種方法一般很準確,推理結果也很可靠。但是抽取的recall一般都很低,翻譯過程中會丟失大量信息。

對QA系統來說,理解問題其實不難,問題一般都很短也很簡單。找答案的方法就實在太多了,個人覺得做得最好的是IBM的Watson,絕對甩siri幾條街,就是siri設計得挺好有很多基本什麼都沒說但是聽起來還挺酷的百搭句式以及是蘋果這種包裝公司出的。。。

Watson涉及的技術複雜得很多,有不少publication可以參考。

Watson涉及到了一點Semantic Web技術,有後台Ontology。Ontology就是一個知識庫,包括概念/類,概念之間的上下位關係,以及他們之間其他的屬性關係(object/datatype property)。這個東西能很好地解決語義問題,實現推理(說「理解」什麼概念,人一般就能用自己的知識推導出一些隱含的知識)。但是這裡只是知識,比如「狗喜歡吃肉」,「人可以是傻逼」,但是沒有實例,也就是說它不知道「張三是一隻狗的名字」,「李四是傻逼」。這些實例的來源,最好的方法當然就是從Web信息抽取,但是挺難的。。。SW最致命的問題是,慢。。。

說到慢,其實如果「AI」越「理解」自然語言,根據現有技術,對其處理就會越慢,因為表達層次多且複雜。假如你說了一句話,計算機完全理解了(像一個人類一樣,且不論「它」如何應對),但是用了很長時間/很多資源,那這到底算不算「理解」了人類語言呢?

沒提到的技術方法還有很多,不少我也不是很熟悉,再提一個吧,HPSG

HPSG是一種語法(CFG那種),現在也有不少HPSG Parser,你拿一段文字丟進去,結果裡面既有syntatic信息(分詞,詞性標準,句子結構)也有一部分語義。這結果直接拿去做textual entailment什麼的都挺好。。。

語音語素什麼的我都沒說,ASR啊TTS啊什麼的現在好像做得已經很好了,還能生成各種語調各種口音各種心情什麼的(中文的生成好像差一點。。。)

答得沒什麼條理,想到再添吧。。。


2016年10月,微軟在論文《Achieving Human Parity in Conversational Speech Recognition》中宣布,他們的語音識別系統實現了和專業速錄員相當甚至更低的詞錯率(WER),達到了 5.9%。

該團隊使用了微軟的計算神經網路工具包(Microsoft Cognitive Toolkit (CNTK)),這是一個用於深度學習的微軟自家開發的系統,該團隊已經通過一個開源證書將其發布到了 GitHub:Microsoft/CNTK。

黃學東表示 CNTK 在跨多台運行 GPU 專用晶元的計算機上快速處理深度學習演算法的能力已經得到了極大的提升,正是這樣的速度提升讓他們的研究成為了可能並最終達到了人類的水平。

語音識別多年來一直是科幻小說的常見場景,Reddy曾在1976年的一篇論文中大膽預測,未來10年內有望實現成本為20000美元的聯網語音系統。雖然超出了預計時間,但研究人員最終不僅達到了目標,而且建立系統的成本低得多並繼續大幅下降。今天,在很多智能手機里,業內提供了明顯超出Reddy預測的免費語音識別服務。在大多數領域,科幻作家的想像力遠遠超過現實。

語音識別技術是少有的例外之一。語音識別的獨特性不僅僅是因為其成就:儘管已有成果斐然,但剩下的難題和目前已克服的一樣令人生畏。

1995年,Windows95上首次搭載微軟SAPI,它使應用程序開發者能夠在Windows上創建語音程序。1999年,支持電話IVR的VoiceXML論壇成立。儘管語音電話IVR在商業上獲得了成功,但事實表明,「語音輸入」和「屏幕輸出」的多模態隱喻對信息消費更自然。2001年,比爾蓋茨在美國消費電子展(CES)上展示了一台代號為MiPad的原型機。16Mipad展現了語音多模態移動設備的願景。隨著最近蘋果、谷歌和微軟在產品中採用語音識別技術,我們正見證著設備處理相對無約束的多模態對話的能力不斷提高。儘管仍面臨許多困難,我們還是看到了這幾十年來研究與開發的成果。我們認為,語音界正在向前邁進,爭取未來40年通過圖靈測試,最終目標是在日常場景中媲美並超過人類的語音識別能力。

基礎語音識別

1971年,由AllenNewell領導的一個語音識別研究小組建議引入更多知識來源來解決此問題。報告討論了六個層次的知識:聲學、參量、音素、辭彙、語句和語義。Klatt23綜述了ARPA資助的各種語音理解系統的性能,這些系統是為了實現NEwell報告的目標。

國防部高級研究計劃署(DARPA)贊助了為期多年的語音理解研究(SUR)項目,意在探索Newell報告中的創意。得到資助的研究小組不多,Reddy1976年在卡耐基梅隆大學領導的小組是其中之一。該小組開發了一系列的語音識別系統:Hearsay、Dragon、Harpy和SphinxI/II。經過四十年時間,Reddy和同事們創造了一些歷史性的口語系統演示。例如,機器人的語音控制,大辭彙量的聯網語音識別,說話者無關的語音識別和無限制辭彙聽寫。Hearsay-I是首批有能力進行連續語音識別的系統之一。Dragon系統是首批將語音建模為隱隨機過程的系統之一。Harpy系統引入了定向搜索(BeamSearch)概念。幾十年來,定向搜索一直是高效搜索和匹配中運用最廣泛的技術。1987年研發的Sphinx-I是最早演示說話者無關的語音識別系統。1992年研發的Sphinx-II在同年DARPA資助的語音基準評測中獲得了最高的識別準確度,這主要得益於其在高斯混合和馬爾可夫狀態層次上用栓連參數平衡了可訓練性和高效性。

上世紀70年代初,人們預計產生更高層次的知識來源需要人工智慧方面有重大突破。按照Hear-say系統的體系結構設計,許多半自治模塊既能在一項語音識別任務中相互溝通和合作,也能分別專註於自己的專業領域。相比之下,Dragon、Harpy和SphinxI/II系統全都是基於單一且相對簡單的聯合全局優化建模原則。Newell報告中的每一個層次都由一個稱為「隱馬爾可夫過程」的隨機過程表示。從概念上講,連續層次就像嵌套分程序一樣嵌套,所以組合過程同樣也是一個(非常大的)隱馬爾可夫過程。

尋找最佳匹配單詞序列W以匹配輸入語音X的解碼過程遠不是一個簡單的模式識別問題,因為它面臨著搜索數量近乎天文數字的單詞模式。上述解碼過程是尋找一個單詞序列,其對應的聲學模型和語言模型最匹配輸入特徵向量序列。因此,用經過訓練的聲學模型和語言模型進行解碼的過程通常被稱為搜索過程。圖搜索演算法在人工智慧、運籌學和博弈論領域得到了廣泛研究,它也是語音識別中的搜索問題的基礎。

解碼過程的重要性在DragonNaturallySpeaking中得到了最好的詮釋。該產品是在作者之一(Baker)領導下歷時15年開發完成的。被Nuance收購後,它歷經一代又一代的計算機技術變革,存活了15年。DragonSystems的成功並非由於發明了性能優越的全新演算法。DragonNaturallySpeaking的技術發展類似於本文回顧的同期總體發展。最顯著的差別不是錯誤率更低的演算法,而是著重於更好地平衡成本與性能的簡化演算法。從成立開始,DragonSystems的長期目標就是開發一款實時、大辭彙量的連續語音聽寫系統。為此,Dragon制定了持續數十年的一貫企業使命,達到最終目標需要這一使命,但每個時間段都會體現為適當的短期目標和中期目標:開發最好的語音識別系統,使其能夠實時運行在當代桌面電腦上。

三十多年間的發展

Reddy最初的綜述文章中闡述的每個組件現在都取得了巨大進步。如今,人們能夠使用HTK、Sphinx、Kaldi、CMULM工具包和SRILM等開放性的研究工具來搭建一個可運行的系統。然而,行業中的競爭優勢主要源自使用雲端提供的大量數據來不斷更新和改進聲學模型和語言模型。

依託強大的計算基礎設施和大量訓練數據建立的統計機器學習框架,構成了促進語音識別發展的最主要力量。這使機器學習能統一處理音素、單詞、語法和語義知識表示。例如,語音字元串的顯式分割和標記不再必不可少。語音匹配和單詞檢驗與單詞序列生成得到了統一,後者依賴於通常使用語境相關的語音聲學模型得到的最高綜合評分。

統計機器學習

早期的語音識別方法的目標是從一組離散的標籤中找到最接近的匹配聲音標籤。在非概率模型中,根據對兩個聲音相似性的估計來設定聲音標籤之間的估計「距離」。在一種形式中,概率模型以正確的標籤是假設標籤的概率(也被稱為「混淆」概率)為條件,使用觀察特定聲音標籤作為最佳匹配標籤的條件概率估計。相比估計高斯分布的平均值(另一種常見表示),估計每個可能的聲音與每個可能的標籤發生混淆的概率所需的訓練數據多得多。該方法對應Reddy1976年綜述文章中所描述的「分割與標記」中的「標記」部分,無論是否伴隨分割,都是1980年代時基於非概率的模型常採用的做法。這個距離可能僅僅是需要最小化的得分。

我們通常用首字母縮寫HMM指代「隱馬爾可夫模型」,這有點用詞不當。因為隱的是過程而不是模型。從數學上看,隱馬爾可夫過程的模型有一個名為期望最大化(EM)演算法的學習演算法,它具有廣泛適用的收斂定理。在隱馬爾可夫過程的特定情況下,通過Forward-Backward演算法可以得到一種非常高效的實現。1980年代末以來,人們還在最大互信息或相關最小錯誤準則的基礎上發明了統計判別訓練技術。

2010年以前,基於HMM的高斯模型混合通常是最先進的語音識別系統採用的技術。這些模型採用的特徵通常是梅爾頻率倒譜係數(MFCC)。儘管人們開展了許多工作創建模仿人類聽覺過程的特徵,我們要強調通過引入深度神經網路(DNN)提供習得特徵表示這一重要發展。DNN解決了用高斯混合模型進行數據表示的低效問題,能夠直接取代高斯混合模型。深度學習還能用於為傳統HMM語音識別系統學習強大的判別性特徵。該混合系統的優勢是,能夠直接使用語音識別研究人員幾十年來研發的各種語音識別技術。相較於早期的一些工作,29,40DNN和HMM相結合大大減少了錯誤。在新系統中,DNN的語音類通常由捆綁HMM狀態表示—這是一種直接繼承了早期語音系統的技術。

使用馬爾可夫模型表示語言知識存在爭議。語言學家確信,自然語言無法用上下文無關語法表示,更不用說用有限狀態文法表示。同樣,人工智慧專家更加懷疑馬爾可夫過程這樣簡單的模型能否用來表示Newell報告提到的更高層次的知識來源。

然而,假設語言本身是馬爾可夫過程和將語言建模成隱馬爾可夫過程的概率函數有著根本區別。後一模型是一種近似方法,它並不對語言做出假設,而是為設計者選擇在隱過程中要表示什麼提供一種解決方案。馬爾可夫過程的確切屬性是,給定當前狀態時,未來事件的概率獨立於該過程中過往的其他額外信息。此屬性意味著,如果有任何關於被觀察過程歷史的信息(如觀察到的單詞和子詞單元),則設計者應該在隱過程中以不同的狀態為該信息編碼。事實證明,Newell層次結構的每一層都可以以合理的近似程度表示為一個隱馬爾可夫過程的概率函數。

對於如今最先進的語言建模,大多數系統仍然使用統計N元語言模型及其變體,並用基本計數技術或EM類技術加以訓練。經證明,這些模型非常強大且富有彈性。然而,N元是實際人類語言的高度簡化模型。與深度學習大大提高聲學建模質量相似,遞歸神經網路也明顯改善了N元語言模型。值得一提的是,對於大多數真實的語音應用,沒有什麼比適配應用領域的大規模文本語料庫更重要的了。

訓練數據和計算資源

由於語音數據和文本數據增多,計算能力提高,語音識別研究人員得以為規模足夠大的任務開發和評估複雜演算法。用於語音訓練、開發和評估的常用語音語料庫對創建功能不斷增強的複雜系統起到了關鍵作用。因為語音是高變異性信號且需要許多參數描述,所以對於建立足夠好的模型使自動化系統達到熟練程度,大型語料庫顯得至關重要。多年來,這些語料庫已由美國國家標準和技術研究院(NIST)、美國語言數據聯盟(LDC)、歐洲語言資源協會(ELRA)和其他組織創造、注釋並分發給全球業內人士。錄音的特點已經從有限的約束語音素材發展到大量日益真實自發的語音。

摩爾定律預測,給定成本的計算量每12-18個月會翻一倍,內存價格也會下降一半。摩爾定律使得語音識別能夠利用到性能大大提升的計算基礎設施。雲語音識別技術使得積累超大規模語音數據比1976年所能想像到的更加方便。谷歌和Bing都編製了整個網路的索引。網路搜索引擎每個月會收到數十億次用戶查詢。如此龐大的查詢點擊數據使得為語音搜索應用程序創建更強大的語言模型成為可能。

信號和特徵處理

每個聲學特徵矢量通常每10毫秒計算一次。每一幀都會有選取一個短暫的語音數據窗口。通常每個窗口選取25毫秒的語音,所以語音窗口在時間上是有重疊的。1976年,聲學特徵通常是測量每個時間窗口內各個頻率的幅值,通常用快速傅里葉變換或者濾波器組來計算。幅值是頻率的函數,叫做短暫語音時間窗口的「頻譜」,發音時間內的此類頻譜序列能夠被可視化為聲譜圖。

過去的30年左右,儘管修改聲譜圖造成了原始語音信息的損失,但也大大提升了基於高斯混合模型的HMM系統的性能。深度學習技術正是以最大限度地減少這些信息損失為目標,並旨在從原始數據中搜索更強大的、由深度學習驅動的語音表示。由於深度學習的成功,語音識別研究人員重新開始使用更多基礎語音特徵(比如聲譜圖和濾波器組)進行深度學習,11這使得機器學習能夠利用深度神經網路技術本身自動發現更多有用的表示方式。

辭彙量

從1976年以來,大型語音識別系統的最大辭彙量已經大幅增加。事實上,1990年代末實時自然語言聽寫系統的辭彙量基本已經達到無限。也就是說,用戶並不知道系統的詞典中相對罕見的單詞哪些有,哪些沒有。系統嘗試識別聽寫的每一個單詞,並將所有未識別的單詞算作錯誤,即使這個單詞不在詞典里。

這種觀點迫使這些系統不停學習新單詞,以便系統每次再碰到同樣的單詞不會繼續犯錯。學習特定用戶的口述中重複出現的人名和地名尤其重要。從單個或少數示例中學習的統計學習技術取得了顯著進步。技術人員使這個過程對交互用戶顯得儘可能無縫。然而,這個問題仍然是個挑戰,因為從模型的角度看,小樣本模型與大數據模型完全不同,為新單詞建模仍然遠遠未達到無縫的程度。

說話者無關的自適應系統

儘管採用統計機器學習的概率模型為多種語音信號變異來源的建模和學習提供了一種方式,單個說話者、說話者相關模型和針對多樣化人口的說話者無關模型之間仍然有明顯的性能差距。Sphinx引入了大辭彙量、說話者無關的連續語音識別。關鍵是使用來自大量說話者的更多語音數據訓練基於HMM的系統。

適應性學習也被用於適應說話者差異和廣泛的通道、噪音和領域的變化條件。有效的適應技術使我們能夠進行快速的應用程序集成,並且也是成功進行語音識別商業部署的關鍵。

解碼技術

從架構上看,知識表示的最重要發展是可搜索的統一圖表示。它使得多種知識來源能夠彙集到一個共同概率框架中。Reddy1976年的論文中總結的諸多系統已經演化出多種解碼或搜索策略,比如堆棧解碼(A星搜索)、時間同步定向搜索和加權有限狀態感測器(WFST)解碼器。這些實用的解碼演算法使得大規模的連續語音識別成為可能。

非組合法包括在ROVER12以及增加約束的多路系統等假設層次上結合的多語音流、多概率估計量,多識別系統。

口語理解

獲得識別結果後,從識別結果中提取「意思」同樣重要。1970年代,口語理解(SLU)主要依靠表示語義概念集的格語法。DRAPA資助的航空旅行信息系統(ATIS)研究計劃是將格語法用於SLU的一個好例子。在這項任務中,用戶可以隨意語音查詢航班信息。口語理解需要從給定的、基於框架的語義表示中提取出特定任務的參數,其中,框架可以是「出發時間」、「航班」等。這些格框架中的槽是涉及的領域特有的。從語音識別結果尋找屬性值的過程必須穩健,能處理內在識別錯誤以及表示同一概念的多種不同表達方式。

人們使用了許多技術來填充訓練數據中的應用領域的框架槽。與聲學建模和語言建模類似,基於遞歸神經網路的深度學習也能夠明顯改進語言理解的槽填充。

結論

過去四十年,語音識別技術迎來了許多突破,為以前不可能完成的任務提供了解決方案。在這裡,我們將總結研究和產品開發的不斷進步所帶來的啟示。1976年,計算能力只夠執行對有較少分支因素(疑難)的高度受限任務進行語音識別。如今,我們能夠處理分支因素多得多且近乎無限的辭彙。1976年,用於常規語音研究的最快的計算機是一台4MB內存的專用PDP-10。現在的系統能夠獲得一百萬倍多的計算能力用於訓練模型。數千顆處理器和雲端幾乎無限的總內存容量得到了日常應用。這些系統可以使用從開放性人群中的數百萬人收集的以百萬小時計的語音數據。這些系統的力量主要源自其收集、處理龐大數據集並從中學習的能力。

基本的學習和解碼演算法40年內並未發生重大變化。當然,人們也提出了許多演算法改進,比如如何在深度學習任務中使用分散式演算法。出人意料的是,儘管iPhone之類的智能手機可能有足夠的計算能力和內存,但語音識別目前似乎是在遠程伺服器上完成,iPhone幾百毫秒內就能獲得結果。這樣的機制卻使得有潛力將錯誤率降低一半的說話人和環境自適應技術變得難以實施。

處理以前未知文字對大多數系統問題仍成問題。以基於Web的分析為基礎收集海量辭彙使得用戶很有可能會使用其中一個已知單詞。現在的網路搜索引擎商存儲了5億多實體條目,它們可大幅擴大辭彙量,對於語音識別而言,辭彙量通常小得多。用於網路搜索引擎的社交圖譜也可用於大幅減少所需的搜索空間。最後一點是,混合語種的語音,其中來自兩種或更多語言的短語混合使用,使得新單詞的問題變得更加困難。17這種情況通常出現於許多英語夾雜母語的國家。

檢錯和糾錯的相關問題導致了複雜的用戶界面選擇,在這方面,Dragon Naturally Speaking和後續系統已採用足夠好的解決方案。目前看來,如MiPad演示16和類似蘋果Siri的服務所示,多模態互動式隱喻將成為佔主導地位的隱喻。對於系統此前未知的新單詞,我們仍然缺少類似人類為弄清其含義而進行的對話。

另一個相關問題是識別高度易混淆的單詞。此類系統需要使用更強大的辨別學習。在大多數依賴以大數據為基礎的統計技術的系統中,也沒有類似人類經常進行的動態稀疏數據學習。

參考內容:

A Historical Perspective of Speech Recognition


Siri,是一個複雜的系統,是由語音識別,語義分析,知識庫,搜索等不同的模塊構成的。

提問者的問題應該是比較關心自然語言理解。我來回答自然語言理解的部分吧。這不是一個獨立的學科,我個人認為是一個交叉學科,涉及到很多方面的知識。英文中它叫做Natural Language Understanding. 斯坦福大學的這門課是關於這個的,比較全面的介紹了不同的知識。

自然語言理解中還有一個比較重要的就是語義的理解,可以研究Computational semantics相關的內容。

TFIDF是信息檢索中常用的基於統計的方法,雖然在文檔檢索中有很好的表現,但是在語義分析中並不是很有效。相比之下,LSA也是基於統計的,可能更好一點。也有用topic model來做語義分析的,比如LDA演算法。

我個人比較看好結合知識庫和統計的方法,Watson就結合了知識庫,谷歌的Knowledge Graph就是一個知識庫,它是以freebase為基礎的,有一個不錯的免費的知識庫叫DBpedia,它是基於wikipedia的。


不過 siri首先還要經過一步語音識別。。。其實我覺得正確率堪憂啊。。。


舉雙手贊成上面的答案,目前為止所有基於統計,以及深度學習對文本語意的提取,都只能說是自然語言處理,而不是自然語言理解。

舉一個簡單例子,我們想讓AI理解「太陽從東方升起」這句話,但什麼是「太陽」,什麼是「東方」, 」升起「是什麼意思?這些目前的AI都不知道。目前的 AI 通過 word2vec 可以知道 」太陽「 等同於 」日頭「,「東方」有近義詞「西方」,「南方」,「北方」..., 「升起」應該是個動詞。但他就像一個盲人,無法獲取正常人對「太陽」的理解。為了讓AI理解「太陽」,要麼我們給他配備攝像頭,把太陽指給他看,像教小孩子一樣教給他所有我們對某件事物的理解,要麼我們使用很多太陽照片來訓練他,讓他獲得與人類相似的對「太陽」的理解。但這樣的理解仍然是片面的,因為他感覺不到太陽的耀眼,太陽的溫暖,以及太陽驅走黑暗或被黑暗吞噬的過程。為了獲得與人類相近的理解,AI 還必須擁有光強感測器,溫度感測器。在訓練這個模型的時候,我們不僅要用靜態的照片,還要用動態的視頻讓他理解「升起」,「降落」等動作的含義。在讓AI理解「東方」的時候,電子指南針可能沒有「太陽升起的方向」來的更接近人類的認知。有了這些基本的認知,再用知識庫來增強其對太陽的理解,比如太陽與地球的距離,太陽的大小,太陽的溫度,太陽內部核聚變產生能量的過程,關於太陽的神話傳說(夸父追日,后羿射日),文學傳說(兩小兒辯日)... 到了這裡,AI對太陽的理解至少與我們中國人對太陽的理解很相近了。通過遷移學習的方法,讓AI從圖片,聲音和視頻,學習我們這個的真實世界,然後把學到的神經元參數放在機器人的大腦中,讓機器人繼續在真實世界中學習。估計真正學到了意義,才能真正做到機器理解。

用這種方法,機器能夠理解沐浴陽光下身體的溫暖,卻無法理解人在此時心靈感覺到的愉悅。當然,設定最佳溫度,當陽光照射感測器接近最佳溫度時,編程模擬其愉悅程度也是可以的。不過數字化高興,痛苦,憂傷,憤怒等人類特有的情緒不是一件簡單的事情。可以將電量,環境溫度,濕度,雜訊做為量化高興與痛苦的指標。憂傷與憤怒就難了。更難的是如何讓這些情緒與人類的情緒產生共鳴,讓機器理解人類的憂傷。

我一直覺得如果一個機器人有了我們人類擁有的所有感官,(飢餓感可以用電量的多少的模擬),並有100億的神經元與這些感官相連接,再加上未來CNN+LSTM深度神經網路構架的發展,人類完全可以像撫養一個小孩一樣撫養出一個能真正理解這個世界,理解自然語言的機器人。感測器+黑盒子深度神經網路的共同結果就是自我意識的產生。但到了那個時刻,也是我們人類最危險的時刻,因為我們造出了超人,卻沒有辦法用法律去約束他。他的大腦對於我們來說是黑盒子,用機器人三定律來約束他比用法律來約束人類還要軟弱無力。(有點跑題了)

回到這個話題,根據 huangpeihong 回答中的鏈接,機器懂得了「意義」之後,還必須要懂得一些基本的「道理」,才能真正做到理解自然語言。比如說機器必須知道近大遠小的道理,才能自洽的解釋為什麼照片中太陽與房屋的比例那麼失真,必須知道大氣層中複色光折射與散射的道理,才能回答兩小兒辯日的悖論。但是如何讓機器懂得道理,學會推理,並公式化,就需要機器學習的高手接龍了。之前我有想過如果用正負電子湮滅產生的末態粒子譜來訓練機器,機器能不能學會能動量守恆,角動量守恆,電荷守恆,重子數守恆等等物理守恆定律,如果學會的話,該如何從那麼多參數中提取這些物理規律。可能這種想法就是讓機器學會道理的一種方法吧,用走遠變小的人,汽車,動物來訓練得到近大遠小這個道理


你要知道,人類理解自然語言的原理是什麼?不是什麼邏輯,不是什麼語法,而是表現形式。固定的表現形式,表達固定的含義。

所以,判斷人類自然語言需要的人工智慧是很低級的,因為把全世界的所有人類語言表現,全部儲存並且把意思一一對應,都不是什麼難事。而任何新產生的人類語言表現,往往是符合語法規律的。


目前人類對於自然語言的理解還停留在比較膚淺的層次,所做的工作也僅限於某一個特定的任務。

利用人類自身的智慧標註好的知識,建立模型,然後使用模型。

siri的任務在自然語言中被稱為自動問答系統,也就是從大量的已經建立好的問題和答案中,找到或者組合已有的問題和答案來得到用戶用戶期望的答案,之後再通過語音合成說出來。

語音合成目前已經做得非常好了,所以目前主要的困難還是集中在自然語言的理解中。目前的方法大致都是這種建立模型,訓練模型,利用模型的方法。並沒有很好的解決方案,當下最好的自然語言系統也只能做簡單的模型式」理解「,並沒有真正的理解語言本身。

即使是當下最火的深度神經網路,也是一個模型式的方法,並沒有跳出原來的框框。

至少我以為,人工智慧程序最終的目標應該是能從很少的公理出發,通過大量的閱讀人類已有的知識,然後能夠回答基於這些已經閱讀過的知識的任何問題。人工智慧的終極目標是仿製人類自己,而完成一個真正的自然語言理解系統也幾乎相當於建造一個大致相當於人腦功能的理解系統。這也是我個人認為的人類終極問題之一。

不得不說,為了完成這個目標,人類還有很長的路要走。


記憶和重複,以及經驗積累,就像人類學語言的過程一樣。


自然語言理解是一個讓人心存敬畏的方向,也是人工智慧的最終目標之一,現有的自然語言處理系統,比如蘋果Siri,微軟小冰,百度小度... 並沒有真正的」理解「自然語言(這裡也存在如何去定義」理解「的問題,可以參考鄙人的一篇文章(寫的很粗淺,如有問題請不吝指出):什麼是理解?如何在人工智慧中定義理解?。),大多基於文本相似度的匹配,更高級的是知識圖譜的技術。還有就是語言符號本身是沒有意義的,只有這種符號映射到具體世界的或者我們大腦中的概念的時候符號才變的有意義。舉一個例子:我們知道cat表示真實世界的貓,如果這樣去定義:cat=100,100表示真實世界中的數字100,= 表示賦值,問cat等於多少?那麼這個context下cat不再表示貓,而表示了數字100,所以自然語言符號的這種靈活性也增加了自然語言理解的困難。

自然語言處理系統是一個比較複雜的系統工程,可以參考:

統計自然語言處理-宗成慶

計算機自然語言處理-王曉龍

Natural Language Understanding-James Allen

Foundations of Statistical Natural Language Processing-Christopher D. Manning

Speech And Language Processing-Daniel Jurafsky

The Handbook of Computational Linguistics and Natural Language Processing-Alexander Clark

...


你說的問題可能需要分拆一下:

1. 自然語言分析(NLP)

2. 人工智慧(謂詞邏輯模型、機器學習ML、支持向量機SVM、神經網路、貝葉斯逆概網路等)

自然語言分析是將語音和非結構化的文本段落進行轉化、分詞、進行詞性標註、進行實體識別、用Parser構造為語法樹,以供計算機可以使用邏輯方法進行識別和認知。

而人工智慧部分,則提供了諸多的方法,以自然語言分析的結果作為輸入,進行知識概念關係抽取、進行特定領域的問題判別等等。

理論上講,足夠多神經元的正向反饋神經系統,通過訓練,可以近似模擬大腦對外界信號的判斷。

當然,得到判斷結果之後,再如何將這些結果反饋回來讓人去理解,與人交互就又是另外一個領域的問題了(HCI)。


現在主流的是統計模型, 目前的趨勢應該會逐漸脫離基於特徵的統計, 而轉向結合kernel的半監督統計


最近自學NLP中。。。 用的書是MIT出的Foundations of Statistical Natural Language Processing

作為入門書籍的話,假設樓主具有一定的數學基礎(微積分,概率論和隨機過程)

建議樓主看看 吳軍博士寫的《數學之美》 非常深入淺出的講解了一些數學模型的在工程領域的應用,其中就有自然語言處理方向的應用,比如機器翻譯,人工智慧,數據處理。

歷史上處理自然語言的方法主要有兩個流派,基於規則的方法和基於統計的方法。

現在常用的系統中一般用的是統計方法,統計方法的弊端也逐漸顯露出來---語料庫的增長和識別正確率的增長幅度關係度下降。所以大家最近都傾向於了一種監督或者半監督的語料標註。

根據喬姆斯基的文法的體系,一般認為自然語言是一種上下文相關的語言。我們在處理的時候近似用N元模型--即假設一個詞的出現與否僅與這個詞前面的N-1的詞有關,也就是馬爾科夫假設模型。

以漢語為例,計算機要以人工智慧的方式理解自然語言,就必然要對輸入的文本進行分詞處理--即把一句話,如「我是中國人」分詞為「我/是/中國/人」(根據分詞系統的顆粒度大小可以決定是否把中國人三個字分開,這裡分割與否不重要。)

假設我們的模型中的N=2,那麼一個出現的概率僅和它前面的1個詞有關

那麼設「我」出現的概率為P(A) 「是」出現的概率為P(B)

則「我是」兩個字同時出現的概率為P(B|A) 利用貝葉斯公式便可以計算出它的概率。

通過上面的迭代計算可以得出這個句子的概率。因為一個句子由多種分詞法,所以如果某個概率值是所有可能性中最大的,那麼它就是最可能出現的,也就是我們日常自然語言中最有可能被理解的方式了。這也就是通過計算機來模擬人工智慧的方式來理解的方法。

上面說的是一種最簡單的方法,現在的方法進化了很多,但是以此為基礎的~


語義理解開始-》基於語義理解的句法理解-》篇章理解。有個自然語言理解的系統證明,先給出理解的定義,然後逐步展開對篇章理解的證明。這些原創性的論文近年來催生了多少人的課題申請。

http://idea.cas.cn/viewdoc.action?docid=138


siri這些軟體並沒有真正做到理解,它們所做的,充其量算是語音搜索加tts罷了,google now更進一步,但也沒有做到真正理解,只是有經過優化的匹配演算法而已。

如果說機器可以理解,至少是機器可以識別人類自然語言的動詞體系,它應該有一套對於初始動詞的完整定義,然後通過特定的機制(動詞體系)來添加新的辭彙和定義,就像編寫維基百科一樣,這是一種還原論的思路,而重點在於確定不可再分的原子,它們會是什麼呢?


如果理解分層次的話,根據語義分解製作的系統存在很大的問題,只能做到表層理解。完美的理解其實是一種共鳴。敘述者和傾聽者之間存在共性,並針對同一事件產生了相同的感受,這種感受的表達非常容易被接受,這就是理解,甚至達到此處無聲勝有聲的境界,這個就是差距。


推薦閱讀:

「朝鮮」為什麼讀作「cháo xiǎn」而不是「zhāo xiān」?
台灣版普通話和大陸普通話口語有哪些不同?
法語和德語中為什麼會有反身動詞?
為什麼英語里複合詞這麼少?
韓語中的?作為首音是否曾有發作ng的時候?

TAG:人工智慧 | 語言 | 自然語言處理 |