第四章 自然語言處理的功能實現

第一節 自然語言處理核心目標

構造描述自然語言內在規律的數學模型是自然語言處理的核心目標。傳統的方法偏愛來自語言學家人工編製的語言規則,但這些知識具有主觀性和片面性,難以處理大規模的真實文本。另一種方法是計算機藉助語言統計模型的概率參數,估計自然語言中語言成分出現的可能性,而不是單純地判斷這樣的語言成分是否符合語言學規則。

我們已經進入以互聯網為主要標誌的海量信息時代,大規模真實文本的處理成為自然語言處理的主要戰略目標,因此基於句法-語義規則的方法受到質疑,而用機器自動學習的方法來獲取語言知識被越來越多地使用。目前較成熟的統計語言模型包括隱馬爾可夫模型、概率上下文無關語法、基於決策樹的語言模型、最大熵語言模型(Maximum Entropy Model)等。語言信息處理成為信息科學技術中長期發展的一個戰略制高點,《國家中長期科學和技術發展規劃綱要》指出,我國將促進「以圖像和自然語言理解為基礎的『以人為中心』的信息技術發展,推動多領域的創新」。

當前的自然語言處理,不管是英文還是中文,都是選擇分而治之的方法,把應用分解成多個子任務來分析和解決,很少能夠發展一個統一的架構,並且為了更好地提高性能,從而導致需要加入大量為特定任務指定的人工信息。以Google為代表的基於信息、知識處理的國際公司的崛起,正在形成比微軟有過之而無不及的商業壟斷以及對信息、知識有效利用的持續性、戰略性控制;另外經過長期的研究積累與技術沉澱,中文信息處理正處於醞釀重大突破的前夜,如何抓住這個新的歷史機遇,迎接挑戰將是我國科技工作者必須回答的一個重大問題。

itleIm:?<???

推薦閱讀:

第三章 自然語言理解的技術分類及比較
Learning Explanatory Rules from Noisy Data 閱讀筆記4
SQLnet 代碼閱讀筆記
CRF 小結
Relation Extraction: Perspective from Convolutional Neural Networks

TAG:自然語言處理 |