第二節 自然語言處理的框架與流程

自然語言處理目前的應用領域主要有自然語言理解、機器翻譯、機器閱讀和智能人機對話系統開發幾方面。那麼是建立一個通用模型好呢?還是專用模型好呢?當然是通用的好啦,但是以目前的硬體能力和軟體效率來看,飯還是要一口一口吃比較從容。

通用的模型不可能,我們就把一個NLP實用項目的通用流程介紹一下吧。一般認為用計算機對自然語言進行處理應該經過四個必須的過程。首先把需要解決的問題在語言學上加以形式化,使之能以一定的數學形式嚴密而準確地表示出來。然後把這種數學形式建立的模型轉化為具體演算法,也就是計算上的形式化。根據演算法編寫程序,碼農們一定很熟悉了。最後就是對程序的調試、優化和測評。那麼究竟是先有問題再選模型好還是先去設計語言模型再開發實用系統好,那就見仁見智了。

不過鑒於目前通用領域內的模型演算法與開發語言、框架等基礎設施都是各種巨頭在激烈競爭,在建立自己的實用系統以前,為了避免技不如人的尷尬還是先了解一些基礎知識比較保險。主要有九個方面的知識,它們是描述語言的節奏、語調、聲調規律,說明語音如何形成音位的聲學和韻律學;描述音位的結合規律,說明音位怎樣形成語素的音位學;描述語素的結合規律,說明語素怎樣形成單詞的形態學;描述辭彙系統的規律,說明單詞固有語義特性和語法特性的辭彙學;描述單詞或片語之間的結構規則,說明它們怎樣形成句子的句法學;描述句子中各個成分之間與情景無關的語義關係,說明怎樣從構成句子的各個成分推導出整個句子的語義的語義學;描述句子與句子之間的結構規律,說明怎樣由句子形成對話的話語分析知識;說明怎樣推導出句子具有與上下文或相關情景關聯的情景語義的語用學;描述說話人肖像以及外部世界的常識性知識。

?g???C

推薦閱讀:

AI+互聯網金融--入職半年總結
Joint Extraction of Entities and RelationsBased on a Novel Tagging Scheme
關於語音交互的不得不知的技術知識
學習筆記CB004:提問、檢索、回答、NLPIR
Neural Machine Translation with Word Predictions 閱讀筆記

TAG:自然語言處理 |