清華-中國工程院知識智能聯合實驗室發布2018NLP研究報告

08-10

來自專欄機器之心53 人贊了文章

摘自AMiner，機器之心整理，參與：李亞洲、思源。

自然語言處理是現代技術最重要的組成部分之一，而最近清華大學和中國工程院知識智能聯合實驗室發布一份非常全面的 NLP 報告。該報告從 NLP 的概念介紹、研究與應用情況、專家學者概要以及發展趨勢這 5 個方向縱覽了這一領域的當下與未來，機器之心簡要介紹了該報的概要信息，但讀者可以從這些方面縱覽 NLP 的發展面貌，完整內容請下載查看原報告。讀者們可關注「學術頭條（ID：SciTouTiao）」了解更多AMiner研究報告。

報告下載地址：https://www.aminer.cn/research_report/nlp?h=5200&download=true

根據 AMiner 研究報告的摘要所述，分析師們主要從以下五個方向六大章節梳理自然語言處理的發展狀況：

自然語言處理概念。首先對自然語言處理進行定義，接著對自然語言的發展歷程進行了梳理，對我國自然語言處理現狀進行了簡單介紹，對自然語言處理業界情況進行介紹。
自然語言處理研究情況。依據 2016 年中文信息學會發布的中文信息處理髮展報告對自然語言處理研究中的重要技術進行介紹。
自然語言處理領域專家介紹。利用 AMiner 大數據對自然語言處理領域專家進行深入挖掘，對國內外自然語言處理知名實驗室及其主要負責人進行介紹。
自然語言處理的應用及趨勢預測。自然語言處理在現實生活中應用廣泛，目前的應用集中在語言學、數據處理、認知科學以及語言工程等領域，在介紹相關應用的基礎上，對機器翻譯未來的發展趨勢做出了相應的預測。

1 概述篇

在概述篇中，該報告重點介紹了自然語言處理的概念、發展歷程、我國 NLP 目前的發展狀況和業界的研究與應用。

1.1 自然語言處理概念

自然語言是指漢語、英語、法語等人們日常使用的語言，是自然而然的隨著人類社會發展演變而來的語言，而不是人造的語言，它是人類學習生活的重要工具。概括說來，自然語言是指人類社會約定俗成的，區別於人工語言，如程序設計的語言。

自然語言處理，是指用計算機對自然語言的形、音、義等信息進行處理，即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實現人機間的信息交流，是人工智慧界、計算機科學和語言學界所共同關注的重要問題。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。可以說，自然語言處理就是要計算機理解自然語言，自然語言處理機制涉及兩個流程，包括自然語言理解和自然語言生成。

1.2 自然語言處理髮展歷程

自然語言處理是包括了計算機科學、語言學心理認知學等一系列學科的一門交叉學科，這些學科性質不同但又彼此相互交叉。因此，梳理自然語言處理的發展歷程對於我們更好地了解自然語言處理這一學科有著重要的意義。

從 2008 年到現在，在圖像識別和語音識別領域的成果激勵下，人們也逐漸開始引入深度學習來做自然語言處理研究，由最初的詞向量到 2013 年 word2vec，將深度學習與自然語言處理的結合推向了高潮，並在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。深度學習是一個多層的神經網路，從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好，設計並訓練一個神經網路，即可執行預想的任務。RNN 已經是自然語言護理最常用的方法之一，GRU、LSTM 等模型相繼引發了一輪又一輪的熱潮。

1.3 我國自然語言處理現狀

目前自然語言處理的研究可以分為基礎性研究和應用性研究兩部分，語音和文本是兩類研究的重點。基礎性研究主要涉及語言學、數學、計算機學科等領域，相對應的技術有消除歧義、語法形式化等。應用性研究則主要集中在一些應用自然語言處理的領域，例如信息檢索、文本分類、機器翻譯等。由於我國基礎理論即機器翻譯的研究起步較早，且基礎理論研究是任何應用的理論基礎，所以語法、句法、語義分析等基礎性研究歷來是研究的重點，而且隨著互聯網網路技術的發展，智能檢索類研究近年來也逐漸升溫。

1.4 自然語言處理業界發展

1. Google

Google 是最早開始研究自然語言處理技術的團隊之一，作為一個以搜索為核心的公司，Google 對自然語言處理更為重視。Google 擁有著海量數據，可以搭建豐富龐大的資料庫，可以為其研究提供強大的數據支撐。Google 對自然語言處理的研究側重於應用規模、跨語言和跨領域的演算法，其成果在 Google 的許多方面都被使用，提升了用戶在搜索、移動、應用、廣告、翻譯等方面的體驗。

2. 百度

百度自然語言處理部是百度最早成立的部門之一，研究涉及深度問答、閱讀理解、智能寫作、對話系統、機器翻譯、語義計算、語言分析、知識挖掘、個性化、反饋學習等。其中，百度自然語言處理在深度問答方向經過多年打磨，積累了問句理解、答案抽取、觀點分析與聚合等方面的一整套技術方案，目前已經在搜索、度秘等多個產品中實現應用。篇章理解通過篇章結構分析、主體分析、內容標籤、情感分析等關鍵技術實現對文本內容的理解，目前，篇章理解的關鍵技術已經在搜索、資訊流、糯米等產品中實現應用。百度翻譯目前支持全球 28 種語言，覆蓋 756 個翻譯方向，支持文本、語音、圖像等翻譯功能，並提供精準人工翻譯服務，滿足不同場景下的翻譯需求，在多項翻譯技術取得重大突破，發布了世界上首個線上神經網路翻譯系統。

3. 阿里巴巴

阿里自然語言處理為其產品服務，在電商平台中構建知識圖譜實現智能導購，同時進行全網用戶興趣挖掘，在客服場景中也運用自然語言處理技術打造機器人客服，例如螞蟻金融智能小寶、淘寶賣家的輔助工具千牛插件等，同時進行語音識別以及後續分析。阿里的機器翻譯主要與其國家化電商的規劃相聯繫，可以進行商品信息翻譯、廣告關鍵詞翻譯、買家采購需求以及即時通信翻譯等，語種覆蓋中文、荷蘭語、希伯來語等語種，2017 年初阿里正式上線了自主開發的神經網路翻譯系統，進一步提升了其翻譯質量。

4. 騰訊

AI Lab 是騰訊的人工智慧實驗室，研究領域包括計算機視覺、語音識別、自然語言處理、機器學習等。其研發的騰訊文智自然語言處理基於並行計算、分散式爬蟲系統，結合獨特的語義分析技術，可滿足自然語言處理、轉碼、抽取、數據抓取等需求，同時，基於文智 API 還可以實現搜索、推薦、輿情、挖掘等功能。在機器翻譯方面，2017 年騰訊宣布翻譯君上線「同聲傳譯」新功能，用戶邊說邊翻的需求得到滿足，語音識別+NMT 等技術的應用保證了邊說邊翻的速度與精準性。

除此之外，該報告還介紹了微軟亞洲研究院、Facebook、京東和科大訊飛等在 NLP 方面有非常多研究與應用的機構。

2 技術篇

自然語言處理的研究領域極為廣泛，各種分類方式層出不窮，各有其合理性，我們按照中國中文信息學會 2016 年發布的《中文信息處理髮展報告》，將自然語言處理的研究領域和技術進行以下分類，並選取其中部分進行介紹。

基礎技術：詞法與句法分析、語義分析、語篇分析、知識圖譜、語言認知模型、語言知識表示和深度學習
應用技術：機器翻譯、信息檢索、情感分析、自動問答、自動文摘、信息抽取、信息推薦與過濾、文本分類與聚類、文字識別

2.1 自然語言處理基礎技術

自然語言的基礎技術包括辭彙、短語、句子和篇章級別的表示，以及分詞、句法分析和語義分析以及語言認知模型和知識圖譜等。

2.1.1 詞法、句法及語義分析

詞法分析的主要任務是詞性標註和詞義標註。詞性是辭彙的基本屬性，詞性標註就是在給定句子中判斷每個詞的語法範疇，確定其詞性並進行標註。解決兼類詞和確定未登錄詞的詞性問題是標註的重點。進行詞性標註通常有基於規則和基於統計的兩種方法。一個多義詞往往可以表達多個意義，但其意義在具體的語境中又是確定的，詞義標註的重點就是解決如何確定多義詞在具體語境中的義項問題。標註過程中，通常是先確定語境，再明確詞義，方法和詞性標註類似，有基於規則和基於統計的做法。

判斷句子的句法結構和組成句子的各成分，明確它們之間的相互關係是句法分析的主要任務。句法分析通常有完全句法分析和淺層句法分析兩種，完全句法分析是通過一系列的句法分析過程最終得到一個句子的完整的句法樹。句法分析方法也分為基於規則和基於統計的

方法，基於統計的方法是目前的主流方法，概率上下文無關文法用的較多。完全句法分析存在兩個難點，一是詞性歧義；二是搜索空間太大，通常是句子中詞的個數 n 的指數級。淺層句法分析又叫部分句法分析或語塊分析，它只要求識別出句子中某些結構相對簡單的成分如動詞短語、非遞歸的名詞短語等，這些結構被稱為語塊。一般來說，淺層語法分析會完成語塊的識別和分析、語塊之間依存關係的分析兩個任務，其中語塊的識別和分析是淺層語法分析的主要任務。

語義分析是指根據句子的句法結構和句子中每個實詞的詞義推導出來能夠反映這個句子意義的某種形式化表示，將人類能夠理解的自然語言轉化為計算機能夠理解的形式語言。句子的分析與處理過程，有的採用「先句法後語義」的方法，但「句法語義一體化」的策略還是佔據主流位置。語義分析技術目前還不是十分成熟，運用統計方法獲取語義信息的研究頗受關注，常見的有詞義消歧和淺層語義分析。

自然語言處理的基礎研究還包括語用語境和篇章分析。語用是指人對語言的具體運用，研究和分析語言使用者的真正用意，它與語境、語言使用者的知識涵養、言語行為、想法和意圖是分不開的，是對自然語言的深層理解。情景語境和文化語境是語境分析主要涉及的方面，篇章分析則是將研究擴展到句子的界限之外，對段落和整篇文章進行理解和分析。

除此之外，自然語言的基礎研究還涉及詞義消歧、指代消解、命名實體識別等方面的研究。

2.1.2 知識圖譜

知識圖譜，是為了表示知識，描述客觀世界的概念、實體、事件等之間關係的一種表示形式。這一概念的起源可以追溯至語義網路——提出於 20 世紀五六十年代的一種知識表示形式。語義網路由許多個「節點」和「邊」組成，這些「節點」和「邊」相互連接，「節點」表示的是概念或對象，「邊」表示各個節點之間的關係。

知識圖譜在表現形式上與語義網路比較類似，不同的是，語義網路側重於表示概念與概念之間的關係，而知識圖譜更側重於表述實體之間的關係。現在的知識網路被用來泛指大規模的知識庫，知識圖譜中包含的節點有以下幾種：

實體：指獨立存在且具有某種區別性的事物。如一個人、一種動物、一個國家、一種植物等。
語義類：具有同種性的實體構成的集合，如人類、動物、國家、植物等。
內容：通常是實體和語義類的名字、描述、解釋等，變現形式一般有文本、圖像、音視頻等。
屬性（值）：主要指對象指定屬性的值，不同的屬性類型對應於不同類型屬性的邊。
關係：在知識圖譜上，表現形式是一個將節點（實體、語義類、屬性值）映射到布爾值的函數。

知識圖譜表示、構建和應用涉及很多學科，是一項綜合的複雜技術。知識圖譜技術既涉及自然語言處理中的各項技術，從淺層的文本向量表示、到句法和語義結構表示被適用於資源內容的表示中，分詞和詞性標註、命名實體識別、句法語義結構分析、指代分析等技術被應用於自然語言處理中。同時，知識圖譜的研究也促進了自然語言處理技術的研究，基於知識圖譜的詞義排岐和語義依存關係分析等知識驅動的自然語言處理技術得以建立。

2.2 自然語言處理應用技術

2.2.1 機器翻譯

機器翻譯（Machine Translation）是指運用機器，通過特定的計算機程序將一種書寫形式或聲音形式的自然語言，翻譯成另一種書寫形式或聲音形式的自然語言。機器翻譯是一門交叉學科（邊緣學科），組成它的三門子學科分別是計算機語言學、人工智慧和數理邏輯，各自建立在語言學、計算機科學和數學的基礎之上。

目前，文本翻譯最為主流的工作方式依然是以傳統的統計機器翻譯和神經網路翻譯為主。Google、Microsoft 與國內的百度、有道等公司都為用戶提供了免費的在線多語言翻譯系統。速度快、成本低是文本翻譯的主要特點，而且應用廣泛，不同行業都可以採用相應的專業翻譯。但是，這一翻譯過程是機械的和僵硬的，在翻譯過程中會出現很多語義語境上的問題，仍然需要人工翻譯來進行補充。

語音翻譯可能是目前機器翻譯中比較富有創新意思的領域，搜狗推出的機器同傳技術主要在會議場景出現，演講者的語音實時轉換成文本，並且進行同步翻譯，低延遲顯示翻譯結果，希望能夠取代人工同傳，實現不同語言人們低成本的有效交流。

圖像翻譯也有不小的進展。谷歌、微軟、Facebook 和百度均擁有能夠讓用戶搜索或者自動整理沒有識別標籤照片的技術。除此之外還有視頻翻譯和 VR 翻譯也在逐漸應用中，但是目前的應用還不太成熟。

2.2.2 信息檢索

信息檢索是從相關文檔集合中查找用戶所需信息的過程。信息檢索的基本原理是將用戶輸入的檢索關鍵詞與資料庫中的標引詞進行對比，當二者匹配成功時，檢索成功。

以谷歌為代表的「關鍵詞查詢+選擇性瀏覽」交互方式，用戶用簡單的關鍵詞作為查詢提交給搜索引擎，搜索引擎並非直接把檢索目標頁面反饋給用戶，而是提供給用戶一個可能的檢索目標頁面列表，用戶瀏覽該列表並從中選擇出能夠滿足其信息需求的頁面加以瀏覽。

2.2.4 自動問答

自動問答是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務。自動問答系統在回答用戶問題時，首先要正確理解用戶所提出的問題，抽取其中關鍵的信息，在已有的語料庫或者知識庫中進行檢索、匹配，將獲取的答案反饋給用戶。這一過程涉及了包括詞法句法語義分析的基礎技術，以及信息檢索、知識工程、文本生成等多項技術。

根據目標數據源的不同，問答技術大致可以分為檢索式問答、社區問答以及知識庫問答三種。檢索式問答和社區問答的核心是淺層語義分析和關鍵詞匹配，而知識庫問答則正在逐步實現知識的深層邏輯推理。

除了這幾種 NLP 應用，其它如情感分析、自動文本摘要、社會計算和信息抽取也都有廣泛的應用，讀者可查閱原報告了解詳細內容。

3 人才篇

3.1 國外實驗室及人才介紹

AMiner 基於發表於國際期刊會議的學術論文，對自然語言處理領域全球 h-index 排序 top1000 的學者進行計算分析，繪製了該領域頂尖學者全球分布地圖。

這部分內容中，AMiner 還選取在 ACL、EMNLP、NAACL、COLING 等 4 個會議在近 5 年累計發表 10 次以上論文的國外學者及其所在實驗室做簡要介紹。包括：

Chris Dyer，卡內基梅隆大學語言技術研究所
Christopher D. Manning，斯坦福大學自然語言處理小組
Dan Klein，伯克利大學自然語言處理小組

除了以上提到的，國外還有一些知名自然語言處理實驗室：

聖母大學自然語言處理小組，負責人是 David Chiang
哈佛自然語言處理小組，負責人是 Stuart Shieber
哥倫比亞大學自然語言處理研究室，負責人為 Michael Collins

3.2 國內實驗室及人才介紹

這部分，AMiner 基於論文數據整理了自然語言處理華人專家庫，其中包括了來自 NUS、HKUS、 THU、PKU、FDU 等知名高校以及百度、科大訊飛、微軟等公司的 367 位專家學者。

而後，AMiner 選取在 ACL、EMNLP、NAACL、COLING 等 4 個會議在近 5 年累計發表 10 次以上論文的國內學者包括劉群、劉挺、周明、常寶寶、黃萱菁、劉洋、孫茂松、李素建、萬小軍、邱錫鵬、穗志方等。

圖：國內學者介紹示例

3.3 ACL2018 獎項介紹

2018 年 7 月 15 在墨爾本開幕的 ACL 公布了其最佳論文名單，包括 3 篇最佳長論文和 2 篇最佳短論文以及 1 篇最佳 demo 論文，值得一提的是 Amazon Door Prize 中北京大學和哈爾濱大學上榜，ACL2018 終身成就獎為愛丁堡大學 Mark Steedman 獲得。

接下來，該報告對獲獎論文進行了摘要介紹。讀者們也可以參考機器之心文章《計算語言頂會 ACL 2018 最佳論文公布！這些大學與研究員榜上有名》

4. 應用篇

從知識產業角度來看，自然語言處理軟體佔有重要的地位，專家系統、資料庫、知識庫，計算機輔助設計系統 (CAD)、計算機輔助教學系統 (Cal)、計算機輔助決策系統、辦公室自動化管理系統、智能機器人等，全都需要自然語言做人機界面。長遠看來，具有篇章理解能力的自然語言理解系統可用於機器自動翻譯、情報檢索、自動標引及自動文摘等領域，有著廣闊的應用前景。

隨著自然語言處理研究的不斷深入和發展，應用領域越來越廣。

文本方面的應用主要有：基於自然語言理解的智能搜索引擎和智能檢索、智能機器翻譯、自動摘要與文本綜合、文本分類與文件整理、智能自動作文系統、自動判卷系統、信息過濾與垃圾郵件處理、文學研究與古文研究、語法校對、文本數據挖掘與智能決策以及基於自然語言的計算機程序設計等。

語音方面的應用主要有：機器同聲傳譯、智能遠程教學與答疑、語音控制、智能客戶服務、機器聊天與智能參謀、智能交通信息服務 (ATIS)、智能解說與體育新聞實時解說、語音挖掘與多媒體挖掘、多媒體信息提取與文本轉化以及對殘疾人智能幫助系統等。

此外，建立在自然語言處理技術基礎之上的心理學、認知學、哲學、混沌學說的共同發展，將使人們對智能的起源問題有新的認識。如果把計算機網路和未來的網格看作是由機器組成的機器社會，那麼一種屬於機器的智能可能會因為人類的參與以及機器社會中各元素的相互作用而自然誕生。這樣，機器必將能夠通過「圖靈測試」，達到「會思考」的層次。而有關智能機器的研究也會誕生一系列新的領域，比如，機器心理學和機器認知學等。

其中，機器心理學主要研究機器的心理反應和意圖。美國聖迭戈神經科學研究所研製的機器人 DarwinV II，能夠根據其感知對外部事物進行分類，並根據經驗和知識採取相應的對策。然而，機器心理學的研究不能局限於此，人們還需要對機器的意識、知覺、思想、情感、情緒、創造力、機器社會、機器交流等方面進行研究，而這一切還需要計算機科學、心理學、神經科學的同步發展。

而後，AMiner 選取了一些自然語言處理應用較為頻繁的場景進行介紹，如知識圖譜、機器翻譯、推薦系統等。

5 趨勢篇

隨著深度學習時代的來臨，神經網路成為一種強大的機器學習工具，自然語言處理取得了許多突破性發展，情緒分析、自動問答、機器翻譯等領域都飛速發展。

下圖分別是 AMiner 計算出的自然語言處理近期熱點和全球熱點。通過對 1994-2017 年間自然語言處理領域有關論文的挖掘，總結出二十多年來，自然語言處理的領域關鍵詞主要集中在計算機語言、神經網路、情感分析、機器翻譯、詞義消歧、信息提取、知識庫和文本分析等領域。旨在基於歷史的科研成果數據的基礎上，對自然語言處理熱度甚至發展趨勢進行研究。圖中，每個彩色分支表示一個關鍵詞領域，其寬度表示該關鍵詞的研究熱度，各關鍵詞在每一年份（縱軸）的位置是按照這一時間點上所有關鍵詞的熱度高低進行排序。

圖 16 顯示，情緒分析、詞義消歧、知識庫和計算機語言學將是最近的熱點發展趨勢，圖 17 顯示詞義消歧、詞義理解、計算機語言學、信息檢索和信息提取將是自然語言處理全球熱點。

AMiner 同時在微博 @ArnetMiner 中發起了關於自然語言處理未來發展趨勢的投票，得到了如下結果。