人工智慧的下一個巨大挑戰：理解語言的細微差別

09-15

　語言是人類獨有的能力，是我們智慧的體現。但是通過人工智慧(我們為機器提供語言能力的 NLP)為我們如何使用語言打開了一個新的可能性領域。

　　今天，你可以走進昏暗的起居室，讓 Alexa 把智能燈的亮度調到 75%。或者，你可以讓 Alexa 告訴你世界另一端的天氣狀況。在 Google 最近的 Duplex 演示中展示了該行業最近的進展情況，AI 智能體進行商務呼叫或者預定約會。曾經存在於科幻小說里的幻想在今天變成了現實，但為了能夠保持真正讓人滿意的人機關係，機器必須能夠進行更為直觀、更有語境和更加自然的對話——這仍然是一個挑戰。自我參加工作以來，一直研究 NLP 技術。NLP 這個研究領域，和人工智慧本身一樣古老，而我們仍然處在這個旅程的起步階段。

　　語言是共享信息並與我們周圍的人聯繫的機制，但是機器需要理解語言的複雜之處，以及我們作為人類，如何交流才能使用語言。在情感分析、問答系統和聯合多任務學習方面的進步，是人工智慧得以能夠真正理解人類和我們溝通的方式。

　　情感分析

　　語言從本質上來說就很難。語言在不斷進化，非常微妙，一般人想熟練掌握語言，沒有幾年的功夫是不可能的。通過情感分析，我們可以使用人工智慧來理解關於特定陳述的某些事情，如品牌介紹、電影評論是正面的、負面的還是中立的。但我們也可以弄清楚講者的態度和意圖(是否生氣了?快樂嗎?感到驚訝嗎?要準備買嗎?)。從客戶服務到在線社區審核，再到演算法交易，通過及時分析成千上萬的推文或數百條產品評論，了解公眾對一個品牌的看法，對企業來說，是非常有價值的。

　　情感分析已經存在了一段時間，但它並不總是非常準確。然而，隨著 NLP 技術的進步，這種情況正在發生改變。在我擔任 Salesforce 的首席科學家時，我們的 Einstein AI 服務就能夠讓品牌廠商從聊天中實時分析電子郵件、社交媒體和文本中的情緒，以便提供更好的客戶體驗。例如，準確的情感分析允許服務代理了解哪些不滿意的客戶需要優先提供服務，或者向哪些客戶提供促銷優惠信息。它還可以用來識別產品缺陷，衡量產品總體滿意度，甚至還可以通過社交媒體渠道監控公眾對品牌的看法。其他科技公司也提供了類似的服務。

　　我們還需要能夠理解上下文的能力。假設你有一個香皂公司，有人在推特上說:「這種香皂真的很適合嬰兒呢。」這條推文，可以認為是對兒童香皂的積極認可，但也有可能是反話，暗示這種香皂對孩子來說是可怕的。因此，這句話到底是什麼意思要結合上下文來看，這還是一條非常簡單的陳述句!要教會人工智慧來解析句子所有的可能含義，並理解某個人在特定語境中想要表達的真實含義，是 NLP 研究中的重大挑戰之一。它既需要標記數據來改進模型訓練，也需要能夠學習上下文並同時在不同任務之間共享知識的新模型。

　　問答系統

　　隨著 NLP 越來越能夠更好地解析文本的含義，藉由這點，管理我們日常生活的數字助理的將會更加智能。Siri 和 Google Assistant 等應用現在已經能夠很好地回答常見問題了，並能夠執行相當簡單的命令。但在理想情況下，我們應該可以向計算機提出任意問題，並能夠得到很好的答案。

　　要想讓計算機能夠提供更好的答案，其中一個方法是確保計算機能夠理解問題。如果你問：「When will my plane arrive?」你問的是航班呢，還是從 Amazon 訂購的木工刨子呢?(譯註：plane 有飛機和刨子的含義)計算機要如何確定你到底是問什麼呢?只有通過更深入地理解語義，以及更加智能地使用上下文數據，計算機才能越來越善於猜測我們表達的意思。有了 NLP，我們才能弄清楚如何學習這些上下文層，這樣，人工智慧就可以同時處理所有的上下文，而不會錯過重要的信息。

　　例如，動態共注意網路(dynamic coattention networks，DCN。詳見《State of the art deep learning model for question answering》，http://u6.gg/ejFYu )可以根據所提問的各種問題對單個文檔進行不同的解釋，比如「Which team represented the NFC in Super Bowl 50?」或者「Who scored the touchdown in the fourth quarter?」，通過這種條件解釋，它就可以迭代地假設多個答案，以便得到最好的、最準確的結果。

　　聯合多任務學習

　　科研界擅長的是構建能夠很好地完成單一任務的人工智慧模型。但更直觀、會話式和上下文相關的界面將需要一個能夠不斷學習的人工智慧模型——將新任務與舊任務集成在一起，並在此過程中學習執行更為複雜的任務。人工智慧在通常情況下都是如此，但在語言方面尤為如此，這是因為語言的靈活性所要求的。

　　問題「Who are my customers?」提出了一個足夠簡單的任務：創建一個客戶列表。但問題是「Who are my best customers in the Pacific Northwest for a particular product?」現在，我們增加了一層複雜性，需要一些綜合任務來回答合格的問題，比如，如何定義「best」?每個客戶都住在哪裡?讓客戶對某種產品感到興趣都有哪些因素?通過向查詢添加一個項目，問題的複雜性就會顯著增加了。

　　Saleforce Research 最近創建了「自然語言十項全能(Natural Language Decathlon)」，這是一個挑戰，利用問答功能在單一模型中解決了 NLP 最棘手的 10 項任務：問答系統、機器翻譯、摘要、自然語言推理、情感分析、語義角色標註、關係提取、目標導向對話、資料庫查詢生成和代詞解析。使用多任務問答模型，將每個任務作為問答的一種形式，單個模型聯合共同學習和處理不同的任務，無需任何特定的參數或模塊。這不僅意味著數據科學家無需為每項任務構建、訓練和優化單個模型。但這也意味著模型將具備零樣本學習(zero-shot learning)能力，也就是說，模型可以解決它從未見過或經過專門訓練的任務。

　　隨著研究人員不斷改進這樣的模型，我們將看到人工智慧界面在承擔個能為複雜的任務時，會變得更加智能。