資源 ‖ Salesforce創建了一種自動總結文本的新演算法(附論文)

Salesforce Inc. 是一家TO B雲計算公司,提供按需定製客戶關係管理服務,該網路公司總部位於美國加利福尼亞州舊金山。

近年有預期表明,人們花了超過一半的時間來閱讀電子郵件、文章或社交媒體上的帖子,並且越來越嚴重。 為了解決這個問題, Salesforce的研究人員已經開發出一種演算法 ,該演算法根據麻省理工學院技術評估 ,發現該演算法通過使用機器學習技術,能夠對文章產生相當精準的摘要。

「自動總結」這一功能,對於Salesforce公司來說將是一個特別有用的技術,它可以生產各種以客戶為中心的重點產品。 該公司指出,所得到的摘要可以讓銷售人員或客戶服務代表用來快速消化電子郵件和信息,這將使他們花更多時間在公司客戶身上。

為此,Salesforce公司正在轉向機器學習,以找到方法來總結較長的文本塊,最終將其納入其產品之中。

該公司宣布在自然語言處理方面取得了兩項突破 :不僅引入了一種新的「情境語言生成模型( contextual word generation model )」,並提出了「新訓練總結模型( new way of training summarization models)」。 這兩個進步合在一起,可以自動創建較長文本的摘要,不但準確並且具有良好可讀性。自動總結模型背後的技術支持來自於Salesforce 去年收購的深度學習公司MetaMind(MetaMind團隊專註於遞歸神經網路)。

研究人員指出,自動文本摘要有兩種工作方式:提取( extraction )或抽象( abstraction )。 通過提取,計算機可以從文本中的存在的文字中提取,但目前欠缺靈活性。抽象則是計算機足夠理解原文的基礎上,引入新詞概括原意。

這就是深度學習神經網路發揮作用的地方。 他們處理多個句子和詞語的例子,以得出每個短語的新表示,這使得系統能夠解釋文本並引入自己的單詞。 研究人員不僅讓他們的模型回顧了上下文,還回顧了早期生成的示例,以確保它不會重複。

另外一個突破就是研究人員如何訓練系統來學習和改進自身。 他們使用兩種方法:強制教導(teacher forcing)和強化學習(reinforcement learning)。 強化學習是一種從動物學習中吸取靈感的方法,並被用來教谷歌的DeepMind如何玩視頻遊戲。 在這種情況下,允許模型生成單詞序列,然後用自動評估指標ROUGE對結果進行評分。 演算法將以更高得分來指導自身更新,最終輸出的摘要結果,會逐步提升。 強制教導是對結果以一個既定參考詞來評分,這雖然可以提了「非常體面」的結果,但卻缺乏足夠的靈活性。

研究人員發現,「ROUGE優化的RL有助於提升查全率(recall),而詞級學習監測可確保良好的語言流程,從而使摘要更加連貫和可讀」。對這個系統進行評分,他們發現兩者聯合的模式優於其他方法,而Salesforce的首席科學家理查德?蘇格赫(Richard Socher)指出,他也並不認為自己曾經見過其他任何[自然語言處理]的任務都有如此巨大的進步。

使用該模型得出的結果非常驚人!研究人員提供了幾個例子 :通過對比了人為總結,以及由他們自己的模型生成的摘要,發現在各種情況下,模型得出的摘要不僅比人工總結的文本短得多,而且包含的要點都是更加可讀的。 儘管已取得了巨大進展,但在這一領域仍有相當多的工作要做: 麻省理工學院技術評論報與西北大學教授 克里斯蒂安?哈蒙德 ( Kristian Hammond )進行了交流,他指出這雖然顯示了純粹依賴統計化機器學習的局限性,但卻往正確方向上邁出了堅實的一步。

MetaMind 博客:MetaMind Research

MetaMind 譯文:pan.baidu.com/s/1c2irji

論文下載:[1705.04304] A Deep Reinforced Model for Abstractive Summarization

來源:Verge

編譯:銀月子爵

整理:雷特

招聘 志願者

你將與一群AI從業者,共讀一本書;

你將與一群AI大牛,共論一種演算法;

你將全面了解業內的故事和人物;

希望你擁有穩定輸出的時間,英文能力佳,從業者優先

聯繫微信 liulailiuwang


推薦閱讀:

程序員能20分鐘徒手寫出一個沒bug的快速排序嗎?(可以調試)
Algorithm to live by讀書筆記 我們該不該自動化我們的決策
如何將平面上無序的一組點連成一個簡單多邊形?
在NOIP競賽中如何通過數據範圍估計演算法複雜度,選取適合的演算法?
有沒有人可以構建出較為全面的【機器學習】所涉及演算法的結構圖?

TAG:算法 | Salesforce | 机器学习 |