數據競賽如何推動基礎科研研究?從文本摘要生成技術談起

互聯網和移動互聯網的普及方便了信息流通,但也讓每個人都暴露在大量的信息海洋中,難以消化。根據 IDC 的估計,目前互聯網數據量已躍至 ZB 級別(1ZB=2 的 40 次方 GB),預計 2020 年達到 35ZB。我們每天也能看到大量的信息,包括新聞快訊、社交網路更新、事件評論,以及專業教程等等。如何迅速判斷哪些信息對我們有用?要做到這點非常困難,如果想瀏覽所有內容過於耗費時間,而搜索引擎也並不能徹底信息過載問題,移動設備的普及和碎片化的閱讀方式讓這個問題更加嚴重。

所以,長期以來,如何讓機器自動給文章寫一個標題或者摘要,一直是學術界關注的問題,因為這樣就可以幫助消化海量的信息。在這個信息過載的年代,每個人都會面對大量文章,讀者需要快速判斷其中哪些值得閱讀,並且快速獲取每篇文章傳達的主要內容;如果可以有一個自動化的程序把文章的精髓提煉出來,可以節省很多時間。在這種情況下,標題生成具有很大的應用價值。

60 年前開始啟動的文本摘要生成技術

其實,早在 1958 年,IBM 的計算機科學家 H.P.Luhn 就研究了這一課題,並發表論文《The automatic creation of literature abstracts》。如果只說大致的原理,Luhn 的方法並不難理解。他認為,一篇文章中最重要的句子就是那些帶有最多關鍵詞的句子,而關鍵詞則是那些出現次數最多的詞。他的摘要就是把最重要的句子組合在一起。

類似 Luhn 這種方法的文本摘要生成技術被稱為抽取式(extractive)摘要。抽取式摘要相對較為成熟。這種方法利用如 text rank 這樣的排序演算法,對處理後的文章語句進行排序。不過抽取式摘要在語義理解方面考慮較少,無法建立文本段落中的完整的語義信息。

相較而言,生成式技術(又叫生成式,abstractive)需要讓模型理解文章語義後總結出摘要,更類似人類的做法。不過這種技術需要使用機器學習技術,長期以來並不成熟。轉折點出現在 2014 年。這一年,Yoshua Bengio 等人發表論文《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》,正式引入了 sequence-to-sequence 模型。

這一模型通過兩個循環神經網路,分別把輸入文本轉化成矢量,再把矢量轉成輸出序列。這種模型在論文中主要用來完成機器翻譯任務,並且後來被應用在谷歌翻譯中,但後續在文摘生成任務中也產生了廣泛的應用。此後,這種利用深度學習的 sequence-to-sequence 方法不斷被改進,在一些標準的評測數據集(如 DUC-2004)上,已經超過了傳統的抽取式方法。

例如,2016 年,Facebook AI 實驗室(FAIR)的學者發表論文《A Convolutional Encoder Model for Neural Machine Translation》,在編碼的時候用 CNN 取代 RNN,獲得不錯的效果。Salesforce 的研究人員 2017 年發表的論文《A Deep Reinforced Model for Abstractive Summarization》中,使用了增強學習,在 CNN/Daily Mail 數據集上的 ROUGE-1 分數達到 41.16 分。同年,又是 FAIR 發表了論文《Convolutional Sequence to Sequence Learning》,引入 attention 機制,不僅提高了評測分數,還極大地提升了速度。

貼近學術前沿的評測

雖然有過大量的研究,但是如何評測文本摘要模型的性能一直是個難點。和很多常見的數據競賽不同,文本摘要和標題生成並沒有一個絕對客觀正確的答案。一篇文章讓 10 個編輯起標題,可能會看到 10 個截然不同的標題,但每個都有道理。

目前文本摘要的常見評測工具是 ROUGE,簡單地說,這種方法可以比較機器生成的摘要和人類編輯起的摘要(作為正確答案)的相似程度,兩者越接近分數越高。這麼做的缺陷很明顯,和某一個編輯起的摘要不同不代表摘要不好。

基於這個領域的重要性和長期以來的評測難點,中國人工智慧學會以及位元組跳動聯合組織了 Byte Cup 2018 國際機器學習競賽。這次評測採用了位元組跳動的海外產品 Topbuzz 提供的英文文章。獲得 Google Play 2017 最佳應用的 Topbuzz 是為北美和巴西用戶打造的「海外版今日頭條」,它利用機器學習演算法為用戶提供個性化視頻、GIF 圖、本地新聞及重大新聞。Topbuzz 上每天都會有大量的文章發布,但如何為創作者提供更好的標題選擇是 Topbuzz 目前面臨的一個問題。2017 年,今日頭條人工智慧實驗室(現位元組跳動人工智慧實驗室)就和北京大學合作,共同完成了「互聯網信息摘要與機器寫稿關鍵技術及應用」項目。

在此次的測試集數據中,每篇文章都經過了至少 5 位編輯起的 5 個標題,這樣就擴大了正確答案的空間,增加了評測的準確性。參加評測的隊伍可以根據訓練數據訓練模型,並在測試集的文章數據上生成標題。

圖 | Byte Cup 2018 國際機器學習競賽獲獎隊伍領獎

中國團隊標題生成模型評測結果出眾

本次比賽的參賽選手共組成了近 1100 支隊伍,來自 30 多個國家的 400 多個機構,覆蓋除中國內地以外,美國、俄羅斯、日本、越南、英國、澳大利亞、德國等國家和香港、澳門等地區。參賽選手不僅來自清華大學、北京大學、國防科技大學、復旦大學、浙江大學、卡耐基梅隆大學、喬治亞理工、馬里蘭大學、莫斯科物理技術學院等國內外高校,還有的來自 IBM、微軟、騰訊、網易、搜狗等企業。

在為期 3 個月的比賽結束後,來自浙江大學的團隊獲得第一;來自北京大學、西安交通大學和同濟大學的隊伍獲得第二;大連理工大學的隊伍獲得季軍。

2019 年 1 月 19 日,評測的頒獎儀式在清華舉辦。這次活動掛靠 Byte Tech 2019 機器智能前沿論壇。活動由中國人工智慧學會、位元組跳動、清華大學聯合組織。在頒獎儀式,前三名的隊伍介紹了他們的方法。獲獎隊伍基本都參考了相關領域的最新論文,並嘗試了不同的模型組合。值得一提的是,比賽隊伍還在文本摘要領域已經發表的論文內容之外,使用了最新的工具進行了嘗試。2018 年 11 月,谷歌發布了最新的語言預處理模型 BERT。此時,比賽賽程已經過半,但是幾支參賽隊伍仍然立刻把 BERT 應用於他們的標題生成模型中。

在這次評測中,提供給選手的文章樣例如下:

"Paypal (PYPL) beat earnings and revenue estimates for the second quarter, but it was the third quarter that seemed to concern investors. Paypal shares dipped more than 4% in after-hours trading Wednesday as the companys revenue outlook for the third quarter fell slightly short of analysts expectations. On their earnings call on Wednesday, Paypal forecasted revenue of between $3.62 billion and $3.67 billion for the third quarter, compared to a consensus estimate of $3.71 billion. The payments giant reported adjusted EPS of $0.58, versus consensus expectations of $0.56. PayPal also reported $3.86 billion in revenue for the second quarter, beating consensus expectations of $3.71 billion. "Our customer choice initiatives, partnership strategy and continued focus on being a customer champion are contributing to our sustained strong performance," said Dan Schulman, President and CEO of PayPal, in a press release. "We are pleased to have announced four acquisitions in the second quarter that advance our merchant value proposition and geographic reach. Our strategic decision to become an open platform committed to partnerships has increased the value that PayPal can offer our customers, both consumers and merchants." Paypals stock has been on a tear this year, up 18% year-to-date."

而根據評測結果,獲得冠軍的浙江大學隊伍生成的標題為:「paypal shares drop more than 4 % after-hours trading」,取得亞軍隊伍生成的標題為:「paypal shares fall as revenue guidance misses expectations」,季軍隊伍的標題則為:「paypal shares fall as earnings guidance misses expectations」。

我們需要什麼評測/比賽 ?

?

現在雖然數據比賽很多,但是大量比賽主要面向企業需求,以企業的問題為主。一般這類問題主要探討企業面對的實際問題,創新性不足,但企業一般也能提供較多的獎金。另一方面,學術界也在組織一些試圖推動前沿研究的評測,但這類比賽往往影響範圍較小,獎金較低,一般以學術界的小圈子參加為主。如何結合兩者優勢,組織既能推動基礎研究,也能產生商業價值的評測,成了一個重要的課題,也因此,通過觀察包括 Byte Cup 2018 等競賽的評測結果或許能夠從中得到不同的啟發。


推薦閱讀:

TAG:數據科學家 | 科研 |