嘿,朋友,老夫掐指一算你就是「水軍」 | 論文訪談間 #13

「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。

論文作者 | 王雪鵬,劉康,何世柱,趙軍(中科院自動化所)

特約記者 | 吳桐(東南大學)

不知多少人會像小編一樣網購時需要繞過擋在頭幾條的層層水軍,才能找到相對客觀的評論,每當這個時候不免幻想如果機器能幫自己先篩一遍會是多麼的方便。

仔細想來,這件事也不是那麼難,假如我們可以獲取評論者在歷史操作中豐富的行為信息,依靠領域專家知識提取出有效特徵就可以對評論的價值做出判斷。然而沒有歷史記錄的條件下這個問題會變得十分棘手。就像一幕話劇中,張三出場後一直在尋釁滋事,觀眾輕輕搖頭——「一看就不是好東西」。如果這時李四齣場了,那麼問題來了,李四是好人么?……啊咧,李四還沒做過什麼呀,你問我我問誰?

這便是垃圾評論檢測中的冷啟動問題,在新用戶剛剛發布了一條評論時,傳統方法很難獲取足夠量的信息,形成有效的特徵,如此致使垃圾評論檢測系統難以及時檢測出新用戶的評論。

中科院自動化所的王雪鵬同學、劉康老師、何世柱老師和趙軍老師,在 ACL2017 上發表了一篇名為「Handling cold-start problem in review spam detection by jointly embedding texts and behaviors」的文章,針對這個未被前人探索過的問題,提出了一個基於圖結構與卷積神經網路的模型,該模型通過對文本與行為信息聯合編碼來學習表示新用戶的新評論。

實驗結果顯示本文所提出的模型能夠有效地在冷啟動狀態下檢測垃圾評論,並具有較好的領域適應性。該模型同樣適用於無監督大規模數據學習。

▲ 圖1:模型框架圖

如圖 1 所示,文中提出了基於圖結構與卷積神經網路的模型來將文本信息與行為信息聯合編碼到評論的表示向量中,以在冷啟動狀態下檢測垃圾評論。通過對評論系統的圖結構進行建模,模型能夠以一種無監督的方式記錄現有用戶的全局性行為足跡,從而進一步地捕捉到用戶行為足跡中的潛在個人特性信息。

這種聯合學習評論向量表示的方法能夠有效地對用戶的文本信息與行為信息之間的關聯耦合性進行建模。當一個新用戶發表了一條評論時,模型能夠使用從大量已有評論中學習到文本信息(詞向量)來表示這條評論,同時耦合關聯在詞向量中的行為信息也隨之一起編碼到了新評論的向量表示中去。最終,將新評論的表示向量輸入到訓練好的分類器中進行垃圾評論的檢測。

▲ 圖2:實驗結果

實驗部分通過如下幾種特徵及方法的組合在賓館和餐廳的評論數據集上進行驗證。其中 LF(linguistic features)代表傳統評論文本特徵,BF(behavioral features)代表傳統用戶行為特徵,BF_EditSim 代表通過編輯距離計算後得到的相似評論的評論者的行為特徵,BF_W2Vsim 代表通過計算評論(預訓練)詞向量平均值表示得到的相似評論的評論者行為特徵,在文中另外定義了 RE(review embeddings),RRE(review』s rating embeddings)和 PRE(product』s average rating embeddings)等三種經訓練得到的特徵向量。

利用 SVM 對以上組合特徵分別進行分類測試,文中所提出的模型在兩個測試集上均表現不俗(圖 2 中,1、2 行展示的是傳統方法,3、4 行展示的是直覺方法,5、6 行展示的是本文聯合學習方法)。

冷啟動問題是垃圾評論檢測中的一項迫切而重要的任務,冷啟動問題的解決能夠及時而有效地減輕垃圾評論者對評論網站的攻擊傷害。本文首次探索了冷啟動問題,定性與定量地分析驗證了傳統文本特徵與行為特徵很難有效地在冷啟動狀態下檢測垃圾評論,提出了一個基於圖結構與卷積神經網路的模型,在冷啟動狀態下檢測垃圾評論。

也許真的有一天技術成熟了,我們可以再也不用為滿屏的垃圾評論感到苦惱了,想想真的還有點小激動呢。

點擊查看論文:nlpr.ia.ac.cn/cip/~liuk

關於中國中文信息學會青工委

中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平台。如果你研究或從事 AI 領域,歡迎在公眾號後台點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。

微信公眾號:PaperWeekly

新浪微博:@PaperWeekly


推薦閱讀:

評測時如何構造訓練數據分布與測試數據分布一致
多輪對話之對話管理(Dialog Management)
PaperWeekly 第37期 | 論文盤點:檢索式問答系統的語義匹配模型(神經網路篇)
詞向量
【專知薈萃05】聊天機器人Chatbot知識資料全集(入門/進階/論文/軟體/數據/專家等)(附pdf下載)

TAG:冷启动 | 自然语言处理 |