cs.CL weekly 2016.09.26-2016.09.30

一周值得讀(偏學術)

PaperWeeklyHyperNetworks

an approach of using a small network, also known as a hypernetwork, to generate the weights for a larger network. 工作來自Google Brain。介紹HyperNetworks的博客:blog.otoro.net/2016/09/

PaperWeeklyIncorporating Relation Paths in Neural Relation Extraction

本文研究內容為實體關係抽取,傳統方法往往只利用同時包含兩個目標實體的句子,而忽略包含單目標實體的句子,本文針對這一問題,在倆目標實體之間構建了一個用於推理的中間實體,並提出一種基於路徑的關係抽取模型,實驗結果表明該模型很好地利用了包含單目標實體的句子信息。本工作來自於劉知遠老師組裡。

PaperWeeklyLanguage as a Latent Variable: Discrete Generative Models for Sentence Compression

本文研究內容為句子壓縮,作者提出了一種VAE模型,先根據背景語言模型生成一個latent摘要句子,然後根據latent句子生成目標句子。實驗中用到了抽取式和摘要式兩種監督方法,並在最後探索出半監督方法的效果可能會好於監督學習的方法。句子壓縮任務可以看做是sentence-level的文本摘要任務,本文的方法同樣可以啟發文本摘要任務的研究。本文工作來自deepmind,並且是EMNLP 2016 Accepted。

PaperWeeklyAnnotating Derivations: A New Evaluation Strategy and Dataset for Algebra Word Problems

本文研究的內容很有意思,是algebra word problems,是自動求解代數問題的基礎,這個問題可以等同為一個semantic parsing的問題,模型通過讀入一段文本,理解其意思,然後構造出一個方程,最後給出方程的解。作者還給出了一個新的dataset和評價標準,本文工作來自伊大香檳分校和微軟研究院。這個task本身非常有意思,也很有難度。

PaperWeeklyOnline Segment to Segment Neural Transduction

本文針對之前encoder-decoder模型面臨的一個瓶頸,即將輸入全部讀入並保存為一個固定大小的hidden states,作者提出了一種新的attention機制,將attention權重作為一種隱變數,在句子摘要上證明了效果,本文工作來自deepmind。

PaperWeekly一周值得讀(偏應用)

PaperWeeklyGoogle』s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

本周最受關注,也備受爭議的一篇paper,Google放出了他們最新一代的機器翻譯系統,一種神經網路翻譯系統。指標上的提升,說明了效果確實有提升,但不代表具體到每一句話都能令人滿意。

PaperWeeklyUbuntuWorld 1.0 LTS - A Platform for Automated Problem Solving & Troubleshooting in the Ubuntu OS

本文給出了一個Ubuntu系統問題諮詢和錯誤排查的bot,可以在bash terminal中運行,通過增強學習進行訓練,可以回答一些基本的問題和錯誤排查。demo bot被封裝成一個python package,即插即用。回答問題的數據來自於Ask Ubuntu。測試了DQN在特定領域bot中的效果,定義了幾組簡單的命令作為action,open/close,install/remove等等,technical support是客戶服務中難度非常大的一類,本文嘗試了用一種完全端到端+增強學習的方案來探索解決此類問題。

PaperWeeklyCharacter Sequence Models for ColorfulWords

本文研究的內容非常有意思,輸入一個word,輸出這個word對應的color並著色。作者構建了一組大型的color-name對數據集,來做一個color圖靈測試。該系統的demo地址:colorlab.us./

PaperWeeklyEquation Parsing: Mapping Sentences to Grounded Equations

本文研究的內容非常有趣也很有實際意義,即從文本中抽取出數學關係,作者將該任務定義如下:給定一句話,抽取出其中的變數和數學關係,並用方程表示。這個研究可以被應用在新聞機器人上,財經、體育等。

PaperWeeklyInducing Multilingual Text Analysis Tools Using Bidirectional Recurrent Neural Networks

資源稀缺語言的標註問題是一個經典的問題,一般的做法是將資源豐富的語音對齊映射過去進行標註,自動詞對齊的錯誤會影響最終的效果。本文針對這個問題,提出了一種BiRNN模型,並且融合外部信息解決問題。該模型具有以下特點:1、不需要詞對齊信息;2、不限定語言,可用於多種資源少的語言;3、提供一種真正的多語言tagger。

一周資源

PaperWeeklyTHULAC

THULAC.so:一個高效的中文詞法分析工具包,為了滿足Python下分詞對速度的要求,發布了一個產生.so文件的THULAC版本,並且提供Python調用的示例代碼。這樣THULAC在Python下的分詞速度得到大幅度提高。

PaperWeeklytinyflow

DMLC陳天奇開放了一個兩千行代碼的樣例項目,教你如何從頭開始打造一個和TensorFlow一樣API的深度學習系統。其中涉及到一個非常重要的開源庫NNVM,地址: GitHub - dmlc/nnvm: Intermediate Computational Graph Representation for Deep Learning Systems 。博客介紹:Build your own TensorFlow with NNVM and Torch ,中文版:NNVM打造模塊化深度學習系統

PaperWeekly廣告時間

PaperWeekly是一個分享知識和交流學問的民間組織,關注的領域是NLP的各個方向。如果你也經常讀paper,也喜歡分享知識,也喜歡和大家一起討論和學習的話,請速速來加入我們吧。

微信公眾號:PaperWeekly

微博賬號:PaperWeekly(weibo.com/u/paperweekly

知乎專欄:PaperWeekly(PaperWeekly - 知乎專欄 )

微信交流群:微信+ zhangjun168305(請備註:加群 or 加入paperweekly)

推薦閱讀:

從高斯分布、機器人誤差、EM演算法到小球檢測
機器學習系列-word2vec篇
機器學習43條軍規:解密谷歌機器學習工程最佳實踐(上)
使用「對象檢測」實現智能結賬體驗

TAG:自然语言处理 | 深度学习DeepLearning | 机器学习 |