標籤:

<<Neural Language ModelingnBy Jointly Learning Syntax And Lexicon>>

來源:ICLR2018

論文鏈接:openreview.net/pdf?

聲明:轉載請註明出處:學習ML的皮皮蝦

ABSTRACT

本文提出了一種神經語言模型,能夠進行無監督的句法結構歸納。模型利用結構信息形成更好的語義表示和更好的語言建模。標準的遞歸神經網路受其結構的限制,不能有效地使用句法信息。另一方面,基於tree-structured 的遞歸網路通常需要對人工專家注釋的成本進行額外的結構監控。在本文中,提出了一種新的神經語言模型,叫做」 Parsing-Reading-Predict Networks(PRPN) 」,它可以同時從無注釋的句子中誘導句法結構,並利用推斷結構來學習一種更好的語言模型。

INTRODUCTION

語言學理論通常認為自然語言包括兩部分:

1)辭彙,一種語言中所有可能辭彙的完整集合;

2)一種語法,一套規則,原則和處理句子結構的過程。

為了生成一個合適的句子,token與特定的句法結構放在一起。理解一個句子也需要辭彙信息來提供意義,以及語法知識正確地結合意義。然而,標準的遞歸神經網路只是隱式的模型語法,因此無法有效地使用結構信息。

本文提出了一種新的神經語言模型」 Parsing-Reading-Predict Networks(PRPN),它可以同時從無注釋的句子中歸納出句法結構,並利用推斷結構來形成更好的語言模型。該模型由三個部分組成:

1. A differentiable neural Parsing Network

利用卷積神經網路來計算句法距離,表示句子中所有連續單詞之間的句法關係,然後根據句法距離進行軟成分決策。

2. A Reading Network

它可以反覆地計算自適應內存表示,以總結與當前時間步驟相關的信息,基於與當前標記的語法和直接相關的所有以前的記憶。

3. A Predict Network

它根據與下一個token的語法和直接相關的所有記憶預測下一個標記。

model

圖中的模型體系結構,實線表示閱讀網路中有效的連接,虛線表示預測網路中的有效連接。假設有一個 x_{0}......x_{6} 的序列由樹結構控制,如圖所示。這些葉子被觀察到tokens。節點 y_{i} 表示由其葉 x_{l}(y_{i}) ......x_{r}(y_{i}) 構成的成分的意義,l(·)和r(·)表示最左邊的子和最右邊的子。r(.)表示整個序列的意義。箭頭表示節點之間的依賴關係。

在本文中,使用skip-connection將結構化依賴關係與遞歸神經網路進行集成。換句話說,當前的隱藏狀態不僅依賴於最後一個隱藏狀態,而且還依賴於與當前狀態有直接語法關係的先前隱藏狀態。非葉節點yj由一組表示隱狀態 y_{i}=left{ m_{i} right}l(y_{i})leqi leq r(y_{i}), l(y_{i})表示最左側後代葉和 r(y_{i}) 代表最右側的一個。箭頭顯示了模型根據潛在結構建立的跳躍連接。跳過連接由門 g_{i}^{t} 控制:

在這個架構中,兄弟姐妹依賴關係至少由一個skip-connect建模。跳過連接將直接向前方輸入信息,並向後傳遞漸變。親子關係將由節點間的skip-connect關係隱式建模。

PARSING NETWORK

Inferring tree structure with Syntactic Distance

為了建立句法距離的模型,我們引入了一個新的特徵--句法距離。一個句子的長度K,我們定義一組K實值標量變數 d_{0}......d_{K-1} ,用 d_{i} 表示相鄰兩個單詞 (x_{i-1},x_{i}) 之間的句法關係的度量, x_{-1} 可能是前面句子或填充token的最後一個單詞。對於時間步驟t,我們想找到最接近的單詞 x_{t} ,它的句法距離比 d_{t} 大。因此定義一個新的參數變數αjt alpha_{j}^{t} 為:

其中 hardtanh(x) = max(-1; min(1; x) ),τ是控制溫度參數的敏感性 alpha_{i}^{t} 距離之間的差異。

Parameterizing Syntactic Distance

使用本地信息識別一個成分的開始和結束是可能的。在本文模型中,句法給定標記之間的距離(通常表示為一個矢量字嵌入 e_{i} )及其以前的token e_{i-1} ,由卷積內核提供了一組連續之前 e_{i-L} , e_{i-L+1} ....... e_{i} 這個卷積被描述為下圖所示的灰色三角形。每個三角形代表2層卷積。形式上, e_{i-1}e_{i} 之間的句法距離 d_{i} 有以下公式給出:

其中 W_{c} , b_{c} 是核心參數。 W_{d}b_{d} 可以看作是另一個與窗口大小為1的卷積核,與 h_{i} 的卷積。在這裡,內核窗口大小L決定了在計算它的語法距離時, d_{i} 可以到達的歷史節點的距離,因此我們稱之為「查找回調範圍」。

圖中計算句法距離的卷積網路。灰色三角形表示兩層卷積, d_{0}d_{7} 是每個內核位置的句法距離輸出。藍條表示的是 d_{i} 的振幅,而 y_{i} 則是推斷的成分。

模型隱藏狀態的更新有以下公式決定:

下一個單詞的概率分布近似為:

在時間步驟t過程中, p(l_{t}|x_{0},,,,,,x_{t}) 表示從t可能的局部結構中選擇一個的概率。

在本模型中為了更方便的表示,進行了從新的定義:

READING NETWORK

閱讀網路通過一種修正的attention機制來捕捉依賴關係:結構化的注意力。在遞歸的每一步中,模型通過結構化的attention機制來總結之前的重複狀態,然後執行正常的LSTM更新,通過attention機制將隱藏的和單元的狀態輸出。

Structured Attention

在每一次步驟t中,讀取操作將當前token與之前的記憶關聯到一個結構化的注意層:

delta_{k} 的維度是隱藏狀態.

the structured intra-attention weight 重新定義為:

這就產生了一個概率分布,在之前的標記的隱藏狀態向量上。可以通過 tilde{h}_{t}tilde{c}_{t} 來計算之前隱藏的磁帶和內存的自適應摘要向量:

PREDICT NETWORK

預測網路模型下一個單詞 x_{t+1} 的概率分布,考慮隱藏狀態 m_{0}......m_{t} 和門 g_{0}^{t+1}......g_{t}^{t+1} .從而得到:

EXPERIMENTS

字元級的語言建模

文字層次的語言建模

非監督的選區解析。

CONCLUSION

本文中的新的神經語言模型,它可以同時從無注釋的句子中歸納出句法結構,並利用推斷結構來學習一種更好的語言模型。引入了一個新的神經解析網路:Parsing-Reading-Predict Networks(PRPN),它可以做出可區分的解析決策。使用一種新的結構的attention機制來控制在一個遞歸神經網路中的skip-connect。因此,可以利用誘導的句法結構信息來提高模型的性能。

推薦閱讀:

從梯度下降到擬牛頓法:盤點訓練神經網路的五大學習演算法
BP神經網路優化方程式的推導
神經網路求導:computational graph 中涉及向量的求導問題 ?(cs231n作業為例)
發育、學習和記憶:用超級計算機研究大腦可塑性
M.1.1 神經網路的數學基礎-從空間、長度到張量

TAG:神经网络 |