<<Neural Language ModelingnBy Jointly Learning Syntax And Lexicon>>
來源:ICLR2018
論文鏈接:https://openreview.net/pdf?id=rkgOLb-0W
聲明:轉載請註明出處:學習ML的皮皮蝦
ABSTRACT
本文提出了一種神經語言模型,能夠進行無監督的句法結構歸納。模型利用結構信息形成更好的語義表示和更好的語言建模。標準的遞歸神經網路受其結構的限制,不能有效地使用句法信息。另一方面,基於tree-structured 的遞歸網路通常需要對人工專家注釋的成本進行額外的結構監控。在本文中,提出了一種新的神經語言模型,叫做」 Parsing-Reading-Predict Networks(PRPN) 」,它可以同時從無注釋的句子中誘導句法結構,並利用推斷結構來學習一種更好的語言模型。
INTRODUCTION
語言學理論通常認為自然語言包括兩部分:
1)辭彙,一種語言中所有可能辭彙的完整集合;
2)一種語法,一套規則,原則和處理句子結構的過程。
為了生成一個合適的句子,token與特定的句法結構放在一起。理解一個句子也需要辭彙信息來提供意義,以及語法知識正確地結合意義。然而,標準的遞歸神經網路只是隱式的模型語法,因此無法有效地使用結構信息。
本文提出了一種新的神經語言模型」 Parsing-Reading-Predict Networks(PRPN),它可以同時從無注釋的句子中歸納出句法結構,並利用推斷結構來形成更好的語言模型。該模型由三個部分組成:
1. A differentiable neural Parsing Network
利用卷積神經網路來計算句法距離,表示句子中所有連續單詞之間的句法關係,然後根據句法距離進行軟成分決策。
2. A Reading Network
它可以反覆地計算自適應內存表示,以總結與當前時間步驟相關的信息,基於與當前標記的語法和直接相關的所有以前的記憶。
3. A Predict Network
它根據與下一個token的語法和直接相關的所有記憶預測下一個標記。
model
圖中的模型體系結構,實線表示閱讀網路中有效的連接,虛線表示預測網路中的有效連接。假設有一個 的序列由樹結構控制,如圖所示。這些葉子被觀察到tokens。節點 表示由其葉 構成的成分的意義,l(·)和r(·)表示最左邊的子和最右邊的子。r(.)表示整個序列的意義。箭頭表示節點之間的依賴關係。
在本文中,使用skip-connection將結構化依賴關係與遞歸神經網路進行集成。換句話說,當前的隱藏狀態不僅依賴於最後一個隱藏狀態,而且還依賴於與當前狀態有直接語法關係的先前隱藏狀態。非葉節點yj由一組表示隱狀態 i , 表示最左側後代葉和 代表最右側的一個。箭頭顯示了模型根據潛在結構建立的跳躍連接。跳過連接由門 控制:
在這個架構中,兄弟姐妹依賴關係至少由一個skip-connect建模。跳過連接將直接向前方輸入信息,並向後傳遞漸變。親子關係將由節點間的skip-connect關係隱式建模。
PARSING NETWORK
Inferring tree structure with Syntactic Distance
為了建立句法距離的模型,我們引入了一個新的特徵--句法距離。一個句子的長度K,我們定義一組K實值標量變數 ,用 表示相鄰兩個單詞 之間的句法關係的度量, 可能是前面句子或填充token的最後一個單詞。對於時間步驟t,我們想找到最接近的單詞 ,它的句法距離比 大。因此定義一個新的參數變數αjt 為:
其中 hardtanh(x) = max(-1; min(1; x) ),τ是控制溫度參數的敏感性 距離之間的差異。
Parameterizing Syntactic Distance
使用本地信息識別一個成分的開始和結束是可能的。在本文模型中,句法給定標記之間的距離(通常表示為一個矢量字嵌入 )及其以前的token ,由卷積內核提供了一組連續之前 , ....... 這個卷積被描述為下圖所示的灰色三角形。每個三角形代表2層卷積。形式上, 與 之間的句法距離 有以下公式給出:
其中 , 是核心參數。 和 可以看作是另一個與窗口大小為1的卷積核,與 的卷積。在這裡,內核窗口大小L決定了在計算它的語法距離時, 可以到達的歷史節點的距離,因此我們稱之為「查找回調範圍」。
圖中計算句法距離的卷積網路。灰色三角形表示兩層卷積, 到 是每個內核位置的句法距離輸出。藍條表示的是 的振幅,而 則是推斷的成分。
模型隱藏狀態的更新有以下公式決定:
下一個單詞的概率分布近似為:
在時間步驟t過程中, 表示從t可能的局部結構中選擇一個的概率。
在本模型中為了更方便的表示,進行了從新的定義:
READING NETWORK
閱讀網路通過一種修正的attention機制來捕捉依賴關係:結構化的注意力。在遞歸的每一步中,模型通過結構化的attention機制來總結之前的重複狀態,然後執行正常的LSTM更新,通過attention機制將隱藏的和單元的狀態輸出。
Structured Attention
在每一次步驟t中,讀取操作將當前token與之前的記憶關聯到一個結構化的注意層:
的維度是隱藏狀態.
the structured intra-attention weight 重新定義為:
這就產生了一個概率分布,在之前的標記的隱藏狀態向量上。可以通過 和 來計算之前隱藏的磁帶和內存的自適應摘要向量:
PREDICT NETWORK
預測網路模型下一個單詞 的概率分布,考慮隱藏狀態 和門 .從而得到:
EXPERIMENTS
字元級的語言建模
文字層次的語言建模
非監督的選區解析。
CONCLUSION
本文中的新的神經語言模型,它可以同時從無注釋的句子中歸納出句法結構,並利用推斷結構來學習一種更好的語言模型。引入了一個新的神經解析網路:Parsing-Reading-Predict Networks(PRPN),它可以做出可區分的解析決策。使用一種新的結構的attention機制來控制在一個遞歸神經網路中的skip-connect。因此,可以利用誘導的句法結構信息來提高模型的性能。
推薦閱讀:
※從梯度下降到擬牛頓法:盤點訓練神經網路的五大學習演算法
※BP神經網路優化方程式的推導
※神經網路求導:computational graph 中涉及向量的求導問題 ?(cs231n作業為例)
※發育、學習和記憶:用超級計算機研究大腦可塑性
※M.1.1 神經網路的數學基礎-從空間、長度到張量
TAG:神经网络 |