Dynamic word embedding 動態詞向量表示

前言:本文對dynamic word embeddings相關的五篇論文進行了整理,動態詞向量模型可以發現詞語的語義變換,為研究人員探索語言的演變提供了工具。

本文作者:朱秋昱,2017級研究生,目前研究方向為自然語言處理,來自中國人民大學大數據管理與分析方法研究北京市重點實驗室

論文列表:

《Statistically Significant Detection of Linguistic Change》(WWW,2015)

《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》(ACL,2017)

《Dynamic Word Embeddings》(ICML,2017)

《Dynamic Word Embeddings for Evolving Semantic Discovery》 (WSDM,2018)

《Dynamic Embeddings for Language Evolution》(WWW2018)

一、寫作動機

由於文化的轉變,技術的發明,政治事件的發生,語義會隨時間發生變化。例如,單詞amazon最初指的是forests,jungle,隨著亞馬遜電商的出現,amazon的語義轉變為ecommerce,marketplace。

詞向量是發現詞語間語義關係的重要工具,靜態詞向量是假設任何單詞的語義不會隨時間變化,動態詞向量是學習單詞隨時間變化的低維向量表示。動態詞向量是分析很長時間段的語料,例如,跨度為很多年的文檔。動態詞向量模型的目標是發現單詞語義變化的特徵。但是,由於詞向量模型是隨機初始化,訓練過程是隨機的,即使在同樣的語料上訓練兩次會得到不同的結果,不能相互做比較。動態詞向量模型將解決這個問題,主要有三種方法,包括局部線性回歸,矩陣分解,非隨機初始化。

二、局部線性回歸

論文《Statistically Significant Detection of Linguistic Change》假設兩個向量空間通過線性變換可以相等,而且大多數單詞的語義不會隨時間變化。首先,找到t時刻與單詞w最相近的k個單詞;然後,最小化這k個詞的距離,得到單詞w從t時刻映射到t+1時刻的線性變換向量。

三、矩陣分解

論文《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》的一般演算法過程如下,首先輸入每個時間段的語料,得到獨立向量空間中的向量表示;然後,轉換這些向量空間到一個共同的空間中,使用正交分解的方法,將t時刻的向量空間轉變到t-1時刻的向量空間,最小化在t和t-1時刻相同單詞之間的距離,論文使用語料中的所有單詞進行對齊;最後,比較不同時間單詞的表示,發現語義變化。

論文《Dynamic Word Embeddings for Evolving Semantic Discovery》的創新點是t時刻的詞向量矩陣 U(t) 不僅受 U(t-1)U(t+1) 的影響,還和其他時間的詞向量矩陣有關。模型的目標函數如下, Y(t) 是由PPMI計算得到的矩陣。目標函數是優化 t=1...T 的所有詞向量矩陣 U(t)

三、非隨機初始化

論文《Dynamic Word Embeddings》的模型如下圖所示,在Bayesian skip-gram moodel的基礎上加入了時間先驗信息。U表示中心詞詞向量矩陣,V表示上下文詞詞向量矩陣。z_{ij,t} 是指示器,指示單詞 w_{i}w_{j} 是否共現。針對t時刻和t+1時刻詞向量不在同一向量空間的問題,論文提出加入 U_{t}V_{t} 信息,分別初始化 U_{t+1}V_{t+1} ,初始化公式如下。

論文《Dynamic Embeddings for Language Evolution》是對Bernoulli embeddings在時間上的擴展。 論文假設上下文詞向量(context vectors)不隨時間發生變化,中心詞詞向量(embedding vectors)共享時間信息。上下文詞向量幫助確保連續的詞向量在同一個向量空間中。上下文詞向量 alpha_{v} 以及t時刻中心詞向量 
ho_{v}^{t} 的先驗如下,


ho_{v}^{t} 是由 
ho_{v}^{t-1} 進行初始化的,這保證了每個單詞的詞向量是平穩變化的。

四、總結

上文介紹了動態詞向量,單詞隨時間的分散式表示。闡述了三種動態詞向量模型,包括局部線性回歸,矩陣分解,非隨機初始化。


推薦閱讀:

TAG:詞向量 | 自然語言處理 |