Dynamic word embedding 動態詞向量表示

04-07

前言：本文對dynamic word embeddings相關的五篇論文進行了整理，動態詞向量模型可以發現詞語的語義變換，為研究人員探索語言的演變提供了工具。

本文作者：朱秋昱，2017級研究生，目前研究方向為自然語言處理，來自中國人民大學大數據管理與分析方法研究北京市重點實驗室

論文列表：

《Statistically Significant Detection of Linguistic Change》(WWW,2015)

《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》（ACL，2017）

《Dynamic Word Embeddings》（ICML，2017）

《Dynamic Word Embeddings for Evolving Semantic Discovery》（WSDM，2018）

《Dynamic Embeddings for Language Evolution》(WWW2018)

一、寫作動機

由於文化的轉變，技術的發明，政治事件的發生，語義會隨時間發生變化。例如，單詞amazon最初指的是forests，jungle，隨著亞馬遜電商的出現，amazon的語義轉變為ecommerce，marketplace。

詞向量是發現詞語間語義關係的重要工具，靜態詞向量是假設任何單詞的語義不會隨時間變化，動態詞向量是學習單詞隨時間變化的低維向量表示。動態詞向量是分析很長時間段的語料，例如，跨度為很多年的文檔。動態詞向量模型的目標是發現單詞語義變化的特徵。但是，由於詞向量模型是隨機初始化，訓練過程是隨機的，即使在同樣的語料上訓練兩次會得到不同的結果，不能相互做比較。動態詞向量模型將解決這個問題，主要有三種方法，包括局部線性回歸，矩陣分解，非隨機初始化。

二、局部線性回歸

論文《Statistically Significant Detection of Linguistic Change》假設兩個向量空間通過線性變換可以相等，而且大多數單詞的語義不會隨時間變化。首先，找到t時刻與單詞w最相近的k個單詞；然後，最小化這k個詞的距離，得到單詞w從t時刻映射到t+1時刻的線性變換向量。

三、矩陣分解

論文《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》的一般演算法過程如下，首先輸入每個時間段的語料，得到獨立向量空間中的向量表示；然後，轉換這些向量空間到一個共同的空間中，使用正交分解的方法，將t時刻的向量空間轉變到t-1時刻的向量空間，最小化在t和t-1時刻相同單詞之間的距離，論文使用語料中的所有單詞進行對齊；最後，比較不同時間單詞的表示，發現語義變化。

論文《Dynamic Word Embeddings for Evolving Semantic Discovery》的創新點是t時刻的詞向量矩陣 $U(t)$ 不僅受 $U(t-1)$ ， $U(t+1)$ 的影響，還和其他時間的詞向量矩陣有關。模型的目標函數如下， $Y(t)$ 是由PPMI計算得到的矩陣。目標函數是優化 $t=1...T$ 的所有詞向量矩陣 $U(t)$ 。

三、非隨機初始化

論文《Dynamic Word Embeddings》的模型如下圖所示，在Bayesian skip-gram moodel的基礎上加入了時間先驗信息。U表示中心詞詞向量矩陣，V表示上下文詞詞向量矩陣。 $z_{ij,t}$ 是指示器，指示單詞 $w_{i}$ 和 $w_{j}$ 是否共現。針對t時刻和t+1時刻詞向量不在同一向量空間的問題，論文提出加入 $U_{t}$ ， $V_{t}$ 信息，分別初始化 $U_{t+1}$ ， $V_{t+1}$ ，初始化公式如下。

論文《Dynamic Embeddings for Language Evolution》是對Bernoulli embeddings在時間上的擴展。論文假設上下文詞向量(context vectors)不隨時間發生變化，中心詞詞向量(embedding vectors)共享時間信息。上下文詞向量幫助確保連續的詞向量在同一個向量空間中。上下文詞向量 $alpha_{v}$ 以及t時刻中心詞向量 $ho_{v}^{t}$ 的先驗如下，

$ho_{v}^{t}$ 是由 $ho_{v}^{t-1}$ 進行初始化的，這保證了每個單詞的詞向量是平穩變化的。

四、總結

上文介紹了動態詞向量，單詞隨時間的分散式表示。闡述了三種動態詞向量模型，包括局部線性回歸，矩陣分解，非隨機初始化。