Dynamic word embedding 動態詞向量表示
前言:本文對dynamic word embeddings相關的五篇論文進行了整理,動態詞向量模型可以發現詞語的語義變換,為研究人員探索語言的演變提供了工具。
本文作者:朱秋昱,2017級研究生,目前研究方向為自然語言處理,來自中國人民大學大數據管理與分析方法研究北京市重點實驗室
論文列表:
《Statistically Significant Detection of Linguistic Change》(WWW,2015)
《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》(ACL,2017)
《Dynamic Word Embeddings》(ICML,2017)
《Dynamic Word Embeddings for Evolving Semantic Discovery》 (WSDM,2018)
《Dynamic Embeddings for Language Evolution》(WWW2018)
一、寫作動機
由於文化的轉變,技術的發明,政治事件的發生,語義會隨時間發生變化。例如,單詞amazon最初指的是forests,jungle,隨著亞馬遜電商的出現,amazon的語義轉變為ecommerce,marketplace。
詞向量是發現詞語間語義關係的重要工具,靜態詞向量是假設任何單詞的語義不會隨時間變化,動態詞向量是學習單詞隨時間變化的低維向量表示。動態詞向量是分析很長時間段的語料,例如,跨度為很多年的文檔。動態詞向量模型的目標是發現單詞語義變化的特徵。但是,由於詞向量模型是隨機初始化,訓練過程是隨機的,即使在同樣的語料上訓練兩次會得到不同的結果,不能相互做比較。動態詞向量模型將解決這個問題,主要有三種方法,包括局部線性回歸,矩陣分解,非隨機初始化。
二、局部線性回歸
論文《Statistically Significant Detection of Linguistic Change》假設兩個向量空間通過線性變換可以相等,而且大多數單詞的語義不會隨時間變化。首先,找到t時刻與單詞w最相近的k個單詞;然後,最小化這k個詞的距離,得到單詞w從t時刻映射到t+1時刻的線性變換向量。
三、矩陣分解
論文《Temporal Word Analogies: Identifying Lexical Replacement with Diachronic Word Embeddings》的一般演算法過程如下,首先輸入每個時間段的語料,得到獨立向量空間中的向量表示;然後,轉換這些向量空間到一個共同的空間中,使用正交分解的方法,將t時刻的向量空間轉變到t-1時刻的向量空間,最小化在t和t-1時刻相同單詞之間的距離,論文使用語料中的所有單詞進行對齊;最後,比較不同時間單詞的表示,發現語義變化。
論文《Dynamic Word Embeddings for Evolving Semantic Discovery》的創新點是t時刻的詞向量矩陣 不僅受 , 的影響,還和其他時間的詞向量矩陣有關。模型的目標函數如下, 是由PPMI計算得到的矩陣。目標函數是優化 的所有詞向量矩陣 。
三、非隨機初始化
論文《Dynamic Word Embeddings》的模型如下圖所示,在Bayesian skip-gram moodel的基礎上加入了時間先驗信息。U表示中心詞詞向量矩陣,V表示上下文詞詞向量矩陣。 是指示器,指示單詞 和 是否共現。針對t時刻和t+1時刻詞向量不在同一向量空間的問題,論文提出加入 , 信息,分別初始化 , ,初始化公式如下。
論文《Dynamic Embeddings for Language Evolution》是對Bernoulli embeddings在時間上的擴展。 論文假設上下文詞向量(context vectors)不隨時間發生變化,中心詞詞向量(embedding vectors)共享時間信息。上下文詞向量幫助確保連續的詞向量在同一個向量空間中。上下文詞向量 以及t時刻中心詞向量 的先驗如下,
是由 進行初始化的,這保證了每個單詞的詞向量是平穩變化的。
四、總結
上文介紹了動態詞向量,單詞隨時間的分散式表示。闡述了三種動態詞向量模型,包括局部線性回歸,矩陣分解,非隨機初始化。
推薦閱讀: