word embedding 詞向量能否用於判別中文辭彙難易度?

如題,最近的小想法是能否根據 embedding 產生的詞向量(以及有什麼好的方法方式能融入到 embedding 過程中以產生便於區分難易度的詞向量),以便將辭彙根據難易度進行粗略的排序或分類,可以的話,有什麼好的方法來實現呢?謝謝。


謝邀 = =。

其實好久不關注 word embedding 的問題了,所以只了解到去年的一些進展。以下回答不局限於中文難易程度的表達!

關於怎麼定義「難易度」其實是個很有意思的話題。如果是說,辭彙能表示的語義範疇、語義豐富度、使用常見程度,那麼可能有一些研究了;如果是指,我們認知過程中識別這個詞的困難程度,我感覺則研究較少。

先說語義範疇相關的難易程度:
(1)最直接的就是當時我關注很久的 Gaussian Word Embeddings[1]:

從上面兩幅圖來看,這篇工作最大的創新性是把 word embedding 從一維向量表示成了一個 Gaussian, 也就是從 point-based 變成了 region-based representation。所以每個詞就有了一個 mean 和一個 variance,mean 粗略表示在語義空間中的位置,variance 粗略表示成這個詞所涵蓋的語義範疇大小。比如,看圖一,composer 涵蓋的範疇(或者說可能的 composer 人數)比 Bach 這一個 composer 要大。但當然,Bach 又不僅僅是一個 composer,所以這 Bach 的「圈」並不能完全被 composer 包含。註:我專門寫郵件問過作者,這個 Figure 1 是嚴格根據數據畫出來的,還是示意圖,他說是後者。

這篇論文提出,越是 variance 大,越涵蓋更「豐富」的語義信息,或者說越 vague,使用範圍越廣:

"Note that more specific words, such as joviality and electroclash have smaller variance, while polysemous words or those denoting broader concepts have larger variances, such as mix, mind, and graph. This is not merely an artifact of higher frequency words getting more variance – when sorting by those words whose rank by frequency and rank by variance are most dissimilar, we see that genres with names like chillout, avant, and shoegaze overindex their variance compared to how frequent they are, since they appear in different contexts. Similarly, common emotion words like sadness and sincerity have less variance than their frequency would predict, since they have fairly fixed meanings. Another emotion word, coldness, is an uncommon word with a large variance due to its polysemy." (Section 6.1)

所以他們做了一些近似實驗,比如做了 Entailment 方面的工作啊等等。
我自己也 follow up 過這個工作,跑過代碼,做出過一些概念上的上下位——比如學出了 Aritificial Intelligence-&>Machine Learning-&>Natural Language Processing。但是後來就沒跟進。

(2)後來 follow-up 的一些有趣的工作有:[2][3][4]。

[2] 把這個思想和方法運用在了 KG 表達上,取得了很不錯的效果。

這裡的 Figure 2,我也問過作者,作者表示是根據數據畫出來的,不再是簡單的示意圖了。有興趣的大家可以繼續去看論文。

[3] 的思想也比較類似,把上下位關係擴展成了多種概念原型的場景:

[4] 是第二年 follow-up 把這個思想結合到 multi-modal 的表達里去,做了 visual-linguistic 的東西:

而且從演算法上,有一定的創新性。可以仔細看看論文。

[5] 這篇才發現已經更新到第三版了,而且是2017年4月剛更新的,所以也許又投到 EMNLP 了也說不準。它們指出我們應該用 embedding 的維度,作為這個辭彙所能涵蓋的語義範疇大小:

"Words naturally vary in their semantic complexity, and since vector dimensionality is standardized across the vocabulary, it is difficult to allocate an appropriate number of parameters to each word. For instance, the meaning of the word race varies with context (ex: competition vs anthropological classification), but the meaning of regatta is rather specific and invariant. It seems unlikely that race and regatta』s representations could contain the same number of parameters without one overfitting or underfitting." (Section 1)

這裡他們明確用了「semantic complexity」這個詞。所以他們提出學一種可變維度的 embedding 表達。不過這個東西最大的難用之處是從詞單位擴展到句子單位乃至更高的語義單元的表達上會很有難度,不夠實用……所以可能一直沒中= =。

再來說說我覺得還可以從認知角度判斷辭彙難易度的一些工作:
(1)首先想到的是眼動等方面的工作。隨著 attention mechanism 研究的發展,其實也有很多人關注直接使用一些外部儀器觀察得到的真實人眼「attention」,甚至已經有這樣的數據里了。比如在[6] 里,他們就利用人眼在閱讀文檔時停留在每個詞上不同的時間等信息,來建模了人類閱讀的過程。

類似和相關的工作其實有非常多,比如[7][8]。大家可以用 eye movement 等關鍵詞去自行搜索。


(2)然後說到中文辭彙難易度。在和一個認知測評機構合作的時候,我們也討論了一下這方面可能相關的因素:大概包括,語義偏旁和字、辭彙發音的統一、干擾程度;筆畫多少;偏旁部首的位置和變形程度……等等因素有關。這方面研究應該不少,但和 embedding 結合起來的我還沒見過,歡迎大家補充。

References:

[1] Luke Vilnis, Andrew McCallum. "Word Representations via Gaussian Embedding". ICLR 2015.
[2] Shizhu He, Kang Liu, Guoliang Ji and Jun Zhao. "Learning to Represent Knowledge Graphs with Gaussian Embedding". CIKM 2015.
[3] Xinchi Chen, Xipeng Qiu, Jingxiang Jiang, Xuanjing Huang. "Gaussian Mixture Embeddings for Multiple Word Prototypes". ICLR 2016 submission.
[4] Ivan Vendrov, Ryan Kiros, Sanja Fidler, Raquel Urtasun. "Order-Embeddings of Images and Language". ICLR 2016.
[5] Eric Nalisnick, Sachin Ravi. "Learning the Dimensionality of Word Embeddings". arXiv preprint 2017.
[6] Michael Hahn, Frank Keller. "Modeling Human Reading with Neural Attention". EMNLP 2016.
[7] Yiqun Liu, Zeyang Liu, Ke Zhou, Meng Wang, Huanbo Luan, Chao Wang, Min Zhang, Shaoping Ma. "Predicting Search User Examination with Visual Saliency". SIGIR 2016.
[8] John M. Henderson, Svetlana V. Shinkareva, Jing Wang, Steven G. Luke, and Jenn Olejarczyk. "Predicting Cognitive State from Eye Movements". PLoS One. 2013; 8(5): e64937.


謝邀!

前面 @李嫣然 的解答角度已經非常全面。這裡我想表達一個想法,就是研究的驅動是什麼。如果僅因為word embeddings比較火,就要考慮用它來解決中文辭彙難度判定問題,感覺有些捨本逐末。

在我看來,中文辭彙難度判定似乎不一定非要用上word embeddings。該任務的關鍵在於如何定義辭彙難易度,感覺這是一個多維度的問題。一個詞難或易,到底是指筆畫多難記,詞義多難用,引申複雜難以掌握,還是出現次數少不熟悉?感覺可能因素很多,不如從問題出發仔細分析,一旦定義清楚辭彙難度本身,解決方案似乎也會迎刃而解。


辭彙難易度的定義是什麼?度量標準是什麼?判別難以的本質特徵有哪些?

w2v等方法或者結果能否蘊含判別難易度的特徵?

先分析問題,找到本質,再尋找已有方法應用,或者創造新方法。


很討厭裝X的回答,搞一大堆圖,結果沒卵用。

我試舉例如下。

1  訏謨  遠大宏偉的謀劃

2  涯涘  水邊;岸。邊際;界限。

3  惠允  得到對方獲準的敬稱

5  窈然  深遠貌;幽深貌。

5  乖蹇  不好;不順遂

10 臆度  憑主觀猜測

20 犟嘴  頂嘴,強辯。

30 繁鬧  繁榮熱鬧

40 落枕  又名失枕。因睡覺時受寒或枕枕頭的姿勢不合適,以致脖子疼痛,轉動不便

50 撫掌  拍手。多表示高興、得意。

200桀驁  凶暴倔強

500徽章  戴在身上表示身分、職業的標誌

800獵物  為敵人、獵人或野獸所捕獲的犧牲者

你會發現,隨著左則的數字越來越大,詞義越來越浮出來,直到完全的浮出來為止。反過來,如果我不給出詞義,大部分人無法猜出頭4個辭彙的真正詞義,那更不用說使用了。給了第6個辭彙,臆度,卻接近能夠猜測出詞意的。到第7個犟嘴,則比較接近日常用語了。那麼我來告訴你,左邊的數字就代表難度。他的真實意思卻是詞頻。


反問你一個問題:什麼是難易度?


推薦閱讀:

word2vec和word embedding有什麼區別?
一個計算機系的學生想學一點語言學知識,從哪裡入手比較好?
有哪些高質量的中文分詞api?
條件隨機場(CRF)和隱馬爾科夫模型(HMM)最大區別在哪裡?CRF的全局最優體現在哪裡?
如何判斷分類特徵值選取是否有效?

TAG:自然語言處理 | 中文系 | 深度學習DeepLearning | word2vec | wordembedding |