為什麼word2vec出來以後,大家還在用distributional hypothesis找近義詞?

有沒有懂行的。。來一個。。

關於詞的語義相似度。。

如題,我是一個外行,只是最近有需要才看了點這方面的東東。。

當然word2vec嚴格講也屬於distributional的方法,但這裡的distributional指的是傳統的基於分布的詞向量構建方法,就是以語料庫中word周圍的詞來構建word的向量,詳見《Automatic retrieval and clustering of similar words》。

13和14年的ACL都有對distributional therauri進行改進的論文,用一些機器學習的方法,如《Identifying Bad Semantic Neighbors for Improving Distributional Thesauri》。

我就納悶了。。

就我實際的使用效果來看。。word2vec一上直接完爆上面兩個東東。。感覺舊方法完全可以被拋棄了啊。。為啥學術界還有人研究這個東西。。並且還真能發paper。。

是他們指望著這個東西有一天能夠反爆word2vec么。。。

求解釋。。求教育。。


word2vec學出來的模型可解釋性太差;基於context統計的distributional representation,每個維度都容易理解,這是一大優勢。

此外,distributional representation的代表模型之一explicit semantic analysis(ESA),在很多任務上性能不比word2vec差,當然計算效率是ESA的主要問題。


為什麼當年svm、kernel完爆神經網路的時候還有人堅持不懈研究神經網路?為什麼今天神經網路完爆kernel了還有人在研究kernel?

學術界與工業界不同,你不能完全用實驗效果來評價學術成果。學術界要探索,哪怕是探索哪些不是非常有效、但是有道理的東西。如果word2vec是現在最好的,就沒人研究其他方法了,是不是技術發展就走到頭了?


word2vec相似度找出來的除了近義詞還有相關詞,並且很難分離出來,比如霧霾的distance列表裡前兩個是沙塵和口罩,沙塵是近義詞,口罩就是相關詞。


要用動態的發展的系統的眼光看問題,反對形而上學。事物是永恆發展和普遍聯繫的。事物的發展往往是螺旋式上升波浪式前進的。

哲學可不光是用來應付政治考試的。


我用word2vec訓練了一個近義詞模型,開箱即用,huyingxi/Synonyms,word2vec應該是一個新的開始,它給了我很多啟發。


word2vec也是基於distributional hypothesis的。


word2vec在詞的相似度任務上的性能不如SVD這樣的方法,具體可以看一下Levy的論文;另外我認為,鑒於word2vec的Skip-gram模型實際上是在分解PMI矩陣,NS的步驟也可以看成是一種NCE採樣的簡化,本質上還是歸結於統計模型基於統計假設,只有分析出其中work的結構才能更進一步


Levy, Omer, and Yoav Goldberg. quot;Neural word embedding as implicit matrix factorization.quot; Advances in neural information processing systems. 2014.


比如w2v找出來的, english 相似度高的:england、french 這些都是很正常的吧, 這他媽是近義詞嗎。


一個問題是要找近義詞。

還有一個問題是為什麼這些詞是近義詞而不是同義詞。

在RNNLM能夠證明自己能夠拳打腳踢各種問題(個人猜測這基本不可能)之前。

傳統方法肯定還能在一些問題上存活很久……


有句話叫"物理學的發展是老觀念的人死掉了 就發展了"


推薦閱讀:

Galactic Dependencies依存關係數據集+細粒度語言類型學預測 | 實錄·PhD Talk
自然語言處理是計算機實現通用人工智慧的最難挑戰嗎?
智能時代的怪獸四:語言的運算(下)

TAG:自然語言處理 | word2vec |