為什麼word2vec出來以後,大家還在用distributional hypothesis找近義詞?
有沒有懂行的。。來一個。。
關於詞的語義相似度。。如題,我是一個外行,只是最近有需要才看了點這方面的東東。。當然word2vec嚴格講也屬於distributional的方法,但這裡的distributional指的是傳統的基於分布的詞向量構建方法,就是以語料庫中word周圍的詞來構建word的向量,詳見《Automatic retrieval and clustering of similar words》。
13和14年的ACL都有對distributional therauri進行改進的論文,用一些機器學習的方法,如《Identifying Bad Semantic Neighbors for Improving Distributional Thesauri》。我就納悶了。。就我實際的使用效果來看。。word2vec一上直接完爆上面兩個東東。。感覺舊方法完全可以被拋棄了啊。。為啥學術界還有人研究這個東西。。並且還真能發paper。。是他們指望著這個東西有一天能夠反爆word2vec么。。。
求解釋。。求教育。。
word2vec學出來的模型可解釋性太差;基於context統計的distributional representation,每個維度都容易理解,這是一大優勢。
此外,distributional representation的代表模型之一explicit semantic analysis(ESA),在很多任務上性能不比word2vec差,當然計算效率是ESA的主要問題。為什麼當年svm、kernel完爆神經網路的時候還有人堅持不懈研究神經網路?為什麼今天神經網路完爆kernel了還有人在研究kernel?
學術界與工業界不同,你不能完全用實驗效果來評價學術成果。學術界要探索,哪怕是探索哪些不是非常有效、但是有道理的東西。如果word2vec是現在最好的,就沒人研究其他方法了,是不是技術發展就走到頭了?
word2vec相似度找出來的除了近義詞還有相關詞,並且很難分離出來,比如霧霾的distance列表裡前兩個是沙塵和口罩,沙塵是近義詞,口罩就是相關詞。
要用動態的發展的系統的眼光看問題,反對形而上學。事物是永恆發展和普遍聯繫的。事物的發展往往是螺旋式上升波浪式前進的。哲學可不光是用來應付政治考試的。
我用word2vec訓練了一個近義詞模型,開箱即用,huyingxi/Synonyms,word2vec應該是一個新的開始,它給了我很多啟發。
word2vec也是基於distributional hypothesis的。
word2vec在詞的相似度任務上的性能不如SVD這樣的方法,具體可以看一下Levy的論文;另外我認為,鑒於word2vec的Skip-gram模型實際上是在分解PMI矩陣,NS的步驟也可以看成是一種NCE採樣的簡化,本質上還是歸結於統計模型基於統計假設,只有分析出其中work的結構才能更進一步
Levy, Omer, and Yoav Goldberg. quot;Neural word embedding as implicit matrix factorization.quot; Advances in neural information processing systems. 2014.
比如w2v找出來的, english 相似度高的:england、french 這些都是很正常的吧, 這他媽是近義詞嗎。
一個問題是要找近義詞。還有一個問題是為什麼這些詞是近義詞而不是同義詞。在RNNLM能夠證明自己能夠拳打腳踢各種問題(個人猜測這基本不可能)之前。傳統方法肯定還能在一些問題上存活很久……
有句話叫"物理學的發展是老觀念的人死掉了 就發展了"
推薦閱讀:
※Galactic Dependencies依存關係數據集+細粒度語言類型學預測 | 實錄·PhD Talk
※自然語言處理是計算機實現通用人工智慧的最難挑戰嗎?
※智能時代的怪獸四:語言的運算(下)