016【NLP】word2vec新手項目

項目目的

學習如何使用Word2Vec來對文本文件進行處理。

項目地址:word2vec-movies

來源

這個筆記是基於Kaggle比賽:Bag of words meets bags of popcorn。打開頁面後可以看到有關於NLP的相關教程,於是我把Part1~3用中文寫了三個筆記進行記錄。

因為年代比較久遠,而且是用pytohn2實現的,我重新用python3實現的過程中填了不少坑,可以直接拿來學習。

尤其是關於gensim中word2vec模型里,有一些API發生了變化。具體可以看我筆記中的寫法,都是可以正常運行的。

內容

  • Part 1 For Beginners Bag of Words(詞袋初學者)
  • Part 2 Word Vectors(詞向量)
  • Part 3 More Fun With Word Vectors(詞向量的更多用法)

用到的庫

以下庫全基於python3.5.2:

  • pandas==20.3
  • scikit-learn==0.19.0
  • numpy==1.13.1
  • jupyter==1.0.0

計劃

因為這個筆記里的內容只是kaggle項目上給出的教學部分,實際得分最好也只有0.84,所以充其量只能是一個了解word2vec的教程,內容本身並不深入。

於是我找到了這個項目:sentiment-analysis,作者寫了三個模型,前兩個在教程中出現過了,第三個使用Ensemble的方法把前兩個模型組合了起來,最後得分能到0.96。而且作者代碼組織得也不錯,可以用來學習如何寫一個完整的項目,而不是僅僅在Jupyter Notebook上寫。

不過因為年代比較久遠,作者用的是python2,而且很多其他包的API變了,所以我打算也全部用pytohn3重寫一下,一遍學習一邊分享出來。項目地址在這裡:sentiment-analysis


推薦閱讀:

TAG:自然語言處理 | word2vec | 深度學習DeepLearning |