016【NLP】word2vec新手項目
02-28
項目目的
學習如何使用Word2Vec來對文本文件進行處理。
項目地址:word2vec-movies
來源
這個筆記是基於Kaggle比賽:Bag of words meets bags of popcorn。打開頁面後可以看到有關於NLP的相關教程,於是我把Part1~3用中文寫了三個筆記進行記錄。
因為年代比較久遠,而且是用pytohn2實現的,我重新用python3實現的過程中填了不少坑,可以直接拿來學習。
尤其是關於gensim中word2vec模型里,有一些API發生了變化。具體可以看我筆記中的寫法,都是可以正常運行的。
內容
- Part 1 For Beginners Bag of Words(詞袋初學者)
- Part 2 Word Vectors(詞向量)
- Part 3 More Fun With Word Vectors(詞向量的更多用法)
用到的庫
以下庫全基於python3.5.2:
- pandas==20.3
- scikit-learn==0.19.0
- numpy==1.13.1
- jupyter==1.0.0
計劃
因為這個筆記里的內容只是kaggle項目上給出的教學部分,實際得分最好也只有0.84,所以充其量只能是一個了解word2vec的教程,內容本身並不深入。
於是我找到了這個項目:sentiment-analysis,作者寫了三個模型,前兩個在教程中出現過了,第三個使用Ensemble的方法把前兩個模型組合了起來,最後得分能到0.96。而且作者代碼組織得也不錯,可以用來學習如何寫一個完整的項目,而不是僅僅在Jupyter Notebook上寫。
不過因為年代比較久遠,作者用的是python2,而且很多其他包的API變了,所以我打算也全部用pytohn3重寫一下,一遍學習一邊分享出來。項目地址在這裡:sentiment-analysis
推薦閱讀:
TAG:自然語言處理 | word2vec | 深度學習DeepLearning |