有關NLP的比賽
明天kaggle的NLP競賽Mercari Price Suggestion Challenge就要結束了,相信參加這個比賽的同學都在祈禱自己的kernel在新數據下別炸了.
按照這次比賽的public leaderboard的成績來看,很有可能國內又要新添兩個GM了,祝願參加這次比賽的同學好運。
我仔細看了一下最近幾次比賽的NLP比賽的baseline kernel,發現NLP並沒有像之前不了解時候感覺的那樣複雜,一套流程下來大概三步吧.
- 用正則或NLTK對句子分句然後分詞,另外根據需求涉及stopwords,詞型還原等.
- 用sklearn的TfidfTransformer及CountVectorizer或keras的一些工具將句子向量化,再加上一些其他統計特徵.
- 使用NB,GBDT,FM,LR,NN等方法模型建模,融合.
當然以上只能做出一個baseline,我並沒有參加過比賽,如何提高性能可能有很多技巧,重點在於特徵還是模型的設計我也不知道.
按照過去的慣例,把所有NLP競賽找出來,慢慢學習:
kaggle:
Mercari Price Suggestion Challenge
Toxic Comment Classification Challenge
Spooky Author Identification
Personalized Medicine: Redefining Cancer Treatment
Text Normalization Challenge - English Language
Text Normalization Challenge - Russian Language
Quora Question Pairs
Transfer Learning on Stack Exchange Tags
The Allen AI Science Challenge
Whats Cooking?
Bag of Words Meets Bags of Popcorn
Billion Word Imputation
Microsoft Malware Classification Challenge (BIG 2015)
Sentiment Analysis on Movie Reviews
The Hunt for Prohibited Content
Tradeshift Text Classification
KDD Cup 2014 - Predicting Excitement at DonorsChoose.org
Greek Media Monitoring Multilabel Classification (WISE 2014)
The Big Data Combine Engineered by BattleFin
KDD Cup 2013 - Author-Paper Identification Challenge (Track 1)
KDD Cup 2013 - Author Disambiguation Challenge (Track 2)
Predict Closed Questions on Stack Overflow
Detecting Insults in Social Commentary
中文:
讓AI當法官
機器寫作與人類寫作的巔峰對決
基於機構實體的智能摘要和風險等級識別
基於主題的文本情感分析
知乎看山杯機器學習挑戰賽
推薦閱讀:
※為什麼做stacking ensemble的時候需要固定k-fold?
※Titanic: kaggle入門實踐-top10%(附Python代碼)
※kaggle比賽初體驗
※Kaggle進階系列:zillow競賽特徵提取與模型融合(LB~0.644)
※Google收購Kaggle!拿下最大機器學習及數據競賽平台