有關NLP的比賽

明天kaggle的NLP競賽Mercari Price Suggestion Challenge就要結束了,相信參加這個比賽的同學都在祈禱自己的kernel在新數據下別炸了.

按照這次比賽的public leaderboard的成績來看,很有可能國內又要新添兩個GM了,祝願參加這次比賽的同學好運。

我仔細看了一下最近幾次比賽的NLP比賽的baseline kernel,發現NLP並沒有像之前不了解時候感覺的那樣複雜,一套流程下來大概三步吧.

  1. 用正則或NLTK對句子分句然後分詞,另外根據需求涉及stopwords,詞型還原等.
  2. 用sklearn的TfidfTransformer及CountVectorizer或keras的一些工具將句子向量化,再加上一些其他統計特徵.
  3. 使用NB,GBDT,FM,LR,NN等方法模型建模,融合.

當然以上只能做出一個baseline,我並沒有參加過比賽,如何提高性能可能有很多技巧,重點在於特徵還是模型的設計我也不知道.

按照過去的慣例,把所有NLP競賽找出來,慢慢學習:

kaggle:

Mercari Price Suggestion Challenge

Toxic Comment Classification Challenge

Spooky Author Identification

Personalized Medicine: Redefining Cancer Treatment

Text Normalization Challenge - English Language

Text Normalization Challenge - Russian Language

Quora Question Pairs

Transfer Learning on Stack Exchange Tags

The Allen AI Science Challenge

Whats Cooking?

Bag of Words Meets Bags of Popcorn

Billion Word Imputation

Microsoft Malware Classification Challenge (BIG 2015)

Sentiment Analysis on Movie Reviews

The Hunt for Prohibited Content

Tradeshift Text Classification

KDD Cup 2014 - Predicting Excitement at DonorsChoose.org

Greek Media Monitoring Multilabel Classification (WISE 2014)

The Big Data Combine Engineered by BattleFin

KDD Cup 2013 - Author-Paper Identification Challenge (Track 1)

KDD Cup 2013 - Author Disambiguation Challenge (Track 2)

Predict Closed Questions on Stack Overflow

Detecting Insults in Social Commentary

中文:

讓AI當法官

機器寫作與人類寫作的巔峰對決

基於機構實體的智能摘要和風險等級識別

基於主題的文本情感分析

知乎看山杯機器學習挑戰賽


推薦閱讀:

為什麼做stacking ensemble的時候需要固定k-fold?
Titanic: kaggle入門實踐-top10%(附Python代碼)
kaggle比賽初體驗
Kaggle進階系列:zillow競賽特徵提取與模型融合(LB~0.644)
Google收購Kaggle!拿下最大機器學習及數據競賽平台

TAG:Kaggle | 自然語言處理 | 機器學習 |