深度學習系統相比較傳統的機器學習系統，針對常見的分類問題，精度究竟能有多大提升？

01-14

我現在手頭有一個binary classification的問題。數據量在一百萬左右。每個sample都是一個14個feature組成的vector。每個feature都是一個0～1的float數值。
我用random forest ；1000棵樹，grid search 調參數。10 fold validation 大概76% 左右的precision/recall .
我是一個機器學習的外行，但是比較好奇如果我用一些深度學習的系統，比方說TensorFlow，針對我描述的這種二項分類的問題，我能否期盼著會有一個準確度的顯著提升？ 如果可以有這樣的預期，一般大家都是怎麼做的呢？

我手頭的機器就是一台128G 32核的伺服器。好像暫時沒有別的好機器了。夠用么？
我描述清楚了么？懇請大家給予指導，謝謝！

嘗試用下xgboost。

特徵才14維，建議先把精力放在特徵工程上。就個人經驗而言，工業數據上mlp的效果往往比不上rf或xgb等樹類演算法，拿來融合倒是不錯的。

當然，好不好試試便知，現在apply deep learning哪有門檻。

先分析下問題，100萬訓練數據14個特徵，如果你的特徵表徵能力牛逼，數據偏差不大，機器學習書裡面隨便挑個分類演算法90%精度不在話下，但現在模型能力很強的隨機森林都只能到76%左右，那麼肯定哪裡出了問題，問題在哪裡，看case是王道。當然這個問題中特徵表徵能力不夠可能性比較大，那接下來的事情就是特徵工程，找什麼樣的特徵，依然是看case，看看badcase是因為缺失什麼樣的特徵導致，緊緊圍繞問題本身。

連續特徵的二分類問題，除了數據本身和特徵工程，模型方面GBDT系列應該是非常合適的選擇，這塊無需細說，翻翻Kaggle就知其厲害。

不要在當前階段跳出來尋覓炒上天的Deep Learning的幫助，Deep Learning確實足夠強大，但它有自己的適用場景，比如人臉識別/OCR之類的視覺應用，如果是這類應用，那就直接上Deep Learning就好。

那麼二分類或者多分類的傳統機器學習問題（特徵為整數/浮點數/枚舉等類型時）上，Deep Learning到底搞得過傳統機器學習演算法不？答案依然是需要具體問題具體分析。

1. 有些問題，手寫規則足以秒殺一切，只要規則擊中要害就好；

2. 有些數據量非常大特徵工程足夠細緻時，模型的重要性變得相對次要，LR系列廣義線性模型足以滿足需求，比如廣告點擊預測很長時期都是LR/BPR/FTRL之類為主要模型，只是特徵工程中可能廣泛用到LDA/Deep Learning等模型；

3. 當然還有些問題，比如判斷圖片是不是汽車的二分類問題，只要標註數據到位，Deep Learning可以本色出演了。

最近Facebook那個牛逼AI實驗室正好發表了一篇工作，他們研究的是如果我們儘可能的通過加層來提高CNN的性能，到底在分類任務上CNN的模型能夠多麼牛逼，作者有Lecun哦~ http://arxiv.org/pdf/1606.01781.pdf

這是那篇論文的鏈接，他直接借鑒了去年在image上大火的He Kaiming的那個152層神經網路的架構以及學習技巧，做了個9 17 29 49層的CNN for NLP~ 他跑了8個分類公開數據集：

這是這些數據集目前最好的方法

他實驗證明了他的29層CNN超過了已有的CNN模型，但是在小數據集上比不過TFIDF~

我們可以看到在AG這個數據集上，由於訓練數據只有10萬，導致他29層的CNN還是比TFIDF差一個點= =Sogou數據集也沒TFIDF好。

所以，學術界目前最新最熱乎的研究成果表明：

神經網路（主要是CNN）在文本分類上，當數據集大的時候強於古典的TFIDF，小的時候並沒有~ 然而CNN可以當作一個feature放到最後的分類器中，從我的實驗來看還是有一些提升的為最後的結果。

還有我覺得你的機器可能不大夠用。。。我也不知道你原始數據是什麼，可不可以直接用NN做，所以其他問題也不大好回答

先try再來看，沒有場景數據就別提啥評測了，先試下再說吧，另外100w的數據可以做sample下

脫離具體問題，空泛的談論「什麼學習演算法更好」毫無意義。

學習演算法自身的歸納偏好與問題是否相配，往往會起到決定性的作用

—— 周志華《機器學習》

如果沒人做過與題主問題相關的工作，那只有跑個分看看才知道效果了啊

深度學習目前而言在圖像，語音，自然語言這類數據的分類問題上有較大突破，在通常類型的數據上似乎沒有出現飛躍性的提升，往往容易過擬合，在我看來，一般類型數據的話隨機森林或者boosting往往更好，這類演算法允許直接對離散的類別型數據做決策，而深度學習首先需要對離散特徵做處理，可以說forest或者boosting更普適，但是如果特徵做的好，我相信應該神經網路應該不會差的。

一般而言，維度低小數據量用普通機器學習方法更好。用深度學習很容易過擬合。

分類問題，最主要的問題不是分類器選哪個，雖然好的分類器可以提升效果。更重要的是特徵提取，深度學習成功之處在於它可以自動學習需要的特徵。

講道理，圖像用神經網路好是因為圖像的特徵本來就不好抽。

至於說什麼爆隨機森林的， 14維特徵怎麼爆，你給我爆爆看？與其說用神經網路，還不如多做特徵工程，畢竟你就是上了分類器，badcase也是要干預的，在這點上，普通分類器可控的多。

當然，我水平不行，還是按照大神說的多用log loss 的mlp吧。

友情提示一下，某些大神提到的神經網路技術二十年前就有，為什麼還是那麼多人用隨機森林和邏輯回歸，可能因為大家都菜逼吧。

為何不試下svm 首先緯度很小算起來比較快，其次svm做binary classification準確率比較高（multiclass的分類方法有自身問題），而且可以嘗試不同的核計算

現在有現成的包可以使用，直接調用就能看出效果好壞了

Tensor Flow也好，Theano也好，更像是整合了多種學習演算法的包，和你用的RF不是一個東西。。至於模型的選擇，要看具體問題和場景。分類效果的好壞，不僅僅在於模型，還有數據預處理和特徵工程。能夠用於解決二分類問題的模型有很多，除了RF之外，效果好又廣泛使用的還有LR和GBDT(各大競賽必備),或者多種模型進行ensemble，不一定非要上深度學習模型。

嗯，二分類，樣例多，feature dimension小，不如想想sampling，gbdt和svm應該夠用了

題主有進一步往下做嗎？用深度學習的方法去處理二分類的數據。我最近也在查這方面的資料，可以交流一下。

個人覺得機器學習演算法和深度學習演算法各有優劣，人類的智能到這個程度應該是兩者的能力都有具備的，有一個平台實踐比較好，據說有一個BOT大賽，還可以領取udacity的優惠券，

同意xgboost，簡單快捷。我猜直接套演算法能提高到85%,也就幾個小時就能出結果。要用deeplearning時間就久了

樓主的數據特徵維數並不高，所以完全沒有必要用DL複雜的訓練方法處理這些數據。如果對自己提取到的數據特徵有足夠信心的話，xgboost或random forest, LR這樣的方法應該是綽綽有餘了。事實上，DL更多用於處理圖像、語音等特徵冗餘度大的信號，通過自學習方式得到層級組合特徵最終用於分類或識別任務。

首先你這個機器算你這個數據量是比較吃力的。因為深度學習的神經網路大多基於GPU計算，你這個機器只有CPU的話，雖然32核對於CPU來講已經比較多了，但算神經網路還是會比較慢的。

至於效果好壞這個我覺得很難說，random forest對於一般的分類問題已經是比較好的方法了。

深度學習主要對處理圖片這種表面上維度很高，但實際上「可壓縮比」很大，且「壓縮」函數複雜的數據適用。而且主流的CNN結構也利用了圖片數據空間上相關信息作為先驗。看你的描述，你數據維度已經是比較低的了，也不是圖片這種有空間關聯的數據。可能比較適用的也只有用多層全連接的網路了。如果你的數據用random forest只能調到這個水平，那麼可能你的數據的複雜程度已經超過ramdom forest的分類能力了。這樣的話，先放大維度再壓縮維度的網路結構可能會適用一些。

再有就是過擬合的問題。神經網路可以通過增加層數來形成更複雜的映射關係，但前提是你的數據也要增加。如果你目前數據量是固定的，可能就不能設計太複雜的結構，否則容易出現過擬合。

不管怎麼說要下功夫調一調才能知道。

樓上說mlp爆掉random forest的，不知道為啥對mlp這麼有信心…

其實樓主對機器學習並不是很熟悉，而神經網路的設計恰好需要經驗和大量調試。我覺得現在最靠譜的事情就是試一下陳天奇大神的xgboost，上手快，效果好。比調mlp靠譜多了。。。

我是DL粉，但我覺得DL並不是萬能的。