為什麼決策樹是一種分類方法卻可以用於預測？

01-08

我是新手，在做一個大作業，是利用歷史數據預測未來銷售情況的，同學說可以用決策樹演算法，但我簡單看了一下書，它是用於分類的，再問他，他說分類和預測有什麼區別嗎，然後也沒細講

其實你同學說的大概是對的，在機器學習的框架下，分類和預測沒什麼區別。決策樹可以用來分類，就也可以用來預測。其他的方法，以你目前的理解是在做分類的，其實都可以用來做預測。

機器學習問題大多假設歷史數據和未來數據服從相似的統計規律，因此在歷史數據上摸清的規律也同樣適用於未來。換句話說，如果能在歷史數據上做好分類，那麼在未來數據上也能做好分類。但未來的數據畢竟是沒見過的，叫分類語言上不太通順，所以就改叫預測，但實際上和分類是一回事，只是語言上的習慣。

謝邀。"分類"大概就是Classification，是機器學習(ML)眾多問題類型中的一種。

做ML要先初步理解一下本質: 我們相信我們所關心的問題，究其根本可以理解為從若干輸入到某個輸出的函數。比如一個照片識別程序，輸入是一堆像素點，輸出是某些我們關心的值。

這個目標函數的類型決定了我們ML問題的類型。這其中所謂"分類"就是由輸入到一個有限集輸出，比如給一張圖片，看裡面有沒有一隻貓({是，否})，或者給一張圖片，看是什麼時候拍攝的({白天，傍晚，晚上})等等。

除此以外還有輸出一個數字的"回歸", clustering, sequence pattern等等類型。

決策樹不過是解分類問題的一個演算法而已。

所謂預測，說白了就是因為不知道具體目標函數是什麼，從已知函數的輸入輸出來擬合一個近似函數，再拿這個函數當原來的目標函數去用罷了，和統計學的預測概念是一樣的。

順帶一提從數字到數字，這個問題的模型似乎更加適合做某種形式的回歸，而不是分類啊。

具體這些東西還是比較複雜的，建議題主有數學，統計，計算機背景的話還是系統學習一下好。

機器學習的模型簡單來說就是干兩件事訓練預測，或者說就是拿訓練來的東西去預測沒訓練到的東西。至於訓練和預測的是什麼類型的問題，是分類問題還是回歸問題，並沒有什麼關係。預測和分類根本就不是一個對立的概念。

給樓主推薦資料，樓主看完就明白了

1. 威斯康星大學麥迪遜分校 Professor Wei-Yin Loh 的Classification and regression trees

http://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf

2. 卡耐基梅隆大學 Cosma Shalizi 的Classification and Regression Trees

http://www.stat.cmu.edu/~cshalizi/350/lectures/22/lecture-22.pdf

另外，博主真正想問的應該是GBDT為何在CTR預估中應用如此廣泛

參考下LCCC : NIPS 2010 Workshop on
Learning on Cores, Clusters and Clouds的資料：

http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf

對未知結果的數據進行分類就是預測

為什麼不仔細看一下書。

樓主說的預測是回歸吧，決策樹是可以做回歸的，您可以參考下李航的《統計機器學習》，裡面講了如何用決策樹做回歸分析，實際上就是講分類的誤差函數變為平方誤即可。