為什麼決策樹是一種分類方法卻可以用於預測?

我是新手,在做一個大作業,是利用歷史數據預測未來銷售情況的,同學說可以用決策樹演算法,但我簡單看了一下書,它是用於分類的,再問他,他說分類和預測有什麼區別嗎,然後也沒細講


其實你同學說的大概是對的,在機器學習的框架下,分類和預測沒什麼區別。決策樹可以用來分類,就也可以用來預測。其他的方法,以你目前的理解是在做分類的,其實都可以用來做預測。

機器學習問題大多假設歷史數據和未來數據服從相似的統計規律,因此在歷史數據上摸清的規律也同樣適用於未來。換句話說,如果能在歷史數據上做好分類,那麼在未來數據上也能做好分類。但未來的數據畢竟是沒見過的,叫分類語言上不太通順,所以就改叫預測,但實際上和分類是一回事,只是語言上的習慣。


謝邀。"分類"大概就是Classification,是機器學習(ML)眾多問題類型中的一種。

做ML要先初步理解一下本質: 我們相信我們所關心的問題,究其根本可以理解為從若干輸入到某個輸出的函數。比如一個照片識別程序,輸入是一堆像素點,輸出是某些我們關心的值。

這個目標函數的類型決定了我們ML問題的類型。 這其中所謂"分類"就是由輸入到一個有限集輸出,比如給一張圖片,看裡面有沒有一隻貓({是,否}),或者給一張圖片,看是什麼時候拍攝的({白天,傍晚,晚上})等等。

除此以外還有輸出一個數字的"回歸", clustering, sequence pattern等等類型。

決策樹不過是解分類問題的一個演算法而已。

所謂預測,說白了就是因為不知道具體目標函數是什麼,從已知函數的輸入輸出來擬合一個近似函數,再拿這個函數當原來的目標函數去用罷了,和統計學的預測概念是一樣的。

順帶一提從數字到數字,這個問題的模型似乎更加適合做某種形式的回歸,而不是分類啊。

具體這些東西還是比較複雜的,建議題主有數學,統計,計算機背景的話還是系統學習一下好。


機器學習的模型簡單來說就是干兩件事 訓練 預測,或者說就是拿訓練來的東西去預測沒訓練到的東西。至於訓練和預測的是什麼類型的問題,是分類問題還是回歸問題,並沒有什麼關係。預測 和 分類 根本就不是一個對立的概念。


給樓主推薦資料,樓主看完就明白了

1. 威斯康星大學麥迪遜分校 Professor Wei-Yin Loh 的Classification and regression trees

http://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf

2. 卡耐基梅隆大學 Cosma Shalizi 的Classification and Regression Trees

http://www.stat.cmu.edu/~cshalizi/350/lectures/22/lecture-22.pdf

另外,博主真正想問的應該是GBDT為何在CTR預估中應用如此廣泛

參考下LCCC : NIPS 2010 Workshop on

Learning on Cores, Clusters and Clouds
的資料:

http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf


對未知結果的數據進行分類就是預測


為什麼不仔細看一下書。


樓主說的預測是回歸吧,決策樹是可以做回歸的,您可以參考下李航的《統計機器學習》,裡面講了如何用決策樹做回歸分析,實際上就是講分類的誤差函數變為平方誤即可。


推薦閱讀:

模式識別和分類的區別?
什麼是好的數據科學家?
怎麼學慣用 R 語言進行數據挖掘?
Python 是一門適合做數據挖掘的語言嗎?
隨機森林是否需要後剪枝?sklearn為什麼沒有實現這個功能,是否有人實現了這個功能?

TAG:數據挖掘 | 機器學習 | 決策樹 |