為什麼決策樹是一種分類方法卻可以用於預測?
我是新手,在做一個大作業,是利用歷史數據預測未來銷售情況的,同學說可以用決策樹演算法,但我簡單看了一下書,它是用於分類的,再問他,他說分類和預測有什麼區別嗎,然後也沒細講
其實你同學說的大概是對的,在機器學習的框架下,分類和預測沒什麼區別。決策樹可以用來分類,就也可以用來預測。其他的方法,以你目前的理解是在做分類的,其實都可以用來做預測。
機器學習問題大多假設歷史數據和未來數據服從相似的統計規律,因此在歷史數據上摸清的規律也同樣適用於未來。換句話說,如果能在歷史數據上做好分類,那麼在未來數據上也能做好分類。但未來的數據畢竟是沒見過的,叫分類語言上不太通順,所以就改叫預測,但實際上和分類是一回事,只是語言上的習慣。
謝邀。"分類"大概就是Classification,是機器學習(ML)眾多問題類型中的一種。
做ML要先初步理解一下本質: 我們相信我們所關心的問題,究其根本可以理解為從若干輸入到某個輸出的函數。比如一個照片識別程序,輸入是一堆像素點,輸出是某些我們關心的值。
這個目標函數的類型決定了我們ML問題的類型。 這其中所謂"分類"就是由輸入到一個有限集輸出,比如給一張圖片,看裡面有沒有一隻貓({是,否}),或者給一張圖片,看是什麼時候拍攝的({白天,傍晚,晚上})等等。
除此以外還有輸出一個數字的"回歸", clustering, sequence pattern等等類型。
決策樹不過是解分類問題的一個演算法而已。
所謂預測,說白了就是因為不知道具體目標函數是什麼,從已知函數的輸入輸出來擬合一個近似函數,再拿這個函數當原來的目標函數去用罷了,和統計學的預測概念是一樣的。
順帶一提從數字到數字,這個問題的模型似乎更加適合做某種形式的回歸,而不是分類啊。
具體這些東西還是比較複雜的,建議題主有數學,統計,計算機背景的話還是系統學習一下好。機器學習的模型簡單來說就是干兩件事 訓練 預測,或者說就是拿訓練來的東西去預測沒訓練到的東西。至於訓練和預測的是什麼類型的問題,是分類問題還是回歸問題,並沒有什麼關係。預測 和 分類 根本就不是一個對立的概念。
給樓主推薦資料,樓主看完就明白了
1. 威斯康星大學麥迪遜分校 Professor Wei-Yin Loh 的Classification and regression treeshttp://www.stat.wisc.edu/~loh/treeprogs/guide/wires11.pdf2. 卡耐基梅隆大學 Cosma Shalizi 的Classification and Regression Treeshttp://www.stat.cmu.edu/~cshalizi/350/lectures/22/lecture-22.pdf
另外,博主真正想問的應該是GBDT為何在CTR預估中應用如此廣泛參考下LCCC : NIPS 2010 Workshop onLearning on Cores, Clusters and Clouds的資料:http://lccc.eecs.berkeley.edu/Slides/YeChChZh10_slides.pdf
對未知結果的數據進行分類就是預測
為什麼不仔細看一下書。
樓主說的預測是回歸吧,決策樹是可以做回歸的,您可以參考下李航的《統計機器學習》,裡面講了如何用決策樹做回歸分析,實際上就是講分類的誤差函數變為平方誤即可。
推薦閱讀:
※模式識別和分類的區別?
※什麼是好的數據科學家?
※怎麼學慣用 R 語言進行數據挖掘?
※Python 是一門適合做數據挖掘的語言嗎?
※隨機森林是否需要後剪枝?sklearn為什麼沒有實現這個功能,是否有人實現了這個功能?