數據挖掘哪家強?Excel回歸分析篇
hello~本人是應用心理碩士,想從事互聯網用戶研究領域~
挖個坑給自己開帖碼字~嘻嘻,期待知乎各路大神來討論指正哦~
起初,數據挖掘緊跟「One to One」或「CRM(Customer Relationship Management)」的潮流,用於分析顧客行為、開發新客戶、預測新產品和庫存管理等,應用於市場營銷領域。因此,逐漸出現把顧客數據和POS數據存儲到資料庫的方法。
數據挖掘的目的有三:
一是把握趨勢和模式:通過分析網購交易的記錄數據、呼叫中心的投訴數據、顧客滿意度的調查數據、購物數據等,用神經網路、購物籃分析、Rough、對應分析(雙尺度法)、主成分分析、聚類分析等;
二是預測:神經網路法、回歸分析、判別分析、邏輯回歸分析、數量化理論一二等,時間序列數據方法有灰色理論、最近鄰法、Holt法、指數平滑法、移動平均法、ARIMA模型、數量化理論一等;
三是求最優解:Excel規劃求解。
Excel最常用的四個功能:函數、圖表、數據分析、數據透視表、規劃求解。
首先提一個簡單的問題拋磚引玉,如何預測一個商品的合理價格呢?
在實際調查中,是絕對不會直接問消費者「你認為這個商品的合理價格是多少」的問題。(這裡牽涉到研究方法的問題,先不討論~)
方法一:根據平均值預測
調查消費者意識,把消費者「認為過高的價格」和「認為偏低的價格」求一個平均值(簡單算術平均值或幾何平均值、調和平均值),取最接近實際購買者「可以接受的價格」平均值的一個值。
方法二:回歸分析
可以根據過往研究調查,把現在需要分析的商品價格分成幾個不同的因素:如商品類型、商品顏色、商品有無附加品、商品售賣的地方等等。在這些因素當中,最影響價格的是什麼?最不影響價格的是什麼?通過定量求出影響度,然後根據多個因子預測價格。但是Excel是不能對自由度在16以上的進行分析,就是說只能分析16個以內的變數啦,如果多於16個,就可以分次進行。
首先,需要用虛擬變數表示定性數據。
簡單來說就是用0,1等數字表示。下面隨便做一個表舉例
寫好表格之後在數據一欄找到「數據分析」,選擇回歸,Y值代表所求,這裡指價格,X值代表各個因素,確認之後就可以啦~
那麼出現了一個問題,如何知道上面所調查的因素是否真的可以代表商品的價格呢?我們需要因子分析。
對於定量數據,看回歸分析結果的t值就可以了;定性分析需要看t值範圍,即t值「最大值-最小值」。t值越大,影響度越大。
最後,coefficients就是回歸係數。
根據回歸方程y=ax+b,商品合理價格就等於定性數據的t加上定量數據的回歸係數乘定量數據啦~
用Excel大家可能覺得不值一提,但其實相比spss等統計軟體,在計算樣本不大的時候還挺方便的~
首篇完成~滾去看論文了(溜~
推薦閱讀:
※《Python數據挖掘》筆記(七) 自動化文本摘要
※【官方中文版】谷歌發布機器學習術語表(完整版)
※談談數據科學
※關於知乎KOL關注者組成的研究(進行中)
※SAS市場研究應用介紹:離散選擇分析
TAG:數據挖掘 |