【數據分析·實戰】評分與銷量有相關性嗎?
前言
之前有一篇文章分析了價格和評分(好吃程度)的關係,今天來看下吃的人(點評人)越多,是否說明越好吃呢?在這片文章里我們以大眾點評上的上海美食數據為例,來分析這個問題。
爬蟲數據獲取
首先,我隨機爬取大眾點評上750條上海美食的數據,包括,銷量(點評數),人均價格,口味,環境,服務 ,菜系,商區。這裡把點評數近似看成銷量。
爬取的數據如下:
> head(lxy1) name class dp price taste environment service score sq1榮新館(1號店) 日本菜 22156 369 9.1 9.2 9.2 9.17 虹橋2海底撈火鍋(長壽路店) 火鍋 11155 123 8.4 8.5 9.2 8.70 長壽路3紅辣椒(楊浦店) 川菜 20056 89 8.8 8.6 9.1 8.83 五角場/大學區
數據分析
然後,我們來分析得分和銷量的關係:
1.得分和銷量的散點圖發現評價和銷量的相關性並不強,
進一步對他們做回歸分析,lxy2<-lxy1[which(lxy1$dp>500),]#篩選出銷量大於500的> lm1<-lm(score~dp,data=lxy2)> summary(lm1)Call:lm(formula = score ~ dp, data = lxy2)Residuals: Min 1Q Median 3Q Max -0.47643 -0.03495 0.01273 0.06497 0.24049 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.068e+00 7.959e-03 1139.348 <2e-16 ***dp -3.924e-06 1.703e-06 -2.304 0.0218 *
p值為0.02183,說明是有相關性的,回歸方程是
score= -3.924e-06 * dp + 9.068這裡回歸係數是-3.924e-06 ,幾乎就是0 了,令人意外的是截距項值是9.0688,也就是說銷量的增長對得分的影響很小很小,但是,銷量大於500,得分幾乎都是9分多的,2.意外發現
①海底撈(長壽路店)在所有火鍋類得分倒數第一,但點評人數卻很高(可能是虛高,應該是有一部分沒有寫評語的習慣的用戶,因為太難吃了,特意寫點評發泄,造成點評數虛高)②不難發現上海所有海底撈店的口味確實比服務差很多。小結
- 銷量的增長對得分的影響很小,但是銷量大,是可以得出評分高
- 不推薦去海底撈吃火鍋
數據 http://pan.baidu.com/s/1o7AGWkE 提取密碼:wk32
推薦閱讀:
※從事數據工作的你,有多少數據競爭力?
※Python數據分析及可視化實例之Request、BeautifulSoup
※PowerBI公式 - VAR