你所不知道的周黑鴨和絕味鴨脖。
「你又買周黑鴨!」我女朋友跟我說。好吧好吧,我好像是有點愛吃周黑鴨的。並且一直想不到為什麼會有人喜歡吃絕味。
這樣一想,我就很抽風,我一定要弄明白愛吃周黑鴨的和愛吃的絕味的究竟都是一些什麼人?這樣豈不是我就找到我得同黨了,我暫時稱他叫做「黑鴨黨」。另外一群愛吃絕味的人我暫時把他們稱為」絕味黨「。
有了這個念頭,剛買了周黑鴨的我,就匆匆忙忙的趕回家打開電腦開始策划起來了。為了分析這兩大吃貨團體,首先我要拿到他們的評價。然後對他們的評價進行分析,對群體的個人資料抓取進行分析。
正文開始
1、首先我要確定一個網站作為我此次分析的獲取資料以及評論數據的來源。
第一步我找了網頁版美團,經過兩三次搜索發現,美團上基本上沒有入駐的鴨脖店。
第二步我找了網頁版支付寶,我驚訝的發現,網頁版支付寶上並沒有商店。
第三步經過以上兩次,這一次我直接打開了大眾點評,果然還是大眾點評靠譜。
2、再者我要確定一個城市作為我這一次研究的目標城市。
這一點我的想法是:找出一個入駐大眾點評的絕味和周黑鴨最多商家的城市,以這個城市作為一個特徵城市(數據多比較有代表性),對幾大熱門城市的鴨脖店做了統計如下圖。(憑什麼?我的周黑鴨你怎麼可以這樣,你明明比絕味好吃。)
3、(這一步其實是沒必要,但是我想寫一下)先統計一下北京周黑鴨和絕味的總的口味評分統計的規則是:所有的店鋪按照評論的數量進行排序,各選擇最前面的60家店鋪查看評論數量、總體口味評價、服務評級、環境評價、人均價(這裡只需要簡單的爬蟲就可以搞定)。左側已經對一大部分數據進行摺疊。
我們可以對上面的評論數據做一個圖表查看(兩點:評論數量項的滿分為150評價,人均價格項的最高價為40元,其餘各項都是10為滿分)。可以看出,在價格方面周黑鴨的價格人均比絕味高9元左右,這九元產生的效應是:
(1)評論數量來看,周黑鴨的點評數量是絕味的6倍之多。
(2)無論從口味、服務、以及環境周黑鴨的評分都比絕味高出百分之十左右。
現在我知道我為什麼愛吃周黑鴨了對!(哈哈哈!)
上述的實例代碼為(由於本人實在是太隨便了,沒有寫成函數,還請諒解):
for pageNumber in range(1,4): pageUrl = BASE_URL + str(pageNumber) pageSoup = BeautifulSoup(_session.get(pageUrl).content) urlList = pageSoup.findAll(a,attrs = {data-hippo-type:shop}) for shop in urlList: shopUrl = http://www.dianping.com + shop[href] shopSoup = BeautifulSoup(_session.get(shopUrl).content) itemList = shopSoup.findAll(span,attrs={class:item}) for item in itemList[:5]: print item.text,
如果拋去口味不談,價格方面可能是一個主要因素(即絕味店鋪遠遠多於周黑鴨),所有這裡強烈建議周黑鴨降價降價啊。
4、當然,到這裡還沒有結束。我還要分析這兩部分消費人群到底是怎樣的人群呢?設想也是很簡單。抓取上面所提及的店鋪中的評價的人的個人信息(大眾點評這一塊還是不錯的,我還可以讀取到用戶的個人資料,開心)
上述周黑鴨以及絕味各取出了具有代表性的45家店鋪,下面要做的是抓取這共計90家店鋪的評論中用戶的個人資料進行分析。(請注意:這裡的用戶是選取的口味給出了4-5分的用戶,不是所有用戶)。
首先看以下年齡分布(人數少於100的沒有統計):
這部分數據發現的是:(1)、評論的人大部分是生日在1981-1993,難道我們95後都不愛評論,不愛給高分評論。
(2)、兩大吃貨團體人群還是相對比較集中的。
(3)、看來吃貨還都是一樣喲,同在1986即30歲年齡的達到一個峰值,這就很尷尬了。
(4)、特別愛吃鴨脖並且喜歡點評的集中在25-35年齡段。
5、最後的最後我們看看周黑鴨黨的愛好詞云:
電影我很喜歡看,也很喜歡聽音樂,但是這都是很大中的標識啊!所以自認為這一次並沒有能分析出很明確的數據。怎麼能少了編程呢???噢!我知道了,在寫代碼呢。好了沒時間寫絕味的評論詞雲了,快上車。
6、其實到最後當初的目的並沒有查的水落石出,但是倒是給了我另一些想去探究的東西:
(1)全國各個地區的口味與鴨脖店分布的關係。
(2)周黑鴨與絕味的發展以及最後市場份額懸殊巨大的原因。
預知後事如何, 歡迎關注專欄:學習編程
推薦閱讀: