大眾點評美食系列--上海站
上期分析了成都的美食餐廳,得到了幾個有用的信息,接下來我們看看上海站的美食又包含了什麼信息呢?
數據總量: 136682
數據欄位: shop_id(餐廳編號), shop(餐廳名稱), area(地區), addr(詳細地址), category(分類), review_num(評論數), mean_price(人均消費價格), taste(口味評分), env(環境評分), serve(服務評分)
依然分成兩類:1. hot_shops(評論數,人均消費,評價均不為空), 數據量: 61633
2. cool_shops(評論數,人均消費,評價任何一項或多項為空, 數據量: 75049
另外:兩個分類屬性的大致情況:
len(np.unique(data.area)) #總共17個區縣array([盧灣區, 嘉定區, 奉賢區, 寶山區, 崇明縣, 徐匯區, 普陀區, 楊浦區, 松江區, 浦東新區, 虹口區, 金山區, 長寧區, 閔行區, 閘北區, 青浦區, 靜安區, 黃浦區], dtype=object)
len(np.unique(data.category)) #總共28個分類array([東北菜, 東南亞菜, 雲南菜, 其他, 台灣菜, 咖啡廳, 小吃快餐, 川菜, 新疆菜, 日本菜, 本幫江浙菜, 江西菜, 海鮮, 清真菜, 湘菜, 火鍋, 燒烤, 粵菜, 素菜, 自助餐, 茶館, 蟹宴, 西北菜, 西餐, 貴州菜, 酒吧, 麵包甜點, 韓國料理], dtype=object)
#人均最高的餐廳:
max_mean_price=data[data.mean_price==max(data.mean_price)]
data.drop(105011,inplace=True)hot_shops.drop(105011,inplace=True)
max_mean_price=data[data.mean_price==max(data.mean_price)]
#最火的餐廳(按評論數最多記)...注意到了嗎,是川菜~
max_review_num=data[data.review_num==max(data.review_num)]
best_taste=data[data.taste==max(data.taste)]
#一大波福利~
top_taste=data[(data.taste==9.4) | (data.taste==9.3)]
#環境最好的餐廳
best_env=data[data.env==max(data.env)]
#服務最好的餐廳
best_serve=data[data.serve==max(data.serve)]
#接下來探究分類情況吧
mapping={shop:count,review_num:mean,mean_price:mean,taste:mean,env:mean,serve:mean}by_category[cool_pct]=by_category.shop_cool/(by_category.shop_hot+by_category.shop_cool)
by_category=by_category[by_category.shop_hot>0]
#各類餐廳數量分布情況
小吃快餐餐廳數量接超過50000家,佔總量的39%,其次是麵包甜點,本幫江浙菜(,其他),均超過10000家.而雲南菜,江西菜,貴州菜及素菜(不知道這個是什麼分類...)餐廳數量較少,在200家以內.
#各類餐廳的"冷清"比例
可見蟹宴的"冷清"比例最高,達到了85%,其他類的比例也高達82%,其次是江西菜和清真菜,"冷清"比例在62.5%左右.而餐廳數量最多的小吃快餐類"冷清"比例只是稍高於平均水平,可見小吃快餐類雖然餐廳數量眾多,但是市場需求也較大.東南亞菜,雲南菜,日本菜,火鍋,西北菜及西餐"冷清"比例較低,在30%左右.值得關注的是雲南菜,餐廳數量很少(116家),"冷清"比例也較低.當然也要注意江西菜,數量很少(141家),但是"冷清"比例較高.
#平均評論數
雲南菜和東南亞菜平均評論數均達到2000,相對於其他分類優勢明顯.其次是新疆菜,自助餐,韓國料理及粵菜,平均評論數均超過1000.清真菜平均評論數遠低於平均水平,其次是小吃快餐,在總體平均評論數的1/3,東北菜及咖啡廳均在總體的1/2.
#人均價格
蟹宴人均價格最高,達到了200元,為平均水平的4倍左右,其次是日本菜及自助餐,分別為平均價格的2.62和2.44倍.清真菜和小吃快餐及麵包甜點的人均價格較低,在平均價格一半左右.
#味道,環境,服務
總體上看,大部分餐廳得分在7.25-7.75之間;東北菜,小吃快餐,清真菜和湘菜得分偏低,在7.0左右,而得分較高的為雲南菜,東南亞蔡;其次是日本菜,素菜,火鍋,西餐和韓國料理.
#結論:
清真菜:餐廳數量很少,"冷清"比例較高,平均評論數最低,平均價格最低,平均得分也較低,可見清真菜在上海不受歡迎,新開餐廳需避免.
蟹宴:餐廳數量不多,"冷清"比例最高(85%),評論數稍高於平均水平,人均價格最高(為平均水平4倍),總體評價普通.可見蟹宴市場空間小,目前已過於飽和,新開餐廳應避免.
日本菜,火鍋,自助餐和西北菜:這4類餐廳"冷清"比例均較低,平均評論數均在總體平均數2倍以上;可見這4類餐廳均還有一定的市場空間. 日本菜和自助餐有較好的價格空間,而西北菜人均價格最低,評價得分上日本菜和火鍋優於自助餐及西北菜.從這4類來看,西北菜稍處於劣勢.日本菜最具有優勢.
東南亞菜:餐廳數量較少,"冷清"比例很低(30%),平均評論數遠高於總體平均水平,人均價格為平均水平的2倍,評價得分稍遜於雲南菜,處於第二名.
雲南菜:餐廳數量很少,"冷清"比例很低(30%),平均評論數遠高於總體平均水平,人均價格超過平均水平65%,評價最好.
可見東南亞菜和雲南菜目前有較大的市場空間,也有較好的價格空間,新開餐廳應強烈推薦
#按地區分組情況
mapping={shop:count,review_num:mean,mean_price:mean,taste:mean,env:mean,serve:mean}
basedata_shanghai=pd.read_csv(papulation_shanghai.csv,index_col=0,skiprows=2)[[0,1]]basedata_shanghai.columns=[land_area,papulation]
by_area[cool_pct]=by_area.shop_cool/(by_area.shop_cool+by_area.shop_hot)by_area[density_papulation]=(by_area.shop_cool+by_area.shop_hot)/by_area.papulationby_area[density_land]=(by_area.shop_cool+by_area.shop_hot)/by_area.land_area
靜安區每萬人擁有的餐廳數量最多,達到了191家,其次是黃浦區,為150家;長寧區和徐匯區也超出平均水平較多.而金山區,青浦區,奉賢區,崇明縣每萬人擁有的餐廳數量均低於平均水平一半.對於一個我這樣的剛來上海的人來說,也能明顯知道了靜安區,黃浦區,長寧區和徐匯區為市中心了.
#各區縣評論數情況
前四名依然是靜安區,黃浦區,長寧區和徐匯區.不過,黃浦區相對靜安區有更高的評論數,徐匯區相對與長寧區也有更高的評論數.而金山區,青浦區,奉賢區,崇明縣依然低於平均水平一半,此外,松江區,寶山區和嘉定區也相對較低.
#各區縣"冷清"比例
總體區別不大,在平均水平55%左右. 不過,四個中區城區有更低的比例,其中又以靜安區最為突出.崇明縣的"冷清"比例最高,其次是奉賢區.
#快速瀏覽
#各區縣人均價格
#各區縣評價#結論:
崇明縣和奉賢區相對來說"冷清"比例較高,雖然每萬人擁有的店鋪數量不多,但是平均評論數依然落後.可見這兩區市場已過剩.
而其他各區的情況大致都呈現出這種分布:餐廳分布密度越大,平均評論數就越多,且"冷清"比例也較低.已經發展到與人流量的大小呈現出和諧一致的狀態.看來想要在上海找出一個最具有優勢的地區已經幾乎不可能了,那就只能在分類的選擇上更加睿智一些啦~
#最後看一下價格和得分之間的關係
hot_shops[[mean_price,taste,env,serve]].corr()
哎呀,,這個...價格和評價得分之間的相關係數均在0.3左右,可以說不相關了..看來這吃飯,還真的認真挑一挑,好價格不一定能買到好東西.. 當然,味道和環境及服務之間的相關性還是很強的,味道好,環境和服務也相對較好;環境和服務好了,味道自然就上去了...(伺候好消費者是多麼重要)
推薦閱讀:
※米其林上榜餐廳唐閣無緣大眾點評必吃榜,原因何在?
※廈門大眾點評火鍋描述性分析
※大眾點評App的短視頻耗電量優化實戰
※畫皮的大眾點評是?
※要錢不要臉的大眾點評,在我的推廣頁加同行的廣告,還有職業道德嗎?