爬下20萬份菜譜,數據解讀舌尖上的中國 | 饕餮文本大宴

說來奇怪,中國人愛吃,但是對吃的卻有千百種看法和意見,有的人喜歡吃辣,有的人不喜歡,有的人喜歡吃甜豆腐,有的人喜歡吃咸豆腐,千滋百味是中國菜的特色,但中國的味道到底是怎樣的?或者說,主流的中國味道是怎樣的?是美食節目里精緻的膳食,還是晚上回家老媽的一碗熱面?抑或是家門口小飯館裡冒著熱氣的回鍋肉?

為了解決這個問題,我開始琢磨從數據分析上想點門路。在我咽了無數次口水後,我選取了幾個美食網站,這幾個美食網站的特點是,上面的美食都是用戶主動上傳的,因此,爬取這些美食的相關數據,就相當於趴在窗外看了一次別人家的晚飯,當我趴在窗戶上看了足夠多的別人家的晚飯的時候,關於中國味道的印象應該就可以成形了。

雖然這樣做看上去有點猥瑣,但是我的內心是高尚的,這一點必須澄清一下。

首先,我依舊是寫爬蟲,這個爬蟲能夠自動從這幾個美食網站上隨機獲取美食的信息,包括食材,烹飪時間,具體步驟,美食名稱,上傳美食的用戶位置這幾個信息

和之前的爬蟲不一樣,這個爬蟲是自動去獲取數據的,不需要跟任何參數,因此我把它放在一邊,沒有管它,這樣過了一個小時之後。。。

第二天我又把它開了半天,最後大概爬取了約20萬份全國各地的人們主動上傳的美食。看到數據的我突然覺得,要是這都是做給我吃的就好了,20萬道菜,就算一天吃10道菜,都可以吃50年了。數據從某方面來講確實是好東西,但畢竟不能吃,少了那麼些意思。

和之前分析歌詞不同,幾十萬字的歌詞也才1M上下,存個文本文檔就足夠了,但這次不一樣,20萬份下來最少100M,要是放在文本文檔里那別說分析了,打開它都得讓電腦卡死,所以這一次,我鳥槍換炮,把它存在了 mysql 資料庫裡面,說實話,G 以下的數據,也暫時還用不到 Hadoop 一類的東西,mysql 足矣。

通過對食材的聚類分析,我們可以看出,最受歡迎的調理是鹽,其次是糖,醬油(PS:同類詞已經合併,例如糖和白糖,都算做糖)

這從某種程度上說明了,鹹味比甜味還是更主流一點。

那麼,人們最喜歡吃的肉是什麼呢?我們把食材又做一次聚類,發現了如下事實:

可以看得出,五花肉是不可撼動的存在,第二名排骨的份額也不錯,達到了12.1%,其次是牛肉和豬肉。雖然豬肉略遜於牛肉,但五花肉和排骨其實也是豬肉,因此,豬肉無可辯駁的是中國人的餐桌之王。令我比較吃驚的是蝦仁有8.57%的份額,我小時候基本上很少吃蝦仁,這世界變化快啊。

肉類看完了,那麼對於蔬菜的選擇又是怎樣的呢?

看了結果我有一點憤怒,為什麼這麼難吃的胡蘿蔔居然是第一?而且那麼領先。又是為什麼,香菜居然出現在了前十的名單裡面。我最愛的土豆,居然只有 14.54% 的份額。這太讓人震驚了。

另外我還發現了一個不得不說一下的事實,就是在描述用量的時候,出現最多的是「適量」,這個描述每次我看到都很頭疼,適量到底是多少,為什麼不能說的明白一點呢,我手一抖,倒下去半瓶醋,是不是也是適量?

看完了食材,我們看一下中國人最常做的菜是什麼:

可樂雞翅,這勾起了我遙遠的回憶,我第一次聽到這個名字的時候還在上小學,那時候我覺得這個菜肯定特別牛逼,特別複雜。後來卻發現,這道菜出奇的簡單,那些號稱能在廚房露一手,但是平時從來不下廚房的人們,往往能露的也只有可樂雞翅和蛋炒飯,最多再加一個土豆絲。

另一個比較好玩的數據是烹飪時間,統計發現,接近半數的菜,烹飪時間為30-45分鐘,這充分說明了中國人做菜是充滿耐心的,雖然社交網路上充斥著幾分鐘做一個什麼什麼菜的教程,但是大家還是願意認認真真,花幾個小時做一桌一家人的晚餐,這是中國傳統文化中關於食物的美好的地方。

中國菜的技藝複雜,煎炒炸蒸燜煮燒,什麼技法是出現最多的呢?

炒是做常見的做法,其次是燒,蒸和煎。

照例,我們可以杜撰一下一道典型中國菜的畫像:適量的五花肉,適量的胡蘿蔔,土豆和洋蔥,以及適量的醬油,鹽和糖。首先把鍋燒熱,倒入適量的油,然後放入姜蒜,等香味出來後,放入五花肉,等到五花肉的油出來,肉微焦,香味四溢的時候,放入胡蘿蔔,土豆,洋蔥,繼續翻炒,然後放入醬油上色,鹽,糖,繼續翻炒入味,還可以放點水燒一下。然後撒點蔥花,就可以出鍋了!

炒出來可能是這個樣子:

媽的,居然餓了。

PS:菜譜的數據屬於美食網站,我昨晚分析後已經全部刪除了,但是食材的數據(如下圖所示)我留下來了,並且經過脫敏處理,如果大家有需要,可以關注我的微信公眾號( ID:superwdk ),回復「食材」,我會給你下載地址,你可以自己分析著玩,或者練練mysql語句的技巧。這個數據有一百萬行左右。爬蟲源代碼寫的太丑,就暫時不開源了~

喜歡好的就關注,持續更新。

作者:超級王登科

個人公眾號:「超級王登科」(ID:superwdk)

出處:超級王登科博客專欄

最近很多人私信問我問題,平常知乎評論看到不多,如果沒有及時回復,大家也可以加小編微信:tszhihu,進知乎大數據分析挖掘交流群,可以跟各位老師互相交流。謝謝。


推薦閱讀:

孤寂冷清的聖彼得堡,竟偶遇了最喜歡的旅行作家
日常吃吃喝喝。
這家用 Coldplay 當背景音的搖滾餐廳,做出了我在日本最喜歡的一頓法餐
工作日晚餐計劃:1小時搞定一葷一素
東京篇(2):吃河豚的正確姿勢?

TAG:Python | 美食 | 爬虫 |