馬蜂窩遊記爬蟲數據分析
來自專欄猴子聊數據分析
春風掠過,掃去了濃濃的年味,歸鄉的人又要遠去。清明穀雨也悄然走過,只留下旅人的腳印遲遲不肯消散。
我拿起了擱置已久的筆,記下了些東西,思緒良多,空靈又混濁,又不舍地抹去了些東西,撕毀,咬碎。
掙扎之下,恍然之間想起了分析,沉醉其中,讓我回歸了自然。所以拿起了養肥的Spider,在jupyter notebook上一字一字地敲擊,直到鍵盤上字母顏色褪去,指尖仍然存著那每一下敲擊的記憶。
來到了馬蜂窩的天地,雲彩絢爛,池清湖澈,每一個地方景緻優雅或淳樸或宏偉,就連那一片片落葉都顯得別緻。佇立亭台,極目眺望,遠處白雪皚皚,心中悠然自得。風景圖裡左下角的小蜜蜂不時浮現,提醒著我什麼,也似乎是迷戀著那景緻,暗中窺視。
全國46城(2015年-2017年):
我是欣慰的,我的Spider想要去46個城市走走看看,他們坐在一輛八個座位的豪車上,順著網線瘋狂地瀏覽著全國各地旅客撰寫的遊記,吃掉日期,吃掉你的名字,也吃掉了你的城市。
它們回來時笨拙地帶來了46個文件,357362行信息,我敲了幾行代碼將文件合併,清洗整理,一張張宏偉的圖片也慢慢浮現。
讓我們來看看九寨溝的情況:
每年的十月份,國慶假期來臨,九寨溝的旅客量達到每年高峰,圖中紅圈卻是例外,那指的是2017年10月的旅客量,這是一個很低的值,旅遊行業的人大都知道那個時候發生了什麼-九寨溝8.8大地震。
據此,反映了爬蟲數據具有一定可靠性。
再看看武漢的情況:
每年三四月份的武漢旅客比十月份國慶假期的旅客還多,這是為什麼呢?是櫻花么?可能是吧。
再看看青海的情況:
每一年的8月份,青海的旅客達到了峰值,而國慶來的旅客只是讓折線有了突起,但依舊無法拯救快速下滑的程度。
再看看拉薩:
每年的9月份左右是拉薩旅遊高峰時期。
掌握了這些信息,旅遊行業的同學們,應該知道哪個月份賣哪個地方的景點門票了吧。
當然還有46城旅客數量排名柱狀圖:
廈門市(2015年-至今):
世界之大,讓每一個人都有了無數的幻想,而那些幻想著廈門的人又是怎樣的一群人呢?
讓我們來看看我的另外的Spider給我帶來的信息吧,這份信息有時間、居住地、性別、昵稱等通過遊記轉到個人界面爬取的信息,共計9549條記錄
鷺島總吸引著嚮往沙灘海岸的人們,那麼女孩子和男孩子誰更嚮往呢?看圖:
女性旅客遊記數量是男性旅客遊記數量的兩倍多,所以在廈門做旅遊行業,挑些女孩子喜歡的物品做生意,會不會爆賺一筆?
思緒又跳轉一下,提個問題:旅行的哪個組合最多呢?是(父親+母親+女兒)組合?或是(母親+女兒+女婿)組合?又或是(女生+男生)組合?又或是其他呢?
再看看旅客都來自國內哪些地方:
可以看到旅客所在地比較多的是紅色的點西安,接著是橙色的北京,以及上海、成都等。
所以,問題來了,西安的同胞們對廈門為何如此熱衷呢?
我們來看看來自2015年以來廈門的旅客數量最多的20個城市分布圖:
大部分城市在沿海地帶,內陸有成都、西安、武漢、長沙、重慶等。
當然還有一張2016年、2017年、2018年旅客數量最多的20個城市分布圖:
推薦閱讀:
※大數據時代從數字化到數據化的演變
※第九期 | 人工智慧技術情報分享
※Kaggle 數據清洗挑戰 Day 3 - 快速解析日期(date)數據
※R語言實戰—02-創建數據集
※不同需求下可視化圖形選擇(翻譯)