未來的旅遊的熱點是什麼?旅遊點評數據分析
01-26
點評數據能直接展現商品的口碑。出於興趣從某旅遊網站爬取了100個旅遊城市的旅遊產品點評數據,希望從點評數據的角度來挖掘一些旅遊熱點和口碑評價的維度。
雖然不是每個消費者都會在消費後進行點評就算有點評也存在點評不及時的情況,但還是做了一些簡單統計分析,對熱點分析起到參考的作用。
- TOP20旅遊城市
- 2017年端午TOP20旅遊城市
- 旅遊城市的淡、旺季,杭州旅遊趨勢圖
- 評論平台的佔比和增長情況
- 在做文本處理前需要爬取的景點信息,整理成景點詞典供分詞器使用。
- 從評論的景點、地點、時間找出一些虛假點評、水軍。以下這位「遊客」首都就是玩不膩。
- 使用LDA來挖掘點評數據的topic,以下為部分topic展示。
- 點評的維度是非常多的,這裡選兩個角度來進行進一步挖掘。
- 從「導遊」的維度挖掘出導遊口碑最好的城市
- 從「酒店」的維度挖掘某房車的差評維度佔比
- 統計各維度的評論趨勢,可以發現「親子」主題增長迅速,很大可能是未來的旅遊熱點。
點評數據還蘊含著很多信息可以挖掘,後續還會嘗試產品滿意度、利用評分/打星數據做旅遊領域的情感分析等等。如果感興趣同學多的話會進行持續更新。
爬蟲和數據分析主要使用的spark+python,如果需要相關代碼可以私信我。
推薦閱讀:
※從零開始寫Python爬蟲 --- 2.6 爬蟲實踐:重構排行榜小說爬蟲&Mysql資料庫
※從零開始寫Python爬蟲 --- 爬蟲實踐:螺紋鋼數據&Cookies
※開啟知乎收藏夾看圖模式
※Python模擬登陸萬能法-微博|知乎