爬取了252家酒店的數據後,我發現了熱門旅遊城市酒店的秘密

外出旅遊,酒店一定會佔據一大部分開銷。哪些酒店的價格是合理的?這個價格配得上它的地理位置么?這個價格和它對應的服務匹配么?數據俠 Johnnie 以紐約的酒店為例,嘗試用數據一窺決定酒店價格的因素,做出一份出行居住指南。

Tripadvisor 是美國最大的旅遊網站之一,你可以輕鬆查到紐約所有酒店的信息,包括:酒店星級,價格,位置,用戶評論。

我使用了爬蟲工具 Selenium 來爬取這個網站的數據。過程如下:首先打開主頁;然後找到每一頁的 url;點擊每個url 進入對應頁面,點擊進入每個酒店的主頁;最後,爬取細節信息(價格,星級,評分,地理位置,評論中最常用的詞語)。

對我來說,挑戰在於找到對應每個希望爬取的內容的XML路徑語言。有時候是因為我檢查網頁時,沒有找到單一的XML路徑語言。有時候是因為信息是用 AJAX 寫的,Selenium無法爬取。其中,我把每頁的url 都列出來是因為在這個網站中,「下一頁」按鈕沒有自己的XML路徑語言。

而且,當我第一次爬取酒店價格數據時,有許多酒店的數據是空的。當我回去查看一遍的時候,我發現他們的XML路徑語言與其他酒店不同,所以我增加了更多XML路徑語言,直到完成所有爬取。

在做爬蟲的過程中,我還是遇到了一些數據缺失。紐約酒店一共有四百多家,但我每次只能爬取100家。於是我爬取了三次,然後結合這些結果得到一共252家酒店的數據。

這說明,即使你對爬蟲掌握的比較熟練,但是在實際爬取的過程中,由於不同網站的設計不同,你總會遇到很多意外的情況,有時候不能收集到完美的數據集。這是導致了第三方爬取數據產生誤差的主要原因。

完成了數據爬取工作後,我對其進行了一些簡要處理,然後就可以分析了。

首先我們來看看價格。曼哈頓酒店的平均價位是一晚上123美元。而且,281美元以下的佔了75%。說明最常見的價格是在123到281美元之間。

接下來,我們來看一看價格與不同因子之間的關係。首先是價格和酒店星級。

通常,酒店星級越高,價格越貴。然而,從下圖看出,即便五星酒店也有一些房間價格和低於五星酒店一樣。所以這兩個變數間沒有很強的關聯。可能是酒店在淡季打折造成的,至於旅客,價格一樣當然選星級高的了。

其次是價格與排名。根據下圖,其中的點在排名第一和排名251之間呈現均勻分布。說明價格和排名沒有什麼直接關係。

接著,我們來看看價格與位置。

我用郵編來代替具體地理位置。如下圖,有些區域有最貴的均價,包括10010,10021,10023.(大概對應的是華盛頓廣場公園,上東區,林肯中心)。然而,其他的所有區域價格就都比較相似了。所以,只有選擇上述三個區域,才會支付比較貴的價格,可能高於400美元,否則他們基本不會花費超過300美元。

(圖片說明:橫坐標為郵編,代表地理位置,注意10010華盛頓廣場公園)

(圖片說明:橫坐標為郵編

,代表地理位置,注意10021上東區、10023林肯中心)

然後是酒店評價。酒店評價中包含了更多的信息。我為不同星級的酒店製作了4組詞雲圖。

一方面,所有酒店都有「房間太小」這麼個負面評價。這意味著,如果你住在紐約,房子就永遠都會是很小。

另一方面,隨著星級上升,人們開始更關心附加價值。比如,對於2星的酒店,我們可以看到「早餐」成為常出現的詞語。三星是「免費早餐」,四星是「免費早餐」和「電影」以及「城市景色」。對於五星酒店,我們可以看到「屋頂酒吧」,「飯店」和「娛樂室」等。

(圖片說明:左邊是二星級酒店詞雲,右邊是三星級酒店詞雲)

(圖片說明:左邊是四星級酒店詞雲,右邊是五星級酒店詞雲)

所以,我們分析了這麼多,到底什麼價格是合理的呢?答案其實並不唯一。但是我們找到了幾個有用的點,可以為你提供一些參考。

  1. 一個遊客來到紐約,住宿可能需要每晚至少123美元

  2. 更高的星級,也可能會更便宜

  3. 一些地區(華盛頓廣場公園,上東區,林肯中心)住宿更貴

  4. 大多數酒店的房間都有點小

  5. 選擇三星酒店或四星酒店很可能比二星酒店或五星酒店體驗更佳

所以,下次來紐約的時候,希望你能選到自己最鐘意的酒店咯。

註:

本文編譯自

技術博客 Scriping Tripadvisor: A Guide for New York City Travelers on Choosing A Hotel

點擊「

閱讀原文

」查看。

內容僅為作者觀點,不代表DT數據俠立場。文中圖片部分來自作者。

作者 

| Johnnie

題圖 | 站酷海洛

期待更多數據俠乾貨分享、話題討論、福利發放?在公眾號

DT數據俠

(ID:DTdatahero)後台回復「

數據社群

」,可申請加入DT數據社群。

數據俠門派

本文數據俠 Johnnie 是紐約數據科學學院的學生,對數據分析具有濃厚的興趣。

▍福利時間:

R語言課程拼團倒計時ing

DT君聯合

唯品會數據分析師徐麟

,為大家錄製了「

R語言入門攻略1.0

」課程,手把手實操,教你如何快速上手R語言編程、分析方法、數據挖掘技巧,

開啟數據分析之旅

的第一步~

拼團倒計時4天,火速掃碼參與

推薦閱讀:

大陸客國外丟臉旅遊局看不下去
出國英語口語,出國旅遊常用英語一覽表(一)
國家旅遊局:調查遊客大鬧亞航並依法懲處
廣東東莞袁崇煥紀念園旅遊景點介紹(附圖)
教你如何持旅遊簽證換學生簽證留在美國

TAG:城市 | 旅遊 | 數據 | 酒店 | 發現 | 秘密 |