想成為Airbnb超贊房東?教你用Excel分析什麼樣的房子最受歡迎!(連載二)

數據分析的基本步驟是:

一、提出問題

想成為Airbnb的超贊房東,我們需要研究什麼樣的房子最受歡迎。如何衡量一座房子的受歡迎程度呢?有三種維度:

1)評分越高表示越受歡迎;

2)評論數量越多說明預訂次數越多,表示越受歡迎;

3)從掛牌到第一次預訂的時間間隔越短,說明房子吸引力越強,表示越受歡迎。

根據已有的數據,我們可以研究的問題有:

1、哪座城市的房子最受歡迎?

2、什麼類型的房屋最受歡迎?

3、什麼床型最受歡迎?

4、取消政策對房子的受歡迎程度有影響嗎?

5、收取清潔費對房子的受歡迎程度有影響嗎?

6、是否有房東照片對房子的受歡迎程度有影響嗎?

7、房東身份是否經過認證對房子的受歡迎程度有影響嗎?

8、是否有電視對房子的受歡迎程度有影響嗎?

9、房東回復率對房子的受歡迎程度有影響嗎?

二、理解數據

理解數據就是要弄明白每一個欄位是什麼意思:

三、數據清洗

數據清洗的步驟:

1、選擇子集

根據我們要分析的問題,描述、緯度、經度、房屋名稱、社區名稱、網址、郵編都是不需要的數據,將它們暫時隱藏起來。

2、列名重命名

將欄位名稱改為中文。

3、刪除重複值

因為編號是唯一的,所以我們只需要查找編號是否有重複。

這裡顯示這一列沒有重複值。

4、缺失值處理

因為編號這一列的數據應該是最全的,我們看一下這一列一共有多少數據。

滑鼠選中編號這一列,屏幕右下角顯示這一列共有73773個數據。再依次看其他列的數據數量,少於73773的說明有數據缺失。

衛生間數量這一列只有73573個數據,說明這一列有200個數據缺失。我們可以通過篩選找到缺失值的位置,試著將缺失值補全。如果沒有辦法補全,這一行數據就是不完整的,我們需要把有缺失值的這一行數據刪除。除缺失值外,如果數據是亂碼的,所在行也需要刪除。

注意:有些房子可能沒有被訂過,也沒有過評分,因此第一條評論日期、房東回復率、最後一條評論日期、評分這些數據是缺失的。這種缺失值是正常的。但為了便於我們研究,這種情況所在的行也要刪除。

經過缺失數據所在行的刪除,剩下的有效數據共有47027條。

5、一致化處理

由於設施這一列中,所有的設施放在一個單元格里,我們需要把不同的設施名稱放在不同的單元格里,因此要把這一列數據進行拆分。

先將該列數據複製到最後一列,然後按下圖所示進行分列。

這樣一來,每種設施就各佔一列了。對設施的第一列進行缺失值處理。最後剩下47022條數據。

我們可以用房東入駐日期和第一條評論日期之間的時間差表示房屋從掛牌到第一次預訂出去的時間,反映出房屋的受歡迎程度。用第一條評論時間減去房東入駐時間,除以30,得到房屋掛牌到第一次預訂出去經歷了多少個月。

在價格的自然對數後面加一列價格,將價格的自然對數還原為價格,便於我們研究。

6、數據排序

按照評分由高到低給數據排序。

7、異常值處理

我們可以使用數據透視表查找異常值。

可以看到我們剛才分列出來的設施第一列中有些異常值,其實是同一種設施,只是後面多了一個符號。我們需要把這類異常值進行手動處理。可以使用「替換」功能將設施中的標點符號去掉。

異常值處理完之後,剩下的有效數據共有46915條。下面進入構建模型解決問題的環節。

四、構建模型

構建模型的方法主要有:描述統計分析、數據透視表和Vlookup

由於我們不需要從其他表格中查找數據,這裡只介紹描述統計分析和數據透視表。

1、描述統計分析

下面對價格和評分這兩列數據進行描述統計分析:

根據描述統計分析的結果,房屋的平均出租價格是149.93美元/天,最高價格為2008.62美元/天,最低價格為5.01美元/天,價格的中位數為110.33美元/天。標準差為137.32美元,說明不同房屋的價格偏離度很大。房屋的平均評分為94.25分,最高評分為100分,最低評分為20分,中位數為96分。評分的標準差為7.16分,說明不同房屋的評分的偏離度不是很大。

2、數據透視表

下面演示如何研究第一個問題:哪座城市的房子評分最高?哪座城市的房子評論最多?哪座城市的房子從掛牌到預訂間隔時間最短?

第一步:求出每座城市的房子的平均評分。

第二步:求出每座城市的評論數量總和。

第三步:求出每座城市的房屋總數。

第四步,求出每座城市的平均掛牌到預訂間隔時間。

將以上數據複製到一張表中,用評論數量總和除以房屋總數,得到平均每個房屋的評論數量。

五、數據可視化

用數據透視表對數據進行分析後,為了使數據分析結果更直觀,我們可以用圖表將數據展示出來。下面是對一開始提出的九個問題的分析結果展示:

1、哪座城市的房子最受歡迎?

舊金山的平均評分最高,為95.17分;平均每個房屋的評論次數也是最高的,為43.80條。但是洛杉磯的掛牌到預訂時間間隔是最短的,為17.39個月。綜合來看,舊金山的房子最受歡迎。

2、什麼類型的房屋最受歡迎?

從評分上看,似乎差異不大。平均評分最高的是cave(窯洞),為100分。掛牌到預訂間隔時間最短的是Island(小島),為0.8個月。評論數量最多的是chalet(小木屋),為155.4條評論。從房屋類型上看,Apartment(公寓)和House(別墅)這種普遍的房屋表現一般,而那些比較少見的房屋更受歡迎,說明租戶獵奇心理比較重。所以想開一家受歡迎的民宿,需要房東有足夠的創意。

3、什麼床型最受歡迎?

評分最高的是Pull-out Sofa,為94.85分,這樣的床比較節省空間,不需要的時候可以收起來。從掛牌到預訂間隔時間最短的是Airbed,為18.95個月。評論數最多的是Futon(日式床墊),為39.19條評論。看來租客並不喜歡真正的床,這也可以理解,大家出來玩喜歡嘗試新鮮的東西,真正的床在家已經睡膩了。

4、取消政策對房子的受歡迎程度有影響嗎?

從評分來看,取消政策越嚴格的房子評分越低。但是取消政策最嚴格的房子從掛牌到預訂的時間間隔最短,可能是它們有其他吸引人之處。取消政策中性的房子評論數最多,但是不知道是好的評論還是差的評論。總體來看,取消政策靈活的房子最受好評。

5、收取清潔費對房子的受歡迎程度有影響嗎?

收清潔費的房子比不收清潔費的房子評分更高,可能因為收清潔費的房子更乾淨。不收清潔費的房子掛牌到預訂的間隔時間更短,說明租戶傾向於首先選擇不收清潔費的房子。但是租戶對是否收清潔費並不是特別在意,對他們來說房間乾淨是最重要的。

6、是否有房東照片對房子的受歡迎程度有影響嗎?

有房東照片的房子在評分上和評論數量上都遠高於沒有房東照片的房子,說明房東照片能夠增加租戶的好感度。但無房東照片的房子從掛牌到預訂間隔時間更小,可能這些沒有房東照片的房子本身更加有吸引力,所以傲嬌的房東選擇不放照片了。但是為了讓你的房子更受歡迎,最好還是上傳房東的照片。

7、房東身份是否經過認證對房子的受歡迎程度有影響嗎?

房東身份經過認證的房子的評分和評論數量都顯著高於房東身份未經過認證的房子,說明租客更喜歡房東身份經過認證的房子,這樣的房子更安全可靠。但房東身份未經過認證的房子從掛牌到預訂的間隔時間更短,可能是這些房子有其他過人之處,導致租客們迫不及待想去嘗試。但總體來說,房東身份經過認證的房子更受歡迎。

8、是否有電視對房子的受歡迎程度有影響嗎?

在設施這一列後面加一列「是否有電視」,用圖中公式查找房屋設施中是否有電視,有電視記為t,沒有電視記為f。

通過數據透視表得到如下結果:

有電視的房子的評分和評論數量都高於沒有電視的房子,從掛牌到預訂時間間隔也小於沒有電視的房子,說明租客更喜歡有電視的房子。

9、房東回復率對房子的受歡迎程度有影響嗎?

為了便於研究,在這裡將房東回復率分為大於等於80%和小於80%兩種情況,運用圖中公式,如果房東回復率大於等於80%,記為t,否則記為f。

將得到的數據用數據透視表進行分析:

房東回復率大於80%的房子評分和評論數量都高於房東回復率小於80%的房子,掛牌到預訂間隔時間也短於房東回復率小於80%的房子,說明房東和租客及時互動能夠增加租客的好感度。


到這裡,一開始提出的九個問題都分析完了。現在我們總結一下想成為Airbnb的超贊房東,你需要注意些什麼:

首先,房子所在的城市是一個很重要的因素,房東在開民宿之前要在選址方面經過充分的考察;其次,房子的類型和床型都要足夠有創意,可以嘗試具有獨特風格的裝修,另外,電視也是必不可少的;第三,租客更喜歡靈活的取消政策,但是對是否收清潔費並不太在意,他們更看重房間是否乾淨;第四,為了取得租客的信任,房東最好上傳自己的照片,並且進行身份認證;第五,別忘了及時和租客在線互動哦~


推薦閱讀:

TAG:數據分析 | 大數據 | MicrosoftExcel |