標籤:

Zillow Prize競賽系列--(一)競賽簡介

Zillow,幫助你在美國找到最滿意的房子。

一、簡介

在過去的11年里,Zillow』s Zestimate的房產估值對美國的房地產造成了巨大的影響。

房子在一個人的一生中可是說是最重要也是最昂貴的一次購買。確保房子的持有者對房產的價值有一個可信賴的監控途徑是非常重要的。Zestimate軟體創建的目的就是為了給客戶提供盡關於住宅區市場可能多的信息,通過我們的軟體,用戶可以免費獲得大量的房產估值信息。

Zetimate根據750萬統計數據和機器學習模型(對每個屬性上的上百個數據點詳細分析)來對房子的價值進行估計。並且,通過不斷的改進模型,從最開始的14%的誤差到今天僅僅5%的誤差,Zillow已經成為美國房地產市場上規模最大、最受用戶信賴的信息提供商,同時成為了機器學習領域的領頭者。

Zillow Prize是一個擁有巨額百萬美元獎金的比賽,幫助Zestimate進一步提高預測的精準度對數據科學家社區(Kaggle數據分析平台)是一個巨大的挑戰。勝出演算法應該針對美國110㎡左右的房子的價值進行估計。

在這個百萬美元的競賽中,參賽者需要開發一個用於預測房子未出售價格的模型。競賽由一共由兩輪組成,第一輪預選賽2017年5月24日開始,第一輪預選賽的前100名將參加2018年2月1日開始的第二輪競賽。在預選賽中,你將建立模型用於提高Zestimate的殘留誤差。在最後一輪中,你將從頭開始構建一個房產評估演算法,使用外部數據源來改善演算法的特徵選擇,使你的模型在最後的競賽中取得勝利。

因為不動產交易的數據屬於公開信息,在每輪競賽結束後有三個月的價格跟蹤周期,你的預測結果將根據房屋的實際售價來進行評估。最終競賽的排行榜將會在價值跟蹤周期結束後公布。

二、數據

在此次競賽中,Zillow要求參賽者預測Zillow的價格和真實出售價格之間的log-error值,同時,Zillow給出了房屋的所有特徵值。Log-error被定義為:

logerror = log(Zestimate) – log(Sale Prize)

Log-error的值被記錄在交易記錄文件train.csv中。此次競賽,我們將預測2017年每個月的logerror值。由於美國所有的真實房產交易信息都是公開的,我們會在新一輪的評估周期結束後關閉比賽(而不是傳統的在提交後就出結果)。

訓練/測試數據分開

1. n你可以獲取洛杉磯、凡吐拉和加利福尼亞三個縣2016年土地資源的所有數據。

2. n訓練數據包含了2016年10月15日之前的所有數據,加上部分10月15日之後的交易數據。

3. n一部分測試數據集由公開排行榜上的10月15日到2月31日的交易數據組成。

4. n另一部分測試數據集用於計算私人排行榜,這部分數據包含了2017年10月到2017年12月的數據集。這個周期我們稱之為「銷售跟蹤周期」,在這期間我們將不允許提交。

5. n你需要通過所有的特徵屬性來預測6個時間節點的數據:201610,201611,201612,201710,201711,201712。

6. n不是所有的資產都在每一次的預測周期中都被賣出。如果資產沒有在特定的時間段內被賣出,在計算你的得分的時候這部分特殊數據就會被忽略。

7. n如何一個資產在31天內被多次賣出,我們將第一次賣出的價格視為真實的預測值。為了合理起見,我們將交易數據中出現的多次數據視為是錯誤的數據。

三、文件描述

1. nProperties_2016.csv,包含2016年房屋特徵的所有內容。注意:一些2017年新的資產雖然有parcelid,但是沒有任何的數據。這些數據將在2017數據文件中添加。

2. nProperties_2017.csv,包含2017年房屋特徵的所有數據(在2017年10月後顯示)

3. nTrain_2016.csv,2016年1月到2016年12月的訓練數據集

4. nTrain_2017.csv,2017年1月到2017年9月的訓練數據集

5. nSample_submission.csv,正確提交文件的實例。

四、數據欄位

參考zillow_data_dictionary.xlsx文件。

歡迎關注微信公眾號:kaggle數據分析


推薦閱讀:

Kaggle求生:亞馬遜熱帶雨林篇
2016 CCF大數據與計算智能大賽的開源資料整理
數據挖掘系列篇(27):Kaggle 數據挖掘比賽經驗分享
Kaggle入門系列:(一)機器學習環境搭建

TAG:Kaggle |