如何看待 Kaggle 发布的 Zillow 房价预测比赛?

Zillow Prize: Zillow’s Home Value Prediction (Zestimate)


谢邀

我认为这是一个非常有意思的比赛,特别是每一轮的测试集都会用实际的数据作为评判依据,依照真实买卖房价作为结果,这与以往普遍的机器学习比赛都不同,而更像金融投资比赛。这也会让更多的机器学习的爱好者多去思考千变万化毫无道理的真实世界,而不仅仅生活在理论与代码之中。

正所谓知己知彼,百战不殆,虽然作为公司内部人士,不能参与比赛,但我整理了一些我认为有关的资料,希望能够帮助大家。

1. 了解美国买卖房屋的一般流程

很多细节会影响房价,比如经纪人的佣金。美国的常规是卖房价格的6%会分给买卖经纪人,买方与卖方经纪人各3%,但是这只是一种约定俗成的传统,并不是法律,所以佣金是会变的,而且价格变化会改变最后交易价格。比如一个经纪人同时作为买方和卖方的经纪人,那么收取的佣金就会比有两个经纪人要少。

举个例子,假如你认为这个房子估值100万,为了支付给双方经纪人佣金,那么你可能需要卖106万,但假若双方的经纪人是同一人,可能卖103万就可以。

因此,房屋最后的交易价格并不仅仅依赖房屋本身,也同时依赖于很多其他的变量,了解更多的知识有助于理解最后的交易价格。

放一个链接来帮助大家详细的理解:Real Estate Glossary for the First-Time Homebuyer - Advice

2. 了解 Zestimate

Zestimate 是随着 Zillow 诞生的房屋估价算法,而第二轮的优胜者只有打败了 Zestimate 才可能获得最终一百万大奖。因此,了解 Zestimate 这个已经开发了十多年的算法非常重要,任何经验的借鉴都可能对于比赛的结果有所帮助。Zestimate 主页:What is a Zestimate? How Accurate is the Zestimate? | Zillow

Zestimate 也有不少公开的演讲,这里是我搜集的一些:

https://wp.zillowstatic.com/3/RentZestimate_2016-06-28-2d46ec.pdf

还有 Zillow Data Science 的 Blog:

Zillow Data Science - Machine Learning, Big Data, Data Quality and DevOps at Zillow

3. 了解其他算法

房屋估价算法当然也不只有 Zillow 一家在做,比如 Redfin 也有自己的估值算法 About the Redfin Estimate 。比如 OpenDoor.com,甚至会使用直接使用自己的估值算法将房屋买下来,他们的 Blog 里也有不少有帮助的文章 Opendoor | Blog 。

当然,还有万能的 arxiv,我这里就放一简单的 Query 来帮助大家上手了。

https://www.google.com/search?q=arxivoq=arxq=site:arxiv.org+real+estate+valuation

最后,还是要祝大家好运咯。

----

by @陈然


如同@柯国霖 说的,这个比赛在开始不让中国居民(Chinese Residence)参加第二轮比赛。有人在论坛里面发帖询问,并提升到歧视(discrimination)的层面后,Zillow最后统一中国居民参加第二轮比赛了。

下面是官方回帖:

Hi all, this is Cat from Zillow.

We apologize for the delayed response, but we wanted to take the time to do a full review of our rules. Our rule that restricted residents of China from participating in the second round was based on concerns around successfully obtaining intellectual property rights on inventions created in China and was in no way based on discrimination against residents of China. However, after further discussing with our legal counsel, we have decided to allow residents of China to participate in the second round.

We look forward to seeing your submissions.

The Zillow Team

大意就是因为他们担心如果中国居民获胜后,他们没法取得获胜算法的知识产权。所以就不让中国居民参加。但是现在经过法律咨询,还是同意中国居民参加。

在美国没有拿到绿卡的中国公民其实都算是中国居民。虽然在交税的时候,在美国待超过5年的就按照美国居民交税,但是移民状态还是中国居民(入境还是走foreigner通道;绿卡持有者可以走US citizen/resident)通道。所以这个禁止中国居民参加的条件其实打击面非常广,包括在美国各大公司的码农和学校的学生。最开始在网上质疑这个条款的帖子是一位国人朋友发出来的(他的用户名是中文)。这个贴得到了很多kaggler的回复。虽然这些回复有些在质疑这个到底算不算discrimination,但是基本都认为这个条款很奇葩。当然,现在还是有一些国家因为美国政府的制裁而不能参加这个比赛,比如古巴、朝鲜、伊朗、伊拉克、黎巴嫩、利比亚、委内瑞拉等。


北美今天早上放出来的竞赛和数据,晚上花了点时间玩了一下他们的数据,很有意思的一个比赛。注意这个比赛不是预测房价,而是预测zillow的房价模型与真实销售房价的差别。

也即给定每个房子的58个特征点,预测log error,也就是log(zillow预测的房价/真实房价)。典型的回归数据分析。

总体上看,一百万美金的奖金池似乎不少,但是zillow会扩大知名度(广告效应),同时有一个很好的方法去预测自己的算法做的好的地方和做的不好的地方。这是典型的双赢。

那些想要学习数据科学的同学可以多参与一下,说不定就花落谁家了呢。


作为一个有agent执照、有买卖重建翻新全套经验的码农,我表示很有意思。虽然个人没精力参与,但是去看了数据,还是很有启发的(此处有掌声)

另外借题吐2个槽,zillow的估价在处理市区投资形楼盘的时候,不是很准,尤其是对于上升期市场,交易时间越久的房子,现价估值的误差越大。Boston这两年的投资房,如果按照zillow目前的估值给offer,即使现金也是拿不到的

另外一个,在大城市,很多时候一个公寓楼的地址很长,房子很多,在网页搜索栏输入地址搜索房子的时候,打入一部分地址,然后用键盘“上”、“下”选择一个系统预想,zillow的输入栏不会被自动填上。举例:

2017 Commonwealth Avenue,Unit 666, Boston,MA

我在输入了【2017 Common】的时候,系统就自动匹配出了一些地址,这些地址里并没有Unit 666,但是有Unit 6。这时候最理想的流程是,我按上下键,选到Unit 6的地址,不按回车,系统帮我把Unit 6的地址填满,然后我自己把【Unit 6】改成【Unit 666】,按回车,跳转,这是最方便的。然而现在zillow并不行。我按上下键选择,不会自动填,必须按回车。但是按了回车之后,就直接跳转了,于是我不得不先去看一眼我实际上没有兴趣的【Unit 6】,然后关掉小页面,再去改地址,这个很影响用户体验。。。建议去看一下redfin是怎么搞的

最后祝比赛顺利


两轮比赛时间跨度从现在17年5月到19年1月,很适合研究生做毕业论文……

资本家真是聪明,摆明了直钩钓鱼……


Zillow Prize: Zillow’s Home Value Prediction (Zestimate)

我在Boston,有人想一起吗,最好是有过实际比赛经验的。。


Zillow-帮你在美国找到最满意的房子。

当然了,我是买不起的。但是中国有钱人多啊,如果我们可以预测他们的房价,万一出现太多的大妈把人家房价蹭蹭蹭炒上去了,人也挺担心。

这里是个人瞎逼逼。

主题:

这个问题其实也很简单,有人反应,而且Kaggle和Ziloow团队也出来道歉了。

剩下的就是好好打比赛。

不过真说不好谁再搞一个类似的网站在国内,然后过几天再去和人家抢市场。


有谁有zillow在kaggle上的比赛数据?想弄来玩玩,现在下载不了了。zhongw117@gmail.com

非常感谢:)


个人明确表示不看好机器学习技术的发展前景和其现实应用,认为其无法在短期内对人类文明造成较大改变,硅谷的大跃进对人类文明整体有害无益。


推薦閱讀:

TAG:数据挖掘 | 房地产 | 机器学习 | Kaggle | 数据科学 |