为什么Zillow的AI房产评估模型导致巨额亏损

如果您没听说过Zillow这家公司的名字,这一点也不奇怪。它是一个传统的房地产交易企业——应该说曾经是。在公司成立至今十五年的大部分时间里,这家总部位于西雅图的公司的主业一直是提供在线房地产交易服务。

作为交易服务的一部分,平台除了为房地产买卖双方提供交易撮合服务,还提供了房产估价模型——Zestimate。这个模型早在2011年就推出了,此后,Zillow一度在资本市场大火,在美国房产交易平台市场上,它成为全行业的数字化的标杆性公司。此后,Zestimate几经升级更迭,成为Zillow公司商业模式的基础动力。

但是这家明星公司在最近陷入了困境,11月2日,公司计划裁员2000人,约占全部员工总数的25%。声明发布后的一周内公司股价大跌近三分之一。Zillow此时的境况十分危险,就算能够挺过去,也将元气大伤。

成也萧何败萧何。让这家数字化先锋站在悬崖边上的罪魁祸首,是完全基于机器学习算法运行的Zestimate模型。它当初把Zillow推向了高点,今天又让Zillow身陷险境。

当下,数字化转型升级在全球已经成为共识,数字化技术将重塑甚至颠覆传统企业已有的商业模式,为企业带来全新的生命周期。但Zillow的经历警示人们,机器和技术只是手段,用,怎么用,度是什么,人最终掌控什么,可能是所有人都要去面对和思考的终极问题。

大获成功

Zestimate评估模型早期是确用于定房屋价值的“起点”,而不是正式的商业估价。但这个灵活且强大的工具很快就受到了用户的欢迎。毕竟访问Zillow的用户是那些希望节省房产经纪费用,但又对房地产当前价格极端缺乏了解的普通房东。他们往往在十几甚至几十年前购买了房产,现在希望以合理价格出售。而美国以独栋住宅为主的城郊和乡村房产通常是一户一价,往往因为位置、土地面积、结构、朝向、内部装修等多种因素导致相邻的房屋也会有很大价格差异。

借助Zestimate的评估模型,房主们就能了解自己房产当前的市场价格,从而决定以什么价格售出。随着Zillow开展了十五年的在线房地产交易服务,Zestimate模型通过免费向数百万美国家庭提供估值服务,积累了海量的房地产估值数据。根据媒体披露的信息,Zestimate系统内包含了美国超过 1.04 亿个房产的估值数据。而美国全国的居民房产总共也不过2亿左右。通过多年积累,Zillow涵盖了美国近半居民房产的数据,可谓是美国房产大数据的领头羊。

在机器学习领域不断取得新突破的时候,近年来,Zillow也不断对 Zestimate 算法进行更新和升级,力求估值结果尽量接近市场的实际交易价格。新的 Zestimate 算法利用神经网络,除了使用房屋面积、位置、结构等和房屋基本属性相关的上百个详细信息,还结合了更深入的房产数据历史,例如成交交易、税收评估和公共记录等信息对模型预测进行修正。

更新后的 Zestimate 模型可以更快地对动态市场条件做出反应,为房主提供更准确的房屋当前价值估计,并显著减少 Zestimate 计算处理所需的时间。

新版 Zestimate 模型大获成功。根据Zillow公司网站公布的数据,目前Zestimate在全美国范围内针对在售房屋的价格预测偏差(median error)为 1.9%,而针对未上市房屋的价格预测偏差为 6.9%。最终 Zestimate 模型的预测准确性取决于房产数据的详细程度。Zestimate列出的所需信息,房主能够提供得越完备,Zestimate预测模型就越准确。

图一:Zestimate数据模式的预测能力 数据来源:Zillow公司网站

借助机器学习强大的建模能力,在相当长的时间里 Zestimate 是市场上最好的房产价格评估模型,没有之一。

危机的导火索

Zillow当然不甘心守着Zestimate这么好的价格预测模型而不变现。他们选择的业务拓展方向是“房屋翻售”(House flipping)。

“房屋翻售”是一个房地产专用的术语,指的是购买售价偏低的房产,进行修复和部分设施升级后再加价售出,以获取差价利润的过程。在美国市场上,每年有25万套左右的房产被“翻售”。“房屋翻售”占2020年美国全部房屋销售量的5.9%。2011年之后美国房地产行业“房屋翻售”的平均投资回报稳定在40%以上。这是一个很有利润空间的小众市场。

图二:房屋翻售历年利润收入走势 数据来源:ATTOM DATA SOLUTIONS

传统上“房屋翻售”基本是建筑商和资深房产中介操盘的。前面我也提到,美国房产尤其是独栋住宅往往一房一价。所以某项房产是否值得买入进行“翻售”,如何选择整修范围,完全依赖这些行业老手的经验进行评估预测。

对于Zillow来说,手握Zestimate进入“房屋翻售”市场是非常有利的。一方面,可以借助模型甄别出已经上市但售价明显偏低的房产,另一方面也可以通过模型预测到房屋翻新和升级后的利润空间有多大。模型的预测结果可以指导业务部门决定是否收购某个特定房屋并进行翻新升级。看起来,Zestimate对于房屋价格的准确预测能力就是Zillow“房屋翻售”业务的核心竞争力。

2018 年5月,Zillow在部分区域市场推出了“房屋翻售”业务。为了提高自身在收购房屋过程中的竞价能力,Zillow完全倚赖Zestimate价格预测,并通过超级简化的流程帮助房主快速、轻松的出售房屋。

美国传统的房屋出售方式是通过卖方经纪把房屋在交易系统中上架。在经过一段时间的宣传预热后卖方经纪还要安排房屋向潜在买家开放参观(Open house)。之后是收报价、甄选和谈判等,最后敲定交易条件和交割日期。这个过程往往要经过2-3个月。

使用Zillow的房主只需在网站上填写基本信息的表格并接受检查员对房屋的简单查询访问即可。房主会在几天内就获得房屋的现金报价,并选择在 90 天内的任意时间完成交易。

作为提供现金快速购买房屋的交换,Zillow将收取略高于传统房产中介的交易费,以换取房东快速拿到售房全款,无需与买家进行可能会非常冗长的谈判。这受到换房置业买家的极大欢迎。

Zillow 通过银行贷款为购买房屋提供资金。交易完成后,公司将迅速进行可以为房产增值的整修和翻新,然后在网站上重新挂牌出售。如果一切按计划进行,通常房产将在几个月内以高于收购价格10%-30%的价格进行出售。

一切看起来顺理成章。Zillow公司CEO计划 2024年每月翻售房屋的数量将达到5000套并推动年销售收入达到200亿美元。如果这个目标能够实现,Zillow将会占到美国全部“房屋翻售”市场的四分之一左右。也就是说,Zillow会进一步借助Zestimate实现商业成功。

但是,所有这一切的前提就是准确并且有利可图的收购价格。而这完全依赖于Zestimate算法的预测。Zestimate算法所使用的神经网络模型来自于一项为期两年、耗资 100 万美元的数据科学竞赛成果。91 个国家的 3800 多个团队受邀参与这一竞赛,致力于改进 Zestimate的算法。

在业务运营初期Zestimate 模型的表现的确不负众望——准确、快速且能够动态跟踪市场的变化。

由于对 Zestimate 准确性越来越有信心,2021年 2 月份开始公司直接将 Zestimate预测结果用作Zillow Offers 实时的初始现金报价,而基本不进行人工审核——事实上,经过了这么多年的商业转型,Zillow的人才架构也完全基于最新的情况,它的内部也没有那么多行业老手可以进行人工审核。Zillow的“房屋翻售”业务彻底绑在了机器学习和自动化技术上。

这为Zillow的危机埋下了伏笔。

滑入深渊

新技术的出现可以减小乃至消除低效率的人为错误。对于企业来说,这是创造丰厚利润的关键。但新技术的应用也有一个重要前提:稳定持续的应用环境。无论数据科学家们如何精细的构建模型,它始终依赖于现有的市场环境和用于训练模型的业务数据。如果数据并没有能真实反映市场的全貌,或者市场本身就在快速变化中,那以此构建的模型其可靠性往往会受到质疑。

Zestimate模型恰恰面临着这样的挑战。从新冠疫情开始后不久,美国的房地产市场就开始进入狂飙突进的阶段。房价上涨的同期比(Year-over-Year)很快从5%上下飙升到超过10%。到2021年8月,房价上涨的同期比甚至摸高到了19.8%。

图三:疫情期间价格飞速攀升的美国房地产市场 数据来源:Moody`s Econmic Indicators Analytics

夏虫不可语冰。建立在过往多年平稳增长基础上构建的Zestimate模型面临着从未体验过的市场变化。从历史数据中学到的“知识”不再适用于现今的市场环境,Zestimate模型的预测结果开始偏离市场的实际成交价格。

疫情期间美国房地产市场快速变得火热,翻售房屋的价格比以往任何时候都高。部分市场甚至达到有史以来的最高点。一些市场的房源争夺变得异常火爆。今年5月到 6 月的凤凰城,翻售的中位数价格上升了 11.5%,相当于每套房屋加价3.9万美元后被售出。房屋在买入后哪怕只是持有几天,简单打扫一下加价售出即可赚取丰厚的利润。

图四:美国房地产市场上三大“房屋翻售”公司翻售差价中位数的变化 来源:mikedp

很显然,在一个价格快速上涨的市场中,如果模型预测价格总是低于市场成交价格,那就意味着公司很难在凶狠的报价大战中取得胜利,购买到足够的房屋进行翻售。外界并不知道Zestimate模型在疫情期间是如何进行预测调整以满足收购的需求。

Zillow其实也并非没有意识到问题,坐以待毙。根据媒体披露的信息,在过去的一个季度里,很明显Zillow进行了模型算法的调整,使其在报价方面更有竞争力。

但效果看起来并不好。显然Zestimate模型在业务目标驱动下进行的算法调整导致价格预测结果明显偏高。尤其是当房产价格处于市场顶部时,有经验的行内人士通常不建议进行疯狂购买:出价合理往往抢不到房源,能够购买到手的多半已经价格虚高。但机器学习模型并不懂得这些基本常识。它们只是按照历史数据习得的“知识”预测未来价格,二季度房价疯涨期间的数据由于是最“新鲜”的,所以对模型预测结果的影响最大。Zillow的业务部门也就按照Zestimate模型的指导价格完成房屋收购。

在模型的基本预测基准已经被2021年以来的房价疯涨扭曲之外,新冠期间市场发生的结构性变化也让模型跑偏。

例如客户对郊区和更大面积房子的需求暴涨,居家办公让通勤不再重要,导致特定房型的估值产生显著变化。过去的数据在预测未来价格方面变得不那么可靠,而相关的变量,如社区密度,很有可能并没有纳入模型;另一些变量如通勤距离,重要性显著降低。这些市场需求变化带来的调整必须由数据科学家手工完成,并通过市场测试确认调整是有效的。机器学习模型自身在短时间内是无法完成这样的调整的。

很显然,Zillow的数据科学家团队没有经受住这样的市场变化考验。

根据Zestimate模型的指导,公司以溢价大量收购了市场上的房屋。到三季度Zillow出售翻售房屋时,买卖价格倒挂的价差平均为 4.5%。在凤凰城,Zillow 翻售后房屋放盘价格有超过九成(93%) 低于公司购入的价格。在明尼阿波利斯市,公司买卖价格倒挂的房屋占全部放盘的三分之二。

2020年以来的美国房价上涨,受到货币极度宽松和疫情居家等异常因素影响。随着这两个关键异常因素对房价的影响减弱,Zillow的预测模型是不是还会大幅度失效,有待观察。但无论如何,Zillow现有的机器学习技术恐怕还难以应对快速变化的市场。对于评估房屋价值这样的非标准复杂性任务来说,机器学习也无法达到人类思考的随机应变。

相比之下,Zillow的竞争对手们由于缺乏Zestimate这样的强大模型,不得不通过人工机制来审查自动出价。很多时候专家团队需要手动审查每个报价并进行比较分析。持牌房屋检查员会走访每个家庭并对房屋进行 3D 扫描,以确保出价符合房屋的现有状况。

这些措施让Zillow的竞争对手们逃过了市场波动下隐藏的溢价购买风险。

内行人都知道,从新冠疫情开始后火热的翻售市场已经开始降温,赢得了房屋竞标很有可能意味着背上了沉重的包袱。Zillow今年二三季度进行的大规模房屋溢价收购不只是造成了亏损,更让企业的库存快速膨胀。

房屋翻售的重要环节是对房屋进行整修和设施升级。疫情期间建筑材料供应和劳动力短缺使整修工作既昂贵又耗时。尤其是美国供应链在三季度面临巨大挑战,建筑材料极端缺乏导致大量房屋翻售无法如期完成。

即使在房地产市场火爆的情况下,Zillow 最终也陷入了大量库存房屋无法及时上市的尴尬境地。公司目前握有 9800 套房屋,另有 8200 套房屋购买合同等待执行。模型的错误最终推动Zillow掉入了库存和供应链的深渊。

图五:Zillow二季度和三季度的房屋收购数量飙升,但出售数量增长缓慢。来源:Zillow官网

严峻形势下,Zillow挺不住了。11月2日,Zillow发出声明,公司将放弃房屋翻售业务。声明中同时表示,公司的快速买卖房屋的算法+模式未能按计划发挥作用,造成巨额亏损。预计第三和第四季度的合并亏损将超过 5.5 亿美元。公司计划裁员2000人,约占全部员工总数的25%。声明发布后的一周内公司股价大跌近三分之一。

在终止利用机器学习模型指导房屋翻售业务的约两周前,Zillow公司已宣布在今年余下时间停止所有的新房购买,专心处理现有的库存积压。

Zillow CEO Rich Barton表示:“预计房价的不可预测性远远超过了我们的预期,继续扩大Zillow Offers的规模将导致利润和资产负债表的过度波动。”

Zillow的失败并不代表着房屋翻售行业本身存在巨大问题。根据《巴伦周刊》的数据,除了Zillow的巨额亏损,其他竞争对手的预期盈利处于正常水平。所以这并不是行业的失败,而是机器学习应用不当带来的结果。

图六:美国房产交易平台近年来利润对比 来源:《巴伦周刊》

机器学习只是工具。它用于挖掘深藏在数据内部的隐含业务信息。但如果数据本身就存在问题(关键变量缺失、数据歧视/bias等),或者是处于一个飞速变化的市场上,目前的机器学习模型将成为一个笨拙的模仿者——总是希望能够赶上变化的趋势,却总是慢了一拍。

这给我们一个警示:任何企业在全面应用机器学习技术时,都不应该全面放弃人工审核环节。现阶段机器学习只适用于“圈地自萌”。在建模划定认知范围之外,机器学习技术基本上是没有判断力的。不要等到自家的扫地机器人把地板上的狗屎抹遍全屋,才意识到自己应该早一点出手打扫,而应该一直睁着眼睛全程盯着你的扫地机器人工作。

By 李军