幾行代碼改進(jìn)房?jī)r(jià)免費(fèi)評(píng)估系統(tǒng)影響深遠(yuǎn)
資料介紹

Zillow(房產(chǎn)估價(jià)網(wǎng)站)和Kaggle最近組織了一項(xiàng)100萬(wàn)美元的競(jìng)賽來(lái)改進(jìn)Zestimate(Zillow自行開(kāi)發(fā)的一套計(jì)算機(jī)系統(tǒng))。此教程使用了H2O的AutoML生成解決方案的公共Domino項(xiàng)目。
新的Kaggle Zillow Price競(jìng)賽獲得了大量的媒體關(guān)注。正如他們?cè)诟?jìng)賽描述中說(shuō)的,改進(jìn)這一估計(jì)可以更準(zhǔn)確地影響美國(guó)近1.1億家庭的價(jià)值!
此教程采用的是一個(gè)腳本take_my_job.R,它使用了令人吃驚的H2O AutoML框架。
H2O的機(jī)器學(xué)習(xí)庫(kù)是行業(yè)的領(lǐng)導(dǎo)者,他們最近將AI推向大眾的是AutoML功能。通過(guò)單個(gè)函數(shù)調(diào)用,它可以并行地訓(xùn)練許多模型,將它們集合在一起,并構(gòu)建強(qiáng)大的預(yù)測(cè)模型。
代碼只有36行:
01library(data.table)
02library(h2o)
03
04data_path 《- Sys.getenv(“DOMINO_EARINO_ZILLOW_HOME_VALUE_PREDICTION_DATA_WORKING_DIR”)
05
06properties_file 《- file.path(data_path, “properties_2016.csv”)
07train_file 《- file.path(data_path, “train_2016.csv”)
08properties 《- fread(properties_file, header=TRUE, stringsAsFactors=FALSE,
09 colClasses = list(character = 50))
10train 《- fread(train_file)
11
12properties_train = merge(properties, train, by=“parcelid”,all.y=TRUE)
在前12行中,設(shè)置了開(kāi)發(fā)環(huán)境,并將數(shù)據(jù)導(dǎo)入為R data.table對(duì)象。使用第4行中的Domino環(huán)境變量功能,無(wú)需對(duì)腳本中的任何路徑進(jìn)行硬編碼,因?yàn)橛簿幋a路徑通常會(huì)導(dǎo)致重大挑戰(zhàn)。
在第12行,通過(guò)將屬性文件與訓(xùn)練數(shù)據(jù)集合并創(chuàng)建訓(xùn)練集,其中包含我們將要預(yù)測(cè)的logerror列。
14h2o.init(nthreads = -1)
15
16Xnames 《- names(properties_train)[which(names(properties_train)!=“l(fā)ogerror”)]
17Y 《- “l(fā)ogerror”
18
19dx_train 《- as.h2o(properties_train)
20dx_predict 《- as.h2o(properties)
21
22md 《- h2o.automl(x = Xnames, y = Y,
24 training_frame = dx_train,
25 leaderboard_frame = dx_train)
這個(gè)代碼塊是利用H2O的AutoML基礎(chǔ)設(shè)施所需要的!
在第14行,我們正在初始化H2O以使用與機(jī)器有核心一樣多的線程。第16和17行用于設(shè)置預(yù)測(cè)變量和響應(yīng)變量的名稱。在第19和20行,我們將我們的data.table對(duì)象上傳到H2O(首先可以避免使用h2o.importFile)。在第22-25行中,我們告訴H2O在訓(xùn)練數(shù)據(jù)集上建立我們可以使用RMSE作為早期停止度量的最好的模型。
27properties_target《- h2o.predict(md@leader, dx_predict)
28predictions 《- round(as.vector(properties_target$predict), 4)
29
30result 《- data.frame(cbind(properties$parcelid, predictions, predictions * .99,
31 predictions * .98, predictions * .97, predictions * .96,
32 predictions * .95))
33
34colnames(result)《-c(“parcelid”,“201610”,“201611”,“201612”,“201710”,“201711”,“201712”)
35options(scipen = 999)
36write.csv(result, file = “submission_automl.csv”, row.names = FALSE )
在第27行,我們使用訓(xùn)練有素的AutoML對(duì)象來(lái)預(yù)測(cè)我們的回應(yīng)。然后,我們將答案舍入為4位精度,構(gòu)建結(jié)果數(shù)據(jù)框架,設(shè)置名稱并寫(xiě)出來(lái)。
掛羊頭賣狗肉,我們添加的只有1位是1%,收縮在每一行的LOGERROR,并假設(shè)Zillow的團(tuán)隊(duì)總是使他們的模型更好一點(diǎn)。
在沒(méi)有任何輸入的情況下,這個(gè)包建立一個(gè)提供公開(kāi)排行榜得分的模型0.0673569。這不驚人,但是考慮到我甚至沒(méi)有看過(guò)數(shù)據(jù),這是非常出色的。匯集H2O的算法以及靈活的可擴(kuò)展計(jì)算和易于環(huán)境配置的Domino使該項(xiàng)目快速簡(jiǎn)便!
自己動(dòng)手嘗試
歡迎您分享這個(gè)公共項(xiàng)目,將其作為起點(diǎn),然后操作它。只需點(diǎn)擊幾下,代碼和環(huán)境就可以在Domino上使用。
不幸的是,根據(jù)Kaggle的嚴(yán)格規(guī)定,我們無(wú)法為您提供數(shù)據(jù)。為了使用數(shù)據(jù),您將必須:轉(zhuǎn)到Kaggle數(shù)據(jù)頁(yè)并下載。
將其上傳到Domino數(shù)據(jù)項(xiàng)目或直接插入到您的分支項(xiàng)目中。
修改第4行take_my_job.R以設(shè)置文件的基本路徑。如果你只是把它放到你的項(xiàng)目中,只需將它設(shè)置為“。/”,如果你正在使用一個(gè)數(shù)據(jù)項(xiàng)目,只需修改我引用的環(huán)境變量。
雖然手動(dòng)制作的解決方案在Kaggle排行榜上的得分明顯優(yōu)于這種解決方案,但仍然令人興奮的是,全自動(dòng)化解決方案的效果相當(dāng)不錯(cuò)。全自動(dòng)數(shù)據(jù)科學(xué)的未來(lái)令人期待,我們迫不及待地繼續(xù)支持社區(qū)開(kāi)發(fā)的驚人工具!
- PyTorch教程5.7之在Kaggle上預(yù)測(cè)房?jī)r(jià)
- C語(yǔ)言串口通信-源代碼pdf免費(fèi)下載 24次下載
- 手機(jī)固件系統(tǒng)免費(fèi)軟件程序下載 21次下載
- 基于圖論原理的互操作性模型改進(jìn)方法 17次下載
- python設(shè)計(jì)一個(gè)簡(jiǎn)單推薦系統(tǒng)的資料和完整代碼 14次下載
- 結(jié)合動(dòng)態(tài)行為和機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法 11次下載
- python文件讀取的源代碼免費(fèi)下載 20次下載
- 安卓系統(tǒng)的源代碼免費(fèi)下載 4次下載
- TAS5708評(píng)估板的電路原理圖免費(fèi)下載 17次下載
- 學(xué)生信息管理系統(tǒng)的應(yīng)用程序和源代碼與工程文件免費(fèi)下載 22次下載
- 如何使用改進(jìn)GM模型進(jìn)行房?jī)r(jià)預(yù)測(cè)模型資料說(shuō)明 7次下載
- 如何通過(guò)pandas讀取csv文件指定的前幾行? 16次下載
- 代碼編寫(xiě)器Studio的新的和改進(jìn)的特性詳細(xì)概述 1次下載
- 一種改進(jìn)算法的低功耗嵌入式系統(tǒng)代碼壓縮設(shè)計(jì) 0次下載
- 基于改進(jìn)雷達(dá)圖法的光伏并網(wǎng)發(fā)電系統(tǒng)穩(wěn)態(tài)電能質(zhì)量綜合評(píng)估 0次下載
- 使用Python進(jìn)行圖像處理 260次閱讀
- 代碼結(jié)構(gòu)分析 3720次閱讀
- Python版超市管理系統(tǒng)源代碼 1761次閱讀
- 壓縮空氣系統(tǒng)改進(jìn)的思路分享 1535次閱讀
- 系統(tǒng)演示平臺(tái)簡(jiǎn)化了從評(píng)估到原型設(shè)計(jì)的過(guò)渡 809次閱讀
- 代碼覆蓋率工具的重要性 1491次閱讀
- 如何在NVIDIA GPU上實(shí)現(xiàn)基于embedding 的深度學(xué)習(xí)模型 1901次閱讀
- VScode編譯器如何配置C/C++編譯環(huán)境 5662次閱讀
- 為什么給Java代碼加個(gè)空行class文件就識(shí)別不出來(lái)了 2767次閱讀
- 使用C語(yǔ)言實(shí)現(xiàn)萬(wàn)年歷星期速算法的源代碼免費(fèi)下載 3210次閱讀
- AirPods Pro的延遲改進(jìn)測(cè)試 6408次閱讀
- 如何使用代碼清除STM32單片機(jī)上的PCROP 4163次閱讀
- Python爬取趕集網(wǎng)北京二手房數(shù)據(jù)&R對(duì)爬取的二手房房?jī)r(jià)做線性回歸分析 3935次閱讀
- 基于傳統(tǒng)雙LCL型WPT系統(tǒng)的改進(jìn)型無(wú)線電能傳輸系統(tǒng)研究設(shè)計(jì) 3534次閱讀
- 70行代碼來(lái)打造MCU性能分析利器! 4161次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費(fèi)下載
- 0.00 MB | 1490次下載 | 免費(fèi)
- 2單片機(jī)典型實(shí)例介紹
- 18.19 MB | 92次下載 | 1 積分
- 3S7-200PLC編程實(shí)例詳細(xì)資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識(shí)別和講解說(shuō)明
- 4.28 MB | 18次下載 | 4 積分
- 5開(kāi)關(guān)電源原理及各功能電路詳解
- 0.38 MB | 10次下載 | 免費(fèi)
- 6基于AT89C2051/4051單片機(jī)編程器的實(shí)驗(yàn)
- 0.11 MB | 4次下載 | 免費(fèi)
- 7藍(lán)牙設(shè)備在嵌入式領(lǐng)域的廣泛應(yīng)用
- 0.63 MB | 3次下載 | 免費(fèi)
- 89天練會(huì)電子電路識(shí)圖
- 5.91 MB | 3次下載 | 免費(fèi)
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費(fèi)
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費(fèi)
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費(fèi)
- 5555集成電路應(yīng)用800例(新編版)
- 0.00 MB | 33562次下載 | 免費(fèi)
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費(fèi)
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費(fèi)
- 8開(kāi)關(guān)電源設(shè)計(jì)實(shí)例指南
- 未知 | 21539次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費(fèi)
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費(fèi)
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費(fèi)
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費(fèi)
- 5Altium DXP2002下載入口
- 未知 | 233045次下載 | 免費(fèi)
- 6電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191183次下載 | 免費(fèi)
- 7十天學(xué)會(huì)AVR單片機(jī)與C語(yǔ)言視頻教程 下載
- 158M | 183277次下載 | 免費(fèi)
- 8proe5.0野火版下載(中文版免費(fèi)下載)
- 未知 | 138039次下載 | 免費(fèi)
電子發(fā)燒友App






創(chuàng)作
發(fā)文章
發(fā)帖
提問(wèn)
發(fā)資料
發(fā)視頻
上傳資料賺積分
評(píng)論