优客逸家(成都)信息科技有限公司 · 数据挖掘(实习)
任职时间:2018 - 2019 (实习)
岗位简介
作为数据挖掘实习生参与成都主城区租房/售房价格预测模型的全流程构建工作,聚焦数据处理与模型优化,通过量化分析为公司房源定价策略提供数据支撑,覆盖数据收集、特征工程、模型训练到成果落地的完整链路。
核心工作职责
- 数据收集与清洗:从房产交易平台、公司内部房源数据库及第三方地理信息接口(高德/百度地图API)收集数据,覆盖成都12个主城区的5万+条房源记录;使用Python(Pandas/Numpy)处理缺失值(如户型、装修、配套信息)、异常值(如极端价格房源)及重复数据,数据清洗后有效样本率从75%提升至92%。
- 特征工程:提取房源核心特征(面积、户型、楼层、建成年代、地铁距离、周边商超/学校数量等),完成类别特征编码(One-Hot/Label Encoding)、数值特征归一化/标准化;通过相关性分析、卡方检验筛选核心特征,剔除20+个冗余特征后模型训练效率提升约30%。
- 模型训练与优化:基于Scikit-learn搭建线性回归、随机森林、XGBoost等回归模型,使用5折交叉验证评估模型效果;通过网格搜索(GridSearchCV)调优超参数,最终模型预测准确率较基线模型提升15%,月租金10%以内。
- 结果输出与落地:使用Matplotlib/Seaborn制作房价影响因素可视化报告,明确地铁距离(权重0.32)、户型(权重0.28)是影响房价的核心因素;将模型预测结果整合至公司内部定价系统,辅助业务人员快速制定房源定价方案。
- 感谢:特别感谢我的导师数心(刘涓池)在实习期间的悉心指导与支持,帮助我快速成长并顺利完成各项任务。
实习成果
- 优化后的房价预测模型被应用于成都主城区3000+套房源的定价参考,定价偏差率从18%降低至10%以内;
- 整理形成《房源数据清洗与特征工程规范》文档,成为团队后续数据处理的参考标准;
- 协助完成2期业务数据分析报告,识别出成华区、武侯区为高潜力房源拓展区域,为业务决策提供数据支持。
核心技术栈
Python(Pandas/Numpy/Scikit-learn/XGBoost)、SQL(MySQL)、Matplotlib/Seaborn、Spark py、高德地图API