任务背景: 预测未来一周各个城市各个品类商品的销量
Rawdata: Brazilian E-Commerce(2017.4-2018.10)
目前已有销量数据:
2016/10(6个月)—2017/04—2018/10(18个月) 共计:24个月
滑动窗口:过去四周预测未来一周的数据
选用特征与标签(过去四周):
特征变量:商品销量
属性标签:城市名、品类名、商品均价、店铺数量、用户数量
商品维度——商品销量、商品均价、品类名、城市名
店铺(用户)维度——城市名、品类名、店铺数量、用户数量
测试集(训练集)划分:
训练集70%(201610-201803)
验证集10%(检测模型合理性,调整参数,防止过拟合)(201804-201805)
测试集20%(201806-201810)
相关代码学习:
2、未来房价预测
(实践过程)
STEP ONE:
数据指标建立——
city_name,seller_id,product_id,order_id,customer_id,category_name,price,sale_num,sale_amt
STEP TWO:
数据预处理——
缺失数据 重复数据
训练集/测试集划分
STEP THREE:
撰写模型参数(区分指标和变量)
撰写评价模型
撰写预测函数
STEP FOUR:
结果分析——
validating
RMSPE: 0.179211
但相对于真实值,我们模型的预测值整体要偏高一些
从对偏差数据分析来看,偏差最大的几个数据却忽高忽低
改进方向1:将周处理成时间变量,利用时间的序列性特质(而非独立不自相关变量)
改进方向2:利用验证数据集,以不同的城市/品类分组进行细致校正,每个城市/品类分别计算可以取得最佳RMSPE得分的校正系数
Original: https://blog.csdn.net/AAurora/article/details/122801881
Author: K-DD
Title: xgboost回归预测1-商品销量预测
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/629923/
转载文章受原作者版权保护。转载请注明原作者出处!