天池竞赛——工业蒸汽量预测（完整代码详细解析）

2023年8月2日下午1:21 • Python • 阅读 46

1.1 赛题背景

火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。

赛事链接：https://tianchi.aliyun.com/competition/entrance/231693/information

1.2 赛题目标

经脱敏后的锅炉传感器采集的数据（采集频率是分钟级别），根据锅炉的工况，预测产生的蒸汽量。

2 数据探索

2.1 导库

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

2.2 获取数据

train_data_file = "D:/download/zhengqi_train.txt"
test_data_file = "D:/download/zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t',encoding='utf-8')

2.3 查看数据

train_data.info()
train_data.describe()

info()与describe()的区别介绍

2.4 可视化数据分布


train_cols=6
train_rows=len(column)
plt.figure(figsize=(4*train_cols,4*train_rows))

i=0
for col in test_data.columns:
    i+=1
    ax = plt.subplot(train_rows,train_cols,i)
    ax = sns.kdeplot(train_data[col], color='red',shade=True)
    ax = sns.kdeplot(test_data[col], color='blue',shade=True)
    plt.ylabel('Frequency')
    ax.legend(['train','test'])
plt.tight_layout()

根据上面KDE图对比可知：V2，V5，V9，V11，v13，V14，V17，V19，V20，V21，V22，V27，这12个训练集和测试集的特征差异较大，予以删除


train_data_X_new = train_data_X.drop(['V2','V5','V9','V11','V13','V14','V17','V19','V20','V21','V22','V27'], axis = 1)
test_data_new = test_data.drop(['V2','V5','V9','V11','V13','V14','V17','V19','V20','V21','V22','V27'], axis = 1)
all_data_X = pd.concat([train_data_X_new,test_data_new])

3 特征工程

特征工程介绍

3.1 异常值分析

以箱线图展示


plt.figure(figsize=(18,10))
plt.boxplot(x=train_data.values, labels=train_data.columns )
plt.hlines([-7.5,7.5], 0, 40, colors='red')

从箱线图可看出，V9变量明显存在异常，予以删除训练集和测试集中的异常值


train_data=train_data[train_data['V9']>-7.5]
test_data=test_data[test_data['V9']>-9.5]

3.2 归一化处理


from sklearn import preprocessing

feature_columns = [col for col in test_data.columns]
min_max_scaler = preprocessing.MinMaxScaler()
train_data_scaler = min_max_scaler.fit_transform(train_data[feature_columns])
test_data_scaler = min_max_scaler.fit_transform(test_data[feature_columns])

train_data_scaler = pd.DataFrame(train_data_scaler)
train_data_scaler.columns = feature_columns
test_data_scaler = pd.DataFrame(test_data_scaler)
test_data_scaler.columns = feature_columns

train_data_scaler['target']=train_data['target']

display(train_data_scaler.describe())
display(test_data_scaler.describe())

3.3 特征降维


plt.figure(figsize=(20,16))
column = train_data_scaler.columns

mcorr = train_data_scaler[column].corr(method='spearman')

mcorr = mcorr.abs()
numerical_corr = mcorr[mcorr['target']>0.1]['target']
numerical_corr.sort_values(ascending=False)

3.5 PCA处理


from sklearn.decomposition import PCA

pca = PCA(n_components=0.9)

new_train_pca = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_test_pca = pca.fit_transform(test_data_scaler)

PCA 处理后保留16个主要成分

pca = PCA(n_components=16)
new_train_pca_16 = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_train_pca_16 = pd.DataFrame(new_train_pca_16)
new_test_pca_16 = pca.fit_transform(test_data_scaler)
new_test_pca_16 = pd.DataFrame(new_test_pca_16)
new_train_pca_16['target']=train_data_scaler['target']

4 模型训练

4.1 切分数据


new_train_pca_16 = new_train_pca_16.fillna(0)
train = new_train_pca_16[new_test_pca_16.columns]
target = train_data['target']

train_data,test_data,train_target, test_target = train_test_split(train,target, test_size=0.2, random_state=0)

采用以下几个模型进行训练和融合：

多元线性回归
随机森林回归
LGB模型回归

4.2 多元线性回归


clf = LinearRegression()
clf.fit(train_data, train_target)
mse = mean_absolute_error(test_target, clf.predict(test_data))

4.3 随机森林回归


clf = RandomForestRegressor(n_estimators=400)
clf.fit(train_data,train_target)
mse2 = mean_absolute_error(test_target, clf.predict(test_data))

4.4 LGB模型回归


clf = lgb.LGBMRegressor(learning_rate=0.01,
                       max_depth=-1,
                       n_estimators=5000,
                       boosting_type='gbdt',
                       random_state=2022,
                       objective='regression')
clf.fit(X=train_data, y=train_target,eval_metric='MSE',verbose=50)
mse3 = mean_absolute_error(test_target, clf.predict(test_data))

print('LinearRegression的测试集的MSE得分为：{}'.format(mse))
print('RandomForestRegressor的测试集的MSE得分为：{}'.format(mse2))
print('LGBMRegressor的测试集的MSE得分为：{}'.format(mse3))

LinearRegression的测试集的MSE得分为：0.27154696439540776
RandomForestRegressor的测试集的MSE得分为：0.33357155112651654
LGBMRegressor的测试集的MSE得分为：0.2925846323943153

5 调参

5.1 RandomForest网格搜索调参


from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

train_data, test_data, train_target, test_target = train_test_split(train, target, test_size=0.2, random_state=0)
randomForestRegression = RandomForestRegressor()
parameters = {'n_estimators':[50,100,200], 'max_depth':[1,2,3]}
clf = GridSearchCV(randomForestRegression, parameters, cv=5)
clf.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf.predict(test_data))

print('调参后的RandomForest_Regressor的训练集得分：{}'.format(clf.score(train_data,train_target)))
print('调参后的RandomForest_Regressor的测试集得分：{}'.format(clf.score(test_data,test_target)))
print("RandomForest模型调参前MSE：{}".format(mse))
print("RandomForest模型调参后MSE：{}".format(score_test))

调参后的RandomForest_Regressor的训练集得分：0.7511256945888011
调参后的RandomForest_Regressor的测试集得分：0.7536945206333742
RandomForest模型调参前MSE：0.2715462476084652
RandomForest模型调参后MSE：0.25594319639915

5.2 RandomForest随机参数优化调参


from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

train_data, test_data, train_target, test_target =train_test_split(train, target, test_size=0.2, random_state=0)
randomForestRegressior = RandomForestRegressor()
parameters = {'n_estimators':[50, 100, 200, 300], 'max_depth':[1,2,3,4,5]}
clf = RandomizedSearchCV(randomForestRegressior, parameters, cv=5)
clf.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf.predict(test_data))

print('调参后的RandomForest_Regressor的训练集得分：{}'.format(clf.score(train_data,train_target)))
print('调参后的RandomForest_Regressor的测试集得分：{}'.format(clf.score(test_data,test_target)))
print("RandomForest模型调参前MSE：{}".format(mse))
print("RandomForest模型调参后MSE：{}".format(score_test))

调参后的RandomForest_Regressor的训练集得分：0.8403572920031047
调参后的RandomForest_Regressor的测试集得分：0.8108811667658115
RandomForest模型调参前MSE：0.2715386496432197
RandomForest模型调参后MSE：0.19651888704102724

5.3 LGB调参


clf = lgb.LGBMRegressor(num_leaves=31)
parameters = {'learning_rate':[0.01,0.1,1],'n_estimators':[20,40]}
clf= GridSearchCV(clf, parameters, cv=5)
clf.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf.predict(test_data))

print('调参后的LGB的训练集得分：{}'.format(clf.score(train_data,train_target)))
print('调参后的LGB的测试集得分：{}'.format(clf.score(test_data,test_target)))
print("LGB模型调参前MSE：{}".format(mse))
print("LGB模型调参后MSE：{}".format(score_test))

调参后的LGB的训练集得分：0.9323247311228453
调参后的LGB的测试集得分：0.8634907871306278
LGB模型调参前MSE：0.2651442640764948
LGB模型调参后MSE：0.15026337772469497

6.1 模型融合

将LinearRegression，LGB，RandomForestRegressor三个模型融合


def model_mix(pred_1, pred_2, pred_3):
    result = pd.DataFrame(columns=['LinearRegression', 'LGB', 'RandomForestRegressor', 'Combine'])

    for a in range(10):
        for b in range(10):
            for c in range(1,10):
                test_pred = (a * pred_1 + b * pred_2 + c * pred_3) / (a + b + c)

                mse = mean_squared_error(test_target, test_pred)

                result = result.append([{'LinearRegression': a,
                                         'LGB': b,
                                         'RandomForestRegressor': c,
                                         'Combine': mse}],
                                       ignore_index=True)
    return result

model_combine = model_mix(linear_predict, LGB_predict, RandomForest_predict)

model_combine.sort_values(by='Combine', inplace=True)
print(model_combine.head())

a, b , c = 10的结果：
a, b , c = 30的结果：

通过上述两次改变权重的实验，发现权重从10加大到30，对最终的combine值有些提高

完整代码：

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings("ignore")
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor

import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error

train_data_file = "D:/download/zhengqi_train.txt"
test_data_file = "D:/download/zhengqi_test.txt"

train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t',encoding='utf-8')

train_cols=6
train_rows=len(train_data.columns)
plt.figure(figsize=(4*train_cols,4*train_rows))
i = 0
for col in test_data.columns:
    i += 1
    ax = plt.subplot(train_rows,train_cols,i)
    ax = sns.kdeplot(train_data[col], color='red',shade=True)
    ax = sns.kdeplot(test_data[col], color='blue',shade=True)
    plt.ylabel('Frequency')
    ax.legend(['train','test'])
plt.tight_layout()

train_data_y = train_data['target']
train_data_new = train_data.drop(['V2','V5','V9','V11','V13','V14','V17','V19','V20','V21','V22','V27','target'], axis = 1)
test_data_new = test_data.drop(['V2','V5','V9','V11','V13','V14','V17','V19','V20','V21','V22','V27'], axis = 1)
all_data_X = pd.concat([train_data_new,test_data_new])

plt.figure(figsize=(18,10))
plt.boxplot(x=train_data.values, labels=train_data.columns )
plt.hlines([-7.5,7.5], 0, 40, colors='red')

train_data=train_data[train_data['V9']>-7.5]
test_data=test_data[test_data['V9']>-9.5]

from sklearn import preprocessing

feature_columns = [col for col in test_data.columns]
min_max_scaler = preprocessing.MinMaxScaler()
train_data_scaler = min_max_scaler.fit_transform(train_data[feature_columns])
test_data_scaler = min_max_scaler.fit_transform(test_data[feature_columns])

train_data_scaler = pd.DataFrame(train_data_scaler)
train_data_scaler.columns = feature_columns
test_data_scaler = pd.DataFrame(test_data_scaler)
test_data_scaler.columns = feature_columns

train_data_scaler['target']=train_data['target']

plt.figure(figsize=(20,16))
column = train_data_scaler.columns

mcorr = train_data_scaler[column].corr(method='spearman')
mcorr = mcorr.abs()
numerical_corr = mcorr[mcorr['target']>0.1]['target']
numerical_corr.sort_values(ascending=False)

from sklearn.decomposition import PCA

pca = PCA(n_components=0.9)

new_train_pca = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_test_pca = pca.fit_transform(test_data_scaler)

pca = PCA(n_components=16)
new_train_pca_16 = pca.fit_transform(train_data_scaler.iloc[:,0:-1])
new_train_pca_16 = pd.DataFrame(new_train_pca_16)
new_test_pca_16 = pca.fit_transform(test_data_scaler)
new_test_pca_16 = pd.DataFrame(new_test_pca_16)
new_train_pca_16['target']=train_data_scaler['target']

new_train_pca_16 = new_train_pca_16.fillna(0)
train = new_train_pca_16[new_test_pca_16.columns]
target = train_data['target']

train_data,test_data,train_target, test_target = train_test_split(train,target, test_size=0.2, random_state=0)

clf = LinearRegression()
clf.fit(train_data, train_target)
mse = mean_absolute_error(test_target, clf.predict(test_data))
linear_predict = clf.predict(test_data)

clf2 = lgb.LGBMRegressor(learning_rate=0.01,
                       max_depth=-1,
                       n_estimators=5000,
                       boosting_type='gbdt',
                       random_state=2022,
                       objective='regression')
clf2.fit(X=train_data, y=train_target,eval_metric='MSE',verbose=50)
mse2 = mean_absolute_error(test_target, clf2.predict(test_data))
LGB_predict = clf2.predict(test_data)

clf = RandomForestRegressor(n_estimators=400)
clf.fit(train_data,train_target)
mse3 = mean_absolute_error(test_target, clf.predict(test_data))

from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

train_data, test_data, train_target, test_target = train_test_split(train, target, test_size=0.2, random_state=0)
randomForestRegression = RandomForestRegressor()
parameters = {'n_estimators':[50,100,200], 'max_depth':[1,2,3]}
clf = GridSearchCV(randomForestRegression, parameters, cv=5)
clf.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf.predict(test_data))

from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

train_data, test_data, train_target, test_target =train_test_split(train, target, test_size=0.2, random_state=0)
randomForestRegressior = RandomForestRegressor()
parameters = {'n_estimators':[50, 100, 200, 300], 'max_depth':[1,2,3,4,5]}
clf = RandomizedSearchCV(randomForestRegressior, parameters, cv=5)
clf.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf.predict(test_data))

clf3 = lgb.LGBMRegressor(num_leaves=31)
parameters = {'learning_rate':[0.01,0.1,1],'n_estimators':[20,40]}
clf3= GridSearchCV(clf3, parameters, cv=5)
clf3.fit(train_data, train_target)
score_test = mean_squared_error(test_target, clf3.predict(test_data))
RandomForest_predict = clf3.predict(test_data)

def model_mix(pred_1, pred_2, pred_3):
    result = pd.DataFrame(columns=['LinearRegression', 'LGB', 'RandomForestRegressor','Combine'])

    for a in range(30):
        for b in range(30):
            for c in range(1,30):
                test_pred = (a * pred_1 + b * pred_2 + c * pred_3) / (a + b + c)

                mse = mean_squared_error(test_target, test_pred)

                result = result.append([{'LinearRegression': a,
                                        'LGB': b,
                                         'RandomForestRegressor': c,
                                         'Combine': mse}],
                                        ignore_index=True)
    return result

model_combine = model_mix(linear_predict, LGB_predict, RandomForest_predict)

model_combine.sort_values(by='Combine', inplace=True)
print(model_combine.head())

Original: https://blog.csdn.net/m0_51370744/article/details/124427277
Author: Joker_咖啡逗
Title: 天池竞赛——工业蒸汽量预测（完整代码详细解析）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/730745/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

优化 | Pick and delivery problem的简介与建模实现（二）

优化 | Pick and delivery problem的介绍与建模实现（二） * – One-to-many-to-one (1-M-1) problems &#…

Python 2023年8月7日
0037
数字孪生十大问题有哪些？通俗解释指的是什么？

数字孪生（Digital Twins）之火热，已经成为了一个不争的事实。数字孪生的概念，起源于制造业，现在已广泛应用到了智慧城市、智慧交通、智慧农业、智慧医疗、智能家居等行业。数字…

Python 2023年9月15日
0034
【学习笔记】利用chatGPT入门机器学习（附代码）

1. 线性回归的例子：从简单到复杂 2. 使用随机森林分类器对鸢尾花数据集进行分类 3. 使用支持向量机分类器对乳腺癌数据集进行分类机器学习算法可以用很多方法分类，但一种常见的分…

Python 2023年11月4日
0046
【Go事】一眼看穿 Go 的集合和切片

⛳️ Go 集合在 Go 中与集合相关的关键字是 Map，其表示一种无需的键值对集合，Map 可以通过 Key 检索值，这一点和 Python 中的字典特别像。集合是无序的，并…

Python 2023年5月24日
0060
图解来啦！机器学习工业部署最佳实践！10分钟上手机器学习部署与大规模扩展 ⛵

💡 作者：韩信子@ShowMeAI📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41📘 深度学习实战系列：https://www.s…

Python 2023年10月29日
0046
django+vue前后端分离实现登录实践记载

在使用django+vue完成平台功能开发登录功能，实现后，写这个文章进行记载！！欢迎交流因为做的是内部使用平台，手动创建账号形式，没用到注册功能，无需实现 1、前端页面输入用户…

Python 2023年8月4日
0058
【Python 实战基础】Pandas如何从字符串中解析某一数据，并统计多于一次的该数据

一、实战场景二、主要知识点文件读写基础语法 Pandas list 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas如何从字符串中解析某一数据…

Python 2023年8月9日
0045
CentOS 7 下安装 MySQL 8.x

原文地址： CentOS 版本：CentOS 7 MySQL 版本：MySQL 8.0.30 新建用户组 #> groupadd mysql 创建 MySQL 用户并分配其用…

Python 2023年10月20日
0035
10.第十部分 Scrapy框架

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月2日
0054
将一个大的Excel，根据日期拆分成每一天的小Excel

将一个大的Excel，根据日期拆分成每一天的小Excel 数据说明：有三年的数据（18年-20年）在同一文件夹下的三个Excel,我的日期格式为纯数字的int型，如20220427…

Python 2023年8月17日
00103
第149篇笔记-web3

定义：Web3是基于去中心化原则的互联网新革命。Web3将当今丰富的交互式数字体验与为用户提供所有权和加密保证的基础设施相结合。最近在传统技术部门和区块链生态系统的行业领导者中，…

Python 2023年11月8日
0035
Matplotlib下载和安装

Matplotlib下载和安装 Matplotlib 是 Python 的第三方绘图库，它非常类似于 MATLAB。在使用 Matplotlib 软件包之前，需要对其进行安装。本节…

Python 2023年9月1日
0061
Flask Web框架( 一 )

1.Flask简介 flask是一款非常流行的python Web框架，它出生于2010年，作者是Armin Ronacher。说出来比较让人惊讶，本来这个项目只是作者在愚人节的一…

Python 2023年8月12日
0059
三、微积分

一、微积分 ; 定义函数u = f(x) = 3x² – 4x，求x = 1时的导数 %matplotlib inline import numpy as np fro…

Python 2023年9月2日
0088
Precision（准确率）和Recall（召回率）介绍

为什么我们需要Precision(准确率)和Recall(召回率)？首先我们仅仅只看loss的话，会出现什么问题。举个例子：比如对于一个二分类的模型，我们通过训练得到最终los…

Python 2023年10月9日
0038
掌握了这些顶级Python库，你就是大神！

; Python的强大之处 Python有以下三个特点： · 易用性和灵活性 · 全行业高接受度：Python无疑是业界最流行的数据科学语言 · 用于数据科学的Python库的数量…

Python 2023年8月12日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

天池竞赛——工业蒸汽量预测（完整代码详细解析）

目录

1.1 赛题背景

1.2 赛题目标

2.1 导库

2.2 获取数据

2.3 查看数据

2.4 可视化数据分布

3.1 异常值分析

3.2 归一化处理

3.3 特征降维

3.5 PCA处理

4.1 切分数据

4.2 多元线性回归

4.3 随机森林回归

4.4 LGB模型回归

5.1 RandomForest网格搜索调参

5.2 RandomForest随机参数优化调参

5.3 LGB调参

大家都在看