【李宏毅】机器学习——作业1-PM2.5预测

2023年6月29日上午6:22 • 人工智能 • 阅读 76

作业代码地址：点我

1.分析数据

训练集

列是时间， 一共24列，是每天的24小时
行是检测的特征值，每次会检测18个特征值，故 每18行是一天的数据
一个月20天，一年12个月，所以一共 182012行的数据

; 测试集

给了 连续9个小时的数据，预测 第十个小时的PM2.5的值

看上图可知，我们需要训练的Model的 input 应该是这18个测量数据在9个小时内的所有测量值，而 output 则是第10个小时的PM2.5的值。

2.数据的预处理

首先 删除无用的数据：
删除前三列数据，前三列是日期，测站，测项
然后 替换掉非数字数据：
将降雨量对应的一行NR替换成0
最后将数据转换为 numpy

import pandas as pd
import numpy as np
import csv
import math

data = pd.read_csv('./train.csv', encoding='big5')

data = data.iloc[:, 3:]

data[data=='NR'] = 0

raw_data = data.to_numpy()

打印第一行raw_data[0]:

[’14’ ’14’ ’14’ ’13’ ’12’ ’12’ ’12’ ’12’ ’15’ ’17’ ’20’ ’22’ ’22’ ’22’
’22’ ’22’ ’21’ ’19’ ’17’ ’16’ ’15’ ’15’ ’15’ ’15’]

3.提取特征

根据测试数据来划分训练数据，测试数据的 输入是9个小时的数据，每次输入18行，所以我们可以先将测试集划分为 只有18行的数据，方法如下：
想只留下18行，剩下数据就可以拼接到这18行的右侧（ 不区分天数，我们只关心连续的小时）
每 18行24列是一天的数据， 一个月的20天也就是20×18行24列的数据，我们可以每个月的这 20天的数据每18行都拼接到右侧，这样 每个月就是20×24列，一个12个月
如下图所示（略粗糙，最后那个是12月）

另外，因为是 只有前9个小时作为输入，所以数据集还要按照每10列划分为一组（输入9，另外1列作为target），每个月是480列，按照每次移动一步来划分数据集，划分完 一共是471组数据。每一组的输入都用reshape扁平化为向量。


x = np.empty((12*471, 18*9))
y = np.empty((12*471, 1))

for month in range(12):
    for hour in range(471):

        x[month*471+hour] = month_data[month][:, hour:hour+9].rashape(1,-1)
        y[month*471+hour] = month_data[month][:, 9, hour+9]

4.归一化

归一化，即对每个特征，求其均值和标准差。然后将每个数值都减去其均值后再除以标准差，这样特征的期望就变成了0，标准差变成1。


mean_x = np.mean(x, axis=0)
std_x = np.std(x, axis=0)

for i in range(18*9):
    if std_x[i] != 0:
        x[:, i] = (x[:i]-mean_x[i]) / std_x[i]

5.将数据分为训练集和验证集


def reArrangeTrainValidation(x,i=0,total=5):
    group_size = int(len(x) / total)
    x_train=np.concatenate((x[:group_size*i],x[group_size*(i+1):]),axis=0)
    y_train=np.concatenate((y[:group_size*i],y[group_size*(i+1):]),axis=0)
    x_validation=x[group_size*i:group_size*(i+1)]
    y_validation=y[group_size*i:group_size*(i+1)]
    return (x_train,y_train),(x_validation,y_validation)

6.定义模型开始训练

在GradientDescent的环节中采用的就是n次函数
GradientDescent的时候还是使用的残差平方和来计算梯度
采用Adagrad优化算法


def computeY(n,x,w):
    py = np.zeros([len(x), 1])
    for e in range(1 + n):
        py += np.dot(x ** e, w[e])
    return py

def gradientDescent(n, x, y):
    dim = 18*9
    w = [np.zeros([dim, 1]) for e in range(1 + n)]
    adagrad = [np.zeros([dim, 1]) for e in range(1+n)]
    learning_rate = 100
    epoch = 10000
    eps = 0.0000000001
    for t in range(epoch):
        py = computeY(n, x, w)
        loss = np.sqrt(np.sum(np.power(py - y, 2)) / len(x))
        if(t % 100==0):
            print(str(t) + ":" + str(loss))
        for e in range(1+n):
            gradient = 2 * np.dot(x.transpose() ** e, py - y)
            adagrad[e] += gradient ** 2
            w[e] = w[e] - learning_rate / np.sqrt(adagrad[e] + eps) * gradient
        for e in range(1 + n):
            np.save(str(e) + '.weight.npy', w[e])

7.测试数据集处理

测试数据集和训练数据集做相同的处理


testdata=pd.read_csv('./test.csv',header = None,encoding='big5')
test_data=testdata.iloc[:,2:]
test_data[test_data=='NR']=0
test_data=test_data.to_numpy()
test_x=np.empty([240,18*9],dtype=float)
for i in range(240):
    test_x[i]=test_data[i*18:(i+1)*18,:].reshape(1,-1)

for i in range(18*9):
    if std_x[i] !=0:
        test_x[:,i]=(test_x[:,i]-mean_x[i])/std_x[i]

8.对测试集做预测

将上一步训练保存的模型权值直接下载下来用于训练


w=[]
for e in range(1+n):
    w.append(np.load(str(e)+'.weight.npy'))

做预测（输入x得到输出，computeY函数）

py=computeY(n,test_x,w)

9.保存模型

with open('submit.csv', mode='w', newline='') as submit_file:
    csv_writer = csv.writer(submit_file)
    header = ['id', 'value']
    print(header)
    csv_writer.writerow(header)
    for i in range(240):
        row = ['id_' + str(i), py[i][0]]
        csv_writer.writerow(row)
        print(row)

参考文献
李宏毅 2020机器学习作业1 详细解析
 李宏毅机器学习特训营-机器学习作业1-PM2.5预测

Original: https://blog.csdn.net/m0_51474171/article/details/127739808
Author: 头发没了还会再长
Title: 【李宏毅】机器学习——作业1-PM2.5预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/658596/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Halcon深度学习介绍(二)—分类

Halcon深度学习介绍–分类 **1、说明前边讲述了几个具体的类别，但是并没有讲具体的操作，这里就具体将一下。其实在halcon中有非常详细的案例，无论是分类，还是目标检测，一…

人工智能 2023年6月25日
0067
Anaconda3使用方法——激活base环境以及pycharm中添加base环境

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0092
保姆级聚类热图绘制！（不用R语言！不用写代码！）

保姆级聚类热图绘制！（不用R语言！不用写代码！）现阶段主流热图用R进行绘制，然而部分专业例如环境专业的同学们基本不怎么会使用代码去得到自己想要的图形（当然也不排除有厉害的同学也是…

人工智能 2023年6月2日
00100
《Pytorch深度学习实践》课程合集（刘二大人）笔记

目录 2 线性模型 * 深度学习步骤 ML常用损失函数模型可视化 visdom包 3 梯度下降 4 反向传播 5 用pytorch 实现线性回归 * numpy中的自动广播机制 …

人工智能 2023年7月23日
0053
cs224w（图机器学习）2021冬季课程学习笔记6 Message Passing and Node Classification

诸神缄默不语-个人CSDN博文目录cs224w（图机器学习）2021冬季课程学习笔记集合文章目录 1. Message Passing and Node Classificati…

人工智能 2023年6月16日
0075
C++使用pointnet++训练模型进行点云分类

环境: ubuntu-18.04 nvidia驱动-470 cuda-10 cudnn-7.4 tensorflow1.13.1 1.版本信息 cuda和driver版本 tens…

人工智能 2023年5月23日
0055
粒子群算法Python代码实现

1.引言粒子群优化算法起源于对鸟群觅食活动的分析。鸟群在觅食的时候通常会毫无征兆的聚拢，分散，以及改变飞行的轨迹，但是在不同个体之间会十分默契的保持距离。所以粒子群优化算法模拟鸟…

人工智能 2023年6月24日
0099
计算机相关专业零基础论文画图详细教程（避免掉坑教程）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
00120
redis实现延迟队列

redis延迟队列参考博客：https://blog.csdn.net/m0_37975854/article/details/119836978jkd延迟队列参考博客：https…

人工智能 2023年6月28日
0090
希望科怀早日康复

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月30日
0065
论文阅读_自然语言模型加知识图谱_DKPLM

英文题目：DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for Natural Languag…

人工智能 2023年6月5日
0079
pd.DataFrame.melt()函数

对这个函数的理解就是二维变一维，就是逆序数列 melt(self, id_vars=None, value_vars=None, var_name=None, value_name…

人工智能 2023年7月8日
0054
coco数据集解析及读取方法

1.coco数据集格式 MC COCO2017年主要包含以下四个任务：目标检测与分割、图像描述、人体关键点检测，如下所示： annotations: 对&am…

人工智能 2023年7月5日
0049
yolo目标检测实时学习、识别将会这样发展嘛？

目标检测目前遇到的问题: 1、图像识别的数据集标注只能人工来进行。人工智能检测到图片中物体种类名称，然而它检测的对错与否最终只能人来判断。为什么不能机器来做呢？ 2、图片中一种物体…

人工智能 2023年7月12日
0069
GANs系列：CGAN(条件GAN）原理简介以及项目代码实现

一、原始GAN的缺点生成的图像是随机的，不可预测的，无法控制网络输出特定的图片，生成目标不明确，可控性不强。针对原始GAN不能生成具有特定属性的图片的问题， Mehdi Mirz…

人工智能 2023年5月26日
0096
数据样本过大数据维度过大：用户名做一个聚类2.可以将时间分段，达到降维的效果

CTR的核心问题主要是点击率广告排序– ECPM=CTRBid– 排序时Bid已知，但CTR未知扣费– CPCi = (CTRi+1CPCi+1)/CTRi– 当前广告的扣费依赖当…

人工智能 2023年5月31日
00107

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【李宏毅】机器学习——作业1-PM2.5预测

训练集

; 测试集

大家都在看