李宏毅机器学习课程作业-HW1

2023年8月29日上午6:08 • Python • 阅读 63

整篇文章是笔者自我一点点学习和理解其所给指导代码的记录学习。

在读取文件的时候使用了pandas.read_csv()函数，其中enconding的参数时”big5″，这是因为在这份文件中里面含有繁体字，使用”gbk”编码时会报错

data = pd.read_csv('./train.csv', encoding='big5')

记事本打开是这样：

使用该函数打开后是这样：

data = data.iloc[:, 3:]
data[data == 'NR'] = 0
raw_data = data.to_numpy()

首先根据这份数据的存储格式提取出有用数据，横竖两条红线不是数据，而是数据的索引，数据的切片的计算是去除横竖两条数据开始计算的，因为这个数据是pd.DataFrame()的格式，因此得使用pandas函数中的.iloc()函数进行切片，将数据从第四列开始提取出来，从上面给出的记事本格式中，存在NR，因此将所有NR部分置零，同时将数据的格式改变为numpy数组格式。

数据特点：

由上面几张图片可以看到，整个数据的分布是，列为日期1.1号到12.20号，每一天中共有18中气体检测，而行为每一天24小时中每一小时18种气体的水平。

将每一天的数据看成一个数据块，将由列排列的数据块重新改变分布为行排列的数据块。

month_data = {}
for month in range(12):
    sample = np.empty([18, 480]) #每个月20天
    for day in range(20):
        sample[:, day * 24 : (day + 1) * 24] = raw_data[18 * (20 * month + day) : 18 * (20 * month + day + 1), :]
    month_data[month] = sample

训练集和标签设置：

上面将数据的分布进行了改变，以每一月内的数据作为一块，以行分布的形式拼接，其中行是空气中的18个指标而列是12个月每个月20天每天24个小数（122024=12*480）。每一个数据块中有480个小数的数据。

将每十个小时的数据作为一份数据，其中前9个小时作为训练集和第10个小时为标签，每一份数据之间只隔了一个小时，所以可以计算出每一个月中共有471份训练数据。其中标签仅需要18个指标中的PM2.5的数据作为标签。

x = np.empty([12 * 471, 18 * 9], dtype = float) #训练集为前9个小时的18个指标
y = np.empty([12 * 471, 1], dtype = float) #标签仅为第10小时的PM2.5的指标数据
for month in range(12):
    for day in range(20):
        for hour in range(24):
            if day == 19 and hour > 14:
                continue
            x[month * 471 + day * 24 + hour, :] = month_data[month][:,day * 24 + hour : day * 24 + hour + 9].reshape(1, -1) #vector dim:18*9 (9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9 9)
            y[month * 471 + day * 24 + hour, 0] = month_data[month][9, day * 24 + hour + 9] #value

归一化：

mean_x = np.mean(x, axis = 0) #18 * 9 axis=0对列进行求均值
std_x = np.std(x, axis = 0) #18 * 9
for i in range(len(x)): #12 * 471   得到行数
    for j in range(len(x[0])): #18 * 9  得到列数
        if std_x[j] != 0:
            x[i][j] = (x[i][j] - mean_x[j]) / std_x[j]

训练集验证集划分：

import math
x_train_set = x[: math.floor(len(x) * 0.8), :]
y_train_set = y[: math.floor(len(y) * 0.8), :]
x_validation = x[math.floor(len(x) * 0.8): , :]
y_validation = y[math.floor(len(y) * 0.8): , :]

训练train：

使用梯度下降法进行训练

dim = 18 * 9 + 1
w = np.zeros([dim, 1])
x = np.concatenate((np.ones([12 * 471, 1]), x), axis = 1).astype(float)
learning_rate = 100
iter_time = 1000
adagrad = np.zeros([dim, 1])
eps = 0.0000000001
for t in range(iter_time):
    loss = np.sqrt(np.sum(np.power(np.dot(x, w) - y, 2))/471/12)#rmse
    if(t%100==0):
        print(str(t) + ":" + str(loss))
    gradient = 2 * np.dot(x.transpose(), np.dot(x, w) - y) #dim*1
    adagrad += gradient ** 2
    w = w - learning_rate * gradient / np.sqrt(adagrad + eps)
np.save('weight.npy', w)

测试TEST：

testdata = pd.read_csv('./test.csv', header = None, encoding = 'big5')
test_data = testdata.iloc[:, 2:]
test_data[test_data == 'NR'] = 0
test_data = test_data.to_numpy()
test_x = np.empty([240, 18*9], dtype = float)
for i in range(240):
    test_x[i, :] = test_data[18 * i: 18* (i + 1), :].reshape(1, -1)
for i in range(len(test_x)):
    for j in range(len(test_x[0])):
        if std_x[j] != 0:
            test_x[i][j] = (test_x[i][j] - mean_x[j]) / std_x[j]
test_x = np.concatenate((np.ones([240, 1]), test_x), axis = 1).astype(float)

对test数据的处理方式与train数据相同，截取有用数据片段，对数据重新排列，多添加一维dimension，归一化

预测：

w = np.load('weight.npy')
ans_y = np.dot(test_x, w)

文件保存：

import csv
with open('submit.csv', mode='w', newline='') as submit_file:
    csv_writer = csv.writer(submit_file)
    header = ['id', 'value']
    print(header)
    csv_writer.writerow(header)
    for i in range(240):
        row = ['id_' + str(i), ans_y[i][0]]
        csv_writer.writerow(row)

Original: https://blog.csdn.net/llllllhhhhj/article/details/122704116
Author: llllllhhhhj
Title: 李宏毅机器学习课程作业-HW1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/762668/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

100天精通Python（数据分析篇）——第55天：Pandas之DataFrame对象大总结

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月17日
0080
天池龙珠Python训练营-打卡笔记T08

类与对象： *这部分感觉自己学的不透彻来着对象 = 属性＋方法继承对象：从模板获得方法，以及一部分共享的数据。多态（方法重写）继承父类时可以选择性修改一部分方法类self：…

Python 2023年9月25日
0031
什么是 SSL、TLS 和 HTTPS？

什么是 SSL、TLS 和 HTTPS？概念 SSL ：安全套接字层(Secure Sockets Layer，SSL) 是一种加密安全协议;（SSL是 TLS的前身） TLS…

Python 2023年6月6日
0097
Python去除重复元素，之后从大到小排列unique()函数

选择题 import numpy as np A = [1, 1, 2, 5, 3, 4, 3] a = np.unique(A) print(a) 选项： A. [1 2 3 4…

Python 2023年8月27日
0045
Conda

文章目录前言一、conda 是什么？二、安装 Miniconda 三、conda 常用命令前言目前python越发流行，越来越多的工具使用python进行开发。由于 py…

Python 2023年9月9日
0037
pytest-cp-common_modem.py

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月15日
0026
Java 多线程（一）：基础

Java 多线程（一）：基础作者：Grey 原文地址：博客园：Java 多线程（一）：基础 CSDN：Java 多线程（一）：基础顺序、并行与并发顺序（sequential…

Python 2023年10月22日
0045
为什么CSS中的calc函数可能会不生效？

前言在早期如果想要对某一些样式进行动态计算，绝大多数的做法都是使用JavaScript来进行，当时的CSS在面对这种场景显得有点无能为力。但是，当CSS3中新增了 calc函数时…

Python 2023年10月16日
0052
【Docker】第一次用docker来部署django项目-20220209

1.前提： 1.1 Django项目在本机要能正常启动。 1.2 docker desktop正常安装好。 1.3 Django启动服务器时要指定端口(python3 manage…

Python 2023年8月4日
0062
Linux目录与路径

Linux目录与路径 1.绝对路径与相对路径与Windows一样，linux也有绝对路径与相对路径的区别： Windows的绝对路径是以某个盘为起点，如win的桌面的…

Python 2023年10月19日
0041
UE4 WebUI插件使用指南

在开发数字孪生应用程序的时候，除了三维场景展示之外，也需要开发丰富和酷炫的2D页面。使用UE4的UMG开发图表显得比较笨拙。而通过Web插件允许开发者创建丰富的基于Web HT…

Python 2023年10月13日
0047
JUC包(java.util.concurrent)下的常用子类

文章目录前言一、对象锁juc.locks包二、原子类三、四个常用工具类 * 3.1 信号量 Semaphore 3.2 CountDownLatch 总结前言博主个人社…

Python 2023年9月17日
0041
这份工具清单，令Python 提速N倍，简直太好用了

在众多编程语言中，Python的社区生态是其中的佼佼者之一。几乎所有的技术痛点，例如优化代码提升速度，在社区内都有很多成功的解决方案。本文分享的就是一份可以令 Python 变快的…

Python 2023年11月1日
0034
[948]Pandas数据分组的函数应用（df.apply()、df.agg()、df.transform()、df.applymap()、df.groupby().apply()）

将自己定义的或其他库的函数应用于Pandas对象： apply()：逐行或逐列应用该函数agg()和transform()：聚合和转换applymap()：逐元素应用函数group…

Python 2023年8月18日
0057
【自动化测试】Pytest+Appium+Allure 做 UI 自动化的那些事

文本主要介绍下 Pytest+Allure+Appium 记录一些过程和经历。法主要用了啥: Python3AppiumAllure-pytestPytest Appium 不常…

Python 2023年9月12日
0060
Python数据预处理和PCA、ICA、LDA降维的方法(实验代码)

目录 1.标准差标准化数据预处理——标准差标准化数据预处理——离差标准化数据预处理——非线性转换数据预处理——归一化数据预处理——二值化数据预处理——独热编码数据预处…

Python 2023年9月8日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31