李宏毅2021ML-hw1 新冠预测

2023年7月23日上午7:41 • 人工智能 • 阅读 76

系列文章目录

李宏毅ML-2022hw2

文章目录

系列文章目录
简介
实验部分
*
Simple Baseline
Medium Baseline
Strong Baseline
–
总结
*
收获
–
- 优化代码思路
- 数据预处理”模板”

简介

任务介绍：给40个州的前三天的features（以及前两天的label，即新冠确诊）预测第三天的新冠确诊
数据集介绍：40个州（one-hot编码形式）+第一天的features+第一天label+第二天features+第二天label+第三天的features+第三天的label

实验部分

Simple Baseline

运行初始代码，提交

; Medium Baseline

Feature selection: 40 states + 2 tested_positive (TODO in dataset)
用州的信息加上前两天的阳性病例

    if not target_only:
            feats = list(range(93))
        else:

            feats=list(range(40))+[57,75]
            pass

设置target_only=True，重新训练。发现评分有了一定提高。但在dev集上的测试loss变高了（0.7592->0.9582）
下图为kaggle提交评分

在dev集上的测试结果：如图是dev的预测结果和真实值（红点）之间的关系。
李宏毅2021ML-hw1 新冠预测

Strong Baseline

模型参数选择（损失函数、激活函数）

Loss由MSE改为RMSE。因为最终Kaggle上的分数就是通过RMSE计算得出

    ''' Calculate loss '''
    def cal_loss(self, pred, target):

        return torch.sqrt(self.criterion(pred, target))

但这个感觉区别不大，dev上loss为0.9582，上一种是0.9779。
提交到kaggle上也没有明显变好

激活函数有试过LeakyReLU，但并没有变好（不知道是不是因为调参问题）

特征选择

又选择了”类Covid-19病例”作为特征

    if not target_only:
            feats = list(range(93))
        else:

            feats = list(range(40)) + list(range(40,44)) + [57] + list(range(58,62)) + [75] + list(range(76,80))

因为这几个数据在对全部特征计算皮尔逊相关系数后和相关度较高（也选过0.4几的试了一下但不如只选这几个）

当然也可以用sklearn选出最有效的一些特征：

from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
import pandas as pd

features = pd.read_csv('../data/ML2021_hw1_COVID-19_Cases_Prediction/covid.train.csv')
x_data, y_data = features.iloc[:, 40:-1], features.iloc[:, -1]

k = 15
selector = SelectKBest(score_func=f_regression, k=k)
result = selector.fit(x_data, y_data)

idx = np.argsort(result.scores_)[::-1]
print(f'Top {k} Best feature score ')
print(result.scores_[idx[:k]])

print(f'\nTop {k} Best feature index ')
print(idx[:k])

print(f'\nTop {k} Best feature name')
print(x_data.columns[idx[:k]])

selected_idx = list(np.sort(idx[:k]))
print(selected_idx)
print(x_data.columns[selected_idx])

运行结果：

会发现得到的结果和之前手动做相关性系数分析是一样的，这里写成了一个模块，直接输出了下标，方便之后选择特征使用。

这次在dev上看loss降低的很明显，降为了0.8979.再放个图

提交结果

L1/L2 Regularization

weight_decay一开始设置为1e-5时,效果反而不好,估计是太大了,于是减小,到1e-8的时候开始有一点点变好(loss:0.9162和0.8977),此事有一个很有意思的的事,设置到1e-9的时候,dev和train的loss都会减小(0.9074和0.8973),我本来以为肯定预测效果更好,但提交上去分数没有比1e-8的时候好.下面是weight_decay=1e-8时的提交结果

有关weight_decay的调整：这个模型估计是因为比较简单所以不需要太大的weight_decay，正常好像要在1e-4左右。
另外，大型模型中dropout也能缓解过拟合，但这个小模型就算了吧。

; 余弦退火学习率

scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(optimizer,
                                        T_0=2, T_mult=2, eta_min=config['optim_hparas']['lr']/50)

每一次跑完一整个训练集加上

scheduler.step()

提交得到了目前最好的结果（但没好多少就是了）

调整模型

目前加深模型并没有变得很好用，以后有时间再试吧。估计是是数据量太少了加深反而过拟合

优化函数

换过Adam，并没有变好

总结

在本地跑命名train和dev的loss都下降了但提交上去分数低了的原因：过拟合。只有通过测试集才能判断过拟合。验证集说是验证集但本质上还是训练集，测试集是我们不可能知道的，也就是说通过验证集看是否过拟合是不科学的，验证集的主要作用是early_stop。

收获

优化代码思路

主要分三大块：
1.数据
2.模型
3.调优

数据预处理”模板”

有关建立Dataset的两种方法以及dataloader的应用：
具体参考下面文章，讲的很清晰

pytorch中Dataset，TensorDataset和DataLoader用法_鬼道2022的博客-CSDN博客_data.tensordataset

1.利用自带的TensorDataset

dataset=torch.utils.data.TensorDataset(train_features, train_labels)

2.继承Dataset自定义类
注意：需要重载init、getitem和len方法

最后生成DataLoader：按照参数顺序把dataset和其他的传入torch.utils.data.DataLoader即可

Original: https://blog.csdn.net/sama_AA/article/details/124348117
Author: sama_AA
Title: 李宏毅2021ML-hw1 新冠预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710274/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pandas中DF拼接：concat，merge，join，append方法区别

1 主要参考博客以及说明： https://blog.csdn.net/weixin_42782150/article/details/89546357 本文更像对参考博客的个人解…

人工智能 2023年6月19日
0084
【论文粗读】(NeurIPS 2020) SwAV：对比聚类结果的无监督视觉特征学习

题目《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》第一作者：Mathi…

人工智能 2023年6月2日
00128
数睿数据深度 | 商业智能红海，下一代BI还能激起多大的浪花

商业智能这一概念，自1996年提出至今，已经过了26年。市场对BI的态度，从好奇、探索直到习以为常，80-90年代的IT人还记忆犹新。但如果有一家初创公司，要迈入这个成熟的市场，…

人工智能 2023年7月17日
0053
简单介绍一下tensorflow与pytorch的相互转换（主要是tensorflow转pytorch）

本文以一段代码为例，简单介绍一下tensorflow与pytorch的相互转换（主要是tensorflow转pytorch），可能介绍的没有那么详细，仅供参考。由于本人只熟悉py…

人工智能 2023年7月4日
0085
用Python实现地理信息出图(含比例尺、指北针、图例)

哈喽、哈喽大家&#…

人工智能 2023年7月27日
0051
超详细的Python安装和环境搭建教程

目录安装简介：第一步，下载Python 第二步，安装Python 1.勾选 And Python 3.9 PATH 选项 2.选择自定义安装(Cutormize install…

人工智能 2023年7月4日
0090
Gremlin 查询语言

Gremlin是 JanusGraph 的查询语言，用于从图中检索数据和修改数据。Gremlin 是一种面向路径的语言，它简洁地表达了复杂的图遍历和变异操作。Gremlin 是一种…

人工智能 2023年6月1日
0046
资产风险的分类及风险测度理论与方法

风险概述风险是指事件发生与否的不确定性，用在金融资产上，风险指的是获得收益的不确定性，通常以实际收益与期望收益的偏离来表示。风险分类市场风险又称为系统性风险，是指能够对所有…

人工智能 2023年7月3日
0074
YOLOv5训练自数据集（VOC格式）

关于YOLOV5训练YOLO格式数据集在上篇提到过【yolov5+deepsort运行和训练自数据集（自看）】 VOC数据集最终格式（此处是最终的实现效果，初始格式在下面）：其中…

人工智能 2023年6月16日
0078
从零开始实现yolox四：模型的训练（一）损失函数与标签分配

损失函数与标签分配 1 IOU损失 2 YOLOX的损失函数类 * （1）初始化与forward函数（2）边框调整与网格生成函数self.get_output_and_grid …

人工智能 2023年5月26日
0064
pyhton深度学习基于pytorch——创建Tensor和修改Tensor形状

如果对Tensor的概念理解不清楚请参考我的上一篇文章。先介绍Tensor的.add()和.add_()方法： 1）不修改自身数据，如x.add(y),x的数据不变，返回一个新的…

人工智能 2023年7月13日
0069
安装pytorch深度学习环境（GPU版）和pycharm

1.安装或更新显卡驱动根据自己的电脑的配置和需求，安装或更新显卡驱动，nvidia显卡驱动下载地址：官方驱动 | NVIDIA 下载可能比较慢，有梯子的话会好些。下载完成后安装e…

人工智能 2023年7月21日
0049
解决opencv中算术运算报错: OpenCV(4.6.0) D:aopencv-pythonopencv-pythonopencvmoduleshighguisrcwindow.cp

这几天使用opencv做一些图像处理的问题，进行到算术运算时就被卡住了，上网搜索总是不能解决我的问题。最后通过不断的尝试，终于得到解决！报错提示：OpenCV(4.6.0) D:…

人工智能 2023年7月6日
0069
[Pandas技巧] 筛选DataFrame含有空值的数据行

美图欣赏2022/06/18 数据准备 import pandas as pd df = pd.DataFrame([[‘ABC’,’Good’,1], [‘FJZ’,None,2…

人工智能 2023年7月6日
0047
南京NLP算法岗中小厂汇总

2021年各大厂裁员新闻给许多打工者内心带来一大片乌云。自己身处南京，也观望一下南京的工作机会，顺便也当做市场调研了，整理一下公司，以及在脉脉，知乎和看准网上的评价，真实可查，并非…

人工智能 2023年6月10日
0087
python DataFrame数据分组统计groupby()函数

groupby()函数在python的DataFrame中对数据进行分组统计主要使用groupby()函数。 ʚʕ̯•͡˔•̯᷅ʔɞ 个人简介🍹 欢迎各路大佬来到小啾主页指点☀️…

人工智能 2023年6月11日
0088

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30