PyTorch介绍-优化模型参数

2023年6月14日上午1:54 • Linux • 阅读 108

既然已经有模型和数据了，是时候在数据上优化模型参数来训练、验证和测试它了。模型训练是一个迭代过程；在每一次迭代（ epoch），模型会作出一个预测，计算其预测误差（ loss），收集误差关于模型参数的导数（如前一节所述），并使用梯度优化这些参数。关于这一过程的详细信息，可以观看backpropagation from 3Blue1Brown。

先决代码

import torch
from torch import import nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor, Lambda

training_data = datasets.FashionMNIST(
    root='data',
    train=True,
    download=True,
    transform=ToTensor()
)

test_data = datasets.FashionMNIST(
    root='data',
    train=False,
    download=True,
    transform=ToTensor()
)

train_dataloader = Dataloader(training_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__()
        self.flatten = nn.Flatten()
        self.linear_relu_stack = nn.Sequential(
            nn.Linear(28*28, 512)
            nn.ReLU(),
            nn.Linear(512, 512),
            nn.ReLU(),
            nn.Linear(512, 10),
        )

    def forward(self, x):
        x = self.flatten(x)
        logits = self.linear_relu_stack(x)
        return logits

model = NeuralNetwork()

输出：

点击查看代码

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to data/FashionMNIST/raw/train-images-idx3-ubyte.gz
Extracting data/FashionMNIST/raw/train-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw/train-labels-idx1-ubyte.gz
Extracting data/FashionMNIST/raw/train-labels-idx1-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz
Extracting data/FashionMNIST/raw/t10k-images-idx3-ubyte.gz to data/FashionMNIST/raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz
Extracting data/FashionMNIST/raw/t10k-labels-idx1-ubyte.gz to data/FashionMNIST/raw

超参数

我们为训练定义了以下超参数：

Epoch – 迭代数据集的次数
Batch Size – 更新参数前，通过网络传播的数据样本数
Learning Rate -每次 batch/epoch，更新模型的程度。较小的值会导致学习速度较慢，而较大的值可能会导致训练过程中不可预测的行为。

learning_rate = 1e-3
batch_size = 64
epochs = 5

优化循环

一旦我们设置好超参数，就可以通过一个optimization loop来训练和优化网络。每次optimization loop的迭代称为一个epoch。

每个epoch包含两部分：

训练Loop – 迭代训练集，尝试收敛到最佳参数
验证\测试Loop – 迭代测试集，检查模型性能是否提高。

Loss Function

给定一些数据，未经训练的网络可能不会给出正确答案。 Loss function衡量了所获结果和目标值的不同程度，训练时正是要最小化损失函数。为了计算loss我们使用给定样本对的输入作出预测，并与其真实标签做对比。

将模型输出的logist传入 nn.CrossEntropyLoss, 该函数将标准化logits并计算预测误差。

Initialize the loss function
loss_fn = nn.CrossEntropyLoss()

优化器

优化是每次训练时调整模型参数，减少模型误差的过程。 优化算法定义了该过程是如何实现的（该例中我们使用了Stochastic Gradient Descent随机梯度下降）。所有的优化逻辑都被封装在了 optimizer 对象。在这里，我们使用SGD优化器；此外，在PyTorch中还有许多不同的优化器，例如ADAM和RMSProp，对不同类型的模型和数据都很有效。

我们通过注册需要训练的模型参数来初始化优化器，并传入学习率超参数。

optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

在训练循环中，优化分为三个步骤：

调用 optimizer.zero_grad()重置模型参数的梯度。默认情况下梯度相加，为防止重复计数，我们在每次迭代时显示地将它们归零。
调用loss.backwards()反向传播预测误差。PyTorch计算loss关于每个参数的梯度。
调用 optimizer.step()，通过在反向传播中得到的梯度调整参数。

完整实现

我们定义了 train_loop 循环迭代optimization代码， test_loop 评估模型在测试集上的性能。

def train_loop(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)
    for batch, (X, y) in enumerate(dataloader):
        # Compute prediction and loss
        pred = model(X)
        loss = loss_fn(pred, y)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        if batch % 100 == 0:
            loss, current = loss.item(), batch * len(X)
            print(f"loss: {loss:>7f} [{current:>5d}/{size:>5d}]")

def test_loop(dataloader, model, loss_fn):
      size = len(dataloader.dataset)
      num_batches = len(dataloader)
      test_loss, correct = 0, 0

      with torch.no_grad():
          for X, y in dataloader:
              pred = model(X)
              test_loss += loss_fn(pred, y).item()
              correct += (pred.argmax(1) == y).type(torch.float).sum().item()

      test_loss /= num_batches
      correct /= size
      print(f"Test Error: \n Accuracy: {(100 * correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

初始化损失函数和优化器，传入 train_loop 和 test_loop。随意增加epoch，以跟踪模型不断改进的性能。

loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

epochs = 10
for t in range(epochs):
    print(f"Epoch {t+1}\n-------------------------")
    train_loop(train_dataloader, model, loss_fn, optimizer)
    test_loop(test_dataloader, model, loss_fn)
print("Done!")

输出：

点击查看代码

Epoch 1
loss: 2.124757  [    0/60000]
loss: 2.107859  [ 6400/60000]
loss: 2.045332  [12800/60000]
loss: 2.061512  [19200/60000]
loss: 2.002954  [25600/60000]
loss: 1.940844  [32000/60000]
loss: 1.962774  [38400/60000]
loss: 1.874285  [44800/60000]
loss: 1.875532  [51200/60000]
loss: 1.802694  [57600/60000]
Test Error:
 Accuracy: 58.7%, Avg loss: 1.794751

Epoch 3
loss: 1.499763  [    0/60000]
loss: 1.472005  [ 6400/60000]
loss: 1.319050  [12800/60000]
loss: 1.399100  [19200/60000]
loss: 1.283040  [25600/60000]
loss: 1.279892  [32000/60000]
loss: 1.300507  [38400/60000]
loss: 1.221794  [44800/60000]
loss: 1.262865  [51200/60000]
loss: 1.173478  [57600/60000]
Test Error:
 Accuracy: 63.9%, Avg loss: 1.193923

Epoch 5
loss: 1.114492  [    0/60000]
loss: 1.130664  [ 6400/60000]
loss: 0.944653  [12800/60000]
loss: 1.083935  [19200/60000]
loss: 0.961972  [25600/60000]
loss: 0.981254  [32000/60000]
loss: 1.033072  [38400/60000]
loss: 0.961604  [44800/60000]
loss: 1.007507  [51200/60000]
loss: 0.948494  [57600/60000]
Test Error:
 Accuracy: 66.0%, Avg loss: 0.956025

Epoch 7
loss: 0.926312  [    0/60000]
loss: 0.987333  [ 6400/60000]
loss: 0.768049  [12800/60000]
loss: 0.943189  [19200/60000]
loss: 0.831892  [25600/60000]
loss: 0.833098  [32000/60000]
loss: 0.916814  [38400/60000]
loss: 0.850216  [44800/60000]
loss: 0.887719  [51200/60000]
loss: 0.846100  [57600/60000]
Test Error:
 Accuracy: 68.5%, Avg loss: 0.844885

Epoch 9
loss: 0.814177  [    0/60000]
loss: 0.904296  [ 6400/60000]
loss: 0.667563  [12800/60000]
loss: 0.862825  [19200/60000]
loss: 0.764706  [25600/60000]
loss: 0.750034  [32000/60000]
loss: 0.848550  [38400/60000]
loss: 0.794559  [44800/60000]
loss: 0.821466  [51200/60000]
loss: 0.785530  [57600/60000]
Test Error:
 Accuracy: 70.9%, Avg loss: 0.780144

Done!

Original: https://www.cnblogs.com/DeepRS/p/15753763.html
Author: Deep_RS
Title: PyTorch介绍-优化模型参数

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/609934/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Error: Unable to access jarfile 运行jar包报错

1、可能是执行路径有误错误修改后，需使用绝对路径 2、决解1后，还报以下错误，就是你的安装的JDK与jar包中的JDK不是同一版本。idea中有自带的JDK与我们安装的JDK版…

Linux 2023年6月14日
00935
万字长文入门 Redis 命令、事务、锁、订阅、性能测试

作者：痴者工良 Redis 基本数据类型 Redis 的 Key Redis Key 命名设置 Key 过期时间判断键是否存在搜索 Key 判断键类型删除键 RESP 协议…

Linux 2023年5月28日
0097
回溯法：算法思路以及相关流程图的绘制

参考建模原文2020国赛B题参考文章1 回溯法介绍深度优先搜索（缩写DFS）:对一个连通图进行遍历的算法。它的思想是从一个顶点V0开始，沿着一条路一直走到底，如果发现不能到达目标…

Linux 2023年6月14日
0089
需求分析到软件设计复习

什么是需求分析？需求分析就是需求分析师对用户期望的软件行为进行表述。谁来表述 -> 需求分析师谁有期望-> 用户期望什么？-> 期望的软件行为怎样表述？…

Linux 2023年6月8日
00105
SpringBoot-Redis

SpringBoot 整合 Redis SpringBoot-Redis 15.1 导入相关依赖 org.springframework.boot spring-boot-star…

Linux 2023年6月14日
0094
在linux中使用tcpdump抓包的方法:

在linux中使用tcpdump抓包的方法: 1，运行下面命令来从所有网卡中捕获数据包： tcpdump -i any 2，从指定网卡中捕获数据包 tcpdump -i eth0 …

Linux 2023年6月14日
00128
JAVA设计模式-适配器模式

JAVA设计模式-适配器模式介绍适配器模式是一种结构型模式，它主要解决接口之间的兼容问题。当我们需要使用某个类的接口时，但是这个类的接口目前并不符合我们使用需求，不能直接使用，…

Linux 2023年6月6日
00110
Apache Shiro反序列化漏洞(Shiro550)

1.漏洞原理： Shiro 是 Java 的一个安全框架，执行身份验证、授权、密码、会话管理 shiro默认使用了CookieRememberMeManager，其处理cookie…

Linux 2023年6月13日
0075
【小记】QMake 项目获取 Windows 管理员权限

QMAKE_LFLAGS += /MANIFESTUAC:"level=’requireAdministrator’uiAccess=’false’" 将以上那…

Linux 2023年6月13日
0089
测试代理的墙是否是通的

curl -v -x 代理ip：端口目的ip：端口通过代理访问对方wget “http://目的IP：端口” -e use_proxy=yes -e ht…

Linux 2023年6月14日
00104
关于面试的那些事

这周做了三次的笔试，周日的XXX，周三的XXX，周五的XXX。首先周日的XXX，考了四道算法题，两个小时，说实话题目都没怎么读懂，算法基本没接触过，结果一道也没有做出来，只想说，…

Linux 2023年6月7日
00121
Postman 正确使用姿势

前言：请各大网友尊重本人原创知识分享，谨记本人博客：南国以南i 简介： Postman是一个接口测试工具,在做接口测试的时候,Postman相当于一个客户端,它可以模拟用户发起的…

Linux 2023年6月14日
0080
总结：弹性伸缩的五个条件与六个教训

前言弹性伸缩是云计算时代给我们带来的一项核心技术红利，但是 IT 的世界中，没有一个系统功能可以不假思索的应用到所有的场景中。这篇文章，我们将应用企业级分布式应用服务-EDAS 的…

Linux 2023年6月8日
00102
CentOS 7.x 用shell增加、删除端口

一、在/usr/local/sbin/下创建port文件，不要扩展名，并给权限 chom 777 port 二、用法 #port add 8080 #port remove 808…

Linux 2023年5月28日
0098
redis主从同步收到以下参数影响

repl-ping-slave-period主从心跳ping的时间间隔。默认10 repl-timeout 从节点超时时间。默认60 repl-backlog-size 主节点保存…

Linux 2023年5月28日
0074
linux常用命令(持续更新中…)

查看所有开机启动服务：systemctl list-unit-files # 按Enter翻页查看所有开机启动服务：systemctl list-unit-files | gre…

Linux 2023年6月7日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PyTorch介绍-优化模型参数

先决代码

超参数

优化循环

Loss Function

优化器

完整实现

大家都在看