预训练模型使用

2023年7月22日上午7:14 • 人工智能 • 阅读 53

预训练模型加载满足条件部分

预训练模型的使用往往可以涨点，因此是一个非常常见的操作，当我们在改模型或者加载模型的某些层的参数时，并不能像常规那样直接加载进来，因此做一个记录。
这里我是用YOLOX做实验


model = exp.get_model()

加载模型权重：

ckpt = torch.load('xxx/xxx.pt', map_location="cpu")

打印一下保存的pt是啥东西，因为YOLOX保存的pt包含model、ema等等，因此只看我们需要的’model’就OK：

for k,v in ckpt['model'].items():
    print(k, 'size is', v.size())

预训练模型使用

太长只截图部分，可以看到每个op对应一个key和value,感兴趣的可以打印一下value。到此就可以知道预训练权重中有哪些层的参数。接下来在看看修改后的网络有那些层，

model_dict = model.state_dict()
        for k,v in model_dict.items():
            print(k, '------>', v.size())

预训练模型使用

因为预测头没做修改，所以是前后是一致的，实际上load_state_dict()就是把pt的东西根据key赋值到网络中,实现加载数据。

假设在YOLOX中加了一层SE-Attention，那么并不是所有的key都对应的上，因此需要筛选：

ckpt_dict = {k: v for k, v in ckpt['model'].items() if k in model_dict}

更新修改后的网络权重：

model_dict.update(ckpt_dict)

然后再全部加载进加了Attention的网络：

model.load_state_dict(model_dict)

到这里就把预训练权重里面跟修改后的网络的对应部分全部实现了赋值
啰嗦一点，也可以这样获取key和value

for name ,param in model.named_parameters():
    print(name)
    print(param)

加载主干网络的参数进来，并在训练中不更新

根据前面打印的层的key，可以找到骨干网络的最后一层的信息，这里假设是第150个参数：

预训练模型使用

for i, param in enumerate(model.parameters()):
    print(i,'-------->',param.size())
    if i<150:
        param.requires_grad = False

这样训练过程中就不更新主干网络的参数

还有因为类别个数不一样在最后一层需要修改某一层的，以后再做了…

Original: https://blog.csdn.net/weixin_38257276/article/details/123619436
Author: Double-E
Title: 预训练模型使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708621/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【人工智能大作业】A*和IDA*搜索算法解决十五数码（15-puzzle）问题（Python实现）（启发式搜索）

Astar和IDAstar搜索算法解决十五数码（15-puzzle）问题 (文末附实现代码，此前为理论与具体问题分析) 文章目录 Astar和IDAstar搜索算法解决十五数码（1…

人工智能 2023年7月27日
00155
python pcm 分贝_语音文件 pcm 静默（静音）判断

pcm 文件存储的是原始的声音波型二进制流，没有文件头。 (1)首先要确认 pcm文件的每个采样数据采样位数，一般为8bit或16bit。 (2)然后确定是双声道还是单声道，双…

人工智能 2023年5月27日
0081
pytorch学习之—squeeze()和unsqueeze()函数功能及使用

首先这个squeeze单词啥意思： 1.squeeze(1)和squeeze(-1)作用：两者的效果一样，都是给张量tensor降维，但不是啥张量都可以用这两个函数来降维，它只能…

人工智能 2023年7月22日
0053
情感分类问题IMDB实战(SimpleRNN，LSTM，GRU）

使用经典的 IMDB 影评数据集来完成情感分类任务。 IMDB 影评数据集包含了50000 条用户评价，评价的标签分为消极和积极，其中 IMDB 评级一、数据集加载以及数据集预…

人工智能 2023年7月1日
0078
会打字、能翻译，联想智能语音鼠标好小橙使用评测

鼠标作为电脑外设的关键设备，除了具有简单的定位、选择和判定等常规操作功能外，一些游戏鼠标还通过多键设计，针对游戏操作，定义了按钮功能，让游戏更加便捷。然而，提高工作效率的功能并不多…

人工智能 2023年5月23日
00242
机器学习— 交叉熵损失(CrossEntropy Loss)–(附代码)

1.1 Softmax 的形式若 x = [ x 1 ⋯ x i ⋯ x n ] x = \left[ \begin{matrix} x_1 \ \cdots \ x_i \ \…

人工智能 2023年6月16日
0064
论文阅读笔记：图卷积网络

Cite: SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS https://arxiv.org/a…

人工智能 2023年5月31日
0080
基于流的(Flow-based)生成模型简介

基于流的(Flow-based)生成模型简介生成任务我们先回顾一下所谓的生成任务，究竟是做什么事情。我们认为，世界上所有的图片，是符合某种分布 p d a t a ( x ) …

人工智能 2023年6月16日
0073
Pandas 多层级索引 Python 数据处理案例指南

今天我们来聊一下 Pandas当中的数据集中带有多重索引的数据分析实战通常我们接触比较多的是单层索引，而多级索引也就意味着数据集当中的行索引有多个层级，具体的如下图所示 ; 导入…

人工智能 2023年7月8日
0068
python DataFrame的shift()方法

在python数据分析中，可以使用shift()方法对DataFrame对象的数据进行位置的前滞、后滞移动。 ; 语法 DataFrame.shift(periods=1, fre…

人工智能 2023年7月15日
0071
“要卷就卷创新”，百度在走一条难而正确的路

“内卷”一词，最早由美国人类学家格尔茨提出，内卷即”向内演化”，当社会资源无法满足所有人的需求时，人们通过竞争来获取更多资源。众人对…

人工智能 2023年6月30日
0082
【Java应用程序开发】【期末复习题】【2022秋】【答案近期更新完成】

文章目录零、考试说明一、单选题（175-2-2题，1’）二、多选题（16题，2’）三、判断题（20题，1’）四、简答题（18题，5&#…

人工智能 2023年7月31日
0056
自然语言处理基础——jieba分词的原理与使用方法

自然语言处理，特别是中文处理中，最好用的分词组件。 python原项目开源地址：https://github.com/fxsjy/jieba 支持四种分词模式：精确模式，试图将…

人工智能 2023年5月27日
0071
Py之tkinter：tkinter库的简介、安装、使用方法之详细攻略

Py之tkinter：tkinter库的简介、安装、使用方法之详细攻略 tkinter库的简介 tkinter库的安装 tkinter库的使用方法 1、tkinter的控件简介 1…

人工智能 2023年7月29日
0057
Pytorch常用的4种随机数生成方法

Pytorch常用的4种随机数生成方法 * – 一、torch.rand()：构造均匀分布张量的方法 – 二、torch.randn()：构造标准正态分布张…

人工智能 2023年7月21日
0041
目标检测指标AP和mAP.

一、准确率&回归率术语表：预测正例预测反例真值正例 TPFN真值反例 FPTN 准确率Precision公式表示： P r e c i s o n = T P T P…

人工智能 2023年7月11日
0083

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球