量化感知训练QAT(Quantification Aware Training)

2023年7月22日上午8:03 • 人工智能 • 阅读 67

前言

为了减少网络模型的空间占用和运行速度，除了在网络方面进行改进，模型剪枝和量化算是最常用的优化方法。剪枝就是将训练好的大模型的不重要的通道删除掉，在几乎不影响准确率的条件下对网络进行加速。而量化就是将浮点数（高精度）表示的权重和偏置用低精度整数（常用的INT8）来近似表示，在量化到低精度之后就可以应用移动平台上的优化技术如NEON对计算过程进行加速，并且原始模型量化后的模型容量也会减少，使其能够更好的应用到移动端环境。

量化感知训练QAT(Quantification Aware Training)

对称量化

对称量化的量化公式如下：

其中 Δ \Delta Δ表示量化的缩放因子，x和 xint分别表示量化前和量化后的数值。这里通过除以缩放因子接取整操作就把原始的浮点数据量化到了一个小区间中，比如对于有符号的8Bit 就[−128,127]（无符号就是0到255了）。

这里有个Trick，即对于权重是量化到 [−127,127]，这是为了累加的时候减少溢出的风险。

对应的反量化公式为：

即将量化后的值乘以Δ就得到了反量化的结果，当然这个过程是有损的，如下图所示，橙色线表示的就是量化前的范围 [rmin,rmax]，而蓝色线代表量化后的数据范围[−128,127]，注意权重−127。

非对称量化

非对称量化相比于对称量化就在于多了一个零点偏移。一个float32的浮点数非对称量化到一个 int8的整数（如果是有符号就是，如果是无符号就是）的步骤为缩放，取整，零点偏移，和溢出保护，如下图所示：

缩放系数 Δ和零点偏移的计算公式如

基于Pytorch官方API量化代码实现

import torch
import torch.nn as nn

#模型量化
class QAT_ASPNET_tpc(nn.Module):
    def __init__(self, model_fp32):
        super(QAT_ASPNET_tpc, self).__init__()
        # QuantStub converts tensors from floating point to quantized.

        # This will only be used for inputs.

        self.quant = torch.quantization.QuantStub()
        # DeQuantStub converts tensors from quantized to floating point.

        # This will only be used for outputs.

        self.dequant = torch.quantization.DeQuantStub()
        # FP32 model
        self.model_fp32 = model_fp32
    def forward(self, x):
        # manually specify where tensors will be converted from floating
        # point to quantized in the quantized model
        x = self.quant(x)
        #print(x)
        x = self.model_fp32(x)
        # manually specify where tensors will be converted from quantized
        # to floating point in the quantized model
        x = self.dequant(x)
        return x

#在正常模型训练代码流程中加入如下模型量化操作

#首先加载正常模型 model

#模型model量化
model = QAT_ASPNET_tpc(model_fp32=model)

#自定义量化配置
MovingAverageMinMaxObserver=torch.quantization.observer.MovingAverageMinMaxObserver
model.qconfig = torch.quantization.QConfig(activation=torch.quantization.fake_quantize.FakeQuantize.with_args(observer=MovingAverageMinMaxObserver,quant_min=-128, quant_max=127,dtype=torch.qint8, qscheme=torch.per_tensor_symmetric, reduce_range=False), weight=torch.quantization.fake_quantize.FakeQuantize.with_args(observer=MovingAverageMinMaxObserver,quant_min=-127, quant_max=127,dtype=torch.qint8, qscheme=torch.per_tensor_symmetric, reduce_range=False))

#也可以用官方默认的配置，有两种方式，fbgemm是per_channel的，qnnpack是逐层的
#model.qconfig = torch.quantization.get_default_qat_qconfig("fbgemm")
#model.qconfig = torch.quantization.get_default_qat_qconfig("qnnpack")

#自定义需要融合的层，cov+bn+relue 或 cov+bn， 或者不融合
torch.quantization.fuse_modules(model,[['model_fp32.features.0','model_fp32.features.1','model_fp32.features.2'],['model_fp32.features.4','model_fp32.features.5','model_fp32.features.6'],['model_fp32.features.8','model_fp32.features.9','model_fp32.features.10'],['model_fp32.features.12','model_fp32.features.13','model_fp32.features.14'],['model_fp32.features.16','model_fp32.features.17','model_fp32.features.18']], inplace=True)#融合层cov+bn+relu

#将原来的浮点模型，替换为插入了伪定点算子的新模型
torch.quantization.prepare_qat(model, inplace=True)

Original: https://blog.csdn.net/L888666Q/article/details/125681054
Author: L888666Q
Title: 量化感知训练QAT(Quantification Aware Training)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708697/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python—如何使用python遍历文件夹下的所有文件（输出所有文件夹以及文件）

算法思路：在Python中我们一般使用os模块来操作文件夹或文件，os为Python的内置模块，使用时直接导入即可：os模块中有许多方法，在这里需要使用的有listdir()&…

人工智能 2023年7月6日
0078
CV7 颜色追踪和图像阈值

一颜色追踪 HSV:H（hue）是色调，S（saturation)是饱和度，V（value）表示黑暗的程度因为在HSV中比在BGR颜色空间中更容易表示颜色，所以我们需要将BGR…

人工智能 2023年6月22日
0097
【深度学习】(2) Transformer 网络解析，代码复现，附Pytorch完整代码

大家好，今天和各位分享一下如何使用 Pytorch 构建 Transformer 模型。本文的重点在代码复现，部分知识点介绍的不多，我会在之后的四篇博文中详细介绍 Encoder…

人工智能 2023年7月22日
0092
014_SSS_High-Resolution Image Synthesis with Latent Diffusion Models

High-Resolution Image Synthesis with Latent Diffusion Models 1. Introduction 本文提出了在隐空间应用di…

人工智能 2023年7月26日
0068
鞍山紫光智能机器人_中译语通“全球翻译机器人”研究院落地紫光海阔昆明紫光芯云产业园…

近日，昆明公司和中译语通正式达成合作，”全球翻译机器人”研究院落地紫光海阔昆明紫光芯云产业园，打造新一代的自然语言处理和语义大数据平台的信息产业集群，同时…

人工智能 2023年6月1日
0076
MYSQL中ORDER BY（排序查询）

文章目录 0 写在前面 1 格式 2 SQL 准备 3 举例说明 * 3.1 单个字段：[NOT] 字段 ORDER BY 3.2 多个字段：[NOT] 字段 1,ORDER BY…

人工智能 2023年6月26日
0055
jupyter notebook上使用GPU运行程序

问题描述虽然jupyter上能后直接运行代码，但是默认是使用的cpu，我的电脑支持GPU，虽然也安装了tensorflow-gpu，但是运行的时候没有使用上。网上找了很多办法， …

人工智能 2023年5月23日
0094
将yolov5项目打包成exe可执行文件

在进行此项工作之前，原本计划是将yolov5项目部署到android，无奈水平不足，部署到手机后，存在很多的问题，效果太差了，所以退而求其次，将其打包成exe文件。直接白嫖一下别…

人工智能 2023年7月12日
0071
如何使用PyTorch进行模型训练

如何使用PyTorch进行模型训练在本文中，我们将详细介绍如何使用PyTorch进行模型训练。我们将涵盖算法原理、公式推导、计算步骤、复杂Python代码示例，并解释代码细节。 …

人工智能 2024年1月2日
0043
负对数似然（negative log-likehood, NLL）

目录 1. 似然 2. 最大似然估计 3. 对数似然 4. 负对数似然 5. 补充说明 Reference 1. 似然似然与概率不同。概率是指一个事件发生的可能性，描述的是对象…

人工智能 2023年7月21日
0097
今天教你快速查到英语原版书蓝思指数

先介绍一下蓝思指数（Lexile）蓝思分级阅读测评体系可以匹配读者的阅读能力和读物的难度等级，从而辅助教师、家长为孩子选择适合的读物。蓝思阅读测评体系是美国Metametircs…

人工智能 2023年6月1日
00245
学Java· 从new说对象实例化

概念了解想要知道内存中发生了什么，我们先来了解两个内存概念😊😉 1.堆内存：保存对象的属性内容。堆内存需要用new关键字来分配空间；2.栈内存：保存的是堆内存的地址（在这里为了分…

人工智能 2023年6月26日
0076
opencv 安装及配置

本文为旧版opencv配置方式，如是新版的，建议移步到该博客：https://blog.csdn.net/weixin_51965272/article/details/12448…

人工智能 2023年6月19日
0076
AI实现语音文字处理，PaddleSpeech项目安装使用 | 机器学习

目录前言环境安装 1、conda安装Python3.9虚拟环境 2、安装Visual Studio 2019 3、安装requirements.txt 4、安装paddlepa…

人工智能 2023年6月16日
00112
突然 Java 倒下了……

TIOBE 公布了 2022 年 12 月的编程语言排行榜。 Java 首次跌出前 3 名。除此之外，Kotlin 和 Julia 也越来越接近 Top 20。 TIOBE 将于下…

人工智能 2023年7月29日
0064
基于opencv的人脸识别

目录一、OpenCV的简介 1、应用场景二、人脸识别 1、人脸识别简介 2、人脸识别系统基本组成三、人脸识别流程四、主要代码注释 1、人脸采集函数 2、人脸训练函数 3、人…

人工智能 2023年6月17日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

量化感知训练QAT(Quantification Aware Training)

大家都在看