改进YOLOv7系列：28.YOLOv7 结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

2023年6月13日上午12:18 • 人工智能 • 阅读 87

🔥🔥🔥YOLO系列 + Swin Transformer V2结构结合应用为 `CSDN芒果汁没有芒果` 首发更新博文

Swin Transformer论文

改进YOLOv7系列：28.YOLOv7 结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

该论文作者提出了缩放 Swin Transformer 的技术多达 30 亿个参数，使其能够使用多达 1,536 个图像进行训练1,536 分辨率。通过扩大容量和分辨率，Swin Transformer 在四个具有代表性的视觉基准上创造了新记录：ImageNet-V2 图像分类的84.0% top-1 准确率，COCO 对象检测的63.1 / 54.4 box / mask mAP，ADE20K 语义分割的59.9 mIoU，和86.8%Kinetics-400 视频动作分类的前 1 准确率。我们的技术通常适用于扩大视觉模型，但尚未像 NLP 语言模型那样被广泛探索，部分原因是在训练和应用方面存在以下困难：1）视觉模型经常面临大规模的不稳定性问题和 2）许多下游视觉任务需要高分辨率图像或窗口，目前尚不清楚如何有效地将低分辨率预训练的模型转移到更高分辨率的模型。当图像分辨率很高时，GPU 内存消耗也是一个问题。为了解决这些问题，我们提出了几种技术，并通过使用 Swin Transformer 作为案例研究来说明：1）后归一化技术和缩放余弦注意方法，以提高大型视觉模型的稳定性；2) 一种对数间隔的连续位置偏差技术，可有效地将在低分辨率图像和窗口上预训练的模型转移到其更高分辨率的对应物上。此外，我们分享了我们的关键实现细节，这些细节可以显着节省 GPU 内存消耗，从而使使用常规 GPU 训练大型视觉模型变得可行。使用这些技术和自我监督的预训练，我们成功训练了一个强大的 30 亿个 Swin Transformer 模型，并有效地将其转移到涉及高分辨率图像或窗口的各种视觉任务中，在各种的基准。代码将在我们分享了我们的关键实现细节，这些细节可以显着节省 GPU 内存消耗，从而使使用常规 GPU 训练大型视觉模型变得可行。使用这些技术和自我监督的预训练，我们成功训练了一个强大的 30 亿个 Swin Transformer 模型，并有效地将其转移到涉及高分辨率图像或窗口的各种视觉任务中，在各种的基准。代码将在我们分享了我们的关键实现细节，这些细节可以显着节省 GPU 内存消耗，从而使使用常规 GPU 训练大型视觉模型变得可行。使用这些技术和自我监督的预训练，我们成功训练了一个强大的 30 亿个 Swin Transformer 模型，并有效地将其转移到涉及高分辨率图像或窗口的各种视觉任务中，在各种的基准。代码将在我们成功训练了一个强大的 30 亿个 Swin Transformer 模型，并将其有效地转移到涉及高分辨率图像或窗口的各种视觉任务中，在各种基准测试中达到了最先进的精度。代码将在我们成功训练了一个强大的 30 亿个 Swin Transformer 模型，并将其有效地转移到涉及高分辨率图像或窗口的各种视觉任务中，在各种基准测试中达到了最先进的精度。

; YOLOv7结合Swin Transformer-V2 演示教程

YOLOv7的yaml配置文件

首先增加以下yolov7_swin_transfomrer.yaml文件


nc: 80
depth_multiple: 0.33
width_multiple: 1.0

anchors:
  - [12,16, 19,36, 40,28]
  - [36,75, 76,55, 72,146]
  - [142,110, 192,243, 459,401]

backbone:

  [[-1, 1, Conv, [32, 3, 1]],
   [-1, 1, Conv, [64, 3, 2]],
   [-1, 1, Conv, [64, 3, 1]],
   [-1, 1, Conv, [128, 3, 2]],
   [-1, 1, SwinV2_CSPB, [128, 128]],
   [-1, 1, Conv, [256, 3, 2]],
   [-1, 1, MP, []],
   [-1, 1, Conv, [128, 1, 1]],
   [-3, 1, Conv, [128, 1, 1]],
   [-1, 1, Conv, [128, 3, 2]],
   [[-1, -3], 1, Concat, [1]],
   [-1, 1, Conv, [128, 1, 1]],
   [-2, 1, Conv, [128, 1, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [-1, 1, Conv, [128, 3, 1]],
   [[-1, -3, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [512, 1, 1]],
   [-1, 1, MP, []],
   [-1, 1, Conv, [256, 1, 1]],
   [-3, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 2]],
   [[-1, -3], 1, Concat, [1]],
   [-1, 1, Conv, [256, 1, 1]],
   [-2, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [-1, 1, Conv, [256, 3, 1]],
   [[-1, -3, -5, -6], 1, Concat, [1]],
   [-1, 1, Conv, [1024, 1, 1]],
   [-1, 1, MP, []],
   [-1, 1, Conv, [512, 1, 1]],
   [-3, 1, Conv, [512, 1, 1]],
   [-1, 1, Conv, [512, 3, 2]],
   [[-1, -3], 1, Concat, [1]],
   [-1, 1, SwinV2_CSPB, [1024, 1024]],
   [-1, 1, Conv, [256, 3, 1]],
  ]

head:
  [[-1, 1, SPPCSPC, [512]],
   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [31, 1, Conv, [256, 1, 1]],
   [[-1, -2], 1, Concat, [1]],
   [-1, 1, C3, [128]],
   [-1, 1, Conv, [128, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [18, 1, Conv, [128, 1, 1]],
   [[-1, -2], 1, Concat, [1]],
   [-1, 1, C3, [128]],
   [-1, 1, MP, []],
   [-1, 1, Conv, [128, 1, 1]],
   [-3, 1, Conv, [128, 1, 1]],
   [-1, 1, Conv, [128, 3, 2]],
   [[-1, -3, 44], 1, Concat, [1]],
   [-1, 1, C3, [256]],
   [-1, 1, MP, []],
   [-1, 1, Conv, [256, 1, 1]],
   [-3, 1, Conv, [256, 1, 1]],
   [-1, 1, Conv, [256, 3, 2]],
   [[-1, -3, 39], 1, Concat, [1]],
   [-1, 3, C3, [512]],

   [49, 1, RepConv, [256, 3, 1]],
   [55, 1, RepConv, [512, 3, 1]],
   [61, 1, RepConv, [1024, 3, 1]],

   [[62,63,64], 1, IDetect, [nc, anchors]],
  ]

common.py配置

在./models/common.py文件中增加以下模块，直接复制即可

class WindowAttention_v2(nn.Module):

    def __init__(self, dim, window_size, num_heads, qkv_bias=True, attn_drop=0., proj_drop=0.,
                 pretrained_window_size=[0, 0]):

        super().__init__()
        self.dim = dim
        self.window_size = window_size
        self.pretrained_window_size = pretrained_window_size
        self.num_heads = num_heads

        self.logit_scale = nn.Parameter(torch.log(10 * torch.ones((num_heads, 1, 1))), requires_grad=True)

        self.cpb_mlp = nn.Sequential(nn.Linear(2, 512, bias=True),
                                     nn.ReLU(inplace=True),
                                     nn.Linear(512, num_heads, bias=False))

        relative_coords_h = torch.arange(-(self.window_size[0] - 1), self.window_size[0], dtype=torch.float32)
        relative_coords_w = torch.arange(-(self.window_size[1] - 1), self.window_size[1], dtype=torch.float32)
        relative_coords_table = torch.stack(
            torch.meshgrid([relative_coords_h,
                            relative_coords_w])).permute(1, 2, 0).contiguous().unsqueeze(0)
        if pretrained_window_size[0] > 0:
            relative_coords_table[:, :, :, 0] /= (pretrained_window_size[0] - 1)
            relative_coords_table[:, :, :, 1] /= (pretrained_window_size[1] - 1)
        else:
            relative_coords_table[:, :, :, 0] /= (self.window_size[0] - 1)
            relative_coords_table[:, :, :, 1] /= (self.window_size[1] - 1)
        relative_coords_table *= 8
        relative_coords_table = torch.sign(relative_coords_table) * torch.log2(
            torch.abs(relative_coords_table) + 1.0) / np.log2(8)

        self.register_buffer("relative_coords_table", relative_coords_table)

        coords_h = torch.arange(self.window_size[0])
        coords_w = torch.arange(self.window_size[1])
        coords = torch.stack(torch.meshgrid([coords_h, coords_w]))
        coords_flatten = torch.flatten(coords, 1)
        relative_coords = coords_flatten[:, :, None] - coords_flatten[:, None, :]
        relative_coords = relative_coords.permute(1, 2, 0).contiguous()
        relative_coords[:, :, 0] += self.window_size[0] - 1
        relative_coords[:, :, 1] += self.window_size[1] - 1
        relative_coords[:, :, 0] *= 2 * self.window_size[1] - 1
        relative_position_index = relative_coords.sum(-1)
        self.register_buffer("relative_position_index", relative_position_index)

        self.qkv = nn.Linear(dim, dim * 3, bias=False)
        if qkv_bias:
            self.q_bias = nn.Parameter(torch.zeros(dim))
            self.v_bias = nn.Parameter(torch.zeros(dim))
        else:
            self.q_bias = None
            self.v_bias = None
        self.attn_drop = nn.Dropout(attn_drop)
        self.proj = nn.Linear(dim, dim)
        self.proj_drop = nn.Dropout(proj_drop)
        self.softmax = nn.Softmax(dim=-1)

    def forward(self, x, mask=None):

        B_, N, C = x.shape
        qkv_bias = None
        if self.q_bias is not None:
            qkv_bias = torch.cat((self.q_bias, torch.zeros_like(self.v_bias, requires_grad=False), self.v_bias))
        qkv = F.linear(input=x, weight=self.qkv.weight, bias=qkv_bias)
        qkv = qkv.reshape(B_, N, 3, self.num_heads, -1).permute(2, 0, 3, 1, 4)
        q, k, v = qkv[0], qkv[1], qkv[2]

        attn = (F.normalize(q, dim=-1) @ F.normalize(k, dim=-1).transpose(-2, -1))
        logit_scale = torch.clamp(self.logit_scale, max=torch.log(torch.tensor(1. / 0.01))).exp()
        attn = attn * logit_scale

        relative_position_bias_table = self.cpb_mlp(self.relative_coords_table).view(-1, self.num_heads)
        relative_position_bias = relative_position_bias_table[self.relative_position_index.view(-1)].view(
            self.window_size[0] * self.window_size[1], self.window_size[0] * self.window_size[1], -1)
        relative_position_bias = relative_position_bias.permute(2, 0, 1).contiguous()
        relative_position_bias = 16 * torch.sigmoid(relative_position_bias)
        attn = attn + relative_position_bias.unsqueeze(0)

        if mask is not None:
            nW = mask.shape[0]
            attn = attn.view(B_ // nW, nW, self.num_heads, N, N) + mask.unsqueeze(1).unsqueeze(0)
            attn = attn.view(-1, self.num_heads, N, N)
            attn = self.softmax(attn)
        else:
            attn = self.softmax(attn)

        attn = self.attn_drop(attn)

        try:
            x = (attn @ v).transpose(1, 2).reshape(B_, N, C)
        except:
            x = (attn.half() @ v).transpose(1, 2).reshape(B_, N, C)

        x = self.proj(x)
        x = self.proj_drop(x)
        return x

    def extra_repr(self) -> str:
        return f'dim={self.dim}, window_size={self.window_size}, ' \
               f'pretrained_window_size={self.pretrained_window_size}, num_heads={self.num_heads}'

    def flops(self, N):

        flops = 0

        flops += N * self.dim * 3 * self.dim

        flops += self.num_heads * N * (self.dim // self.num_heads) * N

        flops += self.num_heads * N * N * (self.dim // self.num_heads)

        flops += N * self.dim * self.dim
        return flops

class Mlp_v2(nn.Module):
    def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.SiLU, drop=0.):
        super().__init__()
        out_features = out_features or in_features
        hidden_features = hidden_features or in_features
        self.fc1 = nn.Linear(in_features, hidden_features)
        self.act = act_layer()
        self.fc2 = nn.Linear(hidden_features, out_features)
        self.drop = nn.Dropout(drop)

    def forward(self, x):
        x = self.fc1(x)
        x = self.act(x)
        x = self.drop(x)
        x = self.fc2(x)
        x = self.drop(x)
        return x

class SwinTransformerLayer_v2(nn.Module):

    def __init__(self, dim, num_heads, window_size=7, shift_size=0,
                 mlp_ratio=4., qkv_bias=True, drop=0., attn_drop=0., drop_path=0.,
                 act_layer=nn.SiLU, norm_layer=nn.LayerNorm, pretrained_window_size=0):
        super().__init__()
        self.dim = dim

        self.num_heads = num_heads
        self.window_size = window_size
        self.shift_size = shift_size
        self.mlp_ratio = mlp_ratio

        assert 0  self.shift_size < self.window_size, "shift_size must in 0-window_size"

        self.norm1 = norm_layer(dim)
        self.attn = WindowAttention_v2(
            dim, window_size=(self.window_size, self.window_size), num_heads=num_heads,
            qkv_bias=qkv_bias, attn_drop=attn_drop, proj_drop=drop,
            pretrained_window_size=(pretrained_window_size, pretrained_window_size))

        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()
        self.norm2 = norm_layer(dim)
        mlp_hidden_dim = int(dim * mlp_ratio)
        self.mlp = Mlp_v2(in_features=dim, hidden_features=mlp_hidden_dim, act_layer=act_layer, drop=drop)

    def create_mask(self, H, W):

        img_mask = torch.zeros((1, H, W, 1))
        h_slices = (slice(0, -self.window_size),
                    slice(-self.window_size, -self.shift_size),
                    slice(-self.shift_size, None))
        w_slices = (slice(0, -self.window_size),
                    slice(-self.window_size, -self.shift_size),
                    slice(-self.shift_size, None))
        cnt = 0
        for h in h_slices:
            for w in w_slices:
                img_mask[:, h, w, :] = cnt
                cnt += 1

        mask_windows = window_partition(img_mask, self.window_size)
        mask_windows = mask_windows.view(-1, self.window_size * self.window_size)
        attn_mask = mask_windows.unsqueeze(1) - mask_windows.unsqueeze(2)
        attn_mask = attn_mask.masked_fill(attn_mask != 0, float(-100.0)).masked_fill(attn_mask == 0, float(0.0))

        return attn_mask

    def forward(self, x):

        _, _, H_, W_ = x.shape

        Padding = False
        if min(H_, W_) < self.window_size or H_ % self.window_size!=0 or W_ % self.window_size!=0:
            Padding = True

            pad_r = (self.window_size - W_ % self.window_size) % self.window_size
            pad_b = (self.window_size - H_ % self.window_size) % self.window_size
            x = F.pad(x, (0, pad_r, 0, pad_b))

        B, C, H, W = x.shape
        L = H * W
        x = x.permute(0, 2, 3, 1).contiguous().view(B, L, C)

        if self.shift_size > 0:
            attn_mask = self.create_mask(H, W).to(x.device)
        else:
            attn_mask = None

        shortcut = x
        x = x.view(B, H, W, C)

        if self.shift_size > 0:
            shifted_x = torch.roll(x, shifts=(-self.shift_size, -self.shift_size), dims=(1, 2))
        else:
            shifted_x = x

        x_windows = window_partition_v2(shifted_x, self.window_size)
        x_windows = x_windows.view(-1, self.window_size * self.window_size, C)

        attn_windows = self.attn(x_windows, mask=attn_mask)

        attn_windows = attn_windows.view(-1, self.window_size, self.window_size, C)
        shifted_x = window_reverse_v2(attn_windows, self.window_size, H, W)

        if self.shift_size > 0:
            x = torch.roll(shifted_x, shifts=(self.shift_size, self.shift_size), dims=(1, 2))
        else:
            x = shifted_x
        x = x.view(B, H * W, C)
        x = shortcut + self.drop_path(self.norm1(x))

        x = x + self.drop_path(self.norm2(self.mlp(x)))
        x = x.permute(0, 2, 1).contiguous().view(-1, C, H, W)

        if Padding:
            x = x[:, :, :H_, :W_]

        return x

    def extra_repr(self) -> str:
        return f"dim={self.dim}, input_resolution={self.input_resolution}, num_heads={self.num_heads}, " \
               f"window_size={self.window_size}, shift_size={self.shift_size}, mlp_ratio={self.mlp_ratio}"

    def flops(self):
        flops = 0
        H, W = self.input_resolution

        flops += self.dim * H * W

        nW = H * W / self.window_size / self.window_size
        flops += nW * self.attn.flops(self.window_size * self.window_size)

        flops += 2 * H * W * self.dim * self.dim * self.mlp_ratio

        flops += self.dim * H * W
        return flops

class SwinTransformer2Block(nn.Module):
    def __init__(self, c1, c2, num_heads, num_layers, window_size=7):
        super().__init__()
        self.conv = None
        if c1 != c2:
            self.conv = Conv(c1, c2)

        self.blocks = nn.Sequential(*[SwinTransformerLayer_v2(dim=c2, num_heads=num_heads, window_size=window_size,
                                 shift_size=0 if (i % 2 == 0) else window_size // 2) for i in range(num_layers)])

    def forward(self, x):
        if self.conv is not None:
            x = self.conv(x)
        x = self.blocks(x)
        return x

class SwinV2_CSPB(nn.Module):

    def __init__(self, c1, c2, n=1, shortcut=False, g=1, e=0.5):
        super(SwinV2_CSPB, self).__init__()
        c_ = int(c2)
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1, 1)
        num_heads = c_ // 32
        self.m = SwinTransformer2Block(c_, c_, num_heads, n)

    def forward(self, x):
        x1 = self.cv1(x)
        y1 = self.m(x1)
        y2 = self.cv2(x1)
        return self.cv3(torch.cat((y1, y2), dim=1))

训练yolov7_swin_transfomrer-V2模型

python train.py --cfg yolov7_swin_transfomrer-V2.yaml

Original: https://blog.csdn.net/qq_38668236/article/details/126735304
Author: 芒果汁没有芒果
Title: 改进YOLOv7系列：28.YOLOv7 结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/605822/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

matlab书籍（数学建模，信号处理，智能优化，统计分析）

matlab相关的书籍资料，包括基础入门的学习，数学建模，信号处理，智能优化，统计分析等等，部分书籍有matlab源码，需要的朋友可以看看。 matlab入门资料分享及学习网站…

人工智能 2023年6月18日
0094
pyecharts的各个系列配置项设置示例——个人整理与分享

由于在使用pyecharts时我们有很多对图表的配置项设置需要用到全局配置项和系列配置项，因此在对pyecharts的图表进行介绍之前先进行个人在pyecharts官网对系列配置项…

人工智能 2023年7月15日
00109
批量修改图片的尺寸，MATLAB操作，上手简单，保证能用

把某文件夹下（可以下设数个子文件夹）一些大小不一的图像修改为统一的尺寸，然后保存到指定的新文件夹，记录整个程序跑完的时间，matlab操作，上手简单，保证一学就会对文件夹下的图片…

人工智能 2023年6月22日
0083
机器学习之信用卡欺诈检测

机器学习之信用卡欺诈检测一、机器学习之信用卡欺诈检测 * 1.1 前言 1.2 案例分析 – 1.2.1 导入所需模块到 python 环境 1.2.2 读取数据，删…

人工智能 2023年7月28日
0071
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总

在最新的视觉顶会CVPR2022会议中，涌现出了大量基于生成对抗网络GAN的论文，广泛应用于各类视觉任务；下述论文已分类打包好！后台回复 CVPR2022（长按红字、选中复制）获…

人工智能 2023年7月27日
0052
数据科学必备用Python进行描述性统计数据分析详解

在大数据和人工智能时代，数据科学和机器学习在许多科技领域都变得必不可少。处理数据的一个必要方面是能够直观地描述、总结和表示数据。Python 统计库是全面、流行且广泛使用的工具，可…

人工智能 2023年6月11日
0094
【swinUnet官方代码测试自己的数据集（已训练完毕）】

码字不易，收藏之余，别忘了给我点个赞吧！ ———Start 首先参考上一篇的训练过程，因为测试需要用到训练获得的权重。 1、检查相关文件 1.1…

人工智能 2023年5月26日
00112
深度学习中一些注意力机制的介绍以及pytorch代码实现

文章目录前言注意力机制 * 软注意力机制 – 代码实现硬注意力机制多头注意力机制 – 代码实现参考前言因为最近看论文发现同一个模型用了不同的注…

人工智能 2023年7月26日
0059
[PyTorch] 加载部分模型权重

在实际使用中，我们通常希望有一个预训练模型帮助加速训练，如果使用原生的模型，直接使用加载即可。但我们经常会根据不同的任务要求进行backbone的修改，此时直接加载预训练模型就会出…

人工智能 2023年7月23日
0090
GANs系列：CGAN(条件GAN）原理简介以及项目代码实现

一、原始GAN的缺点生成的图像是随机的，不可预测的，无法控制网络输出特定的图片，生成目标不明确，可控性不强。针对原始GAN不能生成具有特定属性的图片的问题， Mehdi Mirz…

人工智能 2023年6月23日
00162
Mac M1的PyCharm中安装TensorFlow与创建工程的方法（支持GPU）

本文介绍在Mac M1的PyCharm中安装TensorFlow与创建工程的方法，在2021的MacBook Pro （M1 Pro处理器）验证OK。安装TensorFlow与创…

人工智能 2023年5月25日
0091
基于MNIST数据集的CNN搭建与应用

提示：考研复试结束后，想具体学习一下CNN的搭建与应用，特意写下此篇文章来加深理解与应用，希望与csdn博客的同学一同学习与交流。文章目录前言一、CNN是什么？ * 1.个人…

人工智能 2023年7月14日
0060
双十一到了，当我用Python采集了电商平台所有商品后发现….

Python采集电商平台写在前面环境及模块案例实现思路代码展示效果展示最后写在前面这不是双十一快到了，为了以最优惠的价格买到自己想买的商品，我不惜用Python把y…

人工智能 2023年7月3日
0092
Pytorch应用训练好的模型

保存训练好的模型有两种方式，第一种保存模型结构且保存模型参数，第一种方式存在一种陷阱，也就是每次加载模型都得把类定义，或者访问类所在的包。保存方式为： torch.save(模型名…

人工智能 2023年6月16日
0070
4.2 人工智能产业岗位分布

4.2 人工智能产业岗位分布人工智能技术架构自底向上依次为基础层、技术层和应用层人工智能产业人才结构4层金字塔：源头创新人才产业研发人才应用开发人才实用技能人才智能芯…

人工智能 2023年5月28日
0088
python入门基础

作者介绍: 作者:小刘在C站每天分享课堂笔记，一起努力，共赴美好人生！夕阳下，在最美的绽放。目录一.python是什么? 二.为什么使用python 1、软件质量 2、提高开发…

人工智能 2023年7月6日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

改进YOLOv7系列：28.YOLOv7 结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

🔥🔥🔥YOLO系列 + Swin Transformer V2结构 结合应用 为 CSDN&#x8292;&#x679C;&#x6C41;&#x6CA1;&#x6709;&#x8292;&#x679C; 首发更新博文

最新创新点改进推荐

文章目录

Swin Transformer论文

; YOLOv7结合Swin Transformer-V2 演示教程

大家都在看

🔥🔥🔥YOLO系列 + Swin Transformer V2结构结合应用为 `CSDN芒果汁没有芒果` 首发更新博文