TextCNN文本分类（Pytorch实现）

2023年7月21日上午11:38 • 人工智能 • 阅读 83

使用textCNN进行文本分类

介绍论文的主要参数和意义

图中，句子的长度是7，每个字的维度是5，我们可以通过nn.Embedding(vocab_num, 5)可以构建；其次图中第二部分一共有6个矩阵，主要是分为3个块（卷积核），在代码中可构建一个类来表示；然后，得到卷积后的结果；接着通过最大池化层输出最大值；最后，进行拼接，进行分类。（下文会介绍具体变化过程）

读取数据和构建数据迭代器

读取数据

数据保存在txt文件中，其格式如下：

中华女子学院：本科层次仅1专业招男生  3
两天价网站背后重重迷雾：做个网站究竟要多少钱 4
东5环海棠公社230-290平2居准现房98折优惠  1
卡佩罗：告诉你德国脚生猛的原因 不希望英德战踢点球  7

def read_data(train_test, num=None):
    # num&#x7684;&#x610F;&#x4E49;&#x5728;&#x4E8E;&#x53EF;&#x4EE5;&#x9009;&#x62E9;&#x90E8;&#x5206;&#x6570;&#x636E;&#xFF0C;&#x8FDB;&#x884C;&#x5207;&#x5206;
    with open(os.path.join('..', 'data', train_test + '.txt'), 'r', encoding='utf-8') as f:
        all_data = f.read().split('\n')
    all_texts = []
    all_labels = []
    for data in all_data:

        if data:
            t, l = data.split('\t')
            all_texts.append(t)
            all_labels.append(l)
    if num is None:

        return all_texts, all_labels
    else:
        return all_texts[:num], all_labels[:num]

返回所有的文本和标签（ 在该数据集中，一共有10个类别）

构建word2index

def build_corpus(texts):
    word_2_index = {'UNK': 0, 'PAD': 1}
    for text in texts:
        for word in text:
            if word not in word_2_index:
                word_2_index[word] = len(word_2_index)
    return word_2_index, list(word_2_index)

构建数据迭代器

class TextDataset(Dataset):
    def __init__(self, all_texts, all_labels, word_2_index, max_len, ):
        self.all_texts = all_texts
        self.all_labels = all_labels
        self.word_2_index = word_2_index
        self.max_len = max_len

    def __getitem__(self, item):
        text = self.all_texts[item][:self.max_len]
        text_idx = [self.word_2_index.get(i, 0) for i in text]
        text_idx = text_idx + [1] * (self.max_len - len(text))
        label = int(self.all_labels[item])
        return torch.tensor(text_idx), torch.tensor(label)

    def __len__(self):
        return len(self.all_texts)

构建TextCNN模型的卷积部分

1、输入部分

self.cnn = nn.Conv2d(1, out_channel, kernel_size=(kernel_s, embed_num))

使用CNN时，文本类型的数据和图像类型的数据。在构建字向量的时候，我们会产生一个二维的矩阵（seq_len,embedding_dim），但是nn.Conv2d中，我们需要人为的设定，in_channels=1，所以在后续数据的处理过程中，我们需要加一个维度1，使其形状为（batch_size,1，max_len, embedding_dim）

如：

output = self.emb(batch_idx)
output = output.unsqueeze(dim=1)

2、卷积部分

self.cnn = nn.Conv2d(1, out_channel, kernel_size=(kernel_s, embed_num))

out_channel就是输出的通道数，也是卷积核的个数，在该论文中，卷积核的个数是2（我们也可以自己进行参数的改变）

例如：本文中维度是：7*5，通过卷积之后，获得2个（4*1，5*1，6*1）的矩阵，如何得来的？
第一个维度：4 = 7 - kernel_s + 1；5 = 7 - kernel_s + 1；6 = 7 - kernel_s + 1；
第二个维度：1 = 5 - embed_num + 1
所以，kernel_size=(kernel_s, embed_num)的第二个维度需要和词向量维度相同，才会输出最后结果为1维。

3、最大池化层（MaxPool1d）

MaxPool1d的输入输出，由下图可以看出，MaxPool1d主要是改变最后一维的大小。

self.maxp = nn.MaxPool1d(kernel_size=(max_lens - kernel_s + 1))

这里kernel_size是滑动窗口的大小

当卷积核大小为：45，得到输出为：41，此时， MaxPool1d(kernel_size=(max_lens – kernel_s + 1))—-kernel_size=(7 – 4 + 1=4)，也就是在 4*1的矩阵中，划出一个 窗口为4的内容，从中选取最大值。

在代码中，我们经过cnn卷积得到的维度是output.shape = torch.Size([1, 2, 6, 1])

但是，最大池化层我们需要2或者3个维度，所以，最后的1维去掉需要去掉

output1 = output.squeeze(3)
output2 = self.maxp(output1)

在最大池化之后，维度变成=== batch21，因为需要拼接，所以，需要将池化层维度进行改变

output2 = self.maxp(output1)
return output2.squeeze(dim=-1)  # 去掉1维的内容

4、cnn代码

class Block(nn.Module):
    def __init__(self, out_channel, max_lens, kernel_s, embed_num):
        super(Block, self).__init__()
        # &#x8FD9;&#x91CC;out_channel&#x662F;&#x5377;&#x79EF;&#x6838;&#x7684;&#x4E2A;&#x6570;
        self.cnn = nn.Conv2d(1, out_channel, kernel_size=(kernel_s, embed_num))
        self.act = nn.ReLU()
        self.maxp = nn.MaxPool1d(kernel_size=(max_lens - kernel_s + 1))

    def forward(self, emb):
        # emb.shape = torch.Size([1, 7, 5]),&#x6211;&#x4EEC;&#x9700;&#x8981;&#x52A0;&#x4E00;&#x4E2A;&#x7EF4;&#x5EA6;1&#xFF0C;&#x6765;&#x8FBE;&#x5230;&#x8F93;&#x5165;&#x901A;&#x9053;&#x8981;&#x6C42;
        output = self.cnn(emb)
        # output.shape = torch.Size([1, 2, 6, 1])
        output1 = self.act(output)
        # &#x6700;&#x5927;&#x6C60;&#x5316;&#x6211;&#x4EEC;2-3&#x4E2A;&#x7EF4;&#x5EA6;&#xFF0C;&#x6240;&#x4EE5;&#xFF0C;&#x6700;&#x540E;&#x7684;1&#x9700;&#x8981;&#x53BB;&#x6389;
        output1 = output1.squeeze(3)
        output2 = self.maxp(output1)
        return output2.squeeze(dim=-1)

构建TextCNN模型

1、完整代码

class TextCnnModel(nn.Module):
    def __init__(self, vocab_num, out_channel, max_lens, embed_num, class_num):
        super(TextCnnModel, self).__init__()
        self.emb = nn.Embedding(vocab_num, embed_num)
        self.block1 = Block(out_channel, max_lens, 2, embed_num)
        self.block2 = Block(out_channel, max_lens, 3, embed_num)
        self.block3 = Block(out_channel, max_lens, 4, embed_num)

        self.classifier = nn.Linear(3 * out_channel, class_num)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, batch_idx, batch_label=None):
        output = self.emb(batch_idx)
        output = output.unsqueeze(dim=1)
        b1 = self.block1(output)
        b2 = self.block2(output)
        b3 = self.block3(output)

        feature = torch.cat([b1, b2, b3], dim=1)

        pre = self.classifier(feature)

        if batch_label is not None:
            loss = self.loss_fn(pre, batch_label)
            return loss
        else:
            return torch.argmax(pre, dim=-1)

注意：

self.classifier = nn.Linear(3 * out_channel, class_num)

为什么是（ 3 * out_channel）？

先解释 3这个参数。是因为在论文中分别使用了三次卷积，在上面代码部分（构建TextCNN模型）中有b1-3 = self.block1-3(output)；如果你增加卷积块，那么就要改变这个参数！

再解释 out_channel这个参数。这个也就是你卷积核的个数，你有几个卷积核，就会有几个输出。在文中，卷积核的个数是2，那么每次输出的结果就会有2个矩阵

最后，将三个卷积块的结果拼接起来，就会得到（ 3 * out_channel）！

所以，分类器的参数为 nn.Linear(3 * out_channel, class_num)

class_num是分类的类别

完整代码

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, Dataset
from tqdm import tqdm
import os

&#x8BFB;&#x53D6;&#x6570;&#x636E;
def read_data(train_test, num=None):
    with open(os.path.join('..', 'data', train_test + '.txt'), 'r', encoding='utf-8') as f:
        all_data = f.read().split('\n')
    all_texts = []
    all_labels = []
    for data in all_data:

        if data:
            t, l = data.split('\t')
            all_texts.append(t)
            all_labels.append(l)
    if num is None:

        return all_texts, all_labels
    else:
        return all_texts[:num], all_labels[:num]

&#x6784;&#x5EFA;&#x8BCD;&#x7F16;&#x7801;
def build_corpus(texts):
    word_2_index = {'UNK': 0, 'PAD': 1}
    for text in texts:
        for word in text:
            if word not in word_2_index:
                word_2_index[word] = len(word_2_index)
    return word_2_index, list(word_2_index)

&#x6784;&#x5EFA;&#x6570;&#x636E;&#x7C7B;
class TextDataset(Dataset):
    def __init__(self, all_texts, all_labels, word_2_index, max_len, ):
        self.all_texts = all_texts
        self.all_labels = all_labels
        self.word_2_index = word_2_index
        self.max_len = max_len

    def __getitem__(self, item):
        text = self.all_texts[item][:self.max_len]
        text_idx = [self.word_2_index.get(i, 0) for i in text]
        text_idx = text_idx + [1] * (self.max_len - len(text))
        label = int(self.all_labels[item])
        return torch.tensor(text_idx), torch.tensor(label)

    def __len__(self):
        return len(self.all_texts)

&#x6784;&#x5EFA;&#x6A21;&#x578B;
class Block(nn.Module):
    def __init__(self, out_channel, max_lens, kernel_s, embed_num):
        super(Block, self).__init__()
        # &#x8FD9;&#x91CC;out_channel&#x662F;&#x5377;&#x79EF;&#x6838;&#x7684;&#x4E2A;&#x6570;
        self.cnn = nn.Conv2d(1, out_channel, kernel_size=(kernel_s, embed_num))
        self.act = nn.ReLU()
        self.maxp = nn.MaxPool1d(kernel_size=(max_lens - kernel_s + 1))

    def forward(self, emb):
        # emb.shape = torch.Size([1, 7, 5]),&#x6211;&#x4EEC;&#x9700;&#x8981;&#x52A0;&#x4E00;&#x4E2A;&#x7EF4;&#x5EA6;1&#xFF0C;&#x6765;&#x8FBE;&#x5230;&#x8F93;&#x5165;&#x901A;&#x9053;&#x8981;&#x6C42;
        output = self.cnn(emb)
        # output.shape = torch.Size([1, 2, 6, 1])
        output1 = self.act(output)
        # &#x6700;&#x5927;&#x6C60;&#x5316;&#x6211;&#x4EEC;2-3&#x4E2A;&#x7EF4;&#x5EA6;&#xFF0C;&#x6240;&#x4EE5;&#xFF0C;&#x6700;&#x540E;&#x7684;1&#x9700;&#x8981;&#x53BB;&#x6389;
        output1 = output1.squeeze(3)
        output2 = self.maxp(output1)
        return output2.squeeze(dim=-1)

class TextCnnModel(nn.Module):
    def __init__(self, vocab_num, out_channel, max_lens, embed_num, class_num):
        super(TextCnnModel, self).__init__()
        self.emb = nn.Embedding(vocab_num, embed_num)
        self.block1 = Block(out_channel, max_lens, 2, embed_num)
        self.block2 = Block(out_channel, max_lens, 3, embed_num)
        self.block3 = Block(out_channel, max_lens, 4, embed_num)

        self.classifier = nn.Linear(3 * out_channel, class_num)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, batch_idx, batch_label=None):
        output = self.emb(batch_idx)
        output = output.unsqueeze(dim=1)
        b1 = self.block1(output)
        b2 = self.block2(output)
        b3 = self.block3(output)

        feature = torch.cat([b1, b2, b3], dim=1)

        pre = self.classifier(feature)

        if batch_label is not None:
            loss = self.loss_fn(pre, batch_label)
            return loss
        else:
            return torch.argmax(pre, dim=-1)

if __name__ == '__main__':
    train_text, train_label = read_data('train')
    dev_text, dev_label = read_data('dev')
    word_2_index, _ = build_corpus(train_text)

    batch_size = 32
    max_len = 32
    epochs = 10
    out_channel = 2
    embed_num = 50
    lr = 2e-3

    device = 'cuda' if torch.cuda.is_available() else 'cpu'

    train_set = TextDataset(train_text, train_label, word_2_index, max_len)
    train_loader = DataLoader(train_set, batch_size)

    dev_set = TextDataset(dev_text, dev_label, word_2_index, max_len)
    dev_loader = DataLoader(dev_set, batch_size)

    model = TextCnnModel(len(word_2_index), out_channel, max_len, embed_num, len(set(train_label))).to(device)
    optimizer = torch.optim.AdamW(model.parameters(), lr)

    for e in range(epochs):
        model.train()
        for batch_idx, batch_label in tqdm(train_loader):
            loss = model(batch_idx.to(device), batch_label.to(device))
            loss.backward()
            optimizer.step()
            optimizer.zero_grad()
        print(f'epoch:{e},loss={loss:.3f}')

        model.eval()
        right_num = 0
        for batch_idx, batch_label in tqdm(dev_loader):
            pre = model(batch_idx.to(device))
            batch_label = batch_label.to(device)
            right_num += torch.sum(pre==batch_label)
        print(f'acc = {right_num/len(dev_text)*100:.3f}%')

Original: https://blog.csdn.net/hellozhangxians/article/details/126329546
Author: HELLO-Zhang先森
Title: TextCNN文本分类（Pytorch实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706960/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

精心整理了40个Python办公自动化真实案例，一口一个，高效办公！

01 导读大家好，我是早起。自从去年4月发布第一篇Python办公自动化系列文章以来，目前已经马不停蹄的更新了近四十个真实办公场景案例，全网累计阅读超20W+，内容涵盖Pyt…

人工智能 2023年6月11日
00241
高斯过程回归python_GPR(高斯过程回归)详细推导

GPR(高斯过程回归)详细推导一、综述 GPR来源于线性模型，有两种方式可以推导出GPR，一种是weight space view,另外一种是function space vie…

人工智能 2023年6月17日
00169
AttributeError: module ‘cv2.cv2‘ has no attribute ‘face‘

AttributeError: module ‘cv2.cv2’ has no attribute ‘face’解决方案今天运行一…

人工智能 2023年7月5日
0093
PyTorch中如何读取数据（Dataset类的使用）

在pytorch中如何读取数据主要有两个类。分别是Dataset和Dataloader。dataset可以理解为：提供一种方式去获取数据及其label(标签)。可以实现（1）如何…

人工智能 2023年6月17日
00107
【教学】图像分类算法中的召回率recall、精准率precision和f1score得分等计算。

首先我们来介绍一下这些名称的含义。 TP: 预测为1(Positive)，实际也为1(Truth-预测对了) TN: 预测为0(Negative)，实际也为0(Truth-预测对了…

人工智能 2023年7月3日
0076
Python笔记（商业数据分析）

Python课程 * – Python数据导入 – + 1、csv格式文件导入 + 2、Excel格式文件导入 + 3、txt格式文件导入* Pandas*…

人工智能 2023年7月7日
00154
安科瑞配电室环境监控系统解决方案-Susie 周

1、概述配电室综合监控系统包括智能监控系统屏、通讯管理机、UPS电源、视频监控子系统（云台球机、枪机）、环境监测子系统（温度、湿度、水浸、烟感）、控制子系统（灯光、空调、除湿机、…

人工智能 2023年7月31日
0086
pandas DataFrame多行，上行下行相互比较 2行比较

Lx A Ratioupper 0.6 0.36 0.00value 0.6 0.36 0.00lower 0.9 0.81 0.85 upper是上限，lower是下限，找出va…

人工智能 2023年7月8日
0095
【Matlab】一键Matlab代码转python代码详细教程

Motivation 博主最近在看的一篇做biomedical image SR的论文，其对数据的预处理用matlab做的…要在集群上跑的话还要重新配环境装matlab…

人工智能 2023年7月5日
0081
PHP之旅——出发（php+apache+MySQL）

目录前言准备 * php安装 Apache安装 MySQL安装 Navicat安装(附) Apache+php整合验证Apache+php ; 前言本文详细介绍php+ap…

人工智能 2023年7月30日
0073
树莓派实现语音识别

目录一、LDV7 语音识别模块 * 1、在LDchip.c文件里添加或修改关键字 2、在mian.c程序里修改处理函数二、树莓派串口识别程序：三、LDV7 语音识别模块接线方…

人工智能 2023年5月25日
00131
[语音分离论文小记]Dual-Path RNN (DPRNN)

模型结构 DPRNN的组成部分：分割，块处理和重叠相加。分割阶段将顺序输入分割为重叠的块，并将所有块连接为一个3-D张量。然后将张量传递到堆叠的DPRNN块，以交替方式迭代应…

人工智能 2023年5月23日
0085
死磕JAVA10余年，呕心整理出了核心知识点已经做成PDF，无私奉献

前言：想在面试、工作中脱颖而出？想在最短的时间内快速掌握 Java 的核心基础知识点？想要成为一位优秀的 Java 工程师？本篇文章能助你一臂之力！目前正值招聘求职旺季，很多同…

人工智能 2023年7月29日
0072
目标检测—基于Yolov5的目标检测项目（学习笔记）

今天学习了炮哥带你学的yolov5入门教程，并成功的训练出了模型，原博客地址：目标检测—教你利用yolov5训练自己的目标检测模型本文主要讲述了在 Windows10环境下复现此…

人工智能 2023年6月17日
00113
利用python在剪贴板上读取/写入数据

读取剪贴板上的数据先给大家介绍 pandas.read_clipboard，从剪贴板读取文本并传递到Read_csv。 pandas.read_clipboard(sep=’\\…

人工智能 2023年7月6日
0097
【数据增强】—- 使用 Pytorch 裁剪图片并保存

文章目录概述实现方式项目结构及代码输出结果补充对文件夹里的所有图片批量裁剪概述最近需要制作一个数据集，由于数据集的数量不够，而这些数据集中的单张照片很大，因此可以通…

人工智能 2023年7月21日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31