基于CNN中文文本分类实战

2023年5月30日下午8:17 • 人工智能 • 阅读 85

一.前言

之前写过一篇基于循环神经网络（RNN）的情感分类文章，这次我们换种思路，采用卷积神经网络（CNN）来进行文本分类任务。倘若对CNN如何在文本上进行卷积的可以移步博主的快速入门CNN在NLP中的使用一文。话不多说，直接上干货。

二.数据集

2.1 数据集介绍

本次实验的数据集来源于Github上一个2.4k星的中文NLP开源数据集项目CLUEbenchmark（官方地址），本文选择的是其中的文本分类数据集waimai_10k。该数据集某外卖平台收集的用户评价，正向 4000 条，负向7987条，下面展示该数据集中的部分数据

1,&#x4E0D;&#x9519;&#xFF0C;&#x5C31;&#x662F;&#x9910;&#x76D2;&#x8D35;
1,&#x706B;&#x70E7;&#x5939;&#x8089;&#x597D;&#x54B8;&#x554A;&#xFF01;&#x6CA1;&#x6CD5;&#x5403;&#x3002;&#x5176;&#x4ED6;&#x8FD8;&#x884C;
1,"&#x5473;&#x9053;&#x4E0D;&#x9519;,&#x914D;&#x9001;&#x901F;&#x5EA6;&#x6BD4;&#x9884;&#x8BA1;&#x5FEB;"
0,&#x83DC;&#x54C1;&#x8D28;&#x91CF;&#x597D;&#xFF0C;&#x5473;&#x9053;&#x597D;&#xFF0C;&#x5C31;&#x662F;&#x767E;&#x5EA6;&#x7684;&#x95EE;&#x9898;&#xFF0C;&#x603B;&#x662F;&#x7528;&#x8FD0;&#x529B;&#x539F;&#x56E0;&#x6765;&#x89E3;&#x91CA;&#xFF0C;&#x6211;&#x4E5F;&#x4E0D;&#x61C2;&#x8FD9;&#x662F;&#x4EC0;&#x4E48;&#x539F;&#x56E0;&#xFF0C;&#x665A;&#x4E86;&#x4E09;&#x4E2A;&#x5C0F;&#x65F6;&#x5475;&#x5475;&#x5389;&#x5BB3;&#x5427;&#xFF01;&#x53CD;&#x6B63;&#x8BA2;&#x4E86;&#x5C31;&#x9000;&#x4E0D;&#x4E86;&#xFF0C;&#x53EA;&#x80FD;&#x5E72;&#x7B49;&#x2026;&#x2026;
0,&#x5206;&#x91CF;&#x8FD8;&#x53EF;&#x4EE5;&#x2026;&#x2026;&#x5C31;&#x662F;&#x6709;&#x70B9;&#x6CA1;&#x7279;&#x8272;&#x2026;&#x2026;&#x4E0B;&#x56DE;&#x4E0D;&#x5403;&#x5566;
0,&#x6CA1;&#x4EC0;&#x4E48;&#x5473;&#x9053;&#xFF0C;&#x9001;&#x6765;&#x7684;&#x665A;&#x51C9;&#x4E86;

2.2 数据集预处理

2.2.1 数据集划分

步骤一：把数据集划分为训练集、验证集和测试集，划分比例为6:2:2。

def split(data):
"""
    划分训练集、验证集和测试集：6:2:2
"""
    data_size = data.shape[0]
    indices = np.arange(data_size)
    np.random.shuffle(indices)
    train_size, valid_size = int(data_size * 0.6), int(data_size * 0.2)
    train_indices, valid_indices, test_indices = indices[:train_size], \
         indices[train_size:train_size + valid_size], indices[train_size + valid_size:]

    return data[train_indices], data[valid_indices], data[test_indices]

划分完成后，训练集、验证集和测试集的样本数分别为7192、2397和2398。

2.2.2 分词和删除停用词

步骤二：对划分好的训练集、验证集和测试集进行中文分词和删除停用词操作。分词采用 jieba分词，分词后进行停用词的删除。

def tokenization(data, stop_words, save_path):
"""
    中文分词，删除停用词
"""
    dataset = []
    for label,review in data:
        review = jieba.cut(review)
        review = [c for c in review if c not in stop_words]
        dataset.append([label, review])

    with open(save_path, 'w', encoding='utf-8') as fp:
        json.dump(dataset, fp, ensure_ascii=False)

注意：在分词阶段发现有几条数据删完停用词后为空，对其采取的措施是将其从数据集中删除。

2.2.3 数据集统计分析

首先统计训练集，验证集和测试集的 不同标签类别数据的分布情况：

结论：可以看出划分后训练集、验证集和测试集的标签分布是一致的。

然后，统计了训练集，验证集和测试集的 句子长度分布情况：

结论：数据集的三部分的句子长度分布也是基本一致的。

; 2.3 Word2Vec词嵌入

2.3.1 词表的构建

步骤三：在训练集上构建词表，在构建词表的过程中过滤低频词（词频小于5的词）。

def build_vocabulary(data, min_count=1):
"""
    构建中文词表
"""
    vocabs = defaultdict(int)
    for _, review in data:
        for word in review:
            vocabs[word] += 1
    word2id = {}
    word2id['unk'] = 0
    for k,v in vocabs.items():
        if v < min_count:continue
        word2id[k] = len(word2id)

    with open('data/word2id.json', 'w', encoding='utf-8') as fp:
        json.dump(word2id, fp, ensure_ascii=False)

2.3.2 词嵌入的训练

步骤四：在训练集上训练Word2Vec词嵌入，并保存训练好的词嵌入，词嵌入的维度为100维。

if __name__ == "__main__":
    train_path = "data/train.json"
    sents = []

    with open('data/word2id.json', 'r', encoding='utf-8') as fp:
        word2id = json.load(fp)

    with open(train_path, "r", encoding="utf-8") as fp:
        for _,review in json.load(fp):
            sentence = []

            for w in review:
                if word2id.get(w):
                    sentence.append(w)
                else:
                    sentence.append('unk')
            sents.append(sentence)

    model = word2vec.Word2Vec(sents)
    model.wv.save_word2vec_format('data/word2vec.bin', binary=False)

三.模型设计

本文设计两种堆叠方式的CNN用于文本分类任务：

横向堆叠卷积：使用不同大小的卷积核提取句子不同维度的信息，然后进行拼接（concat）操作，最后将拼接的最终表示用于分类。
纵向堆叠卷积：在某个卷积块（卷积+激活+池化）抽取的特征的基础上继续应用卷积块抽取更高维度的特征，然后将最终表示用于分类。

3.1 横向堆叠

横向堆叠卷积神经网络的大致示意图如下所示：

模型源码为：

import torch
import torch.nn as nn
import torch.nn.functional as F

class GlobalMaxPool1d(nn.Module):
    def __init__(self):
        super(GlobalMaxPool1d, self).__init__()
    def forward(self, x):

        return F.max_pool1d(x, kernel_size=x.shape[2])

class TextCNNH(nn.Module):
    def __init__(self, word_count, word_dim, num_filters, ngram_size, y_num, drop_prob):
        super(TextCNNH, self).__init__()

        self.word_embed = nn.Embedding(word_count, word_dim)

        self.convs = nn.ModuleList()
        for c,k in zip(num_filters, ngram_size):
            self.convs.append(
                nn.Conv1d(
                    in_channels = word_dim,
                    out_channels = c,
                    kernel_size = k
                ))

        self.pooling_layer = GlobalMaxPool1d()
        self.activation = nn.ReLU()
        self.dropout = nn.Dropout(drop_prob)
        self.fc = nn.Linear(sum(num_filters), y_num)

    def load_pretrained_word_embedding(self, pre_word_embeddings, updated=False):
        self.word_embed.weight = nn.Parameter(torch.Tensor(pre_word_embeddings))
        self.word_embed.weight.requires_grad = updated

    def forward(self, word_ids):

        word_emb = self.word_embed(word_ids)
        word_emb =  word_emb.transpose(1, 2)

        embeds = []
        for conv in self.convs:
            embeds.append(self.pooling_layer(self.activation(conv(word_emb))).squeeze(-1))
        final_embed = torch.cat(embeds, dim=1)

        return self.fc(self.dropout(final_embed))

3.2 纵向堆叠

纵向堆叠的卷积神经网络的大致示意图如下所示：

模型源码为：

import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F

class GlobalMaxPool1d(nn.Module):
    def __init__(self):
        super(GlobalMaxPool1d, self).__init__()
    def forward(self, x):

        return F.max_pool1d(x, kernel_size=x.shape[2])

class TextCNNV(nn.Module):
    def __init__(self, word_count, y_num, word_dim, num_filters, ngram_size, drop_prob):
        super(TextCNNV, self).__init__()
        self.word_embed = nn.Embedding(word_count, word_dim)

        self.conv1 = nn.Sequential(nn.Conv1d(word_dim, num_filters[0], kernel_size=ngram_size[0]), nn.ReLU(),
                                   nn.MaxPool1d(2))
        self.conv2 = nn.Sequential(nn.Conv1d(num_filters[0], num_filters[1], kernel_size=ngram_size[1]), nn.ReLU(),
                                    GlobalMaxPool1d())

        self.dropout = nn.Dropout(drop_prob)
        self.fc = nn.Linear(num_filters[1], y_num)

        self._init_weights(mean=0.0, std=0.05)

    def load_pretrained_word_embedding(self, pre_word_embeddings, updated=False):
        self.word_embed.weight = nn.Parameter(torch.Tensor(np.array(pre_word_embeddings)))
        self.word_embed.weight.requires_grad = updated

    def _init_weights(self, mean=0.0, std=0.05):
        for module in self.modules():
            if isinstance(module, nn.Conv1d) or isinstance(module, nn.Linear):
                module.weight.data.normal_(mean, std)

    def forward(self, input):
        input = self.word_embed(input)
        input = input.transpose(1, 2)
        output = self.conv1(input)
        output = self.conv2(output)
        output = output.view(output.size(0), -1)

        return self.fc(self.dropout(output))

四.实验与结果

4.1 实验说明

模型训练与测评的主函数源码如下所示，在实验过程中 通过训练集来训练模型，然后通过验证集来筛选模型，最后将在验证集上表现最好的模型用于测试集的测评。

def main(args):

    train_set = load('data/train.json')
    valid_set = load('data/valid.json')
    test_set = load('data/test.json')

    if args['model'] == 'textcnnv':
        model = TextCNNV(
            word_count=len(word2id),
            y_num=args['y_num'],
            word_dim=args['word_dim'],
            num_filters=args['num_filters'],
            ngram_size=args['ngram_size'],
            drop_prob=args['drop_prob']
        )
    elif args['model'] == 'textcnnh':
        model = TextCNNH(
            word_count=len(word2id),
            y_num=args['y_num'],
            word_dim=args['word_dim'],
            num_filters=args['num_filters'],
            ngram_size=args['ngram_size'],
            drop_prob=args['drop_prob']
        )

    if args['extra_embedding'] == True:

        word_embedding = load_pretrained_embedding('data/word2vec.bin')
        model.load_pretrained_word_embedding(word_embedding, True)

    model.to(device)

    optimizer = optim.Adam(model.parameters(), args['lr'], weight_decay=args['wd'])

    valid_f1, valid_p,valid_r = [],[],[]

    best_f1, best_model = 0., None
    for e in range(args['n_epochs']):
        train_loss = train(model, train_set, args['batch_size'], optimizer)
        valid_loss, f1, p, r = evaluate_accuracy(model, valid_set, args['batch_size'])
        valid_f1.append(f1)
        valid_p.append(p)
        valid_r.append(r)
        print('Epoch {} train_loss: {:.6f} valid_loss: {:.6f}, f1 {:.4f}, p {:.4f}, r {:.4f}'.format(
            e + 1, train_loss, valid_loss, f1, p, r
        ))

        if best_f1 < f1:
            best_f1 = f1
            best_model = deepcopy(model)

    x = list(range(1, len(valid_f1) + 1))
    plt.title('Metrics On Valid Set')
    plt.plot(x, valid_f1)
    plt.plot(x, valid_p)
    plt.plot(x, valid_r)
    plt.legend(['f1-score', 'precision', 'recall'])
    plt.savefig('images/{}_outcome.png'.format(args['model']))
    plt.show()

    _, f1, precision, recall = evaluate_accuracy(best_model, test_set, args['batch_size'])
    print('testset: f1 {:.4f}, p {:.4f}, r {:.4f}'.format(f1, precision, recall))

if __name__ == "__main__":
    try:
        params = {
            'model':'textcnnv',
            'word_dim':100,
            'ngram_size':[2, 4],
            'num_filters':[64, 64],
            'lr':1e-4,
            'batch_size':64,
            'n_epochs':50,
            "embedding": "w2v",
            'y_num':2,
            'wd':0,
            'drop_prob':0.5
        }
        print(params)
        main(params)
    except Exception as exception:
        raise

4.2 具体实验结果

实验的测评指标包括 F1分数、查准率和查全率。对于纵向堆叠的CNN，实验中设置的参数为：

params = {
    'model':'textcnnv',
    'word_dim':100,
    'ngram_size':[2, 4],
    'num_filters':[64, 64],
    'lr':5e-4,
    'batch_size':64,
    'n_epochs':50,
    "extra_embedding": True,
    'y_num':2,
    'wd':0,
    'drop_prob':0.3
}

训练过程中验证集上的测评指标随epoch的变化情况如下所示：

对于横向堆叠的CNN，实验中设置的参数为：

params = {
    'model':'textcnnh',
    'word_dim':100,
    'ngram_size':[2, 3, 4],
    'num_filters':[32, 32, 32],
    'lr':5e-4,
    'batch_size':64,
    'n_epochs':50,
    "extra_embedding": True,
    'y_num':2,
    'wd':0,
    'drop_prob':0.3
}

训练过程中验证集上的测评指标随epoch的变化情况如下所示：

两组实验在测试集上的结果如下表所示：

实验设置F1-ScorePrecisionRecallTextCNNV + Word2Vec0.78260.77280.7927TextCNNH + Word2Vec0.77990.77940.7804

结论：从实验结果可以看出使用CNN进行文本分类确定也能取得不错的性能，限于时间博主并没有进行太过细致的调参实验，有兴趣的小伙伴可以自己去试试。

五.结语

完整项目下载地址：基于CNN的中文文本分类实战（有条件的可以支持一下）

本文使用的模型图来源于：Convolutional Neural Networks for Text

以上便是本文的全部内容，要是觉得不错的话，可以点个赞或关注一下博主，你们的支持是博主进步的不竭动力，当然要是有问题的话也敬请批评指正！！！

Original: https://blog.csdn.net/qq_42103091/article/details/124406357
Author: 斯曦巍峨
Title: 基于CNN中文文本分类实战

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544886/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv5改进之十一：主干网络C3替换为轻量化网络MobileNetV3

前言：作为当前先进的深度学习目标检测算法YOLOv5，已经集合了大量的trick，但是还是有提高和改进的空间，针对具体应用场景下的检测难点，可以不同的改进方法。此后的系列文章，…

人工智能 2023年6月26日
0086
数据科学—使用Pandas进行操作数据

| 1.1 Pandas是什么？ Pandas是Python中最受欢迎的数据科学库之一。它使用起来很容易，它是基于 Numpy之上，并共享了许多功能和属性。使用 Pandas，您…

人工智能 2023年7月6日
0067
python add_argument() 方法详解

官方文档的说明首先我们来看一下官方文档的说明，了解一下 add_argument() 有哪些参数，接下来的介绍中引用块都是所有官方文档的原文，对于每一个参数及其取值的说明会加上…

人工智能 2023年7月4日
00105
碰撞检测技术介绍

自动驾驶决策规划模块中会经常使用到碰撞检测计算分析Ego vehicle行为的安全性，并且可以用在planning计算的多个方面。例如下图中第一幅图，黄色车辆为主车，灰色车辆为交通…

人工智能 2023年6月25日
0062
MacOS移动硬盘文件呈灰色的解决办法

在终端输入 df，查看挂载点； /dev/disk2s1 466Gi 181Gi 285Gi 39% 406 298851162 0% /Users/hang/.mounty/Mo…

人工智能 2023年6月4日
00278
Pytorch自动混合精度(AMP)训练

相关问题：解决pytorch半精度amp训练nan问题 – 知乎 pytorch模型训练之fp16、apm、多GPU模型、梯度检查点（gradient checkpoi…

人工智能 2023年7月23日
0083
【推荐算法】Knowledge-aware Graph Neural Networks with Label Smoothness Regularization(KGNN-LS)论文笔记

题目：Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommen…

人工智能 2023年6月1日
0099
FT 在图形渲染中的应用：基于 FFT 的海浪模拟

接上文：FT 在图像处理中的应用五、一个大型案例：基于 FFT 的海浪模拟前置：傅里叶级数与傅里叶变换离散傅里叶变换(DFT) FT 在图像处理中的应用 5….

人工智能 2023年7月30日
0065
BERT论文阅读笔记

介绍 1、双向预训练模型，使用MLM(masked language model): 2、预训练模型，降低模型复杂度 BERT是自监督学习（无监督学习），结构是 Transform…

人工智能 2023年5月28日
0060
分享 | OpenCV4.5.4 语音识别使用测试(含详细步骤)

点击下方卡片，关注” OpenCV与AI深度学习“公众号！视觉/图像重磅干货，第一时间送达！导读本文主要为大家分享OpenCV4.5.4中语音识别实…

人工智能 2023年5月23日
0074
自动驾驶路径规划——轨迹规划（详解插值法）

目录前言 1. 轨迹规划 1.1 轨迹规划包括以下几个问题： 2. 三次多项式插值 3. 过路径点的三次多项式插值 4. 用抛物线过渡的线性插值过路径点的用抛物线过…

人工智能 2023年6月2日
0084
【机器学习】集成学习——Stacking模型融合（理论+图解）

🌠 『精品学习专栏导航帖』 🐳最适合入门的100个深度学习实战项目 🐳 🐙【PyTorch深度学习项目实战100例目录】项目详解 + 数据集 + 完整源码 🐙 🐶【机器学习入门项目…

人工智能 2023年6月25日
0067
【毕业设计】水果图像识别系统 – 深度学习 OpenCV python

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
00103
从离线分析建模到稳健风控升级，为什么说顶象Dinsight实时风控引擎是对的选择？

随着金融业数字化程度进一步加深，互联网垂直电商、消费金融等领域与人们生活的深度融合，数字科技在安全风险控制上已经成为了重要的基石。如何主动防范化解风险，建立智能化的实时风险监测预警…

人工智能 2023年6月10日
0080
深度学习环境搭建之cuda、cudnn以及pytorch和torchvision的whl文件安装方法

一、前言假设已经装好了pycharm、anaconda，并且新建了一个conda虚拟环境（我的虚拟环境名为pytorch）。接下来需要安装新版的显卡驱动，安装cuda、cudnn…

人工智能 2023年7月12日
0099
学习知识图谱中无提及实体对的关系表示

前言知识图谱近些年来应用场景非常多，随之延伸出来的技术也是层出不穷。知识图谱一个常见的挑战就是稀疏性，为了解决这一难题，知识图谱embedding被提了出来即把图谱中的enti…

人工智能 2023年6月1日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31