NLP自然语言处理——文本分类（CNN卷积神经网络）

2023年5月28日上午1:04 • 人工智能 • 阅读 95

文本分类是NLP自然语言处理中一项基本功能，它在新闻分类、主题分类、问答匹配、意图识别、情感分类、推断等领域都有涉及。

学习应用文本分类任务的难点有被识别语言的复杂性和评测函数的设计等，本篇将介绍一个NLP中的深度学习模型——TextCNN模型，CNN的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，形同N-gram，CNN的优势在于能够自动地对N-gram特征进行组合筛选从而获得不同抽象层的语义信息。下面这张图是很多博客中引用的一张TextCNN介绍图，具体介绍可以参考下面链接中的一篇文章：1510.03820.pdf (arxiv.org)

这张图最左边是一个初始文本（初始数据集），我们把句子中的每一个单词提取出来，为他构建一个五维的向量描述一个词，第二步就是选择卷积核，这里可以根据实际情况自己选择，可以把他理解为一个滑动窗口，没构造一个卷积核后就将滑动窗口向下滑动若干行，在第三步中就是对每个卷积核来通过过滤层对数据做处理，这里用到的就是文本分类的核心卷积神经网络，具体实现方法也推荐一篇文章，里面对卷积神经网络讲解的也十分清楚：CS231n笔记：通俗理解CNN – mathor (wmathor.com)通过若干过滤层之后进行的下一步就是选择最大/最小值，以图中为例，深红色的四块通过选择得到一块深红色，它可以代表这一组的典型去进行下一步运算，对每一步运算结果做提取后就可以构建出全连接层，最后再放入池化层就得到了卷积运算结果。下面附上一份简单的TextCNN文本分类代码，依靠pytorch实现。

import torch
import numpy as np
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data
import torch.nn.functional as F
dtype = torch.FloatTensor
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
3 words sentences (=sequence_length is 3)
sentences = ["i love you", "he loves me", "she likes baseball", "i hate you", "sorry for that", "this is awful"]
labels = [1, 1, 1, 0, 0, 0]  # 1 is good, 0 is not good.

TextCNN Parameter
embedding_size = 2
sequence_length = len(sentences[0]) # every sentences contains sequence_length(=3) words每个句子有sequence_length个词
num_classes = len(set(labels))  # num_classes=2  类数：这里是2（1或0）
batch_size = 3

word_list = " ".join(sentences).split()

vocab = list(set(word_list))
word2idx = {w: i for i, w in enumerate(vocab)}
print(word2idx)
vocab_size = len(vocab)

def make_data(sentences, labels):
  inputs = []
  for sen in sentences:
      inputs.append([word2idx[n] for n in sen.split()])

  targets = []
  for out in labels:
      targets.append(out) # To using Torch Softmax Loss function
  return inputs, targets

input_batch, target_batch = make_data(sentences, labels)
print(input_batch)
print(88888)
print(target_batch)
input_batch, target_batch = torch.LongTensor(input_batch), torch.LongTensor(target_batch)
print(input_batch)
print(77777)
print(target_batch)
dataset = Data.TensorDataset(input_batch, target_batch)
print(dataset)
loader = Data.DataLoader(dataset, batch_size, True)
print(loader)
class TextCNN(nn.Module):
    def __init__(self):
        super(TextCNN, self).__init__()
        self.W = nn.Embedding(vocab_size, embedding_size)
        output_channel = 3
        self.conv = nn.Sequential(
            # conv : [input_channel(=1), output_channel, (filter_height, filter_width), stride=1]
            nn.Conv2d(1, output_channel, (2, embedding_size)),
            nn.ReLU(),
            # pool : ((filter_height, filter_width))
            nn.MaxPool2d((2, 1)),
        )
        # fc
        self.fc = nn.Linear(output_channel, num_classes)

    def forward(self, X):
      '''
      X: [batch_size, sequence_length]
      '''
      batch_size = X.shape[0]
      embedding_X = self.W(X) # [batch_size, sequence_length, embedding_size]
      embedding_X = embedding_X.unsqueeze(1) # add channel(=1) [batch, channel(=1), sequence_length, embedding_size]
      conved = self.conv(embedding_X) # [batch_size, output_channel*1*1]
      flatten = conved.view(batch_size, -1)
      output = self.fc(flatten)
      return output

model = TextCNN().to(device)
criterion = nn.CrossEntropyLoss().to(device)
optimizer = optim.Adam(model.parameters(), lr=1e-3)

Training
for epoch in range(5000):
  for batch_x, batch_y in loader:
    batch_x, batch_y = batch_x.to(device), batch_y.to(device)
    pred = model(batch_x)
    loss = criterion(pred, batch_y)
    if (epoch + 1) % 1000 == 0:
        print('Epoch:', '%04d' % (epoch + 1), 'loss =', '{:.6f}'.format(loss))

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
Test
test_text = 'i hate me'
tests = [[word2idx[n] for n in test_text.split()]]
test_batch = torch.LongTensor(tests).to(device)
Predict
model = model.eval()
predict = model(test_batch).data.max(1, keepdim=True)[1]
if predict[0][0] == 0:
    print(test_text,"is Bad Mean...")
else:
    print(test_text,"is Good Mean!!")

它的主体思想是对一系列话进行训练，输出结果只有两类，一个是1代表乐观语言1另一个是2代表悲观语言，训练之后就可以对我们输入的语言进行判断，得到他是乐观语言还是悲观语言。

Original: https://blog.csdn.net/m0_51602395/article/details/124656251
Author: 难熬吗1884
Title: NLP自然语言处理——文本分类（CNN卷积神经网络）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528430/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python】opencv调用海康威视摄像头

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录准备执行步骤 * 1.cmd进入命令行窗口 2.使用conda创建python虚拟环境 3.进入pyt…

人工智能 2023年6月19日
00144
基于U-Net模型的视网膜血管分割

(1) 视网膜血管图像数据集DRIVE简介 DRIVE (Digital Retinal Images for Vessel Extraction)数据集是用于视网膜病变研究的数据…

人工智能 2023年7月28日
0077
互联网大厂数据分析面试常见问题及解法，建议收藏

工作5年多，在大厂也面试了几十场的同学，有社招也有校招，从面试官的角度沉淀了一些常见的数据分析问题以及问题背后考察的能力，并为大家一一拆解背后的逻辑，助力大家拿offer！能力模…

人工智能 2023年6月11日
0079
Excel自动化数据报表制作

一、系统功能描述 1.1 信息发布新闻：有相关权限的用户可以发送各种业务、行政、人事等单位的相关新闻，被指定接收的用户可以随时查看，第一时间了解单位动态。支持新闻评论，可以直接…

人工智能 2023年7月15日
0045
hive数据分析002-分桶

一、桶的概念： 对于每一个表&#xFF0…

人工智能 2023年7月16日
00106
RF模型（随机森林模型）详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、RF背景——集成学习中的bagging流派 1、集成学习简介 2…

人工智能 2023年7月27日
0082
调参神器optuna学习笔记

介绍 optuna作为调参工具适合绝大多数的机器学习框架，sklearn，xgb，lgb，pytorch等。主要的调参原理如下：1 采样算法利用 suggested 参数值和评估…

人工智能 2023年6月16日
0098
Pandas(五)–iteration遍历

对于 Series 而言，您可以把它当做一维数组进行遍历操作；而像 DataFrame 这种二维数据表结构，则类似于遍历 Python 字典。在 Pandas 中通过 for遍历…

人工智能 2023年7月6日
0057
用 SIR 模型拟合疫情感染情况

整理了一下大三统计计算的课程作业目录数据抓取数据来源：抓取工具：抓取记录：数据处理：数据可视化：拟合模型：模型选择：模型解释模型求解：：由于提供疫情数据的…

人工智能 2023年6月19日
0086
3D目标检测入门-mmdetection3d的环境配置

该博文介绍了从ubuntu纯净系统进行mmdetection3d的环境配置过程！mmdetection3d踩坑巨多！ 1 安装显卡驱动 1.1首先输入如下命令，查询系统推荐的驱动程…

人工智能 2023年7月28日
0067
分类预测 | MATLAB实现1-DCNN一维卷积神经网络分类预测

分类预测 | MATLAB实现1-DCNN一维卷积神经网络分类预测目录 * – 分类预测 | MATLAB实现1-DCNN一维卷积神经网络分类预测 – +…

人工智能 2023年6月30日
0075
机器学习——线性回归案例——波士顿房价预测

因为此案例比较经典，所以数据已经镶嵌在里面了 1、导入模块。模型获取，有线性回归、岭回归、套索回归模型 from sklearn.linear_model import Line…

人工智能 2023年6月12日
00118
卷积神经网络之卷积层理解(持续更新)

目录一、初识卷积层二、图片卷积的过程(以步长为1，无填充情况为例) 三、卷积的填充四、卷积的步长五、卷积的输出大小计算六、卷积的感受野七、卷积层的深度一、初识卷积层 …

人工智能 2023年7月12日
0091
信贷风控三：如何搭建知识图谱，赋能信贷业务

信贷风控三：如何搭建知识图谱，赋能信贷业务 * – 一、如何构建知识图谱 – + 1、搭建知识图谱需要哪些数据 + 2、如何设计知识图谱结构 + * 2.1…

人工智能 2023年6月1日
0070
cross_val_score的用法

cross_val_score交叉验证既可以解决数据集的数据量不够大问题，也可以解决参数调优的问题。这块主要有三种方式：简单交叉验证（HoldOut检验）、 cv（k-fold交…

人工智能 2023年5月26日
0082
带你玩转 3D 检测和分割（一）：MMDetection3D 整体框架介绍

0.前言由于 3D 本身数据的复杂性和 MMDetection3D 支持任务（点云 3D 检测、单目 3D 检测、多模态 3D 检测和点云 3D 语义分割等）和场景（室内和室外）…

人工智能 2023年6月17日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP自然语言处理——文本分类（CNN卷积神经网络）

大家都在看