《自然语言处理指南》- 卷积神经网络在文本分类上的应用(更新中)

2023年7月3日上午4:48 • 人工智能 • 阅读 99

文章目录

*
– TextCNN模型结构
–
+ 参考文章
+ 卷积操作在文本上的应用
+
* 数据源定义
* 数据embedding
* 卷积层操作
+ 池化层操作
+ 全连接层
+ 完整代码

TextCNN模型结构

参考文章

pytorch 池化层——最大值池化nn.MaxPool2d() nn.MaxPool1d()

卷积操作在文本上的应用

数据源定义

数据为 128 * 30 的文本转索引的数据即 128行, 单个句子为30个词的文本
即 batch_size = 128 和 *max_seq_len = 30

数据embedding

num_embeddings : 文本中所有不重复单词的个数
embedding层会生成 num_embeddings * embedding_dim 的二维文本向量矩阵

self.embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=64)

最终经过embedding层数据会变成 [batch_size, max_seq_len, embedding_dim] => *[128, 30, 64]

卷积层操作

注意 : 卷积层的输入是单个句子的长度 max_seq_len
卷积层输出 out_channels为32, 卷积核 kernel_size大小为3, 步长 stride为2

self.conv1d = nn.Conv1d(in_channels=30, out_channels=32, kernel_size=3, stride=2)

卷积核输出大小 : [batch_size, out_channels, out]
计算公式如下 :

KaTeX parse error: No such environment: equation at position 8: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ L_{\text {out …

L i n L_in L i n 是 embedding_dim, 每个单词的向量维度
padding 是需要对数据填充的大小, 默认为 0
dilation : 默认为 1 目前不知道是干嘛的
输入数据 [128, 30, 64] 经过卷积层后输出结果为 *[128, 32, 31]

池化层操作

定义池化层卷积核大小为31, 步长为 1
池化层的作用是缩减特征, 取卷积核范围内最大的值作为新的特征
MaxPool1d 一维池化, 对应卷积核就是 kernel_size * 1, 如果是 MaxPool2d 就是 kernel_size * kernel_size

self.pool = nn.MaxPool1d(kernel_size=31, stride=1)

最终池化结果为 *[128, 32, 1]

全连接层

完整代码


import torch
from torch import nn
import numpy as np
from torch.nn import functional
from torch.utils.data import DataLoader
from twitter_datasets import TwitterDatasets

class TextCNN(nn.Module):
    def __init__(self, num_embeddings):
        super(TextCNN, self).__init__()

        self.embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=64)

        self.conv1d = nn.Conv1d(in_channels=30, out_channels=32, kernel_size=3, stride=2)

        self.pool = nn.MaxPool1d(kernel_size=31, stride=1)
        self.decoder = nn.Linear(32, 2)

    def forward(self, inputs):

        embedded = self.embedding(inputs)

        out = self.conv1d(embedded)

        print(out.size())
        out = self.pool(out)

        print(out.size())

        out = torch.squeeze(out, -1)

        print(out.size())
        out = self.decoder(out)

        print(out.size())
        return out

if __name__ == '__main__':
    datasets = TwitterDatasets()
    train_loader = DataLoader(datasets, batch_size=128, shuffle=True)
    model = TextCNN(len(datasets.vocab_dict))

    for i, batch in enumerate(train_loader):
        out = model.forward(batch[1])
        print(out.size())

Original: https://blog.csdn.net/weixin_40040107/article/details/121107988
Author: 兀坐晴窗独饮茶
Title: 《自然语言处理指南》- 卷积神经网络在文本分类上的应用(更新中)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666894/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

语义分割系列11-DAnet（pytorch实现）

DAnet：Dual Attention Network for Scene Segmentation 发布于CVPR2019，本文将进行DAnet的论文讲解和复现工作。论文部分…

人工智能 2023年5月26日
00103
ROS-基于已知地图的无人机路径规划算法仿真

在上一篇文章中我们实现了基于PX4的无人机SLAM建图（Cartographer）仿真，最终得到了indoor3的地图。现在，基于这张建立好的地图进行路径规划算法仿真。一、创建…

人工智能 2023年6月2日
00156
GO开发环境配置

要开始go语言的学习，首先要配置好go的开发环境。windows+vscode2019插件环境及Linux的go编译环境第一步：下载sdk 可以去golang中国下载 LInux…

人工智能 2023年5月31日
00100
Python数据分析与处理——北京高考分数线统计分析

北京高考分数线统计分析为了帮助广大考生和家长了解高考历年的录取情况，很多网站都汇总了各省市的录取控制分数线，为广大考生填报志愿提供参考。因受多种因素影响，每年的分数线或多或少会有…

人工智能 2023年7月15日
0066
neo4j安装，jdk安装，环境变量配置

JDK安装：https://www.oracle.com/cn/java/technologies/javase-downloads.html Neo4j安装：https://ne…

人工智能 2023年6月1日
0075
OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域

OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域一、改变图像大小 * 1、获取图像宽、高、通道数 2、resize函数 3、案例二…

人工智能 2023年6月17日
0087
“Ninja is required to load C++ extensions”解决方案

问题描述 Ninja is required to load C++ extensions 在跑一份代码时，由于该代码中需要调用 torch/utils/cpp_extension…

人工智能 2023年7月21日
0059
torch.nn.AvgPool1d(kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)

对信号的输入通道，提供1维平均池化（average pooling）参数： kernel_size(int or tuple) – 池化窗口大小 stride(int…

人工智能 2023年7月28日
0066
OpenCV：09车辆统计项目

车辆统计项目涉及到的内容大体流程知识补充 * 背景减除具体流程 * 视频加载去除背景形态学识别车辆对车辆进行统计显示车辆统计信息效果图： ; 涉及到的内容窗口的…

人工智能 2023年7月19日
0077
基于Tensorflow的环境声音分类

本章我们来介绍如何使用Tensorflow训练一个区分不同音频的分类模型，例如你有这样一个需求，需要根据不同的鸟叫声识别是什么种类的鸟,或者识别环境中的声音类型(空调声、汽车鸣笛声…

人工智能 2023年5月25日
0078
han_attention（双向GRU+attention）(imdb数据集—文档分类）

文章目录 han_attention（双向GRU+attention）一、文件目录二、语料集三、数据处理(IMDB_Data_Loader.py) 四、模型（HAN_Mode…

人工智能 2023年5月27日
0090
[深度学习论文笔记]UNETR: Transformers for 3D Medical Image Segmentation

UNETR: Transformers for 3D Medical Image SegmentationUNETR：用于三维医学图像分割的Transformer Publishe…

人工智能 2023年6月16日
00100
HOG+SVM实现图像分类

代码结构 😸本代码主要由 4 个 python 文件和 3 个文件夹组成。其中， dataset.py 用以加载数据集（ MNIST 或 cifar10）； hog.py 实现了 …

人工智能 2023年7月1日
0082
人工智能是计算机科学的一个分支，它企图了解智能的实质

虽然计算机专业经常被误解为”修电脑的”，但计算机类专业一直是留学申请尤其是赴美留学的热门专业前三位，毕竟多少同学心中都怀着一个”硅谷梦&#822…

人工智能 2023年7月18日
0064
引入概念的多文本标签分类：Concept-Based Label Embedding via Dynamic Routing for Hierarchical Text Classification

Zhang, Jiong, Wei-Cheng Chang, Hsiang-Fu Yu, and Inderjit Dhillon. “Fast Multi-Resol…

人工智能 2023年7月2日
0097
【部署医药类问答系统QASystemOnMedicalKG】

前言从无到有搭建一个以疾病为中心的一定规模医药领域知识图谱，并以该知识图谱完成自动问答与分析服务。github链接 ; 部署过程一、Ubuntu18.04安装MongoDB4….

人工智能 2023年6月1日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31