二十一、文本情感分类二

2023年5月28日上午1:01 • 人工智能 • 阅读 80

1.1 文本训练化概述

深度学习构建模型前需要将文本转化为向量表示（Word Embedding）。首先需要将文本转化为数字（文本序列化），在把数字转化为向量。
可以考虑把文本中的每个词语和其对应的数字，使用字典保存，同时把句子转化为数字的列表。

; 1.2 文本序列化的过程

实现文本序列化之前，应考虑一下几点：
如何使用字典把词语和数字进行对应；
不同的词语出现的次数不尽相同，是否需要对高频或者低频词语进行过滤
得到词典之后，如何把句子转化为数字序列，如何把数字序列转化为句子
不同句子长度不相同，每个batch的句子如何构造成相同的长度
对于新出现的词语在词典中没有出现怎么办（特殊字符代理）

2. 文本情感分类的模型构建

2.1 文本情感分类具体流程

数据预处理：读取文本数据，并按照批量的方式加载数据，使用 DataLoader完成数据的读取，具体实现参考 data_prepare.py。
文本序列化：将文本数据转化向量表示（Word Embedding），具体实现参考 save_ws.py。
模型的构建和评估：由 model.py实现

2. 2 代码

步骤一：准备数据 data_prepare.py


import torch
from torch.utils.data import DataLoader, Dataset
import os
import re
import pickle

data_base_path = r"data\aclImdb"
ws = pickle.load(open("ws.pkl", "rb"))
max_len = 20

def tokenize(text):
    fileters = ['!', '"', '#', '$', '%', '&', '\(', '\)', '\*', '\+', ',', '-', '\.', '/', ':', ';', ', '=', '>',
                '\?', '@'
        , '\[', '\\', '\]', '^', '_', '`', '\{', '\|', '\}', '~', '\t', '\n', '\x97', '\x96', '"', '"', ]
    text = re.sub("", " ", text, flags=re.S)
    text = re.sub("|".join(fileters), " ", text, flags=re.S)
    return [i.strip() for i in text.split()]

class ImdbDataset(Dataset):
    def __init__(self, mode):

        super(ImdbDataset, self).__init__()
        if mode == "train":
            text_path = [os.path.join(data_base_path, i) for i in ["train/neg", "train/pos"]]
        else:
            text_path = [os.path.join(data_base_path, i) for i in ["test/neg", "test/pos"]]

        self.total_file_path_list = []
        for i in text_path:
            self.total_file_path_list.extend([os.path.join(i, j) for j in os.listdir(i)])

    def __getitem__(self, idx):
        cur_path = self.total_file_path_list[idx]

        cur_filename = os.path.basename(cur_path)
        label = int(cur_filename.split("_")[-1].split(".")[0]) - 1
        text = tokenize(open(cur_path, encoding="utf-8").read().strip())
        return label, text

    def __len__(self):
        return len(self.total_file_path_list)

def collate_fn(batch):

    label, content, = list(zip(*batch))
    content = [ws.transform(i, max_len=max_len) for i in content]
    content = torch.LongTensor(content)
    label = torch.LongTensor(label)
    return label, content

def get_dataloader(train_data=True):
    mode = ""
    if train_data:
        mode = "train"
    imdb_dataset = ImdbDataset(mode)
    dataloader = DataLoader(dataset=imdb_dataset, batch_size=10, shuffle=True, collate_fn=collate_fn)
    return dataloader

if __name__ == '__main__':

    text = "I cannot stay indifferent to Lars| van Trier's films. "
    s = tokenize(text)

    dataset = ImdbDataset(mode="train")

    dataloader = get_dataloader()

    for idx, (label, text) in enumerate(dataloader):
        print("idx：", idx)
        print("table:", label)
        print("text:", text)
        break

步骤二：文本序列化 save_ws.py


class ImdbDataset(Dataset):
    def __init__(self, mode):

        super(ImdbDataset, self).__init__()
        if mode == "train":
            text_path = [os.path.join(data_base_path, i) for i in ["train/neg", "train/pos"]]
        else:
            text_path = [os.path.join(data_base_path, i) for i in ["test/neg", "test/pos"]]

        self.total_file_path_list = []
        for i in text_path:
            self.total_file_path_list.extend([os.path.join(i, j) for j in os.listdir(i)])

    def __getitem__(self, idx):
        cur_path = self.total_file_path_list[idx]

        cur_filename = os.path.basename(cur_path)
        label = int(cur_filename.split("_")[-1].split(".")[0]) - 1
        text = tokenize(open(cur_path).read().strip())
        return label, text

    def __len__(self):
        return len(self.total_file_path_list)

步骤三：模型评估和预测 model.py


import pickle
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.optim import Adam
from unit21.data_prepare import get_dataloader, max_len

ws = pickle.load(open("ws.pkl", "rb"))

class IMDBModel(nn.Module):
    def __init__(self,max_len):
        super(IMDBModel,self).__init__()
        self.embedding = nn.Embedding(len(ws),300,padding_idx=ws.PAD)
        self.fc = nn.Linear(max_len*300,10)

    def forward(self, x):
        embed = self.embedding(x)
        embed = embed.view(x.size(0),-1)
        out = self.fc(embed)
        return F.log_softmax(out,dim=-1)

model = IMDBModel(max_len)
optimizer = Adam(model.parameters(), 0.001)

def train(epoch):
    train_dataloader = get_dataloader()
    for idx, (target, input) in enumerate(train_dataloader):
        optimizer.zero_grad()
        output = model(input)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if idx % 10 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, idx * len(input), len(train_dataloader.dataset),
                       100. * idx / len(train_dataloader), loss.item()))
            torch.save(model.state_dict(), "imdb_net.pkl")

def test():
    test_loss = 0
    correct = 0
    train = False

    model.load_state_dict(torch.load("imdb_net.pkl"))

    model.eval()
    test_dataloader = get_dataloader()
    with torch.no_grad():
        for target, input in test_dataloader:
            output = model(input)
            test_loss += F.nll_loss(output, target, reduction="sum")
            pred = torch.max(output, dim=-1, keepdim=False)[-1]
            correct = pred.eq(target.data).sum()
        test_loss = test_loss / len(test_dataloader.dataset)
        print('\nTest set: Avg. loss: {:.4f}, Accuracy: {}/{} ({:.2f}%)\n'.format(
            test_loss, correct, len(test_dataloader.dataset),
            100. * correct / len(test_dataloader.dataset)))

if __name__ == '__main__':
    epoch = 1
    train(epoch)

Original: https://blog.csdn.net/GUANGZHAN/article/details/122945121
Author: 智享AI
Title: 二十一、文本情感分类二

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528417/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda中安装Pytorch 速度太慢解决办法

本文参考： Anaconda中安装Pytorch 速度太慢解决办法_ 蜗牛在听雨的博客-CSDN博客_conda install pytorch太慢怎么办【陆续排坑】…

人工智能 2023年7月21日
0087
Unity语音合成-初识有道语音合成

相信各位同学在制作项目的过程中，或多或少都会有播放语音提示的功能，除了在线语音合成和和网上下载的语音合成软件进行语音合成以外，我们也可以自己选择接入sdk合成语音，为了方便大家入门…

人工智能 2023年5月23日
0085
pytest自动化测试框架，真正做到从0到1由浅入深详细讲解【万字级】

目录嗨咯铁汁们，很久不见，我还是你们的老朋友凡叔，这里也感谢各位小伙伴的点赞和关注，你们的三连是我最大的动力哈，我也不会辜负各位的期盼，这里呢给大家出了一个pytest自动化测试…

人工智能 2023年7月30日
0063
Yolov5训练指南—CoCo格式数据集

Yolov5训练指南—CoCo格式数据集 1 准备工作 2 将coco数据集转换为yolo数据集 3 训练参数定义 4 训练模型 5 预测 1 准备工作训练Yolo模型要准备的文…

人工智能 2023年5月26日
0078
Python毕设-【课堂人脸签到系统】附源码课件/Python练手项目/Python毕业设计

Python毕设-【课堂人脸签到系统】附源码课件/允许白嫖文章目录 Python毕设-【课堂人脸签到系统】附源码课件/允许白嫖系统简介一、本课题拟解决的问题二、系统技术栈 …

人工智能 2023年7月18日
0064
Collaborative算法如何处理缺失数据或缺失评分的情况

问题背景介绍 Collaborative Filtering（协同过滤）是一种常用的推荐系统算法，它根据用户的历史行为和其他用户的行为来预测用户未来的偏好。然而，在实际应用中，由于…

人工智能 2024年1月4日
0040
人工智能该如何学习？详细的AI学习路线与资料推荐

原文链接：告别无用功|人工智能该如何学习大家好，我是泰哥。本文可谓是千呼万唤使出来，很多同学问我，AI方向的知识多而杂，哪些该重点学习？学习路径又是怎么样的呢？今天，我将自…

人工智能 2023年6月23日
0097
学习笔记 Day 26 (pandas)

Series: 创建一个一维的数组通过列表创建: import pandas as pd df = pd.Series([3,4,2,6,1,5],index=list(‘abc…

人工智能 2023年6月11日
0073
endnote能自动翻译吗_原来长按手机屏幕2秒，就能进行翻译，你的手机支持该功能吗？…

如今，我们经常会遇到外语，比如手机里的英语句子、路边的英语指示牌等等，所以几乎所有的手机都有翻译功能，但有些朋友不会用。即使是一些手机，按下屏幕2秒也可以翻译，比如华为和iPhon…

人工智能 2023年5月27日
00206
arima模型的建模步骤_【视频教程】Eviews系列20|ARCH模型及GARCH模型分析与二次检验及本章常见问题解答…

点击上方关注我们! 本期我们学习Eviews统计建模之ARCH模型及GARCH模型分析与二次检验及本章常见问题解答。实操：ARCH模型及GARCH模型分析与二次检验 01. AR…

人工智能 2023年6月18日
0099
【python-Unet】计算机视觉~舌象舌头图片分割~机器学习（三）

返回至系列文章导航博客 1 简介舌体分割是舌诊检测的基础，唯有做到准确分割舌体才能保证后续训练以及预测的准确性。此部分真正的任务是在用户上传的图像中准确寻找到属于舌头的像素点。舌…

人工智能 2023年6月16日
00125
dataframe 上下拼接_Pandas中DataFrame数据合并、连接（concat、merge、join）之join

Join columns with other DataFrame either on index or on a key column. Efficiently Join mul…

人工智能 2023年7月8日
0076
AXE模式隐私号基于语音流分析的用户接听识别方案

背景在使用AXE模式隐私号外呼用户时发现几家隐私号服务提供商并不是都有接通回调可以设置因此，有必要建立一个通用的用户响应识别方案(录制和播放欢迎消息等场景)。 [En] The…

人工智能 2023年5月23日
00100
slam原理介绍和经典算法

1.传统slam局限性 slam算法假设的环境中的物体都是处于静态或者低运动状态的，然而，现实世界是复杂多变的，因此这种假设对于应用环境有着严格的限制，同时影响视觉slam系统在…

人工智能 2023年6月17日
0073
ResNet50模型学习笔记

ResNet的各种网络结构图如下图所示。 ResNet的层级结构 Layer->Block->Stage->Network Layer是最小的单位，ResNet5…

人工智能 2023年6月25日
0096
【Python百日基础系列】Day18 – Pandas 数据合并、重塑与透视

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月8日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

二十一、文本情感分类二

1.1 文本训练化概述

; 1.2 文本序列化的过程

2. 文本情感分类的模型构建

2.1 文本情感分类具体流程

2. 2 代码

大家都在看