高级实训任务三:文本情感分类

2023年7月2日上午12:53 • 人工智能 • 阅读 67

高级实训任务三:文本情感分类

1.任务描述

● 将循环任务（RNN）应用在图像分割任务上，我们需要对网络结构进行设计。
● 需要提交博客报告以及GitHub代码仓库。
● 可选的任务：文本情感分类（正向、负向）。
● 可选的网络结构：GRU、LSTM。
● 可选的数据集：
○ imdb数据集：https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
○ 烂番茄数据集：https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews/overview
● 可选深度学习框架：Tensorflow、PyTorch、Keras。
● 完成期限：1月21日
● 提交结果：项目报告、答辩幻灯片、相关代码和测试用例。

2.任务选择

将循环任务(RNN)应用在图像分割上，需要对网络结构进行设计。
任务选择：文本情感分类（正向，负向）
选择的网络结构：LSTM
语言：python
框架选择：pytorch（主框架，构建网络结构）
其他辅助框架：pickle（python 的文件库。由于数据集的一部分放在pkl文件里，需要pickle库进行读取）
tqdm （UI方面的库，用于添加进度条，方便观察计算的进度）
数据集：aclImdb（大型电影评论数据集）

3.任务开始准备

循环任务（RNN）应用在图像分割任务原理
循环神经网络的应用场景比较多，比如暂时能写论文，写程序，写诗，但是，（总是会有但是的），但是他们现在还不能正常使用，学习出来的东西没有逻辑，所以要想真正让它更有用，路还很远。
一般的神经网络应该有的结构：
使用循环神经网络原因：
无论是卷积神经网络，还是人工神经网络，他们的前提假设都是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，我们是根据上下文的内容推断出来的，但机会要做到这一步就相当得难了。因此，就有了现在的循环神经网络，他的本质是：像人一样拥有记忆的能力。因此，他的输出就依赖于当前的输入和记忆。
RNN的网络结构及原理

其中每个圆圈可以看作是一个单元，而且每个单元做的事情也是一样的，因此可以折叠呈左半图的样子。用一句话解释RNN，就是一个单元结构重复使用。
LSTM原理
1.LSTM内部结构：

LSTM看上去就是这样一种效果，一个一个首尾相接，同一层的会把前面单元的输出作为后面单元的输入；前一层的输出会作为后一层的输入。细胞状态

2.LSTM 的关键就是细胞状态，水平线在图上方从左到右贯穿运行。

细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易

左面的乘号是一个乘法操作，右面的加号就是普通的线性叠加。
LSTM规避了标准RNN中梯度爆炸和梯度消失的问题，所以会显得更好用，学习速度更快

下图是最基本的LSTM单元连接起来的样子

3.LSTM的门结构
遗忘门：遗忘门层决定我们会从细胞状态中丢弃什么信息。该门会读取ht−1 和xt ，输出一个在 0到 1之间的数值给每个在细胞状态 Ct−1 中的数字。1 表示”完全保留”，0 表示”完全舍弃”。
[ht−1,xt]代表把两个向量连接起来。
高级实训任务三:文本情感分类

更新门：C t 表示新的输入带来的信息，tanh这个激活函数讲内容归一化到-1到1;
it用于选择保留新信息的哪个部分。ft * Ct-1表示过去信息有选择的遗忘（保留），
Ct 表示新信息有选择的遗忘（保留），两者相加得到新状态Ct。

; 4.实验过程和结果

代码：
1.读取imdb数据集：

max_f=10000
(x_train, y_train),(x_test,y_test) = imdb_data(num_words = max_f)

maxlength = 400
x_train = sequence.pad_sequences(x_train,maxlength = maxlength)
x_test = sequence.pad_sequences(x_test,maxlength = maxlength

2.构建LSTM训练模型

model = Sequential([layers.Embedding(max_f,32),
                    layers.LSTM(32),
                    layers.Dense(1,activation="sigmoid")
                    ])
model.compile(optimizer="rmsprop",loss='binary_crossentropy',metrics=["accuracy"])

history = model.fita(x_train , y_train, epochs=10,batch_size = 128,
                    validation_data = (x_train , y_train),callbacks=callbacks_list)

3.实验结果：

Epoch 1/10  25000/25000 [==============================] - 313s 12ms/sample - loss: 0.4751 - acc: 0.7779 - val_loss: 0.6679 - val_acc: 0.7521
Epoch 2/10  25000/25000 [==============================] - 265s 11ms/sample - loss: 0.2848 - acc: 0.8869 - val_loss: 0.2021 - val_acc: 0.9271
Epoch 3/10  25000/25000 [==============================] - 251s 11ms/sample - loss: 0.2362 - acc: 0.9128 - val_loss: 0.2687 - val_acc: 0.8936
Epoch 4/10  25000/25000 [==============================] - 172s 7ms/sample - loss: 0.2011 - acc: 0.9239 - val_loss: 0.2430 - val_acc: 0.9182
Epoch 5/10  25000/25000 [==============================] - 145s 6ms/sample - loss: 0.1855 - acc: 0.9311 - val_loss: 0.1540 - val_acc: 0.9434
Epoch 6/10  25000/25000 [==============================] - 148s 6ms/sample - loss: 0.1686 - acc: 0.9394 - val_loss: 0.1093 - val_acc: 0.9639
Epoch 7/10  25000/25000 [==============================] - 143s 6ms/sample - loss: 0.1542 - acc: 0.9439 - val_loss: 0.1670 - val_acc: 0.9368
Epoch 8/10  25000/25000 [==============================] - 145s 6ms/sample - loss: 0.1438 - acc: 0.9491 - val_loss: 0.1907 - val_acc: 0.9227
Epoch 9/10  25000/25000 [==============================] - 147s 6ms/sample - loss: 0.1351 - acc: 0.9524 - val_loss: 0.1359 - val_acc: 0.9539
Epoch 10/10  25000/25000 [==============================] - 143s 6ms/sample - loss: 0.1293 - acc: 0.9561 - val_loss: 0.1029 - val_acc: 0.9655

实验结论：可以看到经过10轮训练后，训练集准确度为0.9561，测试集准确度为0.9655，训练过程中测试集准确度最高为0.9655。可以看出随着周期数的增多，准确度也在不断增高。

总结

LSTM和其他神经网络用途类似，主要用于分类或预测。能够改善了RNN中存在的长期依赖问题；LSTM的表现通常比时间递归神经网络及隐马尔科夫模型（HMM）更好；作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

Original: https://blog.csdn.net/lmk000817/article/details/122701740
Author: 林铭垲18342056
Title: 高级实训任务三:文本情感分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664392/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

FigDraw 9. SCI 文章绘图之韦恩图 (Vennplot)

这期来聊聊韦恩图，这种图形虽然简单，但是也是文章中很常见的，今天就来看看 CNS 级别文章中的Venn该怎么绘制？前言维恩图用于展示在不同的事物群组（集合）之间的数学或逻辑联系…

人工智能 2023年7月16日
0053
ROS中的静态坐标转换（解析+示例）

目录多坐标变换与静态/动态坐标变换的不同之处 tf坐标转换的实质多坐标变换静态/动态坐标变换坐标变换详解什么是TF2？为何要使用TF2？各个功能包的作用整体功能的实…

人工智能 2023年6月2日
0083
Linux系统Anaconda下载安装教程

文章目录 * – 下载安装anaconda – 1.conda 创建环境 – 2.命令行激活环境 – 3.进入官网找到命令 &#82…

人工智能 2023年6月16日
0081
学习笔记 | 多层感知机（MLP）、Transformer

目录多层感知机（MLP） Transformer 1. inputs 输入 2. Transformer的Encoder 2.1 Multi-Head Attention 2.2…

人工智能 2023年7月28日
0054
基于视频/摄像头的简单行为动作识别模型的训练步骤

基于视频序列对于各种动作的检测方法即对视频中不同行为动作做分类识别神经网络使用的是这两个月开源的实时动作序列强分类神经网络：Real Time Sensenet 它是对视频中的动…

人工智能 2023年5月26日
0061
Pandas案例精进 | 药品发放汇总与Excel表数据回填

小小明：「凹凸数据」专栏作者，Pandas数据处理高手，致力于帮助无数数据从业者解决数据处理难题。 Pandas案例需求有一个卫生院需要统计一下每个村扶贫药品发放的数据。数据形…

人工智能 2023年7月7日
0050
全球与中国无线演示器行业市场前瞻及未来发展趋向预测报告2022-2028年

全球与中国无线演示器行业市场前瞻及未来发展趋向预测报告2022-2028年 /-/-/-/-/-/-/-/-/-/-/-/-/*-详情内容请咨询鸿晟信合研究网！【全新修订】：202…

人工智能 2023年7月15日
0066
DNN硬件加速器设计2 — Survey of DNN Development Resouces and DNN Hardware（MIT）

2.1 Survey of DNN Development Resources 这里介绍一些基本的神经网络结构。它们是:在1998年提出的LeNet, 在2012年提出的AlexN…

人工智能 2023年7月14日
0073
【第二轮征稿开启】ICRAIC 2021 机器人、自动化与智能控制国际会议诚邀您的参与！

机器人、自动化与智能控制国际会议（ICRAIC 2021） 2021 International Conference on Robotics Automation and Int…

人工智能 2023年5月30日
0068
深度学习框架安装(Tensorflow&PyTorch&PaddlePaddle）

一、前言本文中讲解的深度学习框架安装的步骤是基于Anaconda的，所以大家要想按照本文中的步骤安装深度学习框架，需要先安装Anaconda （换源要慎重）。实验环境： Win…

人工智能 2023年5月23日
0061
基于pytorch实现的视频分类——C3D模型论文复现

最近在学习视频分类任务，想要跑通一个更换数据集用到自己的课题上。看到了这篇文章及代码论文链接： http://vlg.cs.dartmouth.edu/c3d/c3d_vide…

人工智能 2023年6月30日
0079
机器学习之分类与回归的常见评价指标

在人工智能领域，机器学习的模型及效果如何需要用各种指标来评价。本文将简单介绍几种机器学习中无监督学习的常用评价指标。无监督学习主要分为两类：分类问题与回归问题。分类问题又分为二分…

人工智能 2023年7月15日
0061
语义分割数据集：CamVid数据集的创建和使用-pytorch

很多人反映进不去CamVid官网，这里放上处理过的数据集下载链接：链接：https://pan.baidu.com/s/1Kk_t-EugzyZdJuesDaFHQA?pwd=y…

人工智能 2023年7月21日
0066
基于改进YOLOv5的斑马线和汽车过线行为检测

基于改进YOLOv5的斑马线检测和汽车过线行为检测 1 信息 2 摘要 3 贡献 4 数据集、源码、视频、全文链接今天带来一个基于改进YOLOv5的斑马线和汽车过线行为检测算法：…

人工智能 2023年7月9日
0042
Softmax（分类模型基础）——最全重难点解释及代码

文章目录 * – + softmax 从零开始实现 + * 1. 图像分类数据集 * – 1.1 数据集加载与处理 – 1.2 读取小批量 &#…

人工智能 2023年7月2日
00119
C语言从0到1之《三子棋》的实现

🕺作者@启明星使🎃专栏：《数据库》《C语言》🏇分享一句话：沉香：差一点，怎么总是差一点杨戬：一定是练功的时候总是差不多，到了关键的时候就是差一点大家一起加油🏄‍♂️🏄‍♂️🏄‍♂…

人工智能 2023年6月28日
0076

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

高级实训任务三:文本情感分类

大家都在看