深度学习实战-01 实现一个电影评论二分类

2023年7月3日上午3:42 • 人工智能 • 阅读 59

文章目录

一.导言
二.电影评论二分类实战
*
2.1 步骤
2.2 导入库
2.3 获取数据
–
2.4 建立模型
2.5 模型训练
2.6 模型评估
–
2.7 改进模型
2.8 总结

一.导言

在实战这块，我们已经具备了一些入门基本的原理和神经网络的整体过程的理解，在训练中为了节省时间，实战以keras进行演示，以便更快地获得模型运行性能并加以分析。如果有时间，后面也会用原生来书写一遍，以便加深对神经网络的认识。

二.电影评论二分类实战

2.1 步骤

导入库 -> 获取数据 -> 建立模型 -> 训练 -> 精度评估 -> 是否改进模型

2.2 导入库

from keras import models
from keras import layers
from tensorflow.keras import optimizers
from keras import losses, metrics
import matplotlib.pyplot as plt
import numpy as np
from keras.datasets import imdb

2.3 获取数据

2.3.1 导入数据

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words = 10000)

train_data[0]

部分结果：

2.3.2 数据处理

因为电影评论数据加载进来为单词的索引，所以我们需要进行变换来查看语句是什么。


word_index = imdb.get_word_index()

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

decoded_review = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])
decoded_review

结果：

我们会发现通过上述操作，我们就转换成了单词。

2.3.3 向量化数据

我们最终训练的是矩阵，所以上述变换只是用于查看原句子的内容，我们还需要一种常用的方法向量化将每行的句子按照索引(索引对应向量的列号为1，反之为0) 进行处理


def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):

        results[i, sequence] = 1.

    return results
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
x_train

结果：

2.3.4 处理监督数据(label data)

我们也需要将监督数据转成向量化。

y_train = np.asarray(train_labels).astype(np.float32)
y_test = np.asarray(test_labels).astype(np.float32)

为了更好的理解，我们先打印下监督数据结果：

2.4 建立模型

以下建立了输入层，隐藏层，输出层。

model = models.Sequential()

model.add(layers.Dense(16, activation='relu', input_shape=(10000, )))

model.add(layers.Dense(16, activation='relu'))

model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer=optimizers.RMSprop(lr=0.001),loss='binary_crossentropy', metrics=['accuracy'])

2.5 模型训练


x_val = x_train[:10000]
partial_x_train = x_train[10000:]

y_val = y_train[:10000]
partial_y_train = y_train[10000:]

history = model.fit(partial_x_train,partial_y_train,epochs=20,batch_size=512,validation_data=(x_val,y_val))
history_dict = history.history
history_dict.keys()

结果：

2.6 模型评估

2.6.1 训练损失和验证损失

history_dict = history.history
loss_values = history_dict['loss']
val_loss_values = history_dict['val_loss']
epochs = range(1, len(loss_values) + 1)

plt.plot(epochs, loss_values, 'bo', label='Training loss')
plt.plot(epochs, val_loss_values, 'b', label='Validation loss')
plt.title('Training and validation loss')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

结果：

我们发现，随着训练的进行，训练集的损失逐渐减小，验证集的损失逐渐增大。

2.6.2 训练精度和验证精度


plt.clf()
acc = history_dict['accuracy']
val_acc = history_dict['val_accuracy']

plt.plot(epochs, acc, 'bo', label='Training acc')
plt.plot(epochs, val_acc, 'b', label='Validation acc')
plt.title('Training and validation accuracy')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
plt.legend()
plt.show()

结果：

我们发现，通过图中表明，训练集精度逐渐增大，验证集精度逐渐减小。

2.6.3 模型评估结果

我们发现，随着训练的进行，模型在第3轮之后出现了过拟合，因此我们需要改进模型使之达到效果。

2.7 改进模型

重新训练模型。


model = models.Sequential()

model.add(layers.Dense(16, activation='relu', input_shape=(10000, )))

model.add(layers.Dense(16, activation='relu'))

model.add(layers.Dense(1, activation='sigmoid'))

model.compile(optimizer='rmsprop',loss='binary_crossentropy', metrics=['accuracy'])
model.fit(x_train, y_train,epochs=4,batch_size=512)
results = model.evaluate(x_test, y_test)
results

测试数据评估：


test_result = model.predict(x_test)
np.sum(test_result > 0.9)

最后得到 7817（总数25000）个预测精度达到0.9。

2.8 总结

通过最常用的方法我们达到了上述效果，如果通过最先进的方法，可以达到99% 以上精度。

Original: https://blog.csdn.net/Hhjnv/article/details/121886206
Author: 我不止三岁
Title: 深度学习实战-01 实现一个电影评论二分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/666795/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例

KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例 * – KNN算法——kd-tree、KNN莺尾花分类sklearn实现实例* 1、kd-tree…

人工智能 2023年7月1日
0056
【20211208】【Matlab】使用Matlab中的pca函数实现数据降维，并将数据可视化

pca函数使用方法 [coeff, score] = pca(data); （1）输入参数 data：待降维的数据集（2）输出参数 coeff：主成分分量，即样本协方差矩阵的特征…

人工智能 2023年6月16日
0086
六、HSV颜色空间应用实例——颜色分割提取与替换

教程汇总：python基础入门系列通过之前的章节（四、OpenCV颜色空间——HSV颜色模型），我们已经初步认识了HSV颜色空间的特性与优势，现在就来看两个典型的应用实例，颜色分…

人工智能 2023年7月20日
0050
AI+医疗：使用神经网络进行医学影像识别分析 ⛵

💡 作者：韩信子@ShowMeAI📘 计算机视觉实战系列：https://www.showmeai.tech/tutorials/46📘 行业名企应用系列：https://www….

人工智能 2023年6月4日
0088
一文看懂MECOOL KD2 Android TV Dongle

MECOOL KD2 是由Amlogic S905Y4 处理器驱动的Android TV Dongle ，在最新的AndroidTV11 操作系统上运行。将棒插入任何带有HDMI …

人工智能 2023年5月25日
0069
【机器学习】python使用matplotlib进行二维数据绘图并保存为png图片

端到端机器学习导航：【机器学习】python借助pandas加载并显示csv数据文件，并绘制直方图【机器学习】python使用matplotlib进行二维数据绘图并保存为png图片…

人工智能 2023年6月16日
0077
tensorflow2 serving

tensorflow 模型训练部署为tfserving 服务有以下三部1 模型训练保存为savemodel2 保存的模型在docker 部署服务。3 在调用http 接口，进行模…

人工智能 2023年5月25日
0067
2019中怎么设定断点_RDD: 断点回归命令rdrobust（附rdbwselect、rdplot）及Stata实现

断点回归由Thistlewaite and Campbell(1960)首次使用，但直到1990年代末才引起经济学家的重视。 Thistlethwaite、Campbell于196…

人工智能 2023年6月18日
0066
基于python的电影数据可视化分析与推荐系统

温馨提示：文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 项目简介本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据，并对电影数据进…

人工智能 2023年7月4日
0071
Anaconda及pytorch详细安装及使用教程

Anaconda的介绍 Anaconda指的是一个开源的Python发行版本，其包含了conda、Python等180多个科学包及其依赖项。因为包含了大量的科学包，Anacond…

人工智能 2023年7月22日
0062
使用yolov5-lite对屏幕进行目标检测

目录 1. 修改检测网络 1.1 删除int8量化，使用摄像头等用不到的内容 1. 2 修改用到的参数 1.3 设置鼠标移动 1.4 将mian函数改为预测函数 2. 实现屏幕检测…

人工智能 2023年7月9日
0086
一文速学-Pandas中DataFrame转换为时间格式数据与处理

一、Time Series / Date functionality 1.创建日期范围 2.频率截至 3.Series数据类型转换 Original: https://blog.c…

人工智能 2023年7月15日
0053
Explicit Knowledge Incorporation for Visual Reasoning

Abstract 现有的可解释的和显式的视觉推理方法只执行基于视觉证据的推理，而不考虑视觉场景之外的知识。为了解决视觉推理方法和真实世界图像的语义复杂性之间的知识差距，我们提出了…

人工智能 2023年6月1日
0067
基于朴素贝叶斯算法对新闻文本进行分类

目录朴素贝叶斯算法编辑朴素贝叶斯的三种方式实战——对新闻文本进行文本分类贝叶斯定理贝叶斯定理（Bayes Theorem）也称贝叶斯公式，是关于随机事件的条件概率的定…

人工智能 2023年6月30日
0053
Ubuntu安装Pytorch（详细）

最近发现了一个挺厉害的人工智能学习网站，内容通俗易懂，风趣幽默，感兴趣的可以点击此链接进行查看：床长人工智能教程废话不多说，请看正文！一、安装 NVIDIA GPU显卡驱动 1…

人工智能 2023年7月20日
0067
[因果推断] 增益模型（Uplift Model）介绍（三）

一基础介绍增益模型（uplift model）：估算干预增量（uplift），即干预动作（treatment）对用户响应行为（outcome）产生的效果。这是一个因果推…

人工智能 2023年6月19日
00112

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

深度学习实战-01 实现一个电影评论二分类

文章目录

2.1 步骤

2.2 导入库

2.3 获取数据

2.3.1 导入数据

2.3.2 数据处理

2.3.3 向量化数据

2.3.4 处理监督数据(label data)

2.4 建立模型

2.5 模型训练

2.6 模型评估

2.6.1 训练损失和验证损失

2.6.2 训练精度和验证精度

2.6.3 模型评估结果

2.7 改进模型

2.8 总结

大家都在看