imdb_reviews电影评论数据集的神经网络

2023年5月25日下午3:05 • 人工智能 • 阅读 129

文章目录

如何录入信息
载入数据
词条化处理
词条序列化
搭建神经网络
输入数据
可视化

如何录入信息

文字和图像不同
图像可以将对应的像素点的亮度值或者RGB值转换成张量，然后送入神经网络，但是文字又怎么办呢？
这需要对文本进行词汇处理，即编码，将对应的单词和文本转换为词典中的数字，从而使段落可以用数字矩阵表示。

[En]

This requires lexical processing of the text, that is, coding, to convert the corresponding word and text into a number in the dictionary, so that a paragraph can be represented by a number matrix.

载入数据

tensorflow-datasets中由我们需要的数据
需要pip install tensorflow-datasets

import tensorflow_datasets as tfds
imdb,info = tfds.load('imdb_reviews', with_info=True, as_supervised=True)

imdb_reviews中由训练集核测试集

train_data, test_data = imdb['train'], imdb['test']
training_sentences = []
training_labels = []

testing_sentences = []
testing_labels = []
for s,l in train_data:
    training_sentences.append(str(s.numpy()))
    training_labels.append(l.numpy())
for s,l in test_data:
    testing_sentences.append(str(s.numpy()))
    testing_labels.append(l.numpy())

神经网络要求输入向量，这里需要将label转换成向量

training_lable_final = np.array(training_labels)
testing_label_final = np.array(testing_labels)

词条化处理

from tensorflow.keras.preprocessing.text import Tokenizer
num_words = 10000
oov_token = "##"
tokenizer = Tokenizer(num_words=num_words, oov_token=oov_token)
tokenizer.fit_on_texts(training_sentences)
word_dict = tokenizer.word_indx
print(word_dict)

词条序列化

将句子中的单词按照word_dict中的数字转换成一个序列化矩阵
在此之前，您需要将句子序列化。

[En]

Before that, you need to serialize the sentence.

词条的最大长度维120
默认情况下，长度不满足后填0。

[En]

By default, fill in 0 after the length is not satisfied.

from tensorflow.keras.preprocessing.sequence import pad_sequences
max_length = 120
train_sequence = tokenizer.texts_to_sequence(training_sentences)
padded_train = pad_sequences(train_sequence, maxlen=max_length,truncate='post')

test_sequence = tokenizer.texts_to_sequence(testing_sentences)
padded_test = pad_sequences(test_sequence, maxlen=max_length, truncate='post')
print(padded_train)
print(padded_test)

搭建神经网络

embedding_dim = 16
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=num_words,
                              output_dim=embedding_dim,
                              input_length=max_length,
                              name='embed-1'),
    tf.keras.layers.GlobalAveragePooling1D(name='globalave-1'),
    tf.keras.layers.Dense(6, activation='relu', name='fully-1'),
    tf.keras.layers.Dense(1, activation='sigmoid', name='sigmoid-1')
])
model.compile(loss=tf.losses.binary_crossentropy, optimizer=tf.optimizers.Adam(), metrics=['accuracy'])
model.summary()

输入数据

model.fit(padded_train,training_lable_final, epochs=10, validation_data=(padded_test, testing_label_final))

可视化

import io

e = model.layers[0]
weights = e.get_weights()[0]
print(weights.shape)

reverse_word_dict = dict([(value, key) for(key, value) in word_dict.items()])
out_v = io.open("E:/datasets/tmp/language-splite/vecs.tsv", 'w', encoding='utf8')
out_m = io.open("E:/datasets/tmp/language-splite/meta.tsv", 'w', encoding='utf8')
for word_num in range(1, vocab_size):
    word = reverse_word_dict[word_num]
    embeddings = weights[word_num]
    out_m.write(word + '\n')
    out_v.write('\t'.join([str(x) for x in embeddings]) + '\n')
out_m.close()
out_v.close()

这样访问projector.tensorflow.org然后再上传tsv文件就可以看到相应的词汇的分布了（外国网站，需要科学上网)

Original: https://blog.csdn.net/m0_56104219/article/details/124543062
Author: 君子以阅川
Title: imdb_reviews电影评论数据集的神经网络

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514748/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION

Adam: a method for stochastic optimization_一种随机优化的方法[Paper] 目录核心介绍 Algorithm Initializat…

人工智能 2023年7月13日
0085
【PAT甲级 – C++题解】1120 Friend Numbers

✍个人博客：https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343📚专栏地址：PAT题解集合📝原题地址：题目详情 &#821…

人工智能 2023年6月30日
0075
74.【JavaWeb -02】

JavaWeb (十二)、Cookie * 36.会话 37.保存会话的两种技术 38.编码和解码（养成习惯） (十三)、Session(重点) * 39.session详解: (…

人工智能 2023年6月28日
0087
convE模型

文章目录 * – 《convolutional 2D knowledge graph embedding》论文解读 – + 研究问题 + 写作动机(moti…

人工智能 2023年7月22日
00121
Python设计模式-结构型：适配器模式,装饰者模式,代理模式,组合模式,外观模式

Python设计模式-结构型：适配器模式,装饰者模式,代理模式,组合模式,外观模式适配器模式定义及简单实现案例装饰者模式定义及简单实现案例代理模式定义及简单实现案例组合模式…

人工智能 2023年6月4日
0083
上采样之最近邻插值、双线性插值

上采样之最近邻插值、双线性插值一、最近邻插值二、双线性插值一、最近邻插值设i+u, j+v(i, j为正整数， u, v为大于零小于1的小数，下同)为待求象素坐标，则待求象…

人工智能 2023年6月20日
00128
十种常见的图像标注方法 | 数据标注

计算机视觉的快速发展离不开大量图像标注数据的支持。随着各类图像检测识别算法的商业化落地，市场上对图像标注的准确性要求越来越高。同时，针对不同的应用场景，给出了不同的图像标注方法。 …

人工智能 2023年5月23日
00107
神经网络1.1 感知机模型(神经元模型)

1.激活函数 1.1 Sigmoid函数 Sigmoid 是常用的非线性的激活函数，表达式如下：f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + …

人工智能 2023年7月14日
0086
YOLOV5 代码复现以及搭载服务器运行

文章目录前言一、YOLO简介二、代码下载三、数据集准备四、配置文件的修改 * 1.data下的yaml 2.models下的yaml 3.训练train 五、搭载服务器训…

人工智能 2023年7月26日
00294
Ubuntu 22.04配置深度学习环境保姆级教程

本人因为工作需要，配置了一台 intel 12代酷睿+RTx3090的机器。发现Ubuntu之前的版本（20或者18）根本不支持这台机器的硬件（出现了无法联网的情况）。无奈之下配置…

人工智能 2023年6月17日
00223
【Python数据分析】pandas常用基础数据分析代码

目录一、获取老番茄数据二、python数据分析 1、读取数据源 2、查看数据概况 3、查看异常值 4.1、查看最大值（max函数） 4.2、查看最小值（min函数） 5.1、查…

人工智能 2023年7月15日
0078
基于文化算法优化的神经网络预测研究（Matlab代码实现）

目录 1 文化优化算法 2 人工神经网络 3 基于文化算法优化的神经网络预测研究（Matlab代码实现）运行结果 4 参考文献 5 Matlab代码实现 1 文化优化算法大自然里…

人工智能 2023年7月31日
0076
mongodb/mongoTemplate.upsert批量插入更新数据的实现

今天来记录一下，项目中使用到的mongoTemplate.upsert，在批量更新数据上的用法。 // mongoTemplate.upsert有三种用法，主要功能是更新数据，如果…

人工智能 2023年7月31日
0059
【机器学习项目实战】Python实现聚类(Kmeans)分析客户分组

说明：这是一个机器学习实战项目（附带数据+代码），如需数据+完整代码可以直接到文章最后获取。 1.问题定义在日常银行、电商等公司中，随着时间的推移，都会积累一些客户的数据。在当前…

人工智能 2023年6月2日
0096
CSDN竞赛14期·12月11日考试

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月30日
0045
Jetson Xavier NX arm64 pytorch1.8.0安装

系统信息：板子：NVIDIA Jetson Xavier NX 系统：Ubuntu 18.04.6 LTS (GNU/Linux 4.9.201-tegra aarch64) $…

人工智能 2023年7月14日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

imdb_reviews电影评论数据集的神经网络

文章目录

大家都在看