基于循环神经网络lstm构建一个商品评论分类模型

2023年7月3日下午1:26 • 人工智能 • 阅读 63

一、项目背景及意义

AI人工智能一直是近年来热度一直热度不减的话题，我们常在各种科幻电影和小说都能看到它的身影，甚至在现实生活中看见它，对于AI的研究也一直源源不断。这个项目是基于循环神经网络构建一个商品评论分类模型使用的是LSTM就是循环神经网络对评论的情感预测。LSTM模型，是循环神经网络的一种变体，可以很有效的解决简单循环神经网络的梯度爆炸或消失问题。通过对京东小米的评论的训练，能让人工智能辨别出是好评还是差评。通过这个项目，对于人工智能的研究，对于今天和未来有着巨大的意义。

二、主要工作介绍

使用浏览器的开发工具获取京东小米的评论的url分别爬取京东小米商品的好评和差评放到不同的csv表里，然后使用python读取好评和差评并将好评和差评转为dataframe，并给分别每列评论创建一个列名，和打上0和1的标签，方便模型的训练。然后就是分别使用正则表达式去掉一些没必要的符号然后使用结巴分词将评论分成一个一个的词语。接下来就是平衡好评和差评的数量，再将好评和差评进行合并并将数据进行打乱。然后就是给每个词语构建一个索引，然后将索引赋值给评论的词语，使用索引代替在dataframe里的词语，找出最大评论的长度，并统一索引的长度。接下来，就是创建神经网络使用LSTM构建模型，训练模型在再对模型的评估和测试。最后构建一个能够输入评论和判断是好评还是差评的函数。

三、相关技术介绍

使用Requests库（2.27.1）对京东数据进行爬虫并使用time包控制爬取速度防止被封号。

使用Sklearn（0.0.0）对数据进行预处理。

使用tensorflow（2.8.0）机器学习框架对模型进行训练。

使用matplotlib（3.5.1）查看训练精度和损失值。

四、项目实现及展示（重点内容，目的要让别人知道你怎么实现）

思路图

数据采集

打开浏览器，进入京东官网，搜索小米11手机，按按键F12打开浏览器开发者模式在网络下面名称里找到productPageComments标头查看URL，然后使用python获取url，使用循环得到好评和差评每条评论的json数据，并分别将其保存为csv文件。

图一小米评论的原始json数据

图二爬取京东好评的部分代码

爬取京东评论的代码是分成了两个部分，一个是爬取京东好评的部分，一个是爬取京东差评的部分。只要将param部分的soce更改成差评ur的soce的参数。在循环获取部分加上time.sleep(1)代码控制爬取速度，不然会被京东把ip拉黑。

图三好评csv部分数据

数据处理

接下来就是数据处理环节，导入相关的包，然后使用pd.read_csv将好评和差评分别放入d1和d2两个dataframe里并将给评论创建一个列名，并将没有列名的那一列删掉，仅保存带有列名的那一列。

图四好评部分datafarme数据展示

再将好评部分创建一列1，差评部分创建一列0，方便后面识别评论是好评还是发差评，再创建两个列表l1和l2。使用循环分别读取d1和d2的每一条评论然后再使用正则表达式去掉除中文以外的其他数据。再使用结巴分词将其处理成一个一个词，再将这些词放进创建的两个列表里将列表转为dataframe然后将他们与0和1拼接起来将好评和差评弄成一样多列，再将他们打乱顺序，以保

证好评和差评的数量不会差太多。

图五用结巴分词分号并乱序

图六给词语标上索引

图七用索引替换
然后找出最长的评论，并将所有列填充成一样的长度，这是方便弄成一个由索引构成的向量

图八将索引填充成一样长

模型搭建
当得到图八的数据后就可以构建模型了这里使用的是循环神经网络来构建模型，神经元是64个，使用激活函数sigmoid进行编译迭代数15

图九模型搭建的代码

图十模型的参数

接下来就是模型的评估和可视化

图十一展示acc和val_acc
可以看出验证集和验证集的准确度是不带上升的这就证明了模型的可以的，使用一定的测试集来进行测试查看准确率和输出损失值

图十二测试结果

为了更直观的检测训练的模型，接下来做一个输入评论然后判断是好评还是差评。我的思路是输入一个评论然后用结巴分词和正则表达式分割开来，用word_index.get(word, 0)判断割开的词语是否在之前的列表里的，并使查看之前列表里的词出现的频率，如果评论太高或者一些毫无意义的中性词就把它去掉。如果在的话就把列表的索引替换成词，如果不在的话就忽略。再转成dataframe使用模型测试。测试所有词的平均分数因为我们训练的标签是0和1所以大于0.5是好评小于0.5的是差评。为了准确测试，我们在京东爬取的数
据，去淘宝复制评论进行测试。我们选前面五组好评和后面五组差评进行测试

可以看到训练模型的还是可以的，对于判断的结果还是令人比较满意，除了最后一个评论我多复制了一个换行，程序报错，我也用代码做了提醒功能，如果用户输入有错或者是全部都是列表里没有的词汇就会提醒用户，输入有误，或者全部是新词汇，可以重新输入，这里没有重新输入是应为循环10次这是最后一次，报错占用了最后一次循环

五、总结

这次的实验对我还是挺有难度的，不仅要求对书上和课上的知识掌握透彻，还需要掌握爬虫的新知识。其实一开始我是想爬取淘宝评论的，但是奈何淘宝的反爬虫机制太过于强大，所以才转为京东的。刚开始爬京东的时候也是啥都没有，后面用伪造浏览器的方法才能爬出数据。在除里数据时，因为数据格式不对使用函数经常报错，这也是我一个头痛的事情。然后在训练完模型后因为不知道怎么把评论放进去去网上研究了一下午也没有解决这个问题，后面请教一下同学，他说可以用训练的第一列索引放进去试试，我顿时茅塞顿开，将评论结巴转为索引再转为dataframe就可以使用模型了。这次的实验是我大学以来收获最大的实验，通过这次实验不仅对dataframe的知识还有列表字典等处理方法，还有对神经网络的深入了解，更重要的是学会了如何上网查找资料以及变学边做。因为该案例在网上资源比较少，后面参考的还是一篇基于循环网络lstm对航空评论的预测。但是它处理的是英文所以差距还是蛮大的。比这跟大的意义在于，人类对人工智能的研究，通过我训练的模型也可以方便用户使用。从这次的实战给我带来了不小的成就，也激发了我独自编程的快乐，对自己提升很大。

代码

爬虫代码

import requests
import json
from urllib.parse import urlencode
import time
def hp():
    print("&#x6B63;&#x5728;&#x722C;&#x53D6;&#x597D;&#x8BC4;")
    callback = 'fetchJSON_comment98vv13370'

    def get_url(page):  # &#x83B7;&#x5F97;&#x6BCF;&#x4E00;&#x9875;&#x8BC4;&#x8BBA;&#x7684;url
        url_ = 'https://club.jd.com/comment/productPageComments.action?'
        param = {
            'callback': 'fetchJSON_comment98vv13370',
            'productId': 100017358626,  # &#x6539;&#x8FD9;&#x91CC;&#x5C31;&#x884C;
            'score': 3,  # 3&#x662F;&#x597D;&#x8BC4;&#xFF0C;4&#x662F;&#x4E2D;&#x8BC4;&#xFF0C;5&#x662F;&#x5DEE;&#x8BC4;&#xFF0C;0&#x662F;&#x5168;&#x90E8;
            'sortType': 5,
            'page': page,
            'pageSize': 10,
            'isShadowSku': 0,
            'fold': 1
        }
        url = url_ + urlencode(param)
        print(url)
        return url

    def get_html(url):  # &#x8FD4;&#x56DE;&#x8BC4;&#x8BBA;&#x771F;&#x5B9E;&#x7684;&#x7F51;&#x9875;&#x5185;&#x5BB9;
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
            'referer': 'https://item.jd.com/68767398029.html#comment'
        }
        res = requests.get(url, headers=headers)
        return res.text

    def get_json(html, callback):  # &#x5F97;&#x5230;&#x8BC4;&#x8BBA;&#x7684;json&#x6570;&#x636E;
        data = html.replace(callback, '')
        data = data.replace('(', '')
        data = data.replace(')', '')
        data = data.replace(';', '')
        data = json.loads(data)
        return data

    t1 = []
    for i in range(150):  # &#x722C;&#x53D6;10&#x9875;&#x8BC4;&#x8BBA;&#x597D;&#x8BC4;
        url = get_url(i)
        print("&#x6B63;&#x5728;&#x722C;&#x53D6;&#x7B2C;%s&#x9875;" % i)
        html = get_html(url)
        data = get_json(html, callback)
        for i in data['comments']:
            t1.append(i['content'])
            time.sleep(1)
            # print(t1)
            # print(i)
            print(i['content'])
            print('---------')
    with open("&#x5546;&#x54C1;&#x597D;&#x8BC4;.csv", 'w') as f:
        for i in t1:
            f.write(i + '\n')  # &#x6309;&#x884C;&#x5199;&#x5165;txt&#x6362;&#x884C;
def cp():
    print("&#x6B63;&#x5728;&#x722C;&#x53D6;&#x5DEE;&#x8BC4;")
    callback = 'fetchJSON_comment98vv13370'

    def get_url(page):  # &#x83B7;&#x5F97;&#x6BCF;&#x4E00;&#x9875;&#x8BC4;&#x8BBA;&#x7684;url
        url_ = 'https://club.jd.com/comment/productPageComments.action?'
        param = {
            'callback': 'fetchJSON_comment98vv13370',
            'productId': 100017358626,  # &#x6539;&#x8FD9;&#x91CC;&#x5C31;&#x884C;
            'score': 1,  # 3&#x662F;&#x597D;&#x8BC4;&#xFF0C;4&#x662F;&#x4E2D;&#x8BC4;&#xFF0C;5&#x662F;&#x5DEE;&#x8BC4;&#xFF0C;0&#x662F;&#x5168;&#x90E8;
            'sortType': 5,
            'page': page,
            'pageSize': 10,
            'isShadowSku': 0,
            'fold': 1
        }
        url = url_ + urlencode(param)
        print(url)
        return url

    def get_html(url):  # &#x8FD4;&#x56DE;&#x8BC4;&#x8BBA;&#x771F;&#x5B9E;&#x7684;&#x7F51;&#x9875;&#x5185;&#x5BB9;
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
            'referer': 'https://item.jd.com/68767398029.html#comment'
        }
        res = requests.get(url, headers=headers)
        return res.text

    def get_json(html, callback):  # &#x5F97;&#x5230;&#x8BC4;&#x8BBA;&#x7684;json&#x6570;&#x636E;
        data = html.replace(callback, '')
        data = data.replace('(', '')
        data = data.replace(')', '')
        data = data.replace(';', '')
        data = json.loads(data)
        return data

    t1 = []
    for i in range(150):  # &#x722C;&#x53D6;10&#x9875;&#x8BC4;&#x8BBA; &#x5168;&#x90E8;&#x8BC4;&#x8BBA;
        url = get_url(i)
        print("&#x6B63;&#x5728;&#x722C;&#x53D6;&#x7B2C;%s&#x9875;" % i)
        html = get_html(url)
        data = get_json(html, callback)
        for i in data['comments']:
            t1.append(i['content'])
            time.sleep(1)
            # print(t1)
            # print(i)
            print(i['content'])
            print('---------')
    with open("&#x5546;&#x54C1;&#x5DEE;&#x8BC4;.csv", 'w') as f:
        for i in t1:
            f.write(i + '\n')  # &#x6309;&#x884C;&#x5199;&#x5165;csv&#x6362;&#x884C;
def qb():
    print("&#x6B63;&#x5728;&#x5168;&#x90E8;")
    callback = 'fetchJSON_comment98vv13370'

    def get_url(page):  # &#x83B7;&#x5F97;&#x6BCF;&#x4E00;&#x9875;&#x8BC4;&#x8BBA;&#x7684;url
        url_ = 'https://club.jd.com/comment/productPageComments.action?'
        param = {
            'callback': 'fetchJSON_comment98vv13370',
            'productId': 100017358626,  # &#x6539;&#x8FD9;&#x91CC;&#x5C31;&#x884C;
            'score': 1,  # 3&#x662F;&#x597D;&#x8BC4;&#xFF0C;4&#x662F;&#x4E2D;&#x8BC4;&#xFF0C;5&#x662F;&#x5DEE;&#x8BC4;&#xFF0C;0&#x662F;&#x5168;&#x90E8;
            'sortType': 5,
            'page': page,
            'pageSize': 10,
            'isShadowSku': 0,
            'fold': 1
        }
        url = url_ + urlencode(param)
        print(url)
        return url

    def get_html(url):  # &#x8FD4;&#x56DE;&#x8BC4;&#x8BBA;&#x771F;&#x5B9E;&#x7684;&#x7F51;&#x9875;&#x5185;&#x5BB9;
        headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36',
            'referer': 'https://item.jd.com/68767398029.html#comment'
        }
        res = requests.get(url, headers=headers)
        return res.text

    def get_json(html, callback):  # &#x5F97;&#x5230;&#x8BC4;&#x8BBA;&#x7684;json&#x6570;&#x636E;
        data = html.replace(callback, '')
        data = data.replace('(', '')
        data = data.replace(')', '')
        data = data.replace(';', '')
        data = json.loads(data)
        return data

    t1 = []
    for i in range(200):  # &#x722C;&#x53D6;10&#x9875;&#x8BC4;&#x8BBA;
        url = get_url(i)
        print("&#x6B63;&#x5728;&#x722C;&#x53D6;&#x7B2C;%s&#x9875;"% i)
        html = get_html(url)
        data = get_json(html, callback)
        for i in data['comments']:
            t1.append(i['content'])
            time.sleep(1)
            # print(t1)
            # print(i)
            print(i['content'])
            print('---------')
    with open("&#x5546;&#x54C1;&#x5DEE;&#x8BC4;.csv", 'w') as f:
        for i in t1:
            f.write(i + '\n')  # &#x6309;&#x884C;&#x5199;&#x5165;txt&#x6362;&#x884C;
hp()
cp()
qb()

评论情感分析代码

coding=utf-8
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
import jieba
from nltk import FreqDist
from pandas import DataFrame
from sklearn.model_selection import train_test_split
import keras.preprocessing.text as text
import re
from sklearn.feature_extraction.text import CountVectorizer
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
import numpy as np

"""&#x5C06;&#x4EAC;&#x4E1C;&#x7684;&#x597D;&#x8BC4;&#x548C;&#x5DEE;&#x8BC4;&#x5206;&#x522B;&#x653E;&#x5230;&#x4E24;&#x4E2A;&#x4E0D;&#x540C;&#x7684;dataframe"""
df1 = pd.read_csv('&#x5546;&#x54C1;&#x597D;&#x8BC4;.csv',encoding='gbk',header=None,sep = '\t')
df1['comment']=df1#&#x7ED9;&#x8BC4;&#x8BBA;&#x653E;&#x4E0A;comment&#x7684;&#x5217;&#x540D;
df1 = df1.drop(0, axis=1)#&#x5220;&#x9664;&#x539F;&#x6765;&#x6709;&#x5217;&#x660E;&#x4E3A;0&#x7684;&#x90A3;&#x4E00;&#x884C;
print(df1)
df2 = pd.read_csv('&#x5546;&#x54C1;&#x5DEE;&#x8BC4;.csv',encoding='gbk',header=None,sep = '\t')
df2['comment']=df2
df2 = df2.drop(0, axis=1)
df1['comment'] = df1.comment.apply(lambda x:' '.join(jieba.cut(x)))#&#x7ED3;&#x5DF4;&#x5206;&#x8BCD;
print(df1)
df2['comment'] = df2.comment.apply(lambda x:' '.join(jieba.cut(x)))
df1['yn']=1#&#x5206;&#x522B;&#x7ED9;&#x597D;&#x8BC4;&#x548C;&#x5DEE;&#x8BC4;&#x9644;&#x4E0A;0&#x548C;1&#x7684;&#x6807;&#x7B7E;
df2['yn']=0
df_p=pd.concat([df1,df2])
print(df1)
l1 = []
l2=  []
def r1():
    global l1,l2#&#x58F0;&#x660E;&#x4E3A;&#x5168;&#x5C40;&#x53D8;&#x91CF;
    for s1 in df1['comment']:
        # print('9999')
        # print(s1)
        s1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+&#x2014;&#x2014;&#xFF01;, &#xFF0C;: &#xFF1A; &#x3002;&#xFF1F;&#x3001;~@#&#xFFE5;%&#x2026;&#x2026;&*&#xFF08;&#xFF09;]+", "", s1)#&#x7528;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x9664;&#x53BB;&#x7279;&#x6B8A;&#x7B26;&#x53F7;
        s1 = re.sub(r'[0-9]', '', s1)#&#x7528;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x9664;&#x53BB;&#x6570;&#x7EC4;
        s1 = re.sub(r'[A-Za-z]', ' ', s1)#&#x7528;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x9664;&#x53BB;&#x82F1;&#x6587;
        cut = jieba.lcut(s1)  # &#x7ED3;&#x5DF4;&#x5206;
        l1.append(cut)#&#x5C06;&#x7ED3;&#x5DF4;&#x7684;&#x8BCD;&#x653E;&#x8FDB;l1&#x91CC;
    for s1 in df2['comment']:
        s1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+&#x2014;&#x2014;&#xFF01;, &#xFF0C;: &#xFF1A; &#x3002;&#xFF1F;&#x3001;~@#&#xFFE5;%&#x2026;&#x2026;&*&#xFF08;&#xFF09;]+", "", s1)
        s1 = re.sub(r'[0-9]', '', s1)
        s1 = re.sub(r'[A-Za-z]', ' ', s1)  # &#x7528;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x9664;&#x53BB;&#x82F1;&#x6587;
        cut = jieba.lcut(s1)  # &#x7ED3;&#x5DF4;&#x5206;
        l2.append(cut)
    l1 = {'comment': l1}#&#x5C06;&#x6570;&#x7EC4;l1&#x53D8;&#x6210;&#x5B57;&#x5178;
    l2 = {'comment': l2}
    l1 = DataFrame(l1)#&#x5C06;&#x5B57;&#x5178;l&#x53D8;&#x6210;datafram
    l2 = DataFrame(l2)
    df1['comment']= l1['comment']#&#x5C06;df1&#x7684;&#x8BC4;&#x8BBA;&#x6362;&#x6210;l1&#x7ED3;&#x5DF4;&#x53BB;&#x6742;&#x7684;&#x8BC4;&#x8BBA;
    df2['comment'] =l2['comment']
r1()
df=pd.concat([df1,df2])#&#x62FC;&#x63A5;&#x597D;&#x8BC4;&#x548C;&#x574F;&#x54C1;
d_n = df[df['yn']==0]#&#x628A;0&#x548C;1&#x7684;&#x8BC4;&#x8BBA;&#x5206;&#x522B;&#x653E;&#x5982;&#x4E24;&#x4E2A;dataframe
d_y = df[df['yn']==1]
d_y = d_y.iloc[:len(d_n)]#&#x628A;&#x5DEE;&#x8BC4;&#x597D;&#x8BC4;&#x5F04;&#x6210;&#x4E00;&#x6837;&#x591A;
print(len(d_y),len(d_n))
data = pd.concat([d_y, d_n])
data = data.sample(len(data))#&#x5C06;&#x597D;&#x8BC4;&#x5DEE;&#x8BC4;&#x5168;&#x90E8;&#x6253;&#x4E71;&#x987A;&#x5E8F;
print(data)
word_set = set()#&#x65B0;&#x5EFA;&#x4E00;&#x4E2A;&#x96C6;&#x5408;&#x7528;&#x4E8E;&#x628A;&#x5168;&#x90E8;&#x8BC4;&#x8BBA;&#x653E;&#x8FDB;&#x53BB;
for text in data.comment:
    for word in text:
        if (word not in word_set):#&#x9664;&#x53BB;&#x91CD;&#x590D;&#x7684;&#x8BCD;&#x8BED;
            word_set.add(word)
word_list = list(word_set)
print('word_list')
print(word_list)
print(word_list.index('&#x54CD;&#x5E94;&#x901F;&#x5EA6;'))
word_index = dict((word, word_list.index(word)+1) for word in word_list)#word_list.index(word)+1&#x662F;&#x4E3A;&#x4E86;&#x8BA9;&#x5355;&#x8BCD;&#x548C;&#x6570;&#x5B57;&#x5BF9;&#x5E94;&#x4ECE;1&#x5F00;&#x59CB;&#xFF0C;&#x4E00;&#x822C;&#x60C5;&#x51B5;&#x4E0B;&#x7D22;&#x5F15;&#x662F;&#x4ECE;0&#x5F00;&#x59CB;&#x7684;&#xFF0C;&#x7ED9;&#x4ED6;&#x4EEC;&#x6807;&#x4E0A;&#x7D22;&#x5F15;
print('word_index')
print(word_index)
data_ok = data.comment.apply(lambda x: [word_index.get(word, 0) for word in x])#&#x628A;&#x8BC4;&#x8BBA;&#x8FD9;&#x5217;&#x8BCD;&#x8BED;&#x66FF;&#x6362;&#x6210;&#x7D22;&#x5F15;
print('data_ok1')
print(data_ok)
print(len(data_ok.iloc[2]))
"""&#x56E0;&#x4E3A;&#x6BCF;&#x6761;&#x8BC4;&#x8BBA;&#x957F;&#x5EA6;&#x4E0D;&#x4E00;&#x6837;&#xFF0C;&#x6211;&#x4EEC;&#x9700;&#x8981;&#x586B;&#x5145;&#x6210;&#x957F;&#x5EA6;&#x4E00;&#x81F4;&#x7684;&#x5411;&#x91CF;&#xFF0C;&#x4E0D;&#x591F;&#x7684;&#x7528;0&#x586B;&#x5145;&#xFF0C;&#x8FD9;&#x5C31;&#x662F;word_index&#x662F;&#x4ECE;1&#x5F00;&#x59CB;&#x7684;&#x539F;&#x56E0;"""
maxlen = max(len(x) for x in data_ok)#&#x67E5;&#x770B;&#x6700;&#x957F;&#x8BC4;&#x8BBA;
max_word = len(word_set) + 1
data_ok = tf.keras.preprocessing.sequence.pad_sequences(data_ok.values, maxlen=maxlen )#&#x4E0D;&#x591F;&#x957F;&#x7684;&#x586B;&#x5145;&#x4E3A;0&#xFF0C;&#x53D8;&#x4E3A;&#x4E00;&#x6837;&#x957F;
print('data_ok2')
print(data_ok)
print('data_ok[0:1]')
print(data_ok[1:2])
print(data_ok.shape)
print(data.yn.values)
"""&#x6784;&#x5EFA;&#x6A21;&#x578B;"""
model = tf.keras.Sequential()
model.add(tf.keras.layers.Embedding(max_word, 50, input_length=maxlen))
model.add(tf.keras.layers.LSTM(64))#64&#x662F;&#x9690;&#x85CF;&#x5355;&#x5143;&#x4E2A;&#x6570;
model.add(tf.keras.layers.Dense(1, activation='sigmoid'))
model.summary()
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
"""&#x8BAD;&#x7EC3;&#x6A21;&#x578B;"""
print('&#x603B;&#x6837;&#x672C;&#x6570;&#x91CF;:%d' % (len(data)))
print('&#x8BAD;&#x7EC3;&#x96C6;&#x6570;&#x91CF;:%d' % (len(data_ok)))
history = model.fit(data_ok, data.yn, epochs=15, batch_size=128, validation_split=0.2 )
x_train, x_test, y_train, y_test = train_test_split(data_ok,data.yn, random_state=1)
print('&#x6D4B;&#x8BD5;&#x96C6;&#x6570;&#x91CF;:%d' % (len(x_train)))
loss, acc = model.evaluate(x_test, y_test)
print('&#x8F93;&#x51FA;&#x635F;&#x5931;&#x503C;:', loss)
print('&#x51C6;&#x786E;&#x7387;:',acc)
"""&#x5C06;&#x8BAD;&#x7EC3;&#x7ED3;&#x679C;&#x53EF;&#x89C6;&#x5316;"""
plt.plot(history.epoch, history.history.get('acc'), 'r', label='acc')
plt.plot(history.epoch, history.history.get('val_acc'), 'b', label='val_acc')
plt.legend()
plt.show()

"""&#x4F7F;&#x7528;&#x6A21;&#x578B;&#x8FDB;&#x884C;&#x8BC4;&#x8BBA;&#x6D4B;&#x8BD5;"""
z1 = {}
for s1 in df_p['comment']:
    s1 = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+&#x2014;&#x2014;&#xFF01;, &#xFF0C;: &#xFF1A; &#x3002;&#xFF1F;&#x3001;~@#&#xFFE5;%&#x2026;&#x2026;&*&#xFF08;&#xFF09;]+", "", s1)
    cut = jieba.cut(s1)# &#x7ED3;&#x5DF4;&#x5206;&#x8BCD;
    for word in cut:
        if not (word in z1):
            z1[word] = 0
        else:
            z1[word] += 1
w1 = sorted(z1.items(), key=lambda kv: kv[1], reverse=True)#&#x5BF9;&#x8BCD;&#x8BED;&#x8FDB;&#x884C;&#x6392;&#x5E8F;
print("&#x67E5;&#x770B;&#x5168;&#x90E8;&#x8BCD;&#x8BED;&#x51FA;&#x73B0;&#x9891;&#x7387;")
print(w1)
model.save('pinglun.h5')#&#x4FDD;&#x5B58;&#x6A21;&#x578B;
model=tf.keras.models.load_model('pinglun.h5')#&#x4F7F;&#x7528;&#x6A21;&#x578B;
p2 =model.predict(data_ok[0:1])

for i in range(10):
    try:
        predict_text = input('&#x8F93;&#x5165;&#x4F60;&#x7684;&#x8BC4;&#x8BBA;:')  # predict_text='&#x5C0F;&#x7C73;&#x53D1;&#x70ED;&#x4E25;&#x91CD;'
        predict_text = ' '.join(jieba.lcut(predict_text))  # &#x5C06;&#x4F60;&#x8F93;&#x5165;&#x7684;&#x8BC4;&#x8BBA;&#x7ED3;&#x5DF4;&#x597D;&#xFF0C;&#x5E76;&#x7528;&#x7A7A;&#x683C;&#x5206;&#x5F00;
        print(predict_text)
        text = []
        text_list = predict_text.split(' ')  # &#x5C06;&#x6BCF;&#x4E2A;&#x8BCD;&#x8BED;&#x653E;&#x5165;&#x5217;&#x8868;&#x91CC;
        word_z = ['&#x5C0F;&#x7C73;', '&#x624B;&#x673A;', '&#x7684;', '&#x4E86;']  # &#x505A;&#x4E00;&#x4E2A;&#x4E2D;&#x6027;&#x8BCD;&#x8BCD;&#x8868;&#x63D0;&#x9AD8;&#x51C6;&#x786E;&#x7387;
        # print(text_list)
        for word in text_list:  # &#x5C06;&#x8F93;&#x5165;&#x7684;&#x8BCD;&#x8BED;&#x548C;&#x8BAD;&#x7EC3;&#x96C6;&#x7684;&#x8BCD;&#x8BED;&#x505A;&#x5BF9;&#x6BD4;&#xFF0C;&#x5982;&#x679C;&#x8F93;&#x5165;&#x7684;&#x8BCD;&#x8BED;&#x4E0D;&#x5728;&#x8BAD;&#x7EC3;&#x96C6;&#x91CC;&#x5219;&#x5FFD;&#x7565;&#xFF0C;&#x5269;&#x4E0B;&#x7684;&#x653E;&#x5982;text&#x91CC;
            if (word in word_index) and (word not in word_z):
                # print(word)
                text.append(word_index.get(word, 0))
        # print(text)
        text = DataFrame(text)  # &#x8F6C;&#x4E3A;datafram&#xFF0C;&#x683C;&#x5F0F;&#x8981;&#x548C;&#x8BAD;&#x7EC3;&#x7684;&#x683C;&#x5F0F;&#x4E00;&#x6837;&#xFF0C;&#x8DDF;data_ok[0:1]&#x4E00;&#x6837;&#xFF0C;data_ok[0:1]&#x8868;&#x793A;&#x4E3A;&#x7B2C;&#x4E00;&#x6761;&#x8BC4;&#x8BBA;
        a1 = 0
        p2 = model.predict(text)  # &#x5C06;&#x8F93;&#x5165;&#x7684;&#x8BC4;&#x8BBA;&#x653E;&#x5982;&#x6A21;&#x578B;&#x6D4B;&#x8BD5;
        for p in p2:  # &#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x8D1D;&#x53F6;&#x65AF;
            a1 = a1 + p[0]
        a1 = a1 / len(p2)
        print(a1)
        if a1 > 0.50:  # &#x5224;&#x65AD;&#x6807;&#x51C6;&#xFF0C;&#x673A;&#x5668;&#x4EBA;&#x667A;&#x969C;&#x5C31;&#x6539;&#x8FD9;&#x91CC;
            print('&#x8BC4;&#x8BBA;&#x662F;&#x79EF;&#x6781;&#x7684;')
        else:
            print('&#x8BC4;&#x8BBA;&#x662F;&#x6D88;&#x6781;&#x7684;')
    except:
        print("AI&#x6CA1;&#x6709;&#x89C1;&#x8FC7;&#x8BE5;&#x8BCD;&#x8BED;&#xFF0C;&#x6216;&#x8005;&#x8F93;&#x5165;&#x6709;&#x8BEF;")
        pass
    finally:
        continue

Original: https://blog.csdn.net/qq_39454086/article/details/125352967
Author: 茶啊二中病娇
Title: 基于循环神经网络lstm构建一个商品评论分类模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/667665/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

VIT中提取图像分类特征的详细步骤

图1. VIT结构图 VIT是第一篇纯视觉transformer,被当成了许多网络的backbone。现在自己梳理一下VIT怎么从一张图像中提取特征，最后用于分类的过程。（自己的理…

人工智能 2023年5月28日
0088
python使用pip安装包报错的解决办法（ERROR: Could not find a version that satisfies the requirement XXX）

使用pip命令安装python包时可能会出现如下错误提示： ERROR: Could not find a version that satisfies the requireme…

人工智能 2023年7月4日
00149
C&W攻击算法

C&W是一种基于优化的攻击方式，它同时兼顾高攻击准确率和低对抗扰动的两个方面。首先对抗样本需要用优化的参数来表示，其次在优化的过程中，需要达到两个目标，目标一是对抗样本和对…

人工智能 2023年6月24日
0081
YOLO(2) —— 门外汉瞄一瞄

pjreddie.com/darknet/yolov1 pjreddie.com/darknet/yolov2 pjreddie.com/darknet/yolo 【yolov3】…

人工智能 2023年7月12日
0064
复旦大学肖仰华老师-知识图谱-概念与技术

知识图谱（ Knowledge Graph）的概念由谷歌2012年正式提出，旨在实现更智能的搜索引擎，并且于2013年以后开始在学术界和业界普及。目前，随着智能信息服务应用的不断发…

人工智能 2023年6月1日
0088
UCF101动作识别数据集简介绍及数据预处理

文章目录 * – + * 一、数据集简介： * 二、数据集获取及解压缩： * – 1. 数据下载 – 2. 数据集解压缩： * 三、数据集划分 …

人工智能 2023年7月22日
0049
pandas进阶用法（一）筛选条件、多重索引、缺失值

一篇比较好的pandas指南，适合已经熟悉pandas，并想掌握一些进阶用法的读者,不适合对pandas完全不了解的新人。文章大部分是Stack Overflow常见问题集合。 p…

人工智能 2023年7月16日
0058
全球及中国ESD托盘市场行业市场前瞻及投资经营管理建议报告2022-2028年

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月17日
0044
论文学习笔记 MUSE: Secure Inference Resilient to Malicious Clients

论文学习笔记 MUSE: Secure Inference Resilient to Malicious Clients 一、背景介绍—神经网络推理二、在半诚实模型下的模型提取攻…

人工智能 2023年7月1日
0094
神经网络参数初始化方法

神经网络训练的过程就是对网络权重不断学习更新的过程，网络初始权重对网络的训练非常重要。不合适的初始化方法可能会导致网络参数传播过程中产生梯度消失、梯度爆炸等现象。常用的初始化方法…

人工智能 2023年7月13日
0055
搭建zynq平台下UbertoothOne运行环境

首先认是一下 UbertoothOne什么， Ubertooth是一个蓝牙实验平台。它能够嗅探蓝牙智能(BLE)，发现无法发现的经典蓝牙设备，并执行基本的经典蓝牙设备嗅探。 Ub…

人工智能 2023年6月29日
0059
Halcon实现实时骰子识别

Halcon实现实时骰子识别效果：bilibili 输入形式： .avi视频文件视频内容：以一本书为背景，在其上面分批次掷骰子目标：锁定书本区域；完成图像矫正；识别每个骰子的点…

人工智能 2023年6月21日
00126
TypeError: fit_transform() missing 1 required positional argument: ‘X‘——报错

文章目录 1 解决过程【成功】 2 学习Sklearn之数据预处理——StandardScaler * 2.1 数据处理——标准化、归一化 2.2 为什么要归一化？ 2.3 归一化…

人工智能 2023年6月15日
00128
Auto-encoder（自编码器）的原理及最新的技术应用（李宏毅视频课整理和总结）

文章目录 0 前言 1 Auto-encoder * 1.1 PCA 1.2 Deep Auto-encoder 2 Some Applications * 2.1 Text Re…

人工智能 2023年6月15日
0048
【笔记】傅里叶变换学习笔记

傅里叶变换参考资料 https://zhuanlan.zhihu.com/p/19763358https://zhuanlan.zhihu.com/p/110026009http…

人工智能 2023年6月4日
00103
2022年第二届长三角高校数学建模竞赛B题经验、论文、代码展示

2022年第二届长三角高校数学建模竞赛B题经验、论文、代码展示 1、题目要求附件一数据（截图部分）：问题一到问题四的思路：针对问题一，对附件 1 中的 5 个表单的四个传感器数…

人工智能 2023年6月13日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于循环神经网络lstm构建一个商品评论分类模型

大家都在看