han_attention（双向GRU+attention）(imdb数据集—文档分类）

2023年5月27日下午11:05 • 人工智能 • 阅读 83

文章目录

han_attention（双向GRU+attention）
一、文件目录
二、语料集
三、数据处理(IMDB_Data_Loader.py)
四、模型（HAN_Model.py）
五、训练和测试
实验结果

han_attention（双向GRU+attention）

词编码：

词级别的注意力机制：

句子编码：

句子级别的注意力机制：

; 一、文件目录

二、语料集

数据集: http://ir.hit.edu.cn/~dytang/paper/emnlp2015/emnlp-2015-data.7z

三、数据处理(IMDB_Data_Loader.py)

1.数据集加载（排序，分句）
2.读取标签和数据
3.创建word2id（源语言和目标语言）
3.1统计词频
3.2加入 pad:0,unk:1创建word2id
4.将数据转化成id（源语言和目标语言）
5.添加目标数据的输入（target_data_input）

from gensim.models import KeyedVectors
from torch.utils import data
import os
import torch
import numpy as np
class IMDB_Data(data.DataLoader):
    def __init__(self,data_name,min_count,word2id=None,max_sentence_length=100,batch_size=64,is_pretrain=True):
        self.path = os.path.abspath(".")
        if "data" not in self.path:
            self.path += "/data"
        self.data_name = "/imdb/"+data_name
        self.min_count = min_count
        self.word2id = word2id
        self.max_sentence_length = max_sentence_length
        self.batch_size =batch_size
        self.datas,self.labels = self.load_data()
        if is_pretrain:
            self.get_word2vec()
        else:
            self.weight = None
        for i in range(len(self.datas)):
            self.datas[i] = np.array(self.datas[i])

    def load_data(self):
        datas = open(self.path+self.data_name,encoding="utf-8").read().splitlines()
        datas = [data.split("       ")[-1].split() + [data.split("      ")[2]] for data in datas]

        datas = sorted(datas, key=lambda x: len(x), reverse=True)
        labels = [int(data[-1]) - 1 for data in datas]
        datas = [data[0:-1] for data in datas]
        if self.word2id == None:
            self.get_word2id(datas)

        for i, data in enumerate(datas):
            datas[i] = " ".join(data).split("")
            for j, sentence in enumerate(datas[i]):
                datas[i][j] = sentence.split()
        datas = self.convert_data2id(datas)
        return datas,labels

    def get_word2id(self, datas):
        word_freq = {}
        for data in datas:
            for word in data:
                word_freq[word] = word_freq.get(word, 0) + 1
        word2id = {"": 0, "": 1}
        for word in word_freq:
            if word_freq[word] < self.min_count:
                continue
            else:
                word2id[word] = len(word2id)
        self.word2id = word2id

    def convert_data2id(self, datas):
        for i, document in enumerate(datas):
            if i % 10000 == 0:
                print(i, len(datas))
            for j, sentence in enumerate(document):
                for k, word in enumerate(sentence):
                    datas[i][j][k] = self.word2id.get(word,self.word2id[""])
                datas[i][j] = datas[i][j][0:self.max_sentence_length] + \
                              [self.word2id[""]] * (self.max_sentence_length - len(datas[i][j]))
        for i in range(0, len(datas), self.batch_size):
            max_data_length = max([len(x) for x in datas[i:i + self.batch_size]])
            for j in range(i, min(i + self.batch_size, len(datas))):
                datas[j] = datas[j] + [[self.word2id[""]] * self.max_sentence_length] * (max_data_length - len(datas[j]))
        return datas

    def get_word2vec(self):
        print("Reading word2vec Embedding...")
        wvmodel = KeyedVectors.load_word2vec_format(self.path + "/imdb.model", binary=True)
        tmp = []
        for word, index in self.word2id.items():
            try:
                tmp.append(wvmodel.get_vector(word))
            except:
                pass
        mean = np.mean(np.array(tmp))
        std = np.std(np.array(tmp))
        print(mean, std)
        vocab_size = len(self.word2id)
        embed_size = 200
        np.random.seed(2)
        embedding_weights = np.random.normal(mean, std, [vocab_size, embed_size])
        for word, index in self.word2id.items():
            try:
                embedding_weights[index, :] = wvmodel.get_vector(word)
            except:
                pass
        self.weight = torch.from_numpy(embedding_weights).float()

    def __getitem__(self, idx):
        return self.datas[idx], self.labels[idx]

    def __len__(self):
        return len(self.labels)
if __name__=="__main__":
    imdb_data = IMDB_Data(data_name="imdb-train.txt.ss",min_count=5,is_pretrain=True)
    training_iter = torch.utils.data.DataLoader(dataset=imdb_data,
                                                batch_size=64,
                                                shuffle=False,
                                                num_workers=0)
    for data, label in training_iter:
        print (np.array(data).shape)

四、模型（HAN_Model.py）

import torch
import torch.nn as nn
import numpy as np
from torch.nn import functional as F
from torch.autograd import Variable
class HAN_Model(nn.Module):
    def __init__(self,vocab_size,embedding_size,gru_size,class_num,is_pretrain=False,weights=None):
        super(HAN_Model, self).__init__()
        if is_pretrain:
            self.embedding = nn.Embedding.from_pretrained(weights, freeze=False)
        else:
            self.embedding = nn.Embedding(vocab_size, embedding_size)
        self.word_gru = nn.GRU(input_size=embedding_size,hidden_size=gru_size,num_layers=1,
                               bidirectional=True,batch_first=True)

        self.word_context = nn.Parameter(torch.Tensor(2*gru_size, 1),requires_grad=True)
        self.word_dense = nn.Linear(2*gru_size,2*gru_size)

        self.sentence_gru = nn.GRU(input_size=2*gru_size,hidden_size=gru_size,num_layers=1,
                               bidirectional=True,batch_first=True)

        self.sentence_context = nn.Parameter(torch.Tensor(2*gru_size, 1),requires_grad=True)
        self.sentence_dense = nn.Linear(2*gru_size,2*gru_size)
        self.fc = nn.Linear(2*gru_size,class_num)
    def forward(self, x,gpu=False):
        sentence_num = x.shape[1]
        sentence_length = x.shape[2]
        x = x.view([-1,sentence_length])
        x_embedding = self.embedding(x)
        word_outputs, word_hidden = self.word_gru(x_embedding)
        word_outputs_attention = torch.tanh(self.word_dense(word_outputs))
        weights = torch.matmul(word_outputs_attention,self.word_context)
        weights = F.softmax(weights,dim=1)
        x = x.unsqueeze(2)

        if gpu:
            weights = torch.where(x!=0,weights,torch.full_like(x,0,dtype=torch.float).cuda())
        else:
            weights = torch.where(x != 0, weights, torch.full_like(x, 0, dtype=torch.float))

        weights = weights/(torch.sum(weights,dim=1).unsqueeze(1)+1e-4)

        sentence_vector = torch.sum(word_outputs*weights,dim=1).view([-1,sentence_num,word_outputs.shape[-1]])
        sentence_outputs, sentence_hidden = self.sentence_gru(sentence_vector)
        attention_sentence_outputs = torch.tanh(self.sentence_dense(sentence_outputs))
        weights = torch.matmul(attention_sentence_outputs,self.sentence_context)
        weights = F.softmax(weights,dim=1)
        x = x.view(-1, sentence_num, x.shape[1])
        x = torch.sum(x, dim=2).unsqueeze(2)
        if gpu:
            weights = torch.where(x!=0,weights,torch.full_like(x,0,dtype=torch.float).cuda())
        else:
            weights = torch.where(x != 0, weights, torch.full_like(x, 0, dtype=torch.float))
        weights = weights / (torch.sum(weights,dim=1).unsqueeze(1)+1e-4)
        document_vector = torch.sum(sentence_outputs*weights,dim=1)
        output = self.fc(document_vector)
        return output
han_model = HAN_Model(vocab_size=30000,embedding_size=200,gru_size=50,class_num=4)
x = torch.Tensor(np.zeros([64,50,100])).long()
x[0][0][0:10] = 1
output = han_model(x)
print (output.shape)

五、训练和测试

import torch
import torch.autograd as autograd
import torch.nn as nn
import torch.optim as optim
from model import HAN_Model
from data import IMDB_Data
import numpy as np
from tqdm import tqdm
import config as argumentparser
config = argumentparser.ArgumentParser()
torch.manual_seed(config.seed)
if config.cuda and torch.cuda.is_available():
    torch.cuda.set_device(config.gpu)

def get_test_result(data_iter,data_set):

    model.eval()
    true_sample_num = 0
    for data, label in data_iter:
        if config.cuda and torch.cuda.is_available():
            data = data.cuda()
            label = label.cuda()
        else:
            data = torch.autograd.Variable(data).long()
        if config.cuda and torch.cuda.is_available():
            out = model(data, gpu=True)
        else:
            out = model(data)
        true_sample_num += np.sum((torch.argmax(out, 1) == label).cpu().numpy())
    acc = true_sample_num / data_set.__len__()
    return acc

training_set = IMDB_Data("imdb-train.txt.ss",min_count=config.min_count,
                         max_sentence_length = config.max_sentence_length,batch_size=config.batch_size,is_pretrain=True)
training_iter = torch.utils.data.DataLoader(dataset=training_set,
                                            batch_size=config.batch_size,
                                            shuffle=False,
                                            num_workers=0)

test_set = IMDB_Data("imdb-test.txt.ss",min_count=config.min_count,word2id=training_set.word2id,
                         max_sentence_length = config.max_sentence_length,batch_size=config.batch_size)
test_iter = torch.utils.data.DataLoader(dataset=test_set,
                                        batch_size=config.batch_size,
                                        shuffle=False,
                                        num_workers=0)
if config.cuda and torch.cuda.is_available():
    training_set.weight = training_set.weight.cuda()
model = HAN_Model(vocab_size=len(training_set.word2id),
                  embedding_size=config.embedding_size,
                  gru_size = config.gru_size,class_num=config.class_num,weights=training_set.weight,is_pretrain=False)

if config.cuda and torch.cuda.is_available():
    model.cuda()

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=config.learning_rate)
loss = -1

for epoch in range(config.epoch):
    model.train()
    process_bar = tqdm(training_iter)
    for data, label in process_bar:
        if config.cuda and torch.cuda.is_available():
            data = data.cuda()
            label = label.cuda()
        else:
            data = torch.autograd.Variable(data).long()
        label = torch.autograd.Variable(label).squeeze()
        if config.cuda and torch.cuda.is_available():
            out = model(data,gpu=True)
        else:
            out = model(data)
        loss_now = criterion(out, autograd.Variable(label.long()))
        if loss == -1:
            loss = loss_now.data.item()
        else:
            loss = 0.95*loss+0.05*loss_now.data.item()
        process_bar.set_postfix(loss=loss_now.data.item())
        process_bar.update()
        optimizer.zero_grad()
        loss_now.backward()
        optimizer.step()
    test_acc = get_test_result(test_iter, test_set)
    print("The test acc is: %.5f" % test_acc)

实验结果

生成测试集和验证集的blue值（翻译的评价指标），将测试集的原始数据和翻译数据都存入文件。

Original: https://blog.csdn.net/weixin_42318554/article/details/123581109
Author: 篱下浅歌生
Title: han_attention（双向GRU+attention）(imdb数据集—文档分类）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528004/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习：支持向量机（SVM）

1，概述 1.1，概念支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划…

人工智能 2023年6月16日
0097
Python写了个疫情信息快速查看工具

用Python写一个疫情查看工具序言你需要准备 * – PyQt5 PyQtWebEngine 预览 * – 启动引擎切换主要代码最后序言自从…

人工智能 2023年7月30日
0044
[人工智能-深度学习-50]：循环神经网络 – 主要的应用场景

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

人工智能 2023年7月14日
0069
python+opencv实现人脸微整形

目录一、前言二、主要原理三、算法实现 * （1）计算偏移量（2）考虑多个点影响（3）控制点的手动增加，删除功能四、总结一、前言表情捕捉驱动另一张脸或者3D人脸是元宇…

人工智能 2023年6月24日
0068
（二）马尔可夫决策过程

从第一章中了解到强化学习中，智能体通过和环境进行交互获得信息。这个交互过程可以通过马尔可夫决策过程来表示，所以了解一下什么是MDP至关重要。不过在了解马尔可夫决策过程之前，先要一些…

人工智能 2023年6月10日
0085
TensorFlow中的生成对抗网络是如何实现的

生成对抗网络（GAN）简介生成对抗网络（Generative Adversarial Networks，简称GAN）是一种引人注目的机器学习算法，用于生成逼真的合成数据。GAN …

人工智能 2023年12月31日
0051
转转前端周刊第五期

本刊意在整理业界精华文章给大家，期望大家一起打开视野浏览器提供了 5 种 Observer 来监听这些变动：MutationObserver、IntersectionObserv…

人工智能 2023年7月17日
0071
大模型系统和应用——Transformer&预训练语言模型

引言近日，了解到刘志远团队退出公众号的视频课程《大模交叉研讨会》。我觉得读目录很好，所以读一读吧。 [En] Recently, I learned about the vide…

人工智能 2023年5月27日
0056
《知识图谱》赵军目录

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0080
概率分布：二项分布

二项分布二项分布(binomial distribution)就是在重复n次独立的伯努利试验(Bernoulli experiment)中，所期望结果出现次数的概率分布。伯努利…

人工智能 2023年6月11日
0089
Python 学习基础pandas刷题（四）

# 1.查看最后五行数据 import pandas as pd import numpy as np data={"course":["A&quot…

人工智能 2023年7月8日
0062
KeyBERT进行中文关键词提取

原文链接一种基于BERT的极简关键词提取方法。关键词提取是通过查找文档中与文档本身最相似的词来完成的。首先，用BERT提取文档嵌入，得到文档级表示。然后，提取N-gram单词/短…

人工智能 2023年5月27日
00118
AttributeError: module ‘tensorflow._api.v1.compat‘ has no attribute ‘v1‘

猜测原因：TensorFlow不同版本的API有出入，用法不兼容解决：修改API即可。将代码：config = tf.compat.v1.ConfigProto()confi…

人工智能 2023年5月26日
00143
六轴传感器+卡尔曼滤波+一阶低通滤波

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录角度与角速度测量 * – 1.角度与角速度获取 2 互补滤波 3卡尔曼滤波 4 实现卡尔一阶…

人工智能 2023年5月26日
00149
pytorch 的一些介绍以及常用工具包展示

文章目录 * – 一、pytorch 简介 – 二、pytorch 优势 – 三、pytorch 常用工具包 – 四、pytorch…

人工智能 2023年6月15日
0079
Pandas 学习笔记二

文章目录 * – + Pandas 学习笔记二 + * 数据的读取与存储 * – csv格式 – hdf5格式 – JSON格式 *…

人工智能 2023年6月11日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

han_attention（双向GRU+attention）(imdb数据集—文档分类）

文章目录

大家都在看