利用pytorch自然语言探索（一）：单词预测

2023年5月28日上午1:58 • 人工智能 • 阅读 95

程序设计思路加代码

1、读取句子

sequence = ['i like reading','i love dog','i miss you']

这里先简单设置一些语句，刚开始入门NLP可以将每个语句格式设置为一样，之后再学习长短不一的语句如何预测。

2、句子切分为一个个单词并去重

wordslist = ' '.join(sequence).split()
words_non = sorted(set(wordslist))

sorted可以给单词排个序

3、制作word-label和label-word的词汇表

words_ix = {w:i for i,w in enumerate(words_non)}
ix_word = {i:w for i,w in enumerate(words_non)}

我们知道无论是单词还是图片在计算机中都是以数字存储的，计算机在学习的过程中就是对这些数字信息进行处理的，如果是字母的话可以直接用ASCLL码进行处理，但当字母组成单词后信息就比较多了，所以我们可以化繁为简为他们打上标签以示每个单词之间的区别就可以了，类似于图像识别的标签。其实单词预测也是个分类问题，后面就可以看到了。至于label-word表是为了方便利用模型预测单词，因为最终你得到的是每个单词的可能性。

4、将每句话中最后一个词与其他词分离作为目标词，其他词作为训练词，并将训练词对应的label转成one-hot


train_list = []
test_list = []
for seq in sequence:
    words = seq.split()
    a = [words_ix[x] for x in words[:-1]]
    a = np.eye(timestep)[a]
    train_list.append(a)
    test_list.append(words_ix[words[-1]])

搭建RNN模型

前面我们说过，其实这种预测也是一种分类问题，但为什么不用卷积神神经网络呢？简单地说，卷积神经网络虽然是分类了，但每个特征提取与上一时刻没有关系，也就是没有时间信息，时间信息一定程度上反映了单词之间的逻辑关系，而RNN模型也就是循环神经网络比较好的处理了这一问题。

具体可以看一下[蓝翔飞鸟]这位博主，我觉得他解释挺好的。链接：(https://blog.csdn.net/level_code/article/details/108122808)
模型代码如下：

class NET(nn.Module):
    def __init__(self,input_size,hidden_size):
        super(NET, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size=input_size,hidden_size=hidden_size)
        self.linear = nn.Linear(hidden_size,input_size)

    def forward(self,input):
        input = input.transpose(0,1)
        _,hidden = self.rnn(input)
        out = self.linear(hidden[0])
        return out

 _,hidden = self.rnn(input)

这个代码会回传两个变量，第一个变量最后一个值和hidden变量一样的，所以有的人用前面那个变量最后一个也可以，hidden.size [num_lays,batch,num_class],hidden有三个维度，我们使用hidden[0]读取[batch,num_class]，为了方便之后计算loss

训练模型

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(),lr=0.01)
hd = []
for i in range(5):
    print('第{}次迭代开始！'.format(i))
    for iword,oword in loader:
        print(iword.shape)
        hidden = net(iword)
        print(hidden.shape)
        print(oword.shape)
        loss = criterion(hidden,oword)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        print('loss:{}'.format(loss))

可以看到选择的优化器和损失函数基本和分类时用到的一样了，所以预测差不多也是分类问题。当然你也可以制作个验证集验证下准确率。

预测

seq1 = 'i like'
word2idx = [words_ix[i] for i in seq1.split()]
aa = torch.Tensor(np.eye(timestep)[word2idx]).unsqueeze(0)
print(aa.shape)
pre = net(aa)
label = pre.argmax(1).tolist()
print('{} {}'.format(seq1,ix_word[label[0]]))

结果为i like reading。unsqueeze是为了将数据弄成训练时一样的。

整体代码

模型：


import torch.nn as nn
import torch

class NET(nn.Module):
    def __init__(self,input_size,hidden_size):
        super(NET, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size=input_size,hidden_size=hidden_size)
        self.linear = nn.Linear(hidden_size,input_size)

    def forward(self,input):
        input = input.transpose(0,1)
        _,hidden = self.rnn(input)
        out = self.linear(hidden[0])
        return out

if __name__ == '__main__':
    net = NET(10,20)
    input = torch.randn(3,2,10)
    hidden = net(input)
    print(hidden.shape)
    print(hidden)

训练：


import numpy as np
import torch.nn as nn
import torch
import torch.utils.data as Data
import torch.optim as optim
import model

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

sequence = ['i like reading','i love dog','i miss you']

wordslist = ' '.join(sequence).split()
words_non = sorted(set(wordslist))

words_ix = {w:i for i,w in enumerate(words_non)}
ix_word = {i:w for i,w in enumerate(words_non)}

batch = 1
timestep = len(wordslist)
print(timestep)

train_list = []
test_list = []
for seq in sequence:
    words = seq.split()
    a = [words_ix[x] for x in words[:-1]]
    a = np.eye(timestep)[a]
    train_list.append(a)
    test_list.append(words_ix[words[-1]])

train_list = torch.Tensor(np.array(train_list))
test_list = torch.LongTensor(test_list)
dataset = Data.TensorDataset(train_list,test_list)
loader = Data.DataLoader(dataset,1,shuffle=True)

net = model.NET(input_size=timestep,hidden_size=2*timestep)

criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(),lr=0.01)
hd = []
for i in range(5):
    print('第{}次迭代开始！'.format(i))
    for iword,oword in loader:
        print(iword.shape)
        hidden = net(iword)
        print(hidden.shape)
        print(oword.shape)
        loss = criterion(hidden,oword)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        print('loss:{}'.format(loss))

seq1 = 'i like'
word2idx = [words_ix[i] for i in seq1.split()]
aa = torch.Tensor(np.eye(timestep)[word2idx]).unsqueeze(0)
print(aa.shape)
pre = net(aa)
label = pre.argmax(1).tolist()
print('{} {}'.format(seq1,ix_word[label[0]]))

Original: https://blog.csdn.net/qq_57082898/article/details/124144995
Author: 无忧阁阁主
Title: 利用pytorch自然语言探索（一）：单词预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528660/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

预训练模型mlm阅读理解任务

bert、roberta、ernie在中文mlm任务上效果查看 -*- coding: utf-8 -*- import torch from transformers impor…

人工智能 2023年5月28日
0052
使用 PIL, OpenCV, Matplotlib 获取图片通道数

1. PIL img = Image.open(img_path) len(img.getbands()) [参考] https://pillow.readthedocs.io/e…

人工智能 2023年7月18日
0060
疫情下，工业设计公司的机遇与挑战

始料未及疫情，弄乱许多和规划，工业设计公司都在所难免受影响，生产受到影响，营销推广高效率降低。能不能优良解决本次困境，是公司可持续发展的重要因素。祸兮福之所倚，”危…

人工智能 2023年6月29日
0059
Spring | 一文带你掌握IOC技术

👑 博主简介：🥇 Java领域新星创作者🥇 阿里云开发者社区专家博主、星级博主、技术博主🤝 交流社区：BoBooY（优质编程学习笔记社区）文章目录 IOC 控制反转 * 1、概念…

人工智能 2023年7月30日
0072
yolov5训练最常见错误解决办法

我主要用过两种代码第一种为哔哩哔哩上的up主Bubbliiiing上传的代码———出现以下错误： 1、标注好自己的数据集之后，进行数据集的划分，通常比例为9：1；但是由于我的数…

人工智能 2023年6月16日
00103
YOLOv7论文部分解读【含自己的理解】

yolo终于又更新了！！看了一下yolov7的论文，然后把论文翻译以及自己的一些思考写了进去，这里还包含了我对论文中粗label和细label的详细解释【自己的理解】，其实就是借鉴…

人工智能 2023年6月24日
00101
No8.【spring-cloud-alibaba】基于OAuth2，新增加手机号验证码登录模式（不包含发短信，还没找到合适的短信发送平台）

PigUserDetailsService 代码地址与接口文档看总目录：【学习笔记】记录冷冷-pig项目的学习过程，大概包括Authorization Server、springc…

人工智能 2023年6月26日
0064
MATLAB 剔除异常点

利用线性插值剔除离群点 A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57]; B = filloutliers(A,’line…

人工智能 2023年6月17日
0088
NumPy创建数组的几种方式介绍

创建数组的几种常见机制：一、 numpy 中定义的原生数组创建函数参数： shape：int or tuple of lnts，新数组的形状大小； dtype：data-typ…

人工智能 2023年7月24日
00111
【文献阅读】基于深层语言模型的古汉语知识表示及自动断句研究

概述：BERT+CRF/CNN实现古文知识表示和断句 ; 2 古汉语自动断句模型条件随机场是一种经典的序列标注模型，在中文分词、词性标注、命名实体识别等自然语言处理任务中均有着广…

人工智能 2023年5月30日
0064
知识点练习对话辅助器（简易版）

知识点练习对话辅助器（简易版）一、概述在专业面试的时候经常会有人（比如说我自己=_=）知识点理解的很好，且在平时中也能够比较清晰的讲述出来。但是到了面试的时候，在面试官的注视下…

人工智能 2023年5月25日
0066
微信语音技术原理_语音控制智能家居系统的实现过程和技术详解

[导读]远场语音识别、云端语义辨识、人工智能应用等等一个个技术节点得到新的突破，为智能家居提供了新的控制入口选择。本文为大家介绍一下语音控制智能家居系统的实现过程和技术详解。远场…

人工智能 2023年5月27日
0066
【文献调研】多模态生理信号的特征提取与特征融合

项目原因进行了一些调研，慢慢更新~ 文章目录多模态情绪识别研究综述 2020 * 多模态混合策略 – 数据级融合特征级融合决策级融合模型级融合多模态混合形式 …

人工智能 2023年6月15日
0055
一天学会应用GAN扩充数据集（pytorch）

文章目录前言一、GAN基本原理 * 1.GAN结构图 2.GAN目标函数二、实例（完整代码：https://github.com/Programmerfei/Pytorch-…

人工智能 2023年7月27日
0060
密度聚类之DBSCAN聚类算法

DBSCAN聚类算法 1、算法原理 DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的…

人工智能 2023年6月2日
0078
判别分析（1）——距离判别法

判别分析是多元统计分析的内容，其作用在分类确定的条件下，根据某一研究对象的各种特征的值来判断其归属于哪一类（即总体）。实际上，这一类问题就是根据已有的样本数据与对应的类别，判断未知…

人工智能 2023年7月2日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30