【NLP】RNN理解（Pytorch实现）

2023年7月22日下午12:51 • 人工智能 • 阅读 86

【参考：【循环神经网络】5分钟搞懂RNN，3D动画深入浅出_哔哩哔哩_bilibili】

【参考：RNN的Excel实现_哔哩哔哩_bilibili】

参数理解

上面这张图最能表明RNN的运行原理

【参考：pytorch中RNN参数的详细解释_lwgkzl的博客-CSDN博客】

自己的笔记【参考：【PyTorch深度学习实践 | 刘二大人】B站视频教程笔记_myaijarvis的博客-CSDN博客】

【参考：Pytorch实现RNN，LSTM和GRU超详细代码参数解析_adczsw的博客-CSDN博客】

; 多层、双向RNN

【参考：循环神经网络的改进：多层RNN、双向RNN与预训练_DeepGeGe的博客-CSDN博客】

; 手动实现

【参考：Pytorch中RNN入门思想及实现_瞳瞳瞳呀的博客-CSDN博客】

【参考：【Pytorch官方教程】从零开始自己搭建RNN1 – 字母级RNN的分类任务_iteapoy的博客-CSDN博客】

官方文档：https://pytorch.org/docs/stable/generated/torch.nn.RNN.html#torch.nn.RNN
RNN源码：https://pytorch.org/docs/stable/_modules/torch/nn/modules/rnn.html#RNN
【参考：RNN原理及逐行实现_哔哩哔哩_bilibili】
【参考：29 – RNN的原理、API讲解及其逐行代码实现_取个名字真难呐的博客-CSDN博客】

【参考：深度学习/RNN手动实现 · myaijarvis/AI – 码云 – 开源中国】

; 单向单层


def custom_rnn_function(input, h_prev, w_ih, w_hh, b_ih, b_hh):
"""

    h_t = tanh(w_{ih}*x_t+b_{ih}+w_{hh}*h_{t-1}+b_{hh})
    x_t is the input at time t

    :param input: input(batch_size,seq_len,input_size)
    :param h_prev: previous hidden h_prev (batch_size,hidden_size)
    # 本来应该是(1,batch_size,hidden_size) 这里为了简便传递参数和下面的计算 因为很多时候传递的参数都是二维

    :param w_ih: weight w_ih (hidden_size,input_size)
    :param w_hh: weight w_hh (hidden_size,hidden_size)
    :param b_ih: bias b_ih (hidden_size)
    :param b_hh: bias b_hh (hidden_size)
    :return: output ,h_n

"""

    batch_size, seq_len, input_size = input.shape

    hidden_size, input_size = w_ih.shape

    output = torch.zeros(batch_size, seq_len, hidden_size)

    for t in range(seq_len):

        x_t = input[:, t, :].unsqueeze(2)

        w_ih_batch = w_ih.unsqueeze(0).tile(batch_size, 1, 1)

        w_hh_batch = w_hh.unsqueeze(0).tile(batch_size, 1, 1)

        w_ih_times_x = torch.bmm(w_ih_batch, x_t).squeeze(-1)

        w_hh_times_h = torch.bmm(w_hh_batch, h_prev.unsqueeze(2)).squeeze(-1)

        h_prev = torch.tanh(w_ih_times_x + b_ih + w_hh_times_h + b_hh)

        output[:, t, :] = h_prev

    return output, h_prev.unsqueeze(0)

双向单层


def bi_custom_rnn_function(input,
                           h_prev,
                           w_ih, w_hh, b_ih, b_hh,
                           w_ih_reverse, w_hh_reverse, b_ih_reverse, b_hh_reverse):

    batch_size, seq_len, input_size = input.shape
    hidden_size, input_size = w_ih.shape

    output = torch.zeros(batch_size, seq_len, hidden_size * 2)

    forward_output = custom_rnn_function(input,
                                         h_prev[0, :, :],
                                         w_ih, w_hh, b_ih, b_hh)[0]

    backward_output = custom_rnn_function(torch.flip(input, [1]),
                                          h_prev[1, :, :],
                                          w_ih_reverse, w_hh_reverse, b_ih_reverse, b_hh_reverse)[0]

    output[:, :, :hidden_size] = forward_output

    output[:, :, hidden_size:] = torch.flip(backward_output, [1])

    return output, torch.cat([forward_output[:, -1, :].unsqueeze(0), backward_output[:, -1, :].unsqueeze(0)], dim=0)

单向多层


def custom_numlayers_rnn_function(input,h_prev,num_layers,
                                  w_ih_0, w_hh_0,
                                  w_ih_i, w_hh_i,
                                  b_ih, b_hh):

    h_prev_temp = torch.tensor(h_prev)
    output, h_prev_temp[0, :, :] = custom_rnn_function(input,
                                                       h_prev[0, :, :],
                                                       w_ih_0, w_hh_0,
                                                       b_ih[0, :], b_hh[0, :])

    for i in range(1, num_layers):

        output, h_prev_temp[i, :, :] = custom_rnn_function(output,
                                                           h_prev[i, :, :],
                                                           w_ih_i[i - 1, :, :], w_hh_i[i - 1, :, :],
                                                           b_ih[i, :], b_hh[i, :],)

    return output, h_prev_temp

双向多层


def bi_custom_numlayers_rnn_function(input,
                                     h_prev,
                                     num_layers,
                                     w_ih_0, w_hh_0,
                                     w_ih_i, w_hh_i,
                                     b_ih, b_hh,
                                     w_ih_0_reverse, w_hh_0_reverse,
                                     w_ih_i_reverse, w_hh_i_reverse,
                                     b_ih_reverse, b_hh_reverse):

    h_prev_temp = torch.tensor(h_prev)
    output, h_prev_temp[0:2, :, :] = bi_custom_rnn_function(input,
                                                            h_prev[0:2, :, :],
                                                            w_ih_0, w_hh_0, b_ih[0, :], b_hh[0, :],
                                                            w_ih_0_reverse, w_hh_0_reverse, b_ih_reverse[0, :],
                                                            b_hh_reverse[0, :])

    for i in range(1, num_layers):

        output, h_prev_temp[i*2:i*2+2, :, :] = bi_custom_rnn_function(output,
                                                                    h_prev[i:i + 2, :, :],
                                                                    w_ih_i[i - 1, :, :], w_hh_i[i - 1, :, :],

                                                                    b_ih[i, :], b_hh[i, :],
                                                                    w_ih_i_reverse[i - 1, :, :],
                                                                    w_hh_i_reverse[i - 1, :, :],
                                                                    b_ih_reverse[i, :],
                                                                    b_hh_reverse[i, :])

    return output, h_prev_temp

自定义模型权重参数

上面使用的都是RNN API模型的权重参数，我想自己初始化，看看怎样能达到和Pytorch一样的结果

更新待定

Original: https://blog.csdn.net/Jruo911/article/details/124484921
Author: myaijarvis
Title: 【NLP】RNN理解（Pytorch实现）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709035/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在Anaconda Jupyter Notebook中如何安装Pytorch

在Anaconda Jupyter Notebook中如何安装Pytorch pytorch环境 pytorch安装验证是否安装成功 torch.cuda.is_availabl…

人工智能 2023年7月22日
00106
【无标题】cuda11.7+python3.7+pytorch GPU

anaconda 官网下载anaconda：链接: https://www.anaconda.com/注意在下下载时，选择PATH加入路径安装完检查一下如果不对，检查环境变量 ;…

人工智能 2023年7月21日
0080
在家靠python爬虫兼职月入3w+：成年人的世界，钱是底气！

前言在2022年新一轮Y情期间，” 有啥方法，可在家快速赚钱？“冲上了热门话题。（文末送福利） “好想挣钱啊……&#…

人工智能 2023年7月4日
0078
SpringBoot集成OpenCV进行图像处理

目录 * – 一、环境部署 – 二、导入依赖 – 三、使用 – 四、注意事项一、环境部署 *Windows 在OpenCV官网下载…

人工智能 2023年7月19日
0066
猿创征文｜再见宽表，新一代 BI要用DQL了

啊哦~你想找的内容离你而去了哦 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:ser…

人工智能 2023年6月2日
0090
目标检测: 一文读懂 Mosaic 数据增强

前言在 Yolo-V4、 Yolo-V5中，都有一个很重要的技巧，就是 Mosaic数据增强，这种数据增强方式简单来说就是把4张图片，通过随机缩放、随机裁减、随机排布的方式进行拼…

人工智能 2023年6月19日
0085
OpenCV学习——图像二值化处理及二维傅里叶变换

小古在本学期选修了《计算机视觉原理与应用》，最近有一份作业 —— 利用matlab或者OpenCV对图像进行一些处理，由于完全没有接触过matlab和OpenCV,但是学习了一些p…

人工智能 2023年6月17日
0092
NLP 学习笔记之 Seq2seq

基础知识储备：首先知道计算机把语言当作sequence有一些标识符BOS：begining of sequence，代表序列开始。EOS：End of sequence，代表序列结…

人工智能 2023年5月28日
00111
pandas mysql insert_python – Pandas将数据插入MySQL

我认为你的代码应该是这样的 import pandas as pd from pandas.io import sql from sqlalchemy import create_…

人工智能 2023年7月9日
0076
深入浅出——零基础一文读懂DeepSORT(原理篇)

Intro 本文是笔者对DeepSORT算法学习的阶段性总结，基于笔者接触到的所有开源学习资料，辅以个人理解进行重新编排而成，力求清晰，使非专业的读者也能迅速对该算法原理有较为透彻…

人工智能 2023年6月22日
0088
药品控价需注意哪些

大家好，这里是小安说网控。药品，是渠道中特殊的一个品类，国家严格的管控机制下，药品市场基本没有假货，店铺也都有进货凭证，所以品牌维权投诉的手段有限。这就造成了药品维价困难的现状。…

人工智能 2023年6月27日
0072
MobileNets(V1)简介及两个初步的代码实验

人工智能 2023年5月26日
0078
图像分类之机器学习基础厕所级讲解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0061
目标检测——小目标检测问题

小目标的定义小目标有两种定义方式，一种是相对尺寸大小，如目标尺寸的长宽是原图像尺寸的0.1，即可认为是小目标，另外一种是绝对尺寸的定义，即尺寸小于32*32像素的目标即可认为…

人工智能 2023年7月12日
0058
亿图图示（脑图），急用日租会员，理论上终生可用

亿图应用，急用日租会员，理论上终生可用由于是我买的官方会员账号密码，所有版本所有平台都可以使用，尤其是针对 mac 用户（mac 暂时无破解版，9.4 的破解版官方都不更新了，…

人工智能 2023年6月4日
00247
多头注意力机制_【论文分享】语音情感识别中基于自注意力机制和全局上下文感知的表征学习研究…

大家好，本周的论文分享是发表在 IJCAI 2019中情感识别的相关工作： Runnan Li, Zhiyong Wu, Jia Jia, Yaohua Bu, Sheng Zha…

人工智能 2023年5月27日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31