LSTM与BiLSTM的抽象理解——羽毛球双打

2023年5月28日上午10:11 • 人工智能 • 阅读 65

文章目录

前言
一、命名实体识别-NER
二、LSTM
三、Bi-LSTM
总结

前言

LSTM的顶顶大名大家应该都听过，针对序列特征，LSTM相比于普通的RNN网络解决了两个棘手的问题，首先是通过门结构避免了梯度消失和梯度爆炸二点问题，然后通过增加一个cell状态捕捉长距离依赖。那么LSTM之后的改进工作呢，一个是简化版的GRU，另一个就是今天我们要讨论的Bi-LSTM网络。

一、命名实体识别-NER

在nlp种有一个任务叫做命名实体识别，简称NER。说的是给模型一句话，如何让模型将话里面的实体标注出来，比如说，人名是一种实体类型，马云则是一个具体的人名实体；地名也可以是一种实体类型，而天安门则是一个具体的地名实体。通常来说，NER会被视为一个多分类任务，一个字要么是某种实体的开头(Begin-label_i)，要么是某种实体的中间部分(inside-label_i)，要么啥也不是(outside)。
假设总共只有两种实体类型，分别是人名和地名，那么所有字一定属于以下类别：
begin-person， inside-person，begin-location，inside-location，outside

好了，了解了命名实体识别任务，那么现在给出一句话：

我喜欢杰伦

很显然杰伦是人名，将它标注：

我 喜 欢     杰        伦
O, O, O, B-person, I-person

二、LSTM

那么lstm是如何处理这句话的呢？我们以一层LSTM为例，注意这里虽然是多个神经元但是其实是一层，至于一层具体有几个神经元一般来说都是100以上，最好比语料中最长的句子要长。对每一句训练语料，将它们按照句子顺序输入LSTM的单元结构，当语料长度不够LSTM总长度时，后续没有字输入的LSTM单元会相当于输入一个空值。

对于 “我喜欢杰伦” 这句话，首先对第一个LSTM单元输入”我”，那么第一个LSTM单元会对”我”这个词生成的词向量进行一个多分类预测，并将部分有关于”我”这个词的信息告诉下一个LSTM单元。那么来到第二个LSTM单元，首先有输入”喜”字，加上还有上一个LSTM单元传递过来的信息，综合这两个信息再对”喜”字做一个多分类预测。那么整句话都是以上述流程完成的，很nice。

; 三、Bi-LSTM

说到Bi-LSTM是怎么来的，就得回到NER这个任务上来看看：
我们每次都是输入一整句话，对”喜”字进行预测的时候只考虑了上文”我”这个字的特征，但并没有考虑到下文”欢杰伦”的特征，因此造成了一定的特征丢失。
Bi-LSTM有个特别需要注意考虑的地方，因为我们做NER，每次都是对一整句进行预测，所以在任意时刻都可以随时获取上下文的信息。但是如果我们要做一个即时的NER识别，比如说人讲一个字模型就识别一个字，这个时候模型就看不见下文，故不能用Bi-LSTM来做。举个更加恰当的例子，比如说做天气预测，预测今天的天气，显然不能把明天的天气和后天的天气也拿来做特征，因为未来的天气我们还没观测到。但如果说对历史上的一个时间进行天气缺失值填补，是可以同时考虑前后的天气的，因为我们已经观测到了后向的天气特征。
总之，Bi-LSTM能不能用，取决于后向的特征在实际预测过程中我们是不是已经观测到了
下图是Bi-LSTM的一个预测过程，很显然，就是有双倍的LSTM结构，一半做向前的预测，一半做向后的预测，可以同时学习到向前与向后的特征。

那么Bi-LSTM已经接近完美了吗？NO
问题出在什么地方，且听我一个形象的理解，羽毛球双打！
羽毛球是一个最近哎特别火的项目，实验室的人经常组队出动去体育馆，没场子甚至去市里面。虽然我只跟随着实验室友仔友女们去打过那么一两次，连拍子都是蹭的，但是我对羽毛球的理解，已经到了第五层了。
好了，言归正传，羽毛球双打时，站位很重要，因为场子很大，如果两个人挤在一起显然不好全面的防守，一般来说是一人站偏前场一个站偏后场。
假设：

模型的泛化能力比作两个羽毛球双打队员的组合在一起的综合能力。
前场的运动员代表学习了向前的特征。
后场的运动员代表学习了向后的特征。

那么Bi-LSTM是个什么角色呢，我来给各位分析一下，Bi-LSTM队有两个运动员：
①前场运动员A，从小到大和别人对打前场，三十年专注于前场接球，前场无敌
②后场运动员B，从小到大和别人对打后场，三十年专注于后场接球，后场无敌

下面是A和B的日常训练图：

可见，Bi-LSTM队由一个专注于30年前场和一个专注于30年后场的运动员组合队伍，这个队伍牛吗？当然牛啊，这30年也不是白练的啊。但是呢，是不是还差点什么？还真差了两点！

①A和B没有一起打过配合训练，即A和B配合不一定好。
②A的训练对手只站在前场和他打，他没接过后场的球。同理B没接过前场的球。

把这两点抽象到Bi-LSTM模型，那么这两个缺点分别是：
①向前的特征和向后的特征在训练的过程中互相看不见对方，只是最后做了一个拼接。
②向前的各个神经元在学习过程中其实也可以学习后向的特征，而它只学了向前的特征，所以它可能并不是一个最优的学习结果；向后的各个神经元同理。

关于第①点，其实很好理解了。至于第②点，其实意思和第①点很接近，而且虽然向前的神经元只学习了向前的特征，但是在预测过程中也只会收到来自向前的特征，抽象出来就是羽毛球比赛时，A永远只会接到前场打来的球，即对手的后场不会把球打给A让A接，这比赛是真男人羽毛球赛，前场只打给前场，后场只打给后场欸（指训练过程与预测过程特征提取流程是一致的）。虽然是向前的神经元只学习了向前的特征，在预测的过程中也不会收到向后的特征，但是俗话说得好嘛，知己知彼，百战百胜，我觉得学了向后的特征效果会更好。

总结

下一篇我将会介绍Bert模型，如何用transformer解决以上Bi-LSTM的两个问题！加油！

Original: https://blog.csdn.net/qq_40811682/article/details/122278063
Author: 我是狮子搏兔
Title: LSTM与BiLSTM的抽象理解——羽毛球双打

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530921/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas DataFrame 中的自连接和交叉连接

在 SQL 中经常会使用JOIN操作来组合两个或多个表。有很多种不同种类的 JOINS操作，并且pandas 也提供了这些方式的实现来轻松组合 Series 或 DataFrame…

人工智能 2023年7月18日
0036
[附源码]java毕业设计电子病历信息管理系统

项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX（Webstorm也行）+ Eclispe（IntelliJ IDEA,Eclis…

人工智能 2023年6月29日
0076
2023学年持IB成绩申请NTU入学流程指南

请申请者注意，这期的招生信息是从学校的英文官方网站上摘取一些大家比较关心的内容做的翻译，以方便中国的学生和家长对南大的招生有一个初步的了解，并不代表全面的招生信息。另外学校的招生信…

人工智能 2023年6月28日
0071
【AI图像生成】Python初学者能够以爆炸性的速度上手主题StableDiffusion

💁 这应该是本站最好的人工智能资料库 👋 本文由 EasyAI 原创，首发于 CSDN🙉 ⌚️ 欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ 😎未来很长，值得我们全力奔赴更美…

人工智能 2023年7月30日
0070
第一次通过服务器远程跑代码

在师姐保姆级教导下进行一次尝试。由于师姐特别nice，而我特别小白，所以其实这篇更像我的一次日志记录，而非经验贴，给不了同为小白的朋友们什么帮助。一、下载安装MobaXterm…

人工智能 2023年7月5日
0089
哈工大自然语言处理

文章目录 * – 1.课程笔记 – 2.实验一 – 3.实验二 1.课程笔记复习的时候主要是看ppt+边看边写相关的内容总结感觉老师考的主要…

人工智能 2023年5月28日
00100
Unity 实战项目 ☀️| Unity接入百度语音识别 SDK！一篇文章搞定在Unity中实现语音识别！(万字完整教程)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0051
【深度学习】——性能指标（ROC、MAP、AUC等）

目录一、分类任务性能指标 1、混淆矩阵 2、精确度ACCURACY = 正确数/总数 3、查全率（RECALL）——真正正样本中预测正确的比例 4、查准率（precision）—…

人工智能 2023年6月17日
00164
GRU详解

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月17日
0071
2021年研究生数模B题论文记录

2021年研究生数模B题论文记录 * – 1.常见数据处理方法： – 2.相关性系数选择 – 3.聚类算法 – 4.一种数据降维方式…

人工智能 2023年6月3日
0083
【Python数据分析】数据挖掘建模——分类与预测——回归分析

根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。一、分类预测模型实现过程分类模型主要是预测分类编号，预测模…

人工智能 2023年7月17日
0083
中的用户-用户和物品-物品两种方式有何区别

问题简介中的用户-用户（User-User）和物品-物品（Item-Item）是推荐系统中常用的两种相似度计算方式。在推荐系统中，它们的区别主要体现在如何测量用户之间的相似度和物…

人工智能 2024年1月2日
0026
python add_argument() 方法详解

官方文档的说明首先我们来看一下官方文档的说明，了解一下 add_argument() 有哪些参数，接下来的介绍中引用块都是所有官方文档的原文，对于每一个参数及其取值的说明会加上…

人工智能 2023年7月4日
0091
R语言ggplot2画图

Content * – 1 r语言散点图 – + 1.1 散点图 + 1.2 散点图阵 – 2 r语言直方图 – + 2.1 规定柱…

人工智能 2023年7月17日
0073
基于自建数据集【海底生物检测】使用YOLOv5-v6.1/2版本构建目标检测模型超详细教程

YOLO系列是目标检测任务中非常非常出色的模型，在v3-v5的演变过程中，不断地吸收集成融合各种好的tricks，模型的性能也得到了很大的提升。在YOLOv5时期一度达到了鼎盛的阶…

人工智能 2023年7月10日
0070
手把手教你使用stata进行lasso回归

Stata版本目前已经更新到17了，外观也精美了许多，很增加了许多新的功能，如制作表格导出，双重差分法。自从更新到了16版本后自带了lasso回归功能，到了17以后功能更加强大了，…

人工智能 2023年6月17日
00111

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

LSTM与BiLSTM的抽象理解——羽毛球双打

文章目录

大家都在看