BiLSTM-CRF（B站上的学习笔记）

2023年5月30日下午6:27 • 人工智能 • 阅读 79

分类和序列标注

区别在于，序列标注针对的问题是一个序列，每个样本会有前后的关系。

三种标注方式：IO BIO BIOES

序列标记：词性标记（POS）、分块和命名实体识别（NER）

BiLSTM可以综合利用过去和未来的特征
CRF可以利用句子的特征
BiLSTM-CRF模型效果好，鲁棒性强，对词向量依赖不强

CRF可以带来更高的标签准确率，因为CRF可以带来标签的依赖关系，如果没有CRF，则标签之间是相互独立的。

CRF损失函数与维特比解码

CRF的标签可以互相依赖，所有标签跟整个输入都是相关的。
隐马尔可夫模型是一个生成模型（有方向的）
马尔可夫模型可以通过过去的状态推断未来的状态，如一阶马尔可夫模型，通过今天的天气预测明天的天气。
隐马尔可夫模型含有一些无法观测的状态，需要借助观测来推断这些状态。（比如我看不到天气预报，但我能通过雪糕的销量来推测温度的变化） y 温度状态 x 雪糕销量。此外，隐状态之间也是有关系的，比如在梅雨季节，某一天下雨，第二天下雨的可能性也很高。
BIO的是一个不可观测的隐状态，而HMM模型描述的是由这些隐状态序列生成可观测状态的过程。

HMM：齐次马尔可夫假设（转移概率只依赖于之前的状态）、状态独立假设（发射概率只依赖于当前的状态值）。

初始隐状态概率、转移概率、发射概率（由隐状态推测观测状态）
HMM的三个基本问题：
（1）概率计算问题，已知模型和观测序列，计算该模型下观测序列出现的概率
（2）学习问题，已知观测序列，估计模型的参数。包括监督学习：极大似然估计（已知状态序列），非监督学习：EM算法（不知状态序列）
（3）预测问题，解码问题，已知模型参数和观测序列，求最有可能对应的状态序列。

MEMMs与HMM的区别，HEMMs中Y是由X决定的，CRF中Y和X是无方向的，是由输入序列预测输出序列的判别模型。
Yi跟所有X有关，Yi跟Yi-1，Yi+1有关

特征函数：取值为1或0.符合这一特征时取值为1，不符合时取值为0.

转移特征 tk 定义在边上的特征函数，依赖于当前位置i和前一位置i-1，权重lambda_k
状态特征sl定义在节点上的特征函数，依赖于当前位置i，权重为miu_l

将特征转化为概率

HMM和CRF的区别，CRF的表达能力和泛化能力更强
CRF可以依赖于全局的X，HMM由于观测独立假设，只能依赖于局部的X
CRF可以有任意权重值（可构造任意特征函数），HMM的概率值必须满足某种特定的约束（比如累加和为1）

在NER中，CRF的表现能力强于BiLSTM，可以考虑到全局的X，和标签间的依赖。

embedding后加入drop out 的作用：
因为embedding的嵌入深度，每一个深度都相当于是一个特征，比如书写特征之类的，使用dropout放弃使用一些特征，使得一些本来对本模型无用的特征可以舍掉。
另一方面，dropout最基本的作用，防止过拟合。

用BiLSTM提取文本特征后，得到了一个P矩阵
将完整的隐状态序列（特征）接入线性层，映射到k维（标签数），从而得到自动提取的句子特征，记作P矩阵

为什么要加CRF？划重点
可以加强标签的依赖，考虑全局的X信息

CRF的引入：
CRF天然就可以带来这些约束，即学习到句子的前后依赖，加入一些约束来保证最终预测结果有效。

引入方式：
转移分数，来自CRF层可学习到的转移矩阵。转移矩阵是BiLSTM-CRF的一个参数。可随机初始化转移矩阵的分数，然后在训练中更新。

注：还有START和END

最终结果的计算：

路径分数=发射分数+转移分数
发射分数来自于BiLSTM的输出

从所有可能的路径中选择最有可能的路径作为最优路径，如何寻找最优路径，以及loss？

总结：发射分数由BiLSTM提取特征得到，转移分数由CRF提取标签的信息得到
CRF损失函数与维特比解码

深度学习需要定义损失函数，用它来进行反向传播
维特比算法，学习到模型的参数之后，定义一个新的样本，根据发射分数和转移分数，得到最优路径。

一种用来选择最优路径的动态规划算法，从开始状态后每走一步，记录达到该状态所有路径的最大概率值，最后以最大值为基准继续向后推进。最后再从结尾回溯最大概率，也就是最有可能的最优路径。

真实路径 = 转移分数+发射分数的最大值，难点在于所有路径分数

维特比解码算法：
1)previous 发射
2)obs 发射
3)scores 发射+转移

每个节点记录之前所有节点到当前节点的路径总和，最后一步即可得到所有路径的总和。

总结：

NER任务的损失函数：真实路径/所有路径
真实路径由转移概率+发射概率决定，转移概率由CRF计算，发射概率由BiLSTM计算
所有路径由维特比算法确定。

Original: https://blog.csdn.net/qq_42920313/article/details/120508308
Author: The Crooked Man
Title: BiLSTM-CRF（B站上的学习笔记）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544503/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于halcon与c#联合的视觉处理软件

1、视觉软件当我们拿到一个视觉项目，如果有一个拖拽式视觉软件去帮我们完成这样一个项目，既省时又省力，学什么halcon、opencv、visionpro，甚至头疼的C++、C#，…

人工智能 2023年5月26日
0057
对于处理样本不平衡问题,可以通过调整权重或使用过采样和欠采样等方法来改善Logistic回归模型的性能

问题背景和介绍在机器学习中，样本不平衡是指数据集中不同类别的样本数量差异较大，这会对模型的训练和性能产生一定的影响。在处理样本不平衡问题时，我们可以通过调整权重、使用过采样和欠采…

人工智能 2024年1月6日
0064
GMMEM算法详解——附0-9孤立词识别demo(python实现)

目录 * – 潜（隐)变量模型 – K-means – GMM模型 – + GMM模型参数估计的EM算法总结 + GMM模型和K-m…

人工智能 2023年5月25日
0079
【数字信号处理】离散时间信号 ( 离散时间信号知识点 | 信号定义 | 信号分类 | 根据确定性分类 | 根据周期性分类 | 根据离散型分类 )

文章目录一、离散时间信号主要知识点二、信号简介 * 1、信号定义 2、信号分类 – (1) 根据信号值是否确定进行分类 ( 确定性信号 | 随机信号 ) (2) 根…

人工智能 2023年7月2日
00137
时间序列分析（11）| 向量自回归模型（VAR模型）

上篇介绍的传递函数模型的假设是，会影响到，而不会影响到，因此称为外生变量（exogenous variable）。如果和以及更多的变量之间能够相互影响，此时它们就是内生变量（end…

人工智能 2023年7月27日
0052
【论文推荐】了解《人体姿态估计》必看的6篇论文【附打包下载地址】

论文推荐 “ SFFAI102期来自中科院自动化所罗正雄推荐的文章主要关注于人体姿态估计领域，你可以认真阅读讲者推荐的论文，来与讲者及同行线上交流哦。 &#82…

人工智能 2023年6月5日
0092
2021/11/16

基于ROS的YOLO-V3 目标检测目前需要用ros实现移动机器人目标检测的功能需求，根据网上资源，结合自己电脑实际情况，最终实现了基本的目标检测功能。安装及使用环境需求我的…

人工智能 2023年7月12日
0063
编译原理–词法分析器（python语言实现）

词法分析器最近在学习编译原理。由于实验要求有词法分析器，这里我就先记录一下词法分析器实现过程以及具体思路。目标语言此处我选择的目标语言是c语言的子集来进行词法分析。实现语言…

人工智能 2023年7月6日
0045
【经验分享】PC端免费高效的同声翻译

2022.09.26 谷歌翻译退出中国市场 translate.googleapis.com 与谷歌翻译web translate.google.cn现在无法用了在网络课堂爆发…

人工智能 2023年5月25日
00162
机器学习开发环境安装 Tensorflow 2.5.0 + Cuda 11.2 + cudnn 8.1 (windows)

同步发于 JuzerTech网站，里面有我软、硬件学习的纪录与科技产品开箱，欢迎进去观看。随着机器学习的兴起，越来越多人投入机器学习的开发。环境开发便是这条旅途的第一站，今天介…

人工智能 2023年5月26日
0062
qrc文件转lrc_一款提取视频语音字幕的软件，视频语音转文案软件免费版下载

软件名称：视频语音转字幕软件VideoSrt 软件语言：简体中文软件界面：视频语音转字幕软件VideoSrt这是一个可以识别视频语音自动生成字幕SRT文件的软件工具，适用于快速、…

人工智能 2023年5月27日
00105
深度强化学习-DDPG算法原理与代码

深度强化学习-DDPG算法原理与代码引言 1 DDPG算法简介 2 DDPG算法原理 2.1 经验回放 2.2 目标网络 2.2.1 算法更新过程 2.2.2 目标网络的更新 2…

人工智能 2023年7月30日
0069
Python+Neo4j知识图谱环境搭建

知识图谱构建的工具主要包含两个部分 Neo4j 用于存储实体和关系 Django python的Web框架 Django安装和使用 pip install django impor…

人工智能 2023年6月1日
0078
基于残差网络的CNN模型进行人脸识别实战实战项目

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月30日
0047
Tensorflow2(keras)-图像预处理操作(tf.EagerTensor和tf.Tensor)

在tensorflow.keras训练中，如果需要对图像进行预处理操作（数据增强操作），发现很多opencv方法用不了，不能对图像进行直接处理，如果使用np.array(x)…

人工智能 2023年5月26日
0055
【零基础-3】PaddlePaddle学习Bert

概要【零基础-1】PaddlePaddle学习Bert_ 一只博客-CSDN博客https://blog.csdn.net/qq_42276781/article/details…

人工智能 2023年5月31日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

BiLSTM-CRF（B站上的学习笔记）

大家都在看