预训练语言模型（四）：ELMo模型

2023年5月28日上午12:13 • 人工智能 • 阅读 61

参考一个很全的总结：
预训练语言模型的前世今生 – 从Word Embedding到BERT
ELMo也参考了这个：
【NLP-13】ELMo模型（Embeddings from Language Models）

这里提出的一个新的问题是：Word2Vec通过大规模语料对每个单词训练出固定词向量，但没有办法解决多义词的问题，ELMo就是为了这个任务而诞生的。它的核心是给予了每个token一个Word Embedding，即每个句子中样貌相同的词汇也会有不同的Embedding。
这里其实就用到了迁移学习的思想，使用了在大规模语料库上训练好的Word Embedding，输入ELMo模型中进行Fine-Tuning，这里ELMo模型的训练数据是去除标签的，可以根据上下文信息学习到当前语境下的Word Embedding。

模型结构

使用了 双向LSTM，根据上下文预测单词。
ELMo采用了两阶段过程：
第一个阶段是使用语言模型进行预训练
第二个阶段是在下游应用时，从预训练网络中提取对应单词网络歌城的Word Embedding作为新特征补充到下游任务中。
训练好这个网络之后，每输入一个新的句子都能得到三个Embedding：

下游应用：

这样对于下游任务：

这一类的训练方法也叫作”Feature-based Pre-Training”。

前向表示：
p ( t 1 , t 2 , … , t N ) = ∏ k = 1 N p ( t k ∣ t 1 , t 2 , … , t k − 1 ) p(t_1,t_2,…,t_N)=\prod_{k=1}^Np(t_k|t_1,t_2,…,t_{k-1})p (t 1 ,t 2 ,…,t N )=k =1 ∏N p (t k ∣t 1 ,t 2 ,…,t k −1 )
后向表示：
p ( t 1 , t 2 , … , t N ) = ∏ k = 1 N p ( t k ∣ t k + 1 , t k + 2 , … , t N ) p(t_1,t_2,…,t_N)=\prod_{k=1}^Np(t_k|t_{k+1},t_{k+2},…,t_{N})p (t 1 ,t 2 ,…,t N )=k =1 ∏N p (t k ∣t k +1 ,t k +2 ,…,t N )
biLM训练目标是最大化对数似然：
∑ k = 1 N ( log ⁡ p ( t k ∣ t 1 , … , t k − 1 , Θ x , Θ → L S T M , Θ s ) + log ⁡ p ( t k ∣ t k + 1 , t k + 2 , … , t N , Θ x , Θ ← L S T M , Θ s ) ) \sum_{k=1}^N(\log p(t_k|t_1,…,t_{k-1},\Theta_x,\overrightarrow\Theta_{LSTM},\Theta_s)+\log p(t_k|t_{k+1},t_{k+2},…,t_{N},\Theta_x,\overleftarrow\Theta_{LSTM},\Theta_s))k =1 ∑N (lo g p (t k ∣t 1 ,…,t k −1 ,Θx ,ΘL S T M ,Θs )+lo g p (t k ∣t k +1 ,t k +2 ,…,t N ,Θx ,ΘL S T M ,Θs ))
由于ELMo模型使每一层的向量都使用，因此通过一个L层的网络会产生2L+1个表征（每一层双向两个向量，初始输入一个向量，共有3个）
R k = { x k L M , h → k , j L M , h ← k , j L M ∣ j = 1 , … , L } = { h k , j L M ∣ j = 0 , … , L } \begin{aligned} R_k&={\mathbf x^{LM}k,\overrightarrow h^{LM}{k,j},\overleftarrow h^{LM}{k,j} |j=1,…,L }\ &={\mathbf{h}^{LM}{k,j} |j=0,…,L } \end{aligned}R k ={x k L M ,h k ,j L M ,h k ,j L M ∣j =1 ,…,L }={h k ,j L M ∣j =0 ,…,L }
k表示单词位置，j表示所在层，j=0表示输入层，所以上式中的 x k L M = h k , j L M \mathbf x^{LM}k=\mathbf{h}^{LM}{k,j}x k L M =h k ,j L M
下游任务会将 R k R_k R k 压缩为一个向量：
E L M o k t a s k = E ( R k ; Θ t a s k ) = γ t a s k ∑ j = 0 L s j t a s k h k , j L M \begin{aligned} ELMo^{task}k &=E(R_k;\Theta^{task})\ &=\gamma^{task}\sum{j=0}^Ls_j^{task}\mathbf{h}^{LM}_{k,j} \end{aligned}E L M o k t a s k =E (R k ;Θt a s k )=γt a s k j =0 ∑L s j t a s k h k ,j L M
其中 s j t a s k s_j^{task}s j t a s k 是softmax标准化权重，γ t a s k \gamma^{task}γt a s k 是缩放系数，允许任务模型缩放整个ELMo向量。

这样通过不同表征的权重分配，就可以实现通过上下文区分多义词了。

Original: https://blog.csdn.net/Dream_Poem/article/details/122768058
Author: Dream_Poem
Title: 预训练语言模型（四）：ELMo模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528313/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

arm处理器IO口驱动代码编写与测试(bcm2835)

IO口空间的起始地址（物理地址）我们在编写驱动程序的时候，IO空间的起始地址是0x3f000000,加上GPIO的偏移量0x2000000,所以GPIO的物理地址应该是从0x3f…

人工智能 2023年6月29日
0074
PaddleHub教程合集—（2）PaddleHub预训练模型Senta完成情感分析

PaddleHub教程合集—（2）PaddleHub预训练模型Senta完成情感分析 Senta—情感倾向分析（Sentiment Classification）;针对带有主观描述…

人工智能 2023年7月18日
0054
YOLOv5解析 | 参数与性能指标

传参 conf_thres与 iou_thres均位于 detect.py文件当中 conf_thres：Confidence Threshold，置信度阈值，即以下图片上的值。 …

人工智能 2023年7月28日
0093
聚焦企业流程智能化发展新趋势，中国信通院2022 RPA创新产业峰会即将开启

机器人流程自动化(Robotic Process Automation，RPA)是数字时代的重要劳动力之一，流程的自动化、智能化运行是企业释放运营能效、提升客户服务水平的重要路径。…

人工智能 2023年6月4日
0057
Seaborn – 绘制不同类型的回归(Regression)曲线

读取csv数据： df = pd.read_csv(file_path) print(df.info()) 根据2个数组，绘制regplot，regplot是回归(regressi…

人工智能 2023年6月18日
0087
MySQL进阶语句

目录引言一、常用查询 1.1、order by按关键字排序多字段排序 1.2、and/or判断 and/or使用 1.3、distinct查询不重复记录 1.4、GROUP …

人工智能 2023年6月2日
0072
一元线性回归（自写梯度下降法与scikit-learn）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月28日
0072
如何进行模型的调参和优化

问题描述：如何进行模型的调参和优化？详细介绍：调参和优化是机器学习模型开发过程中必不可少的步骤。通过调整模型的超参数，我们可以提高模型的性能，使其更好地适应训练数据，并在测试…

人工智能 2024年1月3日
0030
【数据处理】：（二）文本类

一、读取arff文件 import pandas as pd from scipy.io import arff data,meta = arff.loadarff("….

人工智能 2023年7月16日
0062
轻量级图卷积网络LightGCN介绍和构建推荐系统示例

推荐系统是当今业界最具影响力的 ML 任务。从淘宝到抖音，科技公司都在不断尝试为他们的特定应用程序构建更好的推荐系统。而这项任务并没有变得更容易，因为我们每天都希望看到更多可供选择…

人工智能 2023年7月17日
0053
ICCV2021：Focal Frequency Loss for Image Reconstruction and Synthesis

用于图像重建和合成的焦频损失摘要在本研究中，我们发现缩小频域间隙可以进一步改善图像重建和合成质量。我们提出了一种新的焦频损耗，它允许模型通过降权重的方式自适应地聚焦于难以合…

人工智能 2023年6月22日
0048
图像去雾算法–暗通道先验去雾算法

图像去雾：在雾天拍摄的图像容易受雾或霾的影响，导致图片细节模糊、对比度低以至于丢失图像重要信息，为解决此类问题图像去雾算法应运而生。图像去雾算法是以满足特定场景需求、突出图片细节…

人工智能 2023年5月26日
0072
【ICLR2022】DECOUPLED ADAPTATION FOR CROSS-DOMAIN OBJECT DETECTION 解耦自适应用于跨域目标检测

摘要解决的问题（动机）：跨域⽬标检测⽐⽬标分类更具挑战性，因为图像中存在多个对象，并且每个⽬标在未标记的⽬标域中的位置是未知的。因此，当我们调整不同物体的特征以增强探测器的可迁移性…

人工智能 2023年7月9日
0055
Python快速刷题网站——牛客网数据分析篇（一）

👦👦一个帅气的boy，你可以叫我Love And Program🖱 ⌨个人主页：Love And Program的个人主页💖💖如果对你有帮助的话希望三连💨💨支持一下博主 pytho…

人工智能 2023年7月6日
0063
【PCB学习笔记】绘制智能车四层板 — 网表导入及模块化布局设计

PCB电路板应该大部分跟电打过交道的工科生都不会陌生。作为一个电控选手，我对PCB板也非常熟悉，并且也上过相关的实验课程，也有模电数电的基础。但是由于一直专注在代码层面，负责机器人…

人工智能 2023年6月27日
0071
pytorch-实现天气识别

🍨 本文为🔗365天深度学习训练营中的学习记录博客 🍦 参考文章：365天深度学习训练营-第P3周：天气识别 )**** *🍖 原作者：K同学啊|接辅导、项目定制我的环境语言…

人工智能 2023年7月28日
00110

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

预训练语言模型（四）：ELMo模型

模型结构

大家都在看