跟着我一起背NLP算法八股文_bert篇

2023年5月31日上午2:17 • 人工智能 • 阅读 93

导读：一提到NLP算法，必须手推bert模型。当小白问起bert与word2vec之间的区别时，如何简单易懂的说明这个问题呢？接下来，我将尝试说明。
首先，word2vec将中文转变为可计算的向量，需要说明的是使用不同语料训练的word2vec不尽相同，需要看自己的任务文本和通用w2v训练使用的文本差距；bert预训练模型则是根据上下文训练出来的词向量，在同一个语料中每个token是不固定的，关于本部分细节可以查看层次softmax和霍尔曼编码相关知识。bert通过预训练，训练神经网络的隐藏层，使用隐藏层权重作为词向量，使用该模型时候就像查字典，每个token对应一个词向量，每次查完字典以后还要回到模型里再计算，这个计算就可以把整个语境计算进去，因此称为语境化的向量，这也就是大家说的bert是结合了语境了的，就是一个词在不同的句子里且在相同的bert模型中，输出的词向量是不一样的。所以说，bert比word2vec更加先进。
（1）为什么bert有3个嵌入层（Embedding），它们如何实现？
首先3个嵌入层分别为Token Embedding、Segment Embedding和Position Embedding。
首先，bert将输入文本中的每一个词（token）送入token embedding层从而将每一个词转换成词向量的形式，但不同于其它模型，bert多了2个嵌入层即segment embedding和position embedding。
首先说一下，token embedding实现过程，输入文本首先进行tokenization处理，此外，2个特殊的token会被插入tokenization的结果的开头（[CLS]）和（[SEP]），它们为后面分类任务和划分句子对服务。
Token Embedding层将每一个wordpiece token转换成768维的向量。
其次，bert使用segment embeddings实现句子对中2个句子的区分。segment embeddings层只有2种向量表示，前一个向量是把0赋给第一个句子中的各个token，后一个向量把1赋给第二个句子的token。
第三，加入position embedding可以让bert理解，不同句子中出现的同一个单词的含义。
总结：bert能够处理最长512个token的输入序列，position embeddings layer实际上是一个大小为（512,768）的lookup表。
第一个嵌入是为了获得词的向量表示；第二个是为了区分句子对中2个句子的向量表示；第三个是为了让bert学习到输入的顺序属性。

Original: https://blog.csdn.net/weixin_42419825/article/details/120319533
Author: lbertj
Title: 跟着我一起背NLP算法八股文_bert篇

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547903/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

最小二乘原理

引言以双变量总体回归函数为例：受物力财力等因素限制，很多时候我们难以搜集总体信息，故常使用样本来近似估计总体。因此，我们用下面的样本回归函数（SRF）来近似估计总体回归函数（…

人工智能 2023年6月17日
00133
YoloR：又一个YOLO系列新框架！速度远远高于Yolov4（代码已开源）

计算机视觉研究院专栏作者：Edison_G 目标检测现在的框架越来越多，我们”计算机视觉研究院”最近也分享了众多的目标检测框架！今天我们继续分享一个最新的…

人工智能 2023年7月14日
0053
SpringBoot自定义错误页

一、概述在处理异常时，开发者可以根据实际情况返回不同的页面，这种异常处理方式一般用来处理应用级别的异常。但是，有一些容器级别的错误就处理不了，例如 Filter中抛出异常，使用 …

人工智能 2023年6月29日
0071
使用LDA分类器对邮件进行分类

简述 LDA线性判别分析（linear discriminant analysis, LDA）是最直接和最快的分类模型之一，是一种有监督的算法。模型的训练可分为3步：（1）计算某…

人工智能 2023年7月8日
00123
【语音信号处理】短时傅立叶变换的频谱图详细教程

文章目录 * – 一.语法与参数介绍 – 二.频谱图的默认值 – 三.沿 x 轴的频率 – 四.频谱图和瞬时频率一.语法与参数介绍…

人工智能 2023年5月25日
00210
【Java】反射, 枚举,Lambda表达式

✨系列专栏: 【Java SE】✨一句短话:难在坚持,贵在坚持,成在坚持! 文章目录一. 反射 * 1. 反射的概述 2. 反射的使用 – 2.1 反射常用的类 2….

人工智能 2023年6月21日
0088
一对一直播怎么开发？一对一直播app开发关键点

一对一直播不同于我们过去看到的多个直播平台。它更注重与陌生人的社交，也属于内容付费直播的范畴。除了在社交领域的多重应用外，还可以作为在线教育、在线医疗等应用场景的工具。 [En] …

人工智能 2023年5月25日
0091
人工智能AI 生成的艺术：从文本到图像

人工智能生成艺术简史首先，让我们把事情弄清楚一点。”人工智能与艺术”一般可以从两个方面来理解：人工智能在分析现有艺术的过程中人工智能在创造新艺术的过程…

人工智能 2023年7月27日
00115
ASR项目实战-后处理

这个环节要处理的重要特点是分词、断句、标点符号、大小写、数字格式规范化等。 [En] The important features to be dealt with in this…

人工智能 2023年5月27日
0088
RuntimeError Given groups=1, weight of size [6, 5, 3, 3], expected input[4, 2, 6, 6] to have…及问题解决

RuntimeError: Given groups=1, weight of size [64, 512, 3, 3], expected input[4, 2048, 66, …

人工智能 2023年6月16日
00139
机器学习笔记（四）

机器学习笔记（四）文章目录 * – 机器学习笔记（四） – + 线性判别分析 + 多分类学习 + 类别不平衡问题 + 小总结 + 决策树 + 决策树的基本…

人工智能 2023年6月16日
0079
【目标检测】Faster R-CNN

目录前言算法流程 * RPN(Region Proposal Network) anchor 训练数据采样 RPN Multi-task loss – 分类损失边…

人工智能 2023年7月10日
0096
中值滤波器 median filter

中值滤波中值滤波器(median filter)是将每个像素替换为围绕这个像素的矩形领域内的中值，或”中值像素”。通过平均的简单模糊对噪声图像，由其是有…

人工智能 2023年6月18日
00105
ConnectionResetError: [Errno 104] Connection reset by peer

Traceback (most recent call last):File “/root/autodl-tmp/siamFC/tools/train.py&#8221…

人工智能 2023年7月6日
0062
AI模型精準度TP、FN、FP、TN的計算方法

定義：真實預測正例反例正例TPFN反例FPTN 真實分類：A，B，C。每類20個樣本。按照下面格式統計下數值，根據定義，可以填充A，B，C的tp、fn、fp、tn值。準確率對…

人工智能 2023年6月21日
0085
MySQL-索引

一、介绍索引是数据库对象之一，用于提高字段检索效率，使用者只需要对哪个表中哪些字段建立索引即可，其余什么都不做，数据库会自行处理。索引提供指向存储在表的指定列中的数据值的指针，…

人工智能 2023年7月31日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

跟着我一起背NLP算法八股文_bert篇

大家都在看