BERT 基础模型（无壳）

2023年5月30日上午11:59 • 人工智能 • 阅读 83

使用掩码语言建模 (MLM) 目标的英语语言预训练模型。它在本文中进行了介绍，并在此存储库中首次发布。这个模型是不加壳的：它在英语和英语之间没有区别。

型号说明

BERT 是一种以自我监督的方式在大量英语数据语料库上进行预训练的变形金刚模型。这意味着它仅在原始文本上进行了预训练，没有人以任何方式标记它们（这就是它可以使用大量公开可用数据的原因），并通过自动过程从这些文本生成输入和标签。更准确地说，它经过预训练有两个目标：

掩蔽语言建模（MLM）：取一个句子，模型随机掩蔽输入中 15% 的单词，然后通过模型运行整个被掩蔽的句子，并且必须预测被掩蔽的单词。这不同于通常一个接一个地看到单词的传统循环神经网络 (RNN)，也不同于像 GPT 这样在内部掩盖未来标记的自回归模型。它允许模型学习句子的双向表示。
下一句预测 (NSP)：模型在预训练期间将两个蒙面句子作为输入连接起来。有时它们对应于原文中相邻的句子，有时则不是。然后，该模型必须预测这两个句子是否相互跟随。

通过这种方式，模型学习了英语语言的内部表示，然后可用于提取对下游任务有用的特征：例如，如果您有一个标记句子的数据集，您可以使用 BERT 生成的特征训练标准分类器模型作为输入。

预期用途和限制

您可以将原始模型用于掩码语言建模或下一句预测，但它主要用于在下游任务上进行微调。查看模型中心以查找您感兴趣的任务的微调版本。

请注意，此模型主要针对使用整个句子（可能被屏蔽）做出决策的任务进行微调，例如序列分类、标记分类或问答。对于诸如文本生成之类的任务，您应该查看 GPT2 之类的模型。

如何使用

您可以将此模型直接用于掩码语言建模的管道：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='bert-base-uncased')
unmasker("Hello I'm a [MASK] model.")

以下是如何使用此模型在 PyTorch 中获取给定文本的特征：

from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained("bert-base-uncased")
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)

限制和偏见

即使用于该模型的训练数据可以被描述为相当中性，该模型也可能有偏差的预测

from transformers import pipeline
unmasker = pipeline('fill-mask', model='bert-base-uncased')

unmasker("The man worked as a [MASK].")

unmasker("The woman worked as a [MASK].")

这种偏差也会影响该模型的所有微调版本。

训练数据

BERT 模型在 BookCorpus 上进行了预训练， BookCorpus是一个由 11,038 本书和英文维基百科（不包括列表、表格和标题）组成的数据集。

培训程序

预处理

使用 WordPiece 和 30,000 的词汇量对文本进行小写和标记化。模型的输入则为：

[CLS] Sentence A [SEP] Sentence B [SEP]

以 0.5 的概率，句子 A 和句子 B 对应于原始语料库中的两个连续句子，而在其他情况下，它是语料库中的另一个随机句子。请注意，这里认为的句子是连续的文本跨度，通常比单个句子长。唯一的限制是包含两个”句子”的结果的总长度小于 512 个标记。

每个句子的掩蔽过程的详细信息如下：

15% 的令牌被屏蔽。
在 80% 的情况下，被屏蔽的标记被替换为[MASK].
在 10% 的情况下，被掩码的标记被替换为随机标记（不同），与它们替换的标记不同。
在剩下的 10% 的情况下，被屏蔽的令牌保持原样。

预训练

该模型在 Pod 配置中的 4 个云 TPU（总共 16 个 TPU 芯片）上进行了 100 万步训练，批量大小为 256。序列长度限制为 90% 的步长为 128 个标记，其余 10% 的步长为 512 个。使用的优化器是 Adam，学习率为 1e-4，b1=0.9\beta_{1} = 0.9和b2=0.999\beta_{2} = 0.999，权重衰减为 0.01，学习率预热 10,000 步，之后学习率线性衰减。

Original: https://blog.csdn.net/sikh_0529/article/details/126627630
Author: Sonhhxg_柒
Title: BERT 基础模型（无壳）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/542595/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

win10上用实例分割网络SOLO训练自己的数据集（mmdetection版本）

这个网络架构在win10上和ubuntu上都搭起来了，里面有的截图是用的ubuntu系统的截图，不影响我的环境 Python版本 3.7CUDA版本 11.1PyTorch版本 …

人工智能 2023年7月10日
0078
timm——pytorch下的迁移学习模型库·详细使用教程

timm（Pytorch Image Models）项目是一个站在大佬肩上的图像分类模型库，通过timm可以轻松的搭建出各种sota模型（目前内置预训练模型592个，包含dense…

人工智能 2023年6月16日
10205
数据探索（数据清洗）②—Python对数据中的缺失值、异常值和一致性进行处理

Python介绍、 Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置pytho…

人工智能 2023年6月19日
0097
阅读《基于知识图谱技术的数据资产管理设计与应用验证研究》笔记

文章目录 * – 1、摘要 – 2、前言 – 3、研究概述 – + 3.1 数据资产管理内涵 + 3.2 数据资产管理的意义 &#8…

人工智能 2023年6月1日
0088
机器学习之分类问题的评价指标

分类问题的模型评价指标在回归问题中，我们可能会采用均方误差衡量模型的好坏。但在分类问题中，我们需要判断模型是否被正确分类了，于是有如下的评价标准： True表示预测正确，Fals…

人工智能 2023年7月3日
0064
使用opencv分割图像（python实现）

使用opencv分割图像（python实现）概述本人在做无人农机的时候需要进行图像处理，寻找目标物并进行分割，于是总结网络各种小车寻迹等等demo，自己也终于把图像颜色分割做的…

人工智能 2023年6月18日
00102
python实现 logistic 回归二分类算法（通俗讲解逻辑回归本质与由来）

logistic回归将数据样本看作是欧式空间的点，尝试找到一个超平面，将空间分成两部分，如果样本点在”正面”，则它被分为0类；如果样本点在”负…

人工智能 2023年6月16日
0073
AirSim无人机仿真——手柄操作

由于工作中有无人车仿真需求，了解到了AirSim，据了解AirSim可以仿真无人机，这个还是引起了我很大兴趣。早在5年前就飞丢过一只phantom3，目前只剩下遥控器了。。。由于…

人工智能 2023年6月10日
00161
perl

https://www.perl.org/ perl官网 Original: https://blog.csdn.net/mmgithub123/article/details/1…

人工智能 2023年5月24日
0069
如何在 Pandas DataFrame 中插入一列

insert(loc, column, value, allow_duplicates=False) 在哪里： loc：插入列的索引。第一列是 0。 column：赋予新列的名称。…

人工智能 2023年7月6日
0095
关于下载pytorch时，命令行import成功，但是pycharm和jupyter显示“No module named torch”问题

最近在下载pytorch的时候真的一堆问题，在anaconda下载完pytorch后，激活后在python环境下可以import torch，但是在pycharm还有jupyter…

人工智能 2023年7月21日
0062
matlab图像处理基础语法

介绍一些matlab中常用的图像处理语法本文最终目的是已知一张蘑菇图像，经过一些列图像处理，尽量精确地计算其纹理（最大连通域）面积占比 ; 1、图片读取读取一张照片： RGB =…

人工智能 2023年6月21日
0085
预训练模型进行情感分析(以bert-base-chinese为例)

目录 1.预训练模型下载 2.下载预训练模型 3.导入需要的库 4.定义数据路径 5.查看数据 6.定义神经网络 7.使用BertTokenizer 编码成Bert需要的输入格式 …

人工智能 2023年5月27日
00136
语义分割系列11-DAnet（pytorch实现）

DAnet：Dual Attention Network for Scene Segmentation 发布于CVPR2019，本文将进行DAnet的论文讲解和复现工作。论文部分…

人工智能 2023年7月26日
0075
【知识图谱】Neo4j GDS（Graph Data Science）安装和使用

Neo4j Graph Data Science （GDS）图算法用于计算图、节点或关系的度量。它们可以提供关于图中相关实体（中心性、排名）或社区等固有结构（社区检测、图分区、聚…

人工智能 2023年6月1日
00118
操作 Structured Streaming

可以在streaming DataFrames/Datasets上应用各种操作. 主要分两种: 基本操作 Most of the common operations on Data…

人工智能 2023年7月9日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31