Bert系列：如何用bert模型输出文本的embedding

2023年5月28日上午10:52 • 人工智能 • 阅读 69

分类模型可以输出其文本的embedding吗?LM模型可以输出其文本的embedding吗？答案：可以。

假设你已经用自己的数据fine-tuing好模型。

主要工具设备型号：

python3.6、torch1.7、transformer4.2、macOS、

那么怎么取?用哪个方式获取文本embedding呢？对不起，这个问题也在困扰着我，方法们各有千秋，也不知道如何选择了。那就选择最容易落地、能快速上线的——第一种方式：直接用 CLS Token 的 Embedding 作为句子表征。

BertModel这个类初始化的模型，输出中有pooler_out，可以作为文本的embedding。bert系列的其他类，没有这个输出选项。

例子：

`
from transformers import BertTokenizer, BertModel
import torch

tokenizer = BertTokenizer.from_pretrained(‘bert-base-chinese’)
model = BertModel.from_pretrained(‘bert-base-chinese’)

inputs = tokenizer(‘我是一个好人’, return_tensors=’pt’)
outputs = model(**inputs)

last_hidden_states = outputs.last_hidden_state
print(‘last_hidden_states:’ ,last_hidden_states)
pooler_output = outputs.pooler_output
print(‘—pooler_output: ‘, pooler_output)
输出：768维，也就是768个数，太长了，这里简单看下效果即可，没有将embedding的值全部粘贴出来。

Original: https://blog.csdn.net/pearl8899/article/details/116354207
Author: 凝眸伏笔
Title: Bert系列：如何用bert模型输出文本的embedding

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531065/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2022-2028年中国脱汞行业市场规模及发展前景分析报告

【报告类型】产业研究【出版时间】即时更新（交付时间约3个工作日）【发布机构】智研瞻产业研究院【报告格式】PDF版本报告介绍了脱汞行业相关概述、中国脱汞行业运行环境、分析了中…

人工智能 2023年6月11日
0067
读取音频的双通道波形并绘制波形图及语谱图

读取双通道波形并绘制波形图 import wave import matplotlib.pyplot as plt import numpy as np ""&…

人工智能 2023年5月27日
00121
什么是物联网？物联网应用可以带来哪些好处

有人物联网线上技术交流会是什么 ——当你还在传统制造思维中禁锢，你的同行已经做了物联网赋能什么是物联网? 众所周知，物联网是实现物与物相连。总是感觉远在天边，实际上近在眼前。比…

人工智能 2023年6月6日
00107
使用ResNet101作为预训练模型训练Faster-RCNN-TensorFlow-Python3-master

使用VGG16作为预训练模型训练Faster-RCNN-TensorFlow-Python3-master的详细步骤→Windows10+Faster-RCNN-TensorFlo…

人工智能 2023年7月10日
0066
基于pytorch构建双向LSTM（Bi-LSTM）文本情感分类实例（使用glove词向量）

学长给的代码，感觉结构清晰，还是蛮不错的，想以后就照着这样的结构走好了，记录一下。首先配置环境 matplotlib==3.4.2 numpy==1.20.3 pandas==1…

人工智能 2023年7月2日
0084
Basic regression: Predict fuel efficiency —— TensorFlow

Basic_regression_Predict_fuel_efficiency In a regression problem, the aim is to predict th…

人工智能 2023年5月25日
0086
yolov5检测小目标（附源码）

yolov5小目标检测（图像切割法附源码） 6.30 更新切割后的小图片的label数据处理前言 yolov5大家都熟悉，通用性很强，但针对一些小目标检测的效果很差。YOLOv5…

人工智能 2023年6月16日
00107
【2022】保姆级Anaconda安装与换国内源教程

一、Anaconda的安装由于Anaconda官网在境外，为了提升下载速度，我们选择从北京外国语大学镜像站下载Anaconda的安装包。截止到写作时，Anaconda3最新版本…

人工智能 2023年7月3日
00122
ventoy 安装系统

下载ventoy https://www.ventoy.net/cn/download.html 安装ventoy到U盘（会格式化U盘，需要把U盘中的数据拷贝出来备份）插入U盘…

人工智能 2023年6月30日
00160
Docker概述（一）

Docker概述（一）顺便介绍下：我们是一家致力于智能语音交互的AI公司，我们提供了语音识别、语音合成、声纹识别、声音复刻、声音转换等技术产品供小伙伴们测试调用，感兴趣的，第三部…

人工智能 2023年6月6日
0073
从DDPM到DDIM：深入解读《Denoising Diffusion Implicit Models》

Diffusion Models专栏文章汇总：入门与实战 _前言：_DDIM发表在ICRL2021上，是DDPM重要的改进之一，能显著提高DDPM的样本质量、减少采样时间，并且已经…

人工智能 2023年6月16日
0067
决策树之基尼指数理解

基尼指数和信息熵都是用来描述系统混乱度的量数学形式不一样，干的事是一样的不纯度（impurity）–GINI系数：（不纯度就是混乱度）公式例子（与信息熵干的是一…

人工智能 2023年6月15日
0099
两阶段目标检测详解–FasterRCNN

目录一、Faster R-CNN的思想二、FasterRCNN模型结构（一）网络结构（二）RPN网络(Region Proposal Networks) （三）什么是锚点（…

人工智能 2023年7月12日
0076
Yolov3在libtorch上模型加载及预测(c++、yolov3、libtorch)

黄宁然，你们甲方的项目不好做啊。之前已经基于WIN10+VS2015+opencv3.4.12，实现Yolov3。（https://download.csdn.net/downl…

人工智能 2023年7月23日
0071
一文让你完全弄懂逻辑回归和分类问题实战《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（上）（DL笔记整理系列）

好吧，只好拆分为上下两篇发布了>_< 终于肝出来了，今天就是除夕夜了，祝大家新快乐！^q^ 《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（上）（逻辑回归、S…

人工智能 2023年7月1日
0097
图像质量评估(5) — 畸变(Distortion)

当图像中原本应该是直线的地方看起来发生了不自然的变形或扭曲时，我们称为图像畸变。有三种类型的镜头畸变：桶形畸变（后文使用英文barrel），枕形畸变（后文使用pincushion）…

人工智能 2023年5月26日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Bert系列：如何用bert模型输出文本的embedding

大家都在看