# 基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

win10 + python 3.8 + tensorflow 2.9.1 + transformers 4.20.1

from transformers import AutoTokenizer, TFAutoModel
import tensorflow as tf
import matplotlib.pyplot as plt


model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModel.from_pretrained(model_name,
output_hidden_states=True)


utt = ['今天的月亮又大又圆', '月亮真的好漂亮啊', '今天去看电影吧', "爱情睡醒了,天琪抱着小贝进酒店", "侠客行风万里"]
inputs = tokenizer(utt, return_tensors="tf", padding="max_length", truncation=True, max_length=64)
outputs = model(inputs)
hidden_states = outputs[2]


1. The layer number (13 layers)
2. The batch number (5 sentence) 也就是输入句子的个数
3. The word / token number (64 tokens in our sentence) 也就是max_length
4. The hidden unit / feature number (768 features)

1.为啥是13层？bert不是12层吗？

print("Number of layers:", len(hidden_states), "  (initial embeddings + 12 BERT layers)")

layer_i = 0
print("Number of batches:", len(hidden_states[layer_i]))

batch_i = 0
print("Number of tokens:", len(hidden_states[layer_i][batch_i]))

token_i = 0
print("Number of hidden units:", len(hidden_states[layer_i][batch_i][token_i]))



batch_i = 0
token_i = 5
layer_i = 5
vec = hidden_states[layer_i][batch_i][token_i]


plt.figure(figsize=(10, 10))
plt.hist(vec, bins=200)
plt.show()


[En]

Now make some changes to the tensor of multiple sentences

sentence_embeddings = tf.stack(hidden_states, axis=0)
print(f"sentence_embeddings.shape : {sentence_embeddings.shape}")



sentence_embeddings_perm = tf.transpose(sentence_embeddings, perm=[1, 2, 0, 3])
print(f"sentence_embeddings_perm.shape : {sentence_embeddings_perm.shape}")



### 第一种方式：拼接后四层的稠密向量

for sentence_embedding in sentence_embeddings_perm:
print(f"sentence_embedding.shape: {sentence_embedding.shape}")
token_vecs_cat = []
for token_embedding in sentence_embedding:
print(f"token_embedding.shape : {token_embedding.shape}")
cat_vec = tf.concat([token_embedding[-1], token_embedding[-2], token_embedding[-3], token_embedding[-4]], axis=0)
print(f"cat_vec.shape : {cat_vec.shape}")
token_vecs_cat.append(cat_vec)
print(f"len(token_vecs_cat) : {len(token_vecs_cat)}")


### 第二种方式：加和后四层的稠密向量

for sentence_embedding in sentence_embeddings_perm:
print(f"sentence_embedding.shape: {sentence_embedding.shape}")
token_vecs_cat = []
for token_embedding in sentence_embedding:
print(f"token_embedding.shape : {token_embedding.shape}")
cat_vec = sum(token_embedding[-4:])
print(f"cat_vec.shape : {cat_vec.shape}")
token_vecs_cat.append(cat_vec)
print(f"len(token_vecs_cat) : {len(token_vecs_cat)}")


token_vecs = sentence_embeddings[-2]
print(f"token_vecs.shape : {token_vecs.shape}")

sentences_embedding = tf.reduce_mean(token_vecs, axis=1)
print(f"sentences_embedding.shape : {sentences_embedding.shape}")



### 不同句子间的相似度

tensor_test = sentences_embedding[0]
consine_sim_tensor = tf.keras.losses.cosine_similarity(tensor_test, sentences_embedding)
print(f"consine_sim_tensor : {consine_sim_tensor}")



### 探讨下相同词bank在不同上下文时其vector的相似度

utt = ["After stealing money from the bank vault, the bank robber was seen fishing on the Mississippi river bank."]
inputs = tokenizer(utt, return_tensors="tf", padding="max_length", truncation=True, max_length=22)
"""
0 [CLS]
1 after
2 stealing
3 money
4 from
5 the
6 bank
7 vault
8 ,
9 the
10 bank
11 robber
12 was
13 seen
14 fishing
15 on
16 the
17 mississippi
18 river
19 bank
20 .
21 [SEP]

bank单词的位置分别在6, 10, 19
"""
outputs = model(inputs)
hidden_states = outputs[2]
tokens_embedding = tf.reduce_sum(hidden_states[-4:], axis=0)
bank_vault = tokens_embedding[0][6]
bank_robber = tokens_embedding[0][10]
river_bank = tokens_embedding[0][19]
consine_sim_tensor = tf.keras.losses.cosine_similarity(bank_vault, [bank_robber, river_bank])
print(f"consine_sim_tensor : {consine_sim_tensor}")



from transformers import AutoTokenizer, TFAutoModel
import tensorflow as tf
import matplotlib.pyplot as plt

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModel.from_pretrained(model_name,
output_hidden_states=True)

utt = ['今天的月亮又大又圆', '月亮真的好漂亮啊', '今天去看电影吧', "爱情睡醒了,天琪抱着小贝进酒店", "侠客行风万里"]
inputs = tokenizer(utt, return_tensors="tf", padding="max_length", truncation=True, max_length=64)
outputs = model(inputs)
hidden_states = outputs[2]
"""

1. The layer number (13 layers)
2. The batch number (5 sentence) 也就是输入句子的个数
3. The word / token number (64 tokens in our sentence) 也就是max_length
4. The hidden unit / feature number (768 features)

1.为啥是13层？bert不是12层吗？

"""
print("Number of layers:", len(hidden_states), "  (initial embeddings + 12 BERT layers)")

layer_i = 0
print("Number of batches:", len(hidden_states[layer_i]))

batch_i = 0
print("Number of tokens:", len(hidden_states[layer_i][batch_i]))

token_i = 0
print("Number of hidden units:", len(hidden_states[layer_i][batch_i][token_i]))

token_i = 5
layer_i = 5
vec = hidden_states[layer_i][batch_i][token_i]

plt.figure(figsize=(10, 10))
plt.hist(vec, bins=200)
plt.show()

sentence_embeddings = tf.stack(hidden_states, axis=0)
print(f"sentence_embeddings.shape : {sentence_embeddings.shape}")

sentence_embeddings_perm = tf.transpose(sentence_embeddings, perm=[1, 2, 0, 3])
print(f"sentence_embeddings_perm.shape : {sentence_embeddings_perm.shape}")

for sentence_embedding in sentence_embeddings_perm:
print(f"sentence_embedding.shape: {sentence_embedding.shape}")
token_vecs_cat = []
for token_embedding in sentence_embedding:
print(f"token_embedding.shape : {token_embedding.shape}")
cat_vec = tf.concat([token_embedding[-1], token_embedding[-2], token_embedding[-3], token_embedding[-4]], axis=0)
print(f"cat_vec.shape : {cat_vec.shape}")
token_vecs_cat.append(cat_vec)
print(f"len(token_vecs_cat) : {len(token_vecs_cat)}")

for sentence_embedding in sentence_embeddings_perm:
print(f"sentence_embedding.shape: {sentence_embedding.shape}")
token_vecs_cat = []
for token_embedding in sentence_embedding:
print(f"token_embedding.shape : {token_embedding.shape}")
cat_vec = sum(token_embedding[-4:])
print(f"cat_vec.shape : {cat_vec.shape}")
token_vecs_cat.append(cat_vec)
print(f"len(token_vecs_cat) : {len(token_vecs_cat)}")

token_vecs = sentence_embeddings[-2]
print(f"token_vecs.shape : {token_vecs.shape}")
sentences_embedding = tf.reduce_mean(token_vecs, axis=1)
print(f"sentences_embedding.shape : {sentences_embedding.shape}")

tensor_test = sentences_embedding[0]
consine_sim_tensor = tf.keras.losses.cosine_similarity(tensor_test, sentences_embedding)
print(f"consine_sim_tensor : {consine_sim_tensor}")

utt = ["After stealing money from the bank vault, the bank robber was seen fishing on the Mississippi river bank."]
inputs = tokenizer(utt, return_tensors="tf", padding="max_length", truncation=True, max_length=22)
"""
0 [CLS]
1 after
2 stealing
3 money
4 from
5 the
6 bank
7 vault
8 ,
9 the
10 bank
11 robber
12 was
13 seen
14 fishing
15 on
16 the
17 mississippi
18 river
19 bank
20 .
21 [SEP]

bank单词的位置分别在6, 10, 19
"""
outputs = model(inputs)
hidden_states = outputs[2]
tokens_embedding = tf.reduce_sum(hidden_states[-4:], axis=0)
bank_vault = tokens_embedding[0][6]
bank_robber = tokens_embedding[0][10]
river_bank = tokens_embedding[0][19]
consine_sim_tensor = tf.keras.losses.cosine_similarity(bank_vault, [bank_robber, river_bank])
print(f"consine_sim_tensor : {consine_sim_tensor}")



Original: https://blog.csdn.net/weixin_43730035/article/details/125819761
Author: 何强棒棒
Title: 基于tensorflow2.0+使用bert获取中文词、句向量并进行相似度分析

(0)

### 大家都在看

• #### 英伟达Jetson Xavier NX部署YOLO5

1.查看JetPack版本 新到手的NX首先需要确定一下JetPack的版本： sudo apt-cache show nvidia-jetpack 会显示类似下面的内容： Pac…

人工智能 2023年7月10日
0164
• #### pytorch安装中解决命令行中gpu为true但是pycharm中gpu为false的问题

安装pytorch本人参考的以下博主的内容，亲测有效，只不过安装完成之后有一些小问题或不一致的地方，在此解惑。 Pytorch最全安装教程（一步到位）_weiAweiww的博客-C…

人工智能 2023年7月21日
0169
• #### 【一起入门NLP】中科院自然语言处理第9课-NLP中的注意力机制（Attention）

专栏介绍：本栏目为 “2021秋季中国科学院大学胡玥老师的自然语言处理” 课程记录，不仅仅是课程笔记噢～ 如果感兴趣的话，就和我一起入门NLP吧🥰 目录 传…

人工智能 2023年5月30日
0201
• #### 基于OpenCV实现的图像拼接（配准）案例

0 工具、环境、平台 -VS2015 C++-OpenCV 4.5.1-Windows 10 64位 1 图像拼接的简要步骤 Note: 两幅图像的拼接需要满足基本条件，一是图像本…

人工智能 2023年6月18日
0148
• #### python 最小外接矩形笔记

目录 最小外接矩形角度计算： opencv生成最小外接矩形： 最小外接矩形修正版： 最小外接矩形角度计算： rect = cv2.minAreaRect(merged_contou…

人工智能 2023年5月26日
0165
• #### jetson nano在archiconda环境里编译安装opencv（为了CUDA加速）

流程我是按照这个文章做的，先跳到这看一下流程Jetson Xavier NX 教程 – 知乎 (zhihu.com) 根据需要修改 CONDA_HOME变量的值，和OP…

人工智能 2023年7月19日
0135
• #### 电影知识图谱实战踩坑记录RDF、SPARQL、D2RQ、SPARQL endpoint、Apache jena

只是记录踩坑，不负责讲解具体的实践步骤，具体的实践步骤参考：知识图谱-给AI装个大脑 D2RQ Database connection to jdbc:mysql:///kg_mo…

人工智能 2023年6月1日
0223
• #### Mac Pro M1测试PyTorch GPU

文章目录 前言 安装 开始测试 总结 前言 这几天暑假回家被社区集中隔离，进来就带了台笔记本每天实在是太无聊了。想起来之前刷到最新版本的Pytorch貌似已经支持M1芯片的GPU加…

人工智能 2023年6月16日
0157
• #### 虚拟变量怎么做回归_横截面数据怎么做门槛回归？我教你呀

横截面数据怎么做门槛回归？我教你呀 缘起 门槛模型是在研究结构突变时，非常常用的模型。它最早由著名的计量经济学家Bruce E. Hansen提出，并随后在经济学界快速推广开来。 …

人工智能 2023年6月18日
0138
• #### Python环境配置教程（超详细图文版）

Python环境配置教程 说明 本教程为一个python入门教程，面向初学者，因此内容较为详细。主要内容为python环境配置教程，包括Anaconda，PyCharm，Jupyt…

人工智能 2023年7月5日
0193
• #### ImportError: cannot import name ‘get_config‘ from ‘tensorflow.python.eager.context‘

使用以下项目时出错 [En] An error occurred while using the following item 报错完整信息： Traceback (most re…

人工智能 2023年5月23日
0133
• #### ASSIST: Towards Label Noise-Robust Dialogue State Tracking论文笔记

ASSIST: Towards Label Noise-Robust Dialogue State Tracking 面向标签噪声鲁邦性的对话状态追踪 Abstract 问题所在：…

人工智能 2023年5月28日
0139
• #### T31开发笔记：librtmp编译测试

若该文为原创文章，转载请注明原文出处 编译librtmp库，及代码详解测试。 1、硬件：T31X+SC5235 2、开发环境： ubuntu16.04-64bit 3、编译器：mi…

人工智能 2023年6月27日
0213
• #### [Yolov5]模型选择，参数修改，目标检测，训练数据集以及训练自己数据集全过程。

目录 小样本成果展示 Cuda11.4+Cudnn8.2.4 1.Yolov5模型与像素大小。 2.常用参数 a.detect.py b.train.py 3.如何目标检测 a.P…

人工智能 2023年6月15日
0172
• #### CUDA升级和版本切换方法

1.查看CUDA版本 echo \$PATH 输出:/usr/local/cuda-11.1/bin:/usr/local/cuda-10.1/bin:… 哪个在前面哪个…

人工智能 2023年7月4日
0166
• #### 《智能控制技术》学习笔记-1.绪论，智能控制定义、分类、发展及应用场景

一、引言 先修内容： 经典控制理论、现代控制理论、MATLAB 引入：智能理论是新兴学科，随着数字计算机和人工智能发展而来，发展得益于许多学科：人工智能、认知科学、现代自适应控制、…

人工智能 2023年7月1日
0197