【代码复现】NER之GlobalPointer解析

2023年5月27日下午7:23 • 人工智能 • 阅读 207

前言

在NER任务中，主要分为三类实体： 嵌套实体、 非嵌套实体、 不连续实体，今天分享方法以end-to-end的方式解决前两个问题，GlbalPointer，它利用全局归一化的思路来进行命名实体识别（NER），可以无差别地识别嵌套实体和非嵌套实体，在非嵌套（Flat NER）的情形下它能取得媲美CRF的效果，而在嵌套（Nested NER）情形它也有不错的效果。

核心思想

GlobalPointer是一种基于span分类的解码方法，它将首尾视为一个整体去进行判别，所以它更有”全局观”（更Global）。而且也保证了训练、预测、上线评估都是以实体级进行评测。

任务建模，按照实体类型数量和max_len的长度生成三维矩阵(ent_type_size, max_seq_len, max_seq_len)，按照实体类型dix，实体start_idx, 实体end_idx填入三维矩阵中并赋值为1

import numpy as np
labels = np.zeros((3,12,12)) # &#x4EE3;&#x8868; 3&#x79CD;&#x5B9E;&#x4F53;&#x7C7B;&#x578B; &#x53E5;&#x5B50;&#x957F;&#x5EA6;&#x4E3A;12
labels[1][0][1] = 1 # &#x5B9E;&#x4F53;&#x7C7B;&#x578B;&#x4E3A;1 (start_idx,end_idx)=(0,1)&#x586B;&#x5199;&#x4E3A;1

模型架构

模型 torch代码如下：

class GlobalPointer(nn.Module):
    def __init__(self, encoder, ent_type_size, inner_dim, RoPE=True):
        super().__init__()
        self.encoder = encoder
        self.ent_type_size = ent_type_size
        self.inner_dim = inner_dim
        self.hidden_size = encoder.config.hidden_size
        self.dense = nn.Linear(self.hidden_size, self.ent_type_size * self.inner_dim * 2)

        self.RoPE = RoPE # &#x662F;&#x5426;&#x4F7F;&#x7528;RoPE

    def sinusoidal_position_embedding(self, batch_size, seq_len, output_dim):
        position_ids = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(-1)

        indices = torch.arange(0, output_dim // 2, dtype=torch.float)
        indices = torch.pow(10000, -2 * indices / output_dim)
        embeddings = position_ids * indices
        embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1)
        embeddings = embeddings.repeat((batch_size, *([1]*len(embeddings.shape))))
        embeddings = torch.reshape(embeddings, (batch_size, seq_len, output_dim))
        embeddings = embeddings.to(self.device)
        return embeddings

    def forward(self, input_ids, attention_mask, token_type_ids):
        self.device = input_ids.device

        context_outputs = self.encoder(input_ids, attention_mask, token_type_ids)
        # last_hidden_state:(batch_size, seq_len, hidden_size)
        last_hidden_state = context_outputs[0]

        batch_size = last_hidden_state.size()[0]
        seq_len = last_hidden_state.size()[1]

        # outputs:(batch_size, seq_len, ent_type_size*inner_dim*2)
        outputs = self.dense(last_hidden_state)
        outputs = torch.split(outputs, self.inner_dim * 2, dim=-1)
        # outputs:(batch_size, seq_len, ent_type_size, inner_dim*2)
        outputs = torch.stack(outputs, dim=-2)
        # qw,kw:(batch_size, seq_len, ent_type_size, inner_dim)
        qw, kw = outputs[...,:self.inner_dim], outputs[...,self.inner_dim:] # TODO:&#x4FEE;&#x6539;&#x4E3A;Linear&#x83B7;&#x53D6;&#xFF1F;

        if self.RoPE:
            # pos_emb:(batch_size, seq_len, inner_dim)
            pos_emb = self.sinusoidal_position_embedding(batch_size, seq_len, self.inner_dim)
            # cos_pos,sin_pos: (batch_size, seq_len, 1, inner_dim)
            cos_pos = pos_emb[..., None, 1::2].repeat_interleave(2, dim=-1)
            sin_pos = pos_emb[..., None,::2].repeat_interleave(2, dim=-1)
            qw2 = torch.stack([-qw[..., 1::2], qw[...,::2]], -1)
            qw2 = qw2.reshape(qw.shape)
            qw = qw * cos_pos + qw2 * sin_pos
            kw2 = torch.stack([-kw[..., 1::2], kw[...,::2]], -1)
            kw2 = kw2.reshape(kw.shape)
            kw = kw * cos_pos + kw2 * sin_pos

        # logits:(batch_size, ent_type_size, seq_len, seq_len)
        logits = torch.einsum('bmhd,bnhd->bhmn', qw, kw)

        # padding mask
        pad_mask = attention_mask.unsqueeze(1).unsqueeze(1).expand(batch_size, self.ent_type_size, seq_len, seq_len)
        # pad_mask_h = attention_mask.unsqueeze(1).unsqueeze(-1).expand(batch_size, self.ent_type_size, seq_len, seq_len)
        # pad_mask = pad_mask_v&pad_mask_h
        logits = logits*pad_mask - (1-pad_mask)*1e12

        # &#x6392;&#x9664;&#x4E0B;&#x4E09;&#x89D2;
        mask = torch.tril(torch.ones_like(logits), -1)
        logits = logits - mask * 1e12

        return logits/self.inner_dim**0.5

生成RoPE：
GlobalPoint核心思想是引入了RoPE（旋转式位置编码）：
对于位置m m m，RoPE会计算出一个正交矩阵 R m R_{m}R m ，将 R m R_{m}R m 与 q q q相乘便实现对 q q q进行旋转，如果 q q q 是二维，有：

对于高阶偶数维的q q q ，有：

其中θ i \theta_i θi 是怎么得到的？
介绍一下Sinusoidal位置编码
【代码复现】NER之GlobalPointer解析

RoPE在θi的选择上，采用了Sinusoidal位置编码的方案，即 θ i = 1000 0 ( − 2 i / d ) \theta _i = 10000^{(-2i/d)}θi =1 0 0 0 0 (−2 i /d ) 它可以带来一定的远程衰减性。
有关torch.stack可参考这篇文章

def sinusoidal_position_embedding(self, batch_size, seq_len, output_dim):
        position_ids = torch.arange(0, seq_len, dtype=torch.float).unsqueeze(-1) # &#x751F;&#x6210;&#x7EDD;&#x5BF9;&#x4F4D;&#x7F6E;&#x4FE1;&#x606F;

        indices = torch.arange(0, output_dim // 2, dtype=torch.float) # &#x7531;Sinusoidal&#x516C;&#x5F0F;&#x53EF;&#x77E5; i&#x7684;&#x8303;&#x56F4;&#x662F; 0 -> d/2
        indices = torch.pow(10000, -2 * indices / output_dim)  # &#x516C;&#x5F0F;&#x8BA1;&#x7B97;&#x5F97;&#x5230;theta_i
        embeddings = position_ids * indices # &#x751F;&#x6210;&#x5E26;theta&#x7684;embedding
        embeddings = torch.stack([torch.sin(embeddings), torch.cos(embeddings)], dim=-1) # &#x5F15;&#x5165;cosm sinm &#x5728;&#x6700;&#x540E;&#x7EF4;&#x5EA6;&#x8FDB;&#x884C;&#x5806;&#x53E0;
        embeddings = embeddings.repeat((batch_size, *([1]*len(embeddings.shape)))) # &#x6269;&#x5C55;&#x5230;&#x6574;&#x4E2A;batch_size&#x79CD;
        embeddings = torch.reshape(embeddings, (batch_size, seq_len, output_dim)) # &#x4FEE;&#x6539;&#x4E3A;&#x8F93;&#x51FA;&#x7EF4;&#x5EA6;
        embeddings = embeddings.to(self.device)
        return embeddings

其中stack操作如下图所示：

torch.repeat 操作可以将1维信息扩展到多维信息中

x = torch.tensor([1, 2, 3])
>  tensor([1, 2, 3])
(3, *([1]*len(x.shape)))
> (3, 1)
x = x.repeat((3, *([1]*len(x.shape))))
>tensor([[1, 2, 3],
        [1, 2, 3],
        [1, 2, 3]])

由苏神的讲解可知，RoPE的计算可以简化为如下图。

在q q q 和k k k 中融入RoPE：
于是以此类推，如果将 k k k 也乘上旋转位置编码，此时span的分数 s ( i , j ) s(i,j)s (i ,j ) 就会带有相对位置信息（也就是 R i − j R_{i-j}R i −j ）：
【代码复现】NER之GlobalPointer解析

if self.RoPE:
            # pos_emb:(batch_size, seq_len, inner_dim)
            pos_emb = self.sinusoidal_position_embedding(batch_size, seq_len, self.inner_dim) # &#x4E0A;&#x4E00;&#x6B65;&#x5F97;&#x5230;RoPE
            # cos_pos,sin_pos: (batch_size, seq_len, 1, inner_dim)
            cos_pos = pos_emb[..., None, 1::2].repeat_interleave(2, dim=-1)
            sin_pos = pos_emb[..., None,::2].repeat_interleave(2, dim=-1)
            qw2 = torch.stack([-qw[..., 1::2], qw[...,::2]], -1)
            qw2 = qw2.reshape(qw.shape)
            qw = qw * cos_pos + qw2 * sin_pos
            kw2 = torch.stack([-kw[..., 1::2], kw[...,::2]], -1)
            kw2 = kw2.reshape(kw.shape)
            kw = kw * cos_pos + kw2 * sin_pos

有关切片操作可看这篇文章
其中：
… 操作表示自动判断其中得到维度区间
None 增加一维
::2 两个冒号直接写表示从所有的数据中隔行取数据。从0开始
1::2 两个冒号直接写表示从所有的数据中隔行取数据。从1开始

repeat_interleave操作：复制指定维度的信息

x = torch.tensor([1, 2, 3])
>tensor([1, 2, 3])
x.repeat_interleave(2)
>tensor([1, 1, 2, 2, 3, 3])
y = torch.tensor([[1, 2], [3, 4]])
>tensor([[1, 2],
        [3, 4]])
torch.repeat_interleave(y, 2)
>tensor([1, 1, 2, 2, 3, 3, 4, 4])
torch.repeat_interleave(y, 3, dim=1)
>tensor([[1, 1, 1, 2, 2, 2],
        [3, 3, 3, 4, 4, 4]])

让我们再来看看这个公式：

[En]

Let’s look at this formula again:

这时可以发现：

 cos_pos = pos_emb[..., None, 1::2].repeat_interleave(2, dim=-1)   # &#x662F;&#x5C06;&#x5947;&#x6570;&#x5217;&#x4FE1;&#x606F;&#x62BD;&#x53D6;&#x51FA;&#x6765;&#x4E5F;&#x5C31;&#x662F;cosm &#x62FF;&#x51FA;&#x6765;&#x5E76;&#x590D;&#x5236;
 sin_pos = pos_emb[..., None,::2].repeat_interleave(2, dim=-1) # &#x662F;&#x5C06;&#x5076;&#x6570;&#x5217;&#x4FE1;&#x606F;&#x62BD;&#x53D6;&#x51FA;&#x6765;&#x4E5F;&#x5C31;&#x662F;sinm &#x62FF;&#x51FA;&#x6765;&#x5E76;&#x590D;&#x5236;
 qw2 = torch.stack([-qw[..., 1::2], qw[...,::2]], -1) # &#x5947;&#x6570;&#x5217;&#x52A0;&#x4E0A;&#x8D1F;&#x53F7; &#x5F97;&#x5230;&#x7B2C;&#x4E8C;&#x4E2A;q&#x7684;&#x77E9;&#x9635;
 qw = qw * cos_pos + qw2 * sin_pos # &#x6700;&#x540E;&#x878D;&#x5165;&#x4F4D;&#x7F6E;&#x4FE1;&#x606F;
&#x8BA1;&#x7B97;kw &#x4E5F;&#x662F;&#x540C;&#x7406;&#x6B65;&#x9AA4;

## &#x6700;&#x540E;&#x8BA1;&#x7B97;&#x521D;logits &#x7ED3;&#x679C;
logits = torch.einsum('bmhd,bnhd->bhmn', qw, kw) # &#x76F8;&#x7B49;&#x4E8E;&#x5148;&#x5BF9;qw&#x505A;&#x8F6C;&#x7F6E; &#x7136;&#x540E;qw&#x4E0E;kw&#x505A;&#x77E9;&#x9635;&#x4E58;&#x6CD5;

torch.einsum :
可以简单实现向量内积，向量外积，矩阵乘法，转置和张量收缩（tensor contraction）等张量操作
可参考这篇文章

torch.expand
参考这篇文章

以上就是对GlobalPoint模型主要的要点进行解析，如果你还有什么问题，可以留言，一起讨论啊

参考代码链接：https://github.com/gaohongkui/GlobalPointer_pytorch

Original: https://blog.csdn.net/qq_36287702/article/details/123567764
Author: 桐原因
Title: 【代码复现】NER之GlobalPointer解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527397/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

EPSFB独立性设置提升回落成功率

问题描述：在EPS Fallback测试中，SA用户需要返回4G进行语音业务，因此4G网络决定了语音的感知。为了减少参数配置问题（配置错误或配置复杂）对现网的感知和工作量带来的不…

人工智能 2023年5月25日
00147
机器学习（七）线性回归

线性回归原理 * 回归原理第一类回归加权线性回归岭回归和逐步线形回归原理大概就是如图所示，画线的方法有很多种，我们期待这条线具有非常好的泛化，显然绿色的线就有一点过拟合…

人工智能 2023年6月17日
0064
半监督学习与迁移学习有什么联系

半监督学习与迁移学习之间的联系半监督学习（Semi-Supervised Learning，SSL）和迁移学习（Transfer Learning）是机器学习领域的两个重要研究方…

人工智能 2024年1月1日
0045
深度学习-第一章神经网络面试题（大厂必问，历经半年整理）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月26日
0076
YOLO系列 — YOLOV7算法（一）：使用自定义数据集跑通YOLOV7算法

YOLO系列 — YOLOV7算法（一）：使用自定义数据集跑通YOLOV7算法这不就尴尬了。。。刚理解完美团出的YOLO V6算法，V7就出来了。。。而且最关键的是V7还有V4作…

人工智能 2023年5月31日
00104
【数学建模】算法模型（二）｜插值与拟合模糊矩阵评价模型相关性分析主成分分析回归分析

文章目录 6. 插值与拟合 * 6.1 插值 – 6.1.1 一维插值 6.1.2 二维插值 6.2 拟合问题 – 6.2.1 拟合的计算 6.2.2 多项…

人工智能 2023年6月18日
0090
Tensorflow使用keras创建神经网络的方法

文章目录创建简单神经网络 * 直接使用keras.Model方法继承keras.Model方法采用keras.Sequential内建方法采用Sequential()外建方…

人工智能 2023年7月14日
0046
opt: undefined symbol when load

跟着教程写第一个llvm pass的时候，在opt load动态库的时候遇到了下面的报错 $ opt -load ./libLLVMmypass.so Error opening …

人工智能 2023年6月27日
0084
Python数据分析上机

一,Numpy数值计算上机 1．创建数组并进行运算。（1）创建一个数值范围为0~1，间隔为0.01的数组，并查看该数组的维度。（2）创建100个服从正态分布的随机数，并查看数组的类…

人工智能 2023年7月16日
0067
Python中的groupby分组

Python中的groupby分组一、groupby函数 groupby函数功能：对DataFrame进行分组（可单类分组，可多类分组）需求：按”字段”列…

人工智能 2023年7月14日
0056
【Matlab】Matlab读取dcm图像的函数以及CT值失真的问题处理

Matlab版本：2020a 一、dicomread函数 Matlab读取dcm图像的函数是dicomread，根据dicomread的帮助文档，该函数有四种参数输入方式： X =…

人工智能 2023年6月18日
0076
【GitHub开源】BP神经网络分类C++实现

笔者第一篇博客，在此分享下最近编写的BP神经网络分类算法，代码已全部开源（GitHub下载地址），运行环境Ubuntu，结合OpenGL实现了训练过程的可视化目录前言一、BP…

人工智能 2023年7月1日
00146
Python+OpenCV手势识别Mediapipe（基础篇）

Python+OpenCV手势识别Mediapipe（新手入门）前言 * 项目效果图认识Mediapipe 项目环境代码 * 核心代码 – 视频帧率计算完整代码…

人工智能 2023年6月15日
00133
计算机视觉(多目标跟踪)算法中卡尔曼滤波算法详解

目录一、背景详解二、卡尔曼滤波(Kalman)原理 * 代码实践三、总结参考文献一、背景详解卡尔曼滤波（Kalman filter）是一种高效的自回归滤波器，它能在存…

人工智能 2023年5月26日
00106
AI画图 Disco-diffusion 本地搭建测试

Disco-Diffusion5.2 本地搭建测试记录 Disco Diffusion基于CLIP-Guided Diffusion网络实现文本输入，美图输出，还可以选不同的画家风…

人工智能 2023年6月26日
0058
python数据分析day4

目录 pandas 1.pandas的基础概念 2.pandas和numpy的区别 3.pandas的数据结构 4.series相关操作 5.DataFrame 6.pandas读…

人工智能 2023年7月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【代码复现】NER之GlobalPointer解析

核心思想

模型架构

大家都在看