ERICA 代码解读

2023年6月5日上午10:44 • 人工智能 • 阅读 99

前言

论文链接：https://arxiv.org/abs/2012.15022

开源链接：https://github.com/thunlp/ERICA

这是一篇预训练模型，主要创新点就是提出了两个辅助性预训练任务来帮助PLM更好地理解实体和实体间关系：

(1) 实体区分任务，给定头实体和关系，推断出文本中正确的尾实体。

(2) 关系判别任务，区分两个关系在语义上是否接近，这在长文本情景下涉及复杂的关系推理。

为了避免灾难性遗忘，作者同时还加了masked language modeling （MLM）这一传统任务，所以总loss就是：

ED就是实体区分任务、RD就是关系判别任务、MLM就是传统屏蔽任务

更多详细解读可以看如下，笔者不再累述，本篇主要目的是解读代码。

ERICA: 提升预训练语言模型实体与关系理解的统一框架

pretrain

数据预处理

该部分代码逻辑在./pretrain/prepare_pretrain_data

get_distant.py：数据清洗，实体抽取和关系抽取

remove_test_set.py：区分训练集和测试集

sample_data.py：tokenized化，通过这样预处理。

这里没什么要说的，笔者比较感兴趣的是实体关系抽取是怎么做的。其实很简单，这里没有什么模型啥的，最主要的就是靠下面几个文件：

all_triple.txt：定义了实体关系

all_name_to_Q.json：实体名到类型的一个json

all_Q.json：所以实体类型id的。

关于实体抽取就是匹配，依靠上述文件，只要匹配到就得到实体。关于关系抽取更简单了，只要实体类型定了那么依靠all_triple.txt就确定了关系。

其中./pretrain/data/DOC/sampled_data/下就是官方给出的一个预处理完的数据结果，可以看看

模型训练

主要逻辑是在./pretrain/code/pretrain下，主入口就是main.py，主要就是：

根据论文我们知道模型主要涉及到三部分loss【ED/RD/MLM】

红色框的doc_loss就是【mask loss + 关系判别即 MLM + RD】，绿色框的wiki_loss就是【mask loss + 实体区分即MLM + ED】

我们来一部分一部分看,主要是在model.py中

可以看到主要就是对应两个函数236行和239行即get_doc_loss和get_wiki_loss函数，需要注意的是两个函数的输入是不一样的，即batch[0]和batch[1]，关于输入数据的格式可以看dataset.py：

主要就是730行，其实就是get_doc_batch和get_wiki_batch两个函数。好了，大概代码逻辑框架知道了，下面分开看：

MLM/RD loss

数据输入就是：get_doc_batch

模型就是：get_doc_loss

如下是get_doc_loss

可以看到，

以上的MLM loss就是传统的预训练模型，不是本文的创新点，下面我们来看看论文的创新点RD loss也即关系区分任务【接着看上图的get_doc_loss函数，为了方便，这里再放一次】

作者这里用了对比学习：正样本即具有相同远程监督标签的关系表示，负样本与此相反，关于关系的表征，就是其对应的两个实体的简单拼接，即上述代码的173行得到的hidden。

start_re_output和end_re_output可以看做是头实体和尾实体表征。

context_output就是我们上述修改transformers源码返回的sequence ouput

h_mapping和t_mapping是batch传进来的，可以通过get_doc_batch看到就是代表的实体位置，然后通过和context_output相乘就可以滤除全部头实体和尾实体的编码表征

至此用pair_hidden【hidden】和relation_label通过对比学习计算loss【NTXentLoss_doc函数】

对比学习原理这里不在累述，感兴趣的可以看笔者另外一篇博客：

https://blog.csdn.net/weixin_42001089/article/details/117930433

这里对应的公式就是：

该小节的函数get_doc_loss最后返回就是m_loss和r_loss即MLM loss和ED loss也即屏蔽语言模型loss和关系区分loss

MLM/ED loss

数据输入就是：get_wiki_batch

模型就是：get_wiki_loss

首先206行返回的就是mlm loss,前面已经讲过，这里不在累述，一模一样，重点看看ED loss

他的原理是根据头实体和关系预测尾实体

start_re_output可以看出是头实体，而query_re_output可以看做是关系，我们知道paper的关系表征是头尾实体的简单拼接，所以query_re_output是通过query_mapping得到的，可以理解为query_mapping是当前关系对应头尾实体位置，通过和context_output相乘就过滤出对应头尾实体，进而进行拼接得到关系表征，关于query_mapping是batch得到的，可以看get_wiki_batch

该小节的函数get_wiki_loss最后返回就是m_loss和r_loss即MLM loss和RD loss也即屏蔽语言模型loss和实体区分loss

小结

(1) 新加的两个辅助任务是分开进行的【过两次模型】，但二者每次都顺便带了mlm loss

(2) mlm 部分给了很多落地启发，即自己有了个什么想法，能快速使用transfomers实现，尤其二次预训练，甚至我们可以改源码。

finetune

代码在finetune，这里面每一个文件夹代表一个下游任务，没什么可讲的，主要就是用上述pretrain得到的模型去热启就行了。

总结

(1) 以后我们有什么自己的mask策略想法，想落地实现，其实就是仿效改这个函数。

(2) 只需要修改完上述函数，直接传到对应的huggingface框架下的ForMaskedLM【比如BertForMaskedLM】，就可以直接到返回的Loss,进而进行MLM语言屏蔽模型训练

(3) 遇到一些特殊需求需要改huggingface框架也不是不可以，直接下载transformers代码进行需求修改即可

欢迎关注笔者的微信公众号，更多好文章：

Original: https://blog.csdn.net/weixin_42001089/article/details/118002302
Author: weixin_42001089
Title: ERICA 代码解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568888/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

学了opencv，妈妈再不担忧你不会图像编程啦

目录下载OpenCV 解压和安装准备结束，开始实践调试部分正式部分——图像正式开始——摄像头下载OpenCV https://opencv.org/releases/ …

人工智能 2023年7月19日
0051
宽度学习(BLS)实战——python复刻MNIST数据集的数据预处理及训练过程

目录 1.宽度学习(Broad Learning System) 2.MNIST数据集 3.复刻MNIST数据集的预处理及训练过程 1.宽度学习(Broad Learning Sy…

人工智能 2023年6月19日
0091
Linux系统下detectron2安装（cuda11为例）

Linux系统下detectron2安装（cuda11为例） detectron2官方Requirements 1.Linux or macOS with Python ≥ 3.6…

人工智能 2023年7月23日
0061
语音识别中强制对齐_语音识别中的强制对齐问题-HTK

I have a system where a user is asked to repeat a sentence after a prompt. It uses HTK to …

人工智能 2023年5月27日
0063
深度强化学习中应用图神经网络优化无线网络路由

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月13日
0051
Python实现秒杀抢购某宝商品，不再害怕双十一抢不到了

前言马上就要双十一咯，给你们展示一下我在618干的大事，直接用Python抢购商品今天就来分享给你们吧这又快要到付尾款的日子咯，有些哥们需要送礼物给对象的，赶紧买这些预售的商…

人工智能 2023年7月6日
0082
解决：RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0； 2.00 GiB total capacity； 1

1. 问题 2. 分析 3. 解决问题训练模型时报错：RuntimeError: CUDA out of memory. Tried to allocate 128.00 Mi…

人工智能 2023年7月14日
00121
快速学完OpenCV+python计算机视觉图像处理（四）

返回主目录 4 图像基本特效 4-1 图像特效介绍图像特效分为以下几个，分别是：灰度处理底板效果马赛克毛玻璃效果图像融合图片蓝色边缘检测浮雕效果 4-2 图像灰度…

人工智能 2023年5月26日
0073
利用opencv-python 进行图像的不规则裁剪

利用opencv-python 进行图像的不规则裁剪利用凸包进行裁剪首先我们进行凸包裁剪，先利用 cv2.convexHull(xy) 函数得到点集xy的凸包顶点。然后利用ma…

人工智能 2023年6月18日
0091
项目过程记录

目录 ROS基础知识 * 修改传递参数查看节点信息修改launch文件节点 Gmapping rrt * 节点修改环境问题 ROS基础知识修改传递参数在 C++ 中实现参…

人工智能 2023年7月8日
0060
数据挖掘——如何利用Python实现产品关联性分析apriori算法篇

在实际业务场景中，我们常常会探讨到产品的关联性分析，本篇文章将会介绍一下如何在Python环境下如何利用apriori算法进行数据分析。 1.准备工作如果需要在Python环境下…

人工智能 2023年6月19日
0083
【目标检测】《Objects as Points》论文阅读笔记

粗读一遍，主要捡了一些我觉得比较重要的。后续会看看大佬写的，然后重新读下论文，再补充。通过对预测框的坐标（关键点）进行模拟，训练得到的模型。是一种比较经典的anchor free…

人工智能 2023年7月12日
0079
基于Java+Spring+Vue+elementUI大学生求职招聘系统详细设计实现

博主介绍： ✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技…

人工智能 2023年7月29日
0047
全景图像拼接——图像融合

图像融合技术就是将配准过后的图像融合成一幅宽视角、大场景的图像。但由于图像采集过程中各种因素的影响，例如光照、角度、距离等，从而导致图像间的光照不均匀、颜色上不连续。经过配准以后，…

人工智能 2023年6月21日
0089
嵌入式端音频开发（Unisound篇）之 7.4 蜂鸟M配置宏定义

1.GPIO相关宏定义 #define GPIO_OUT_DEF_VAL 1 宏定义说明： 0：默认输出低电平1：默认输出高电平 2.audio相关宏定义 #define USER…

人工智能 2023年5月25日
0059
第七届全国大学生工程训练大赛智能+赛道生活垃圾分类垃圾训练步骤（win10+yolov4-tiny）

目录前言 1.安装cuda和cudnn11.1并配置 2.Yolov4-tiny垃圾训练步骤前言第七届全国大学生工程训练大赛结束也有一段日子了，成绩还不错，拿了个国一，在这里…

人工智能 2023年7月1日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ERICA 代码解读

数据预处理

模型训练

MLM/RD loss

MLM/ED loss

小结

大家都在看