2020 ICDM 知识图谱竞赛获奖技术方案

2023年6月1日下午6:16 • 人工智能 • 阅读 80

导读：ICDM（IEEE International Conference on Data Mining，简称ICDM）是数据挖掘领域的国际顶级会议。京东数科硅谷机器学习算法组朱翔宇带队在Knowledge Graph Contest（知识图谱大赛）中获得季军。本文将介绍2020 ICDM中的获奖方案和在 Workshop中分享的内容。基于BERT做了Finetune，引入了一种全新的视角来重新审视关系行为原因提取任务，并提出了一种新的序列标记框架，而不是单独提取行为类型和行为原因。

; 一、问题背景

在内容广告、社会化聆听等许多业务场景中，提取消费者一些行为的背后原因是关注的焦点。以内容广告为例，如今的广告主并不满足于品牌或产品的直接曝光，他们更喜欢通过产品功能嵌入内容，潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。为此，明确地提取消费者行为发生的原因成为构建这样一个满足广告商需求的系统的重要技术。

本赛题由行业解决方案专家挑选500篇Instagram文章，以确保语言的正式性、多样性和对实际应用程序的知识深度。在本次ICDM评测单元中，主要关注五种事件类型：消费者的关注、消费者的兴趣、消费者的需求、消费者的购买和消费者的使用（Attention，Intention，Need ，Purchase，Use）。同时，评测主要采用F1评测。

二、问题挑战

消费者行为的原因提取[1]，[10]是许多业务场景（如内容广告、社交监听等）关注的焦点。以内容广告为例。如今的广告主并不满足于品牌或产品的直接曝光，他们更喜欢通过产品功能嵌入内容，潜移默化地激发消费者主动将自己的品牌或产品与任意的消费行为联系起来。为此，明确地提取消费者行为的原因成为构建这样一个满足广告商需求的系统的重要技术。

消费者行为原因提取（CECE）任务旨在从给定品牌或产品的文本中提取消费者行为和行为原因。传统的方法使用类似于抽取机器阅读理解（MRC）的模型结构[7]。大多数相关工作[6]都是分别提取行为类型和行为原因，没有考虑它们之间的依赖关系。

; 三、方案简介

消费者行为归因提取是一项旨在从文本中提取特定行为背后潜在原因的任务，由于其广泛的应用，近年来受到了广泛的关注。ICDM 2020大会设立了一个评估竞赛，旨在提取特定主题（品牌或产品）的行为及其原因。在本课题中，我们主要研究如何构建一个端到端的模型，同时提取多个行为类型和行为原因。

为此，我们引入了一种全新的视角来重新审视关系行为原因提取任务，并提出了一种新的序列标记框架，而不是单独提取行为类型和行为原因。实验表明，我们的框架优于基线方法，即使它的编码模块使用一个初始化的预训练的BERT编码器，显示了新的标签框架的力量。在这次比赛中，我们队获得了第一阶段排行榜的第一名。

1、数据层面

为了保证数据的高质量性，我们移除了文本中的ID。

例如：”68771,Love doing makeup on all ages”处理成””Love doing makeup on all ages”。

2、模型层面

为了以端到端的方式提取消费者行为原因，我们的模型主要由两部分组成：BERT编码器和序列标签解码器。

BERT Encoder

首先，我们将文本Text和标签brand/produt转换成
[CLS] Brand/Product [SEP] Text [SEP] 的形式，作为模型的输入{x1,x2,…xn}。
然后，我们使用预训练的BERT模型[2]对内容信息进行编码。编码模块从xj语句中提取特征信息zj，并将其输入到后续的标记模块中。

这里，我们简要回顾了基于多层双向变换器的语言表示模型BERT。它的目的是通过共同调节每个单词的左右语境来学习深层表征，最近，它在许多下游任务中被证明是非常有效的[3]。具体地说，它由N个相同的Transformer blocks组成。我们将Transformer blocks表示为Trans（x），其中x代表输入向量。具体操作如下：

上式中，S为输入句中子词索引的一个one-hot向量矩阵，Ws为子词嵌入矩阵，Wp为位置嵌入矩阵，其中p表示输入序列中的位置索引，hl为隐藏状态向量，即第L层输入句的上下文表示，N为变换器个数方块。注意在我们的工作中，输入是一个单一的文本句子，而不是句子对，因此Eq中没有考虑原始BERT论文中描述的分段嵌入。关于Transformer的结构请参考论文[4]。

Sequence Tagging Decoder

在2020年的ICDM竞赛中，该任务增加了对多种行为类型的判断，这很难用阅读理解框架来解决。竞赛的目标是为每个文本text和 brand/product提取多种行为类型和行为原因。为此，我们提出了一种序列标记解码器，可以同时提取多个行为类型和行为原因。

首先，我们为成对的输入句子构造标记，每个标记都有一个标记符，如下所示：

Love doing makeup on all ages,

B_{consumer interest}

I_{consumer interest} …

用这种方式，我们就可以使用softmax函数独立地对每个标签进行解码，得到所有可能的行为类型和行为原因对的集合。

在序列标注任务的启发下，考虑邻域中标签之间的相关性，并联合解码给定输入句子的最佳标签链是有益的。因此，我们使用一个条件随机场（CRF）[5]联合建模标签序列，而不是单独解码每个标签。

形式上，我们使用z={z1，z2，····，zn}来表示一个通用的输入序列，其中zi是第i个单词的输入向量。y={y1，y2，·····，yn}表示z的一个通用标签序列。y（z）表示z的一组可能的标签序列。序列CRF的概率模型定义了一系列条件概率p（y | z；W，b）在给定z的所有可能的标签序列y上，其形式如下：

对于CRF训练，我们使用最大条件似然估计。对于训练集{zi，yi}，似然的对数（即对数似然）由以下公式给出：

最大似然训练选择参数，使对数似然L（W，b）最大化。解码是以最大的条件概率搜索标签序列y＊。

对于序列CRF模型（只考虑两个连续标签之间的相互作用），采用Viterbi[11]算法可以有效地解决训练和解码问题。

; 3、模型集成

在模型集成[9]阶段，我们采用了一种简单有效的方法，得到了1.30%的提升（如图2所示）。我们采用了两步走的方法来得到最终的结果。首先确定文本边界交叉验证结果的串行化，预测结果的字符位置为1，其余为0。然后我们将所有的CV结果叠加到相应的位置，并通过阈值将小于N的位置更改为0。

4、模型效果

; 四、WorkShop其他获奖方案

在本次竞赛中，来自日本的选手使用GAN完成了本次任务，整体思路为是通过GAN的生成方式增加训练样本，同时对GAN生成的数据标注为Fake，然后将GAN的生成和BERT层一起送入Bi-LSTM层后在原有Attention，Intention，Need ，Purchase，Use的基础上，增加Fake标签进行预测。

五、写在后面的话

两年的比赛经历，各种顶会赛事奖杯纳入囊中，但仍以赤子之心不断追逐。后需将把重心放在推荐系统及推荐算法炼丹上。在今年8月份也注册了”炼丹笔记”微信公众号，主做三类内容：学术界推荐算法研究解读、工业界推荐算法方案实战、数据竞赛深度炼丹技巧。欢迎算法爱好者关注，共同交流成长。

最后，若对数科硅谷算法团队所做的工作感兴趣的朋友们，（内部员工）可直接咚咚搜索DOTA与本人咨询或交流。

互动讨论：你在日常工作中有没有遇到类似BERT这种预训练模型上线难的问题？又是怎么解决的呢？模型压缩方向，有过哪些经验？欢迎在留言区分享你的困惑或你的见解。

参考文献：
[1] Marco Rospocher, et al. “Building event-centric knowledge graphs from news.” Journal of Web Semantics, Volumes 37–38, 2016, pp. 132-151.

[2] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[3] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text mining[J]. Bioinformatics, 2020, 36(4): 1234-1240.

[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[5] Ma X, Hovy E. End-to-end sequence labeling via bi-directional lstmcnns-crf[J]. arXiv preprint arXiv:1603.01354, 2016.

[6] Xia R, Ding Z. Emotion-cause pair extraction: a new task to emotion analysis in texts[J]. arXiv preprint arXiv:1906.01267, 2019.

[7] Li X, Feng J, Meng Y, et al. A unified mrc framework for named entity recognition[J]. arXiv preprint arXiv:1910.11476, 2019.

[8] Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991, 2015.

[9] Dietterich T G. Ensemble methods in machine learning[C]//International workshop on multiple classifier systems. Springer, Berlin, Heidelberg, 2000: 1-15.

[10] Gooding R Z, Kinicki A J. Interpreting event causes: The complementary role of categorization and attribution processes[J]. Journal of Management Studies, 1995, 32(1): 1-22.

[11] Viterbi A J. A personal history of the Viterbi algorithm[J]. IEEE Signal Processing Magazine, 2006, 23(4): 120-142.

更多竞赛技术方案：
数字中国创新大赛数字政府赛道算法赛冠军
 Microsoft DiggSci 科学数据挖掘大赛亚军
 京东JDATA算法大赛绝对语义识别挑战赛季军
 “中国法研杯”司法人工智能挑战赛三等奖

Original: https://blog.csdn.net/JDDTechTalk/article/details/110559591
Author: 京东科技技术说
Title: 2020 ICDM 知识图谱竞赛获奖技术方案

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557992/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

点餐系统数据库设计–SQL Server

目录友情链接 * 1、学生成绩管理系统数据库设计–MySQL 2、医疗信息管理系统数据库–MySQL 3、邮件管理数据库设计–MySQL 4、…

人工智能 2023年7月30日
0062
密度聚类（CFDP）原理与实现

密度聚类，也被称为CFDP(Clustering by fast search and find of density peaksd)。密度聚类的作用和Kmeans聚类差不多，可…

人工智能 2023年5月31日
0076
[ 基础漏洞篇 ] webpack 前端源码泄露详解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月2日
0063
HTTP、HTTPS、TCP、UDP 协议基础知识

这里写目录标题 1. HTTP和HTTPS（应用层） * 1.1 HTTP – HTTP 是什么 HTTP 优缺点如何解决 HTTP 无状态性的问题 1.2 HTTP…

人工智能 2023年6月28日
0064
如何导入ybc_speech语音包，来和电脑聊天吧

如何导入ybc_speech包。@author MR.LIU如果在idle中直接导入ybc_speech这个包，系统直接报错，说没有这个模块。那么需要在cmd中安装ybc_spee…

人工智能 2023年5月23日
00123
【云原生】设备入云之FlexManager主流控制器读写

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0061
迁移学习-域适应损失函数MMD-代码实现及验证

MMD介绍 MMD（Max mean discrepancy 最大均值差异）是迁移学习，尤其是Domain adaptation （域适应）中使用最广泛（目前）的一种损失函数，主要…

人工智能 2023年7月20日
00101
AI 预测世界杯比赛结果，惊掉下巴

哈喽，大家好。今天看到 Kaggle上有一个预测世界杯比赛结果的项目，截至目前 4 场比赛预测结果全中。今天把源码研究了一下，做了中文注释，给大家分享下。文章目录 * &#8…

人工智能 2023年7月28日
0079
Python爬虫抓取岗位信息~~叮~~毕业生看过来

众所周知爬虫是用python编程语言实现的，主要用于网络数据的抓取和处理，例如爬取豆瓣电影TOP250、爬取小说等等… 而爬取岗位对于刚毕业的大学生也是非常有必要的，下…

人工智能 2023年7月17日
0056
AI算法部署中如何解决资源利用效率的问题

问题介绍在AI算法部署中，资源利用效率是一个重要的考虑因素。资源利用效率的高低直接影响到算法的执行速度和性能。本文将详细介绍如何在AI算法部署中解决资源利用效率的问题，并提供算法…

人工智能 2024年1月3日
0038
ROS中级：Marker 向rviz发送基本形状 (C++)

目录一、说明二、介绍三、创建一个包四、发送Marker代码 4.1 编码 4.2、编辑CMake脚本五、程序分析六、构建代码七、运行代码八、查看标记九、错误和改…

人工智能 2023年6月10日
0070
程序分析与优化-4 工作列表（worklist）算法

本章是系列文章的第四章，介绍了worklist算法。Worklist算法是图分析的核心算法，可以说学会了worklist算法，编译器的优化方法才算入门。这章学习起来比较吃力，想要融…

人工智能 2023年6月4日
0076
【论文分析】MultiResUNet: Rethinking the U-Net Architecture for Multimodal Biomedical Image Segmentation

论文地址目录一、前言二、U-Net模型的分析 * 1.为什么两次3×3的卷积近似于一次5×5的卷积呢？ 2.为什么后一种轻量级的结构可以近似于之前的结构？三、融合策略的分析…

人工智能 2023年6月25日
0080
Python图像处理与分析程序框架（包含源代码）

整合常用图像处理方法和技术，设计精美 UI 界面，开发出一套基于 OpenCV 的图像处理系统主界面实现功能打开、关闭、保存一幅图像调整图像的亮度和对比度对图像放大、缩小…

人工智能 2023年6月21日
0089
一文带你了解怎样快速上手微信小程序开发

写在前面微信小程序，简称小程序，是一种不需要下载安装即可使用的应用，开发者可以快速地开发一个小程序。小程序可以在微信内被便捷地获取和传播，同时具有出色的使用体验。它实现了应用&#…

人工智能 2023年7月1日
0095
[OpenCV]颜色识别

颜色识别作为电赛中图像处理方面最常用的算法，应用非常广泛。处理的流程：预处理 ->滤波-> 二值化 -> （膨胀-> ）腐蚀 -> 寻找轮廓一、预…

人工智能 2023年6月22日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

2020 ICDM 知识图谱竞赛获奖技术方案

1、数据层面

2、模型层面

; 3、模型集成

4、模型效果

大家都在看