公众号 系统之神与我同在
本文包括一下四个部分
1、背景介绍
2、技术进展
3、商品图谱对齐
4、总结和展望
背景介绍
团队介绍:负责语音与声学、自然语言处理、多模态人机对话、知识图谱四大人工智能核心技术与应用场景的深度融合,实现A技术的产品化,支撑内部业务产品部门实现将本增效、产品创新和对外技术服务型收入;同时致力于技术先进性的打造, 提高京东科技的技术品牌影响力。
知识图谱整体架构
京东商品图谱简介
实体对齐在电商领域的应用需求
价值: 构建价格数据体系,为采购提供价格决策依据,实现差异化竞争
问题与挑战
没有固定的schema标准
·不同的商品属性差异极大
·不同的商品网站描述方式完全不同
异构数据,知识的来源复杂
·图片、标题、商品详情都可以用来描述商品
·除了基本属性外、商品的品类、产品词等信息在相关应用中也有重要作用
数量大,需要考虑处理效率
·存储、处理需要借助大数据处理平台
·不同类别的商品往往需要具体分析
数据结构不完整
·属性缺失,填充率不高
·属性错误,颜色选择等字段滥用
技术进展
这部分包括实体对齐任务介绍与实体对齐算法技术趋势
实体对齐任务定义
数据集
算法框架
技术趋势
语义信息的融合——越来越多的模型融合了图谱以外的语义信息,如实体的属性、文本描述等
商品图谱中的实体对齐算法
这部分包含:
·基于图神经网络的对齐算法
·大规模图谱的训练
·商品属性补全
商品图谱对齐需要考虑的问题
·面对海量商品数据,如何实现大数据下融入商品图谱知识的的训练 和在线预测?
·商品属性多,属于关系稠密的图谱,如何自动学习关键的商品属性, 减少噪声信息的影响?
·文本语义信息在商品描述中占据重要作用,如何融合非结构化和结 构化信息?
线上预测流程
数据集构建和业务评价方法
数据集构建
正例样本
·基于规则
·基于相似度计算
负例样本
·随机采样
·基于规则
·与正例相似度较高的商品
·同一个 SPU 下不同SKU 商品
评价指标
Standard Product Unit,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性,通俗点讲,属性值、特性相同的商品就可以称为一。Stock Keeping Unit库存量单位,即库存进出计量的单位, SKU以件、盒、托盘等为单位,是物理上不可分割的最小存货单元。可以是了解一个产品的特性。
精排算法①:基于文本匹配的实体对齐算法
模型
标题和属性分别编码
·Bert的CLs向量
·属性的输入为:属性名+sEP+属性值
通过Masked Multi-Head Attention机制自动学习关键属性
·通过各个属性的编码向量计算该属性的权重
·保留多个加权结果(Multi-Head)
·通过Mask将空属性值的权重设置为0
缺点
·训练集中出现的属性取值可能只占很小一部分
·标题和属性之间缺乏交互
精排算法②:基于图谱对齐的算法
处理大规模图谱
Transductive模型
·GCN等模型都是Transductive模型
·需要捕捉全局信息,全部节点参与训练, 得到embedding表示
·节点多的时候,因显存限制无法训练
·网络结构改变的时候,模型失效
·无法预测未知节点的表示
Inductive模型
·以GraphSAGE为代表
·归纳学习,学习邻接节点的聚合方式
·基于图谱采样,获得待学习节点相关的子图
·每一层的节点表示都由上一层邻接节点的表示聚合而来
图谱表示学习:Message Passing 框架
主流图神经网络模型都可以用Message Passing 框架表示
- for each edge
Message函数,根据每一条边上的特征和两端节点的特征计算生成消息
Aggregate函数,聚合邻接节点生成的消息
Update函数,结合邻接节点消息的聚合结果和节点本身的特征来更新节点在网络下一层中的特征表示
图谱表示学习(ReIationAwareNeighborhoodAggregation)
ReIation Aware 的GNN模型
·Message函数与Relation有关:如RGCN
·设计Aggregate函数,使得邻接节点的重要程度与Relation相关
本系统采用的方法——线性变换
图谱匹配算法①:向量对齐方式
图谱匹配算法②:邻接节点匹配
商品属性抽取
商品属性填值不规范的问题
·属性值缺失或错误
·关键的属性值信息往往被填在了标题或者SKU选项当中
哪些属性值需要处理
·只处理在标题中出现的属性
·不考虑归一化问题
·可以已有填充属性值、规则抽取后人工标注构建数据集
对图谱对齐效果的影响
·使用属性抽取后,检出率直接提升1.5倍左右,重点品类检出率提升3-5倍
商品属性抽取:模型架构
总结与展望
总结
·通过融合了文本表示和图谱结构化表示的模型,实现了电商领域的实体对齐任务
·利用属性抽取进一步提升了图谱对齐的检出率
展望
·商品图谱更多关系的建立以及通用知识的引入
·引入图像等信息,实现多模态的图谱对齐
·在图谱对齐任务中引入属性抽取的能力
·更好的融合非结构化信息和结构化信息
·小样本类别的问题
Original: https://blog.csdn.net/u011983997/article/details/122702839
Author: Necther
Title: 实体对齐算法在电商领域当中的实践和应用
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530829/
转载文章受原作者版权保护。转载请注明原作者出处!