美团NLP以及知识图谱文章提炼

1.基本定位

作为人工智能时代最重要的知识表示方式之一,知识图谱能够打破不同场景下的数据隔离,为搜索、推荐、问答、解释与决策等应用提供基础支撑。

美团大脑围绕吃喝玩乐等多种场景,构建了生活娱乐领域超大规模的知识图谱,为用户和商家建立起全方位的链接。

希望对应用场景下的用户偏好和商家定位进行更为深度的理解,进而为大众提供更好的智能化服务

2.场景

当用户发表一条评价的时候,能够让机器阅读这条评价,充分理解用户的喜怒哀乐。

当用户进入大众点评的一个商家页面时,面对成千上万条用户评论,我们希望机器能够代替用户快速地阅读这些评论,总结商家的情况,供用户进行参考。

当用户有任何餐饮、娱乐方面的决策需求的时候,美团点评能够提供人工智能助理服务,帮助用户快速的进行决策

使用 Language Model(统计语言模型)、Topic Model(主题生成模型) 以及 Deep Learning Model(深度学习模型) 等各种模型,希望能够做到商家标签的挖掘,菜品标签的挖掘和情感分析的挖掘等

美团NLP以及知识图谱文章提炼

美团NLP以及知识图谱文章提炼

美团NLP以及知识图谱文章提炼

3.技术

目前微软和 Google 拥有全世界最大的通用知识图谱,Facebook 拥有全世界最大的社交知识图谱,而阿里巴巴和亚马逊则分别构建了商品知识图谱

将知识图谱分成两大类,一类叫 Common Sense Knowledge Graph(常识知识图谱),另外一类叫 Encyclopedia Knowledge Graph(百科全书知识图谱)

这两类知识图谱有很明显的区别。针对 Common Sense Knowledge Graph,通常而言,我们会挖掘这些词之间的 Linguistic Knowledge;对于 Encyclopedia Knowledge Graph,我们通常会在乎它的 Entities 和这些 Entities 之间的 Facts

对于 Common Sense Knowledge Graph,一般而言我们比较在乎的 Relation 包括 isA Relation、isPropertyOf Relation。对于 Encyclopedia Knowledge Graph,通常我们会预定义一些谓词,比如说 DayOfbirth、LocatedIn、SpouseOf 等等

对于 Common Sense Knowledge Graph 通常带有一定的概率,但是 Encyclopedia Knowledge Graph 通常就是”非黑即白”,那么构建这种知识图谱时,我们在乎的就是 Precision(准确率)

当我们构建出 Common Sense Knowledge Graph 之后,重要的是在上面构建各种各样的模型。我们提出了一些模型叫 Conceptualization(概念化模型),它能够支持 Term Similarity、Short Text Similarity 以及 Head-Modifier Detection,最终支持各种应用,比如 NER、文本标注、Ads、Query Recommendation、Text Understanding 等等

美团NLP以及知识图谱文章提炼

举例

美团NLP以及知识图谱文章提炼

当我们在 Google 里搜一个 Single Instance 的时候,通常在右侧会出现这个 Knowledge Panel。对于 Microsoft 这样一个 Instance,我们可以看到这个红色框所框出来的 Concept,Microsoft 指向的是 Technology Company,这背后是怎么实现的?

我们可以看到,Microsoft 实际上会指向非常非常多的 Concept,比如说 Company,Software Company,Technology Leader 等等。我们将它映射到哪一个 Concept 上最合适?

如果将它映射到 Company 这个 Concept 上,很显然它是对的,但是我们却没办法将 Microsoft 和 KFC、BMW 这样其他类型的产品区分开来。另外一方面,如果我们将 Microsoft 映射到 Largest Desktop OS Vendor 上,那么这是一个非常 Specific 的 Concept,这样也不太好,为什么?因为这个 Concept 太 Specific,太 Detail,它可能只包含了 Microsoft 这样一个 Entity,那么它就失去了 Concept 的这种抽象能力

所以我们希望将 Microsoft 映射到一个既不是特别 General(抽象),又不是一个特别 Specific(具体)的 Concept 上。在语言学上,我们将这种映射称之为 Basic-level,我们将整个映射过程命名为 Basic-level Conceptualization。

我们提出了一种计算 Basic-level Conceptualization 的方法,其实它非常简单而且非常有效。就是将两种的 Typicality 做了一些融合,同时我们也证明了它们跟 PMI 和 Commute Time 之间的一些关联。并且在一个大规模的数据集上,我们通过 Precision 和 NDCG 对它们进行了评价。最后证明,我们所提出来的 Scoring 方法,它在 NDCG 和 Precision 上都能达到比较好的结果。最重要的是,它在理论上是能够对 Basic-Level 进行很好的解释。

美团NLP以及知识图谱文章提炼

比如说 iPad、Apple,其中 iPad 基本上是没有歧异的,它会映射到 Device、Product。但是对于 Apple 而言,它可能会映射到至少两类的 Concept 上,比如说 Fruit、Company。那么我们怎么用 iPad 对 Apple 做消歧呢?

方法其实也挺直观的。我们会通过大量的统计去发现像 iPad 这样的 Entity,通常会跟 Company、Product 共同出现。比如说 iPad 有可能会跟三星共同出现,有可能会跟 Google 共同出现,那么我们就发现它会经常跟 Brand、Company、Product共同出现。于是我们就利用新挖掘出来的 Knowledge 对 Apple 做消歧,这就是背后最主要的思想。

美团NLP以及知识图谱文章提炼

美团NLP以及知识图谱文章提炼

为了挖掘商户标签,首先我们要让机器去阅读评论。我们使用了无监督和有监督的深度学习模型。

无监督模型我们主要用了LDA,它的特点是成本比较低,无需标注的数据,准确性会比较不可控,同时对挖掘出来的标签我们还需要进行人工的筛选。

监督的深度学习模型,用 LSTM,它的特点是需要比较大量的标注数据。

通过这两种模型挖掘出来的标签,再加上知识图谱里面的一些推理,最终构建出商户的标签

使用了 Bi-LSTM 以及 CRF 模型。比如说从这个评论里面我们就可以抽取出这样的 Entity,再通过与其他的一些菜谱网站做一些关联,我们就可以得到它的食材、烹饪方法、口味等信息,这样我们就为每一个店菜挖掘出了非常丰富的口味标签、食材标签等各种各样的标签。

美团NLP以及知识图谱文章提炼

评论数据的情感挖掘,用 CNN+LSTM 的模型,对于每一个用户的评价我们都能够分析出他的一些情感的倾向。同时我们也正在做细粒度的情感分析,我们希望能够通过用户短短的评价,分析出他在不同的维度,比如说交通、环境、卫生、菜品、口味等方面的不同的情感分析的结果。

商品零售

美团NLP以及知识图谱文章提炼

多层级

在不同业务的不同应用场景下,对于”商品”的定义会有所差别,需要对各个不同颗粒度的商品进行理解。因此,在我们的零售商品知识图谱中,建立了五层的层级体系,具体包括:

L1 – 商品SKU/SPU:对应业务中所售卖的商品颗粒度,是用户交易的对象,往往为商户下挂的商品,例如”望京家乐福所售卖的蒙牛低脂高钙牛奶250ml盒装”。这一层级也是作为商品图谱的最底层的基石,将业务商品库和图谱知识进行打通关联。

L2 – 标准商品:描述商品本身客观事实的颗粒度,例如”蒙牛低脂高钙牛奶250ml盒装”,无论通过什么渠道在什么商户购买,商品本身并没有任何区别。商品条形码则是在标准商品这层的客观依据。在这一层级上,我们可以建模围绕标准商品的客观知识,例如同一个标准商品都会具有同样的品牌、口味、包装等属性。

L3 – 抽象商品:进一步我们将标准商品向上抽象的商品系列,例如”蒙牛低脂高钙牛奶”。在这一层级中,我们不再关注商品具体的包装、规格等,将同系列的商品聚合为抽象商品,承载了用户对于商品的主观认知,包括用户对商品系列的别名俗称、品牌认知、主观评价等。

L4 – 主体品类:描述商品主体的本质品类,列如”鸡蛋”、”奶油草莓”、”台式烤肠”等。这一层作为商品图谱的后台类目体系,以客观的方式对商品领域的品类进行建模,承载了用户对于商品的需求,例如各品牌各产地的鸡蛋都能够满足用户对于鸡蛋这个品类的需求。

L5 – 业务类目:相比于主体品类的后台类目体系,业务类目作为前台类目体系会依据业务当前的发展阶段进行人工定义和调整,各个业务会根据当前业务阶段的特点和需求建立对应的前台类目体系。

多维度

商品属性视角:围绕商品本身,我们需要有海量的属性维度来对商品进行描述。商品属性维度主要分为两类:一类是通用的属性维度,包括品牌、规格、包装、产地等;另一类是品类特有的属性维度,例如对于牛奶品类我们会关注脂肪含量(全脂/低脂/脱脂牛奶)、存储方式(常温奶、冷藏奶)等。商品属性主要是刻画了商品的客观知识,往往会建立在标准商品这一层级上。

用户认知视角:除了客观的商品属性维度以外,用户往往对于商品会有一系列的主观认知,例如商品的别名俗称(”小黑瓶”、”快乐水”)、对于商品的评价(”香甜可口”、”入口即化”、”性价比高”)、商品的清单/榜单(”进口食品榜单”、”夏季消暑常备”)等维度。这些主观认知往往会建立在抽象商品这一层级上。

品类/类目视角:从品类/类目的视角来看,不同品类/类目也会有各自不同的关注点。在这一层级上,我们会建模各个品类/类目下有哪些典型的品牌、用户关注哪些典型属性、不同品类的复购周期是多长时间等等。

跨业务

美团大脑商品知识图谱的目标是希望能够对客观世界中的商品知识进行建模,而非局限于单个业务之中。在商品图谱的五层体系中,标准商品、抽象商品、品类体系都是与业务解耦的,围绕着客观商品所建立的,包括围绕这些层级建立的各维度数据也均是刻画了商品领域的客观知识。在应用于各个业务当中时,我们将客观的图谱知识向上关联至业务前台类目,向下关联至业务商品SPU/SKU,则可以完成各个业务数据的接入,实现各个业务数据和客观知识之间的联通,提供更加全面的跨业务的全景数据视角。利用这样的数据,在用户方面我们可以更加全面的建模、分析用户对于业务、品类的偏好,对于价格、品质等的敏感程度,在商品方面我们可以更准确的建模各品类的复购周期、地域/季节/节日偏好等

品类体系建设

品类描述了商品本质所属的最细类别,它聚合了一类商品,承载了用户最终的消费需求,如”高钙牛奶”、”牛肉干”等。与品类不同,类目是若干品类的集合,它是抽象后的品类概念,不能够明确到具体的某类商品品类上,如”乳制品”、”水果”等。

品类打标:对商品图谱的构建来说,关键的一步便是建立起商品和品类之间的关联,即对商品打上品类标签。通过商品和品类之间的关联,我们可以建立起商品库中商品与用户需求之间的关联,进而将具体的商品展示到用户面前。下面简单介绍下品类打标方法:

  • 品类词表构建:品类打标首先需要构建一个初步的商品品类词表。首先,我们通过对美团的各个电商业务的商品库、搜索日志、商户标签等数据源进行分词、NER、新词发现等操作,获得初步的商品候选词。然后,通过标注少量的样本进行二分类模型的训练(判断一个词是否是品类)。此外,我们通过结合主动学习的方法,从预测的结果中挑选出难分样本,进行再次标注,继续迭代模型,直到模型收敛。
  • 品类打标:首先,我们通过对商品标题进行命名实体识别,并结合上一步中的品类词表来获取商品中的候选品类,如识别”蒙牛脱脂牛奶 500ml”中的”脱脂牛奶”、”牛奶”等。然后,在获得了商品以及对应的品类之后,我们利用监督数据训练品类打标的二分类模型,输入商品的SPU_ID和候选品类TAG构成的pair,即,对它进行是否匹配的预测。具体的,我们一方面利用结合业务中丰富的半结构化语料构建围绕标签词的统计特征,另一方面利用命名实体识别、基于BERT的语义匹配等模型产出高阶相关性特征,在此基础上,我们将上述特征输入到终判模型中进行模型训练。
  • 品类标签后处理:在这一步中,我们对模型打上的品类进行后处理的一些策略,如基于图片相关性、结合商品标题命名实体识别结果等的品类清洗策略。

通过上述的三个步骤,我们便可以建立起商品与品类之间的联系。

品类体系:品类体系由品类和品类间关系构成。常见的品类关系包括同义词和上下位等。在构建品类体系的过程中,常用的以下几种方法来进行关系的补全。我们主要使用下面的一些方法:

  • 基于规则的品类关系挖掘。在百科等通用语料数据中,有些品类具有固定模式的描述,如”玉米又名苞谷、苞米棒子、玉蜀黍、珍珠米等”、”榴莲是著名热带水果之一”,因此,可以使用规则从中提取同义词和上下位。
  • 基于分类的品类关系挖掘。类似于上文中提到的品类打标方法,我们将同义词和上下位构建为的样本,通过在商品库、搜索日志、百科数据、UGC中挖掘的统计特征以及基于sentence-bert得到的语义特征,使用二分类模型进行品类关系是否成立的判断。对于训练得到的分类模型,我们同样通过主动学习的方式,选出结果中的难分样本,进行二次标注,进而不断迭代数据,提高模型性能。
  • 基于图的品类关系推理。在获得了初步的同义词、上下位关系之后,我们使用已有的这些关系构建网络,使用GAE、VGAE等方法对网络进行链路预测,从而进行图谱边关系的补全。

标准/抽象商品

标准商品是描述商品本身客观事实的颗粒度,和销售渠道和商户无关,而商品条形码是标准商品这层的客观依据。标品关联即将同属于某个商品条形码的业务SKU/SPU,都正确关联到该商品条形码上,从而在标准商品层级上建模相应的客观知识,例如标准商品对应的品牌、口味和包装等属性。 下面通过一个案例来说明标品关联的具体任务和方案。

案例:下图是一个公牛三米插线板的标准商品。商家录入信息的时候,会把商品直接关联到商品条码上。通过商户录入数据完成了一部分的标品关联,但这部分比例比较少,且存在大量的链接缺失,链接错误的问题。另外,不同的商家对于同样的标品,商品的标题的描述是千奇百怪的。我们的目标是补充缺失的链接,将商品关联到正确的标品上。

4.问题和挑战

商品知识图谱的构建的挑战主要来源于以下三个方面:

  • 信息来源质量低:商品本身所具有的信息比较匮乏,往往以标题和图片为主。尤其在美团闪购这样LBS的电商场景下,商户需要上传大量的商品数据,对于商品信息的录入存在很多信息不完整的情况。在标题和图片之外,商品详情虽然也蕴含着大量的知识信息,但是其质量往往参差不齐,并且结构各异,从中进行知识挖掘难度极高。
  • 数据维度多:在商品领域有众多的数据维度需要进行建设。以商品属性部分为例,我们不仅需要建设通用的诸如品牌、规格、包装、口味等属性维度,同时还要覆盖各个品类/类目下特定关注的属性维度诸如脂肪含量、是否含糖、电池容量等,整体会涉及到数百维的属性维度。因此,数据建设的效率问题也是一大挑战。
  • 依赖常识/专业知识:人们在日常生活中因为有很丰富的常识知识积累,可以通过很简短的描述获取其背后隐藏的商品信息,例如在看到”乐事黄瓜”这样一个商品的时候知道其实是乐事黄瓜味的薯片、看到”唐僧肉”的时候知道其实这不是一种肉类而是一种零食。因此,我们也需要探索结合常识知识的语义理解方法。同时,在医药、个护等领域中,图谱的建设需要依赖较强的专业知识,例如疾病和药品之间的关系,并且此类关系对于准确度的要求极高,需要做到所有知识都准确无误,因此也需要较好的专家和算法相结合的方式来进行高效的图谱构建。

5.一些优化方法

针对标品关联任务,我们构建了商品领域的同义词判别模型:通过远监督的方式利用商户已经提供的少量有关联的数据,作为已有的知识图谱构造远监督的训练样本。在模型中,正例是置信度比较高的标品码;负例是原始数据中商品名或者图像类似但不属于同一标品的SPU。构造准确率比较高的训练样本之后,通过Bert模型进行同义词模型训练。最后,通过模型自主去噪的方式,使得最终的准确率能够达到99%以上。总体能做到品牌,规格,包装等维度敏感。

美团NLP以及知识图谱文章提炼

抽象商品是用户认知的层面,作为用户所评论的对象,这一层对用户偏好建模更加有效。同时,在决策信息的展示上,抽象商品粒度也更符合用户认知。例如下图所示冰淇淋的排行榜中,罗列了用户认知中抽象商品对应的SKU,然后对应展示不同抽象商品的特点,推荐理由等。抽象商品层整体的构建方式,和标准商品层比较类似,采用标品关联的模型流程,并在数据构造部分进行规则上的调整。

美团NLP以及知识图谱文章提炼

对一个商品的全面理解,需要涵盖各个属性维度。例如”乐事黄瓜味薯片”,需要挖掘它对应的品牌、品类、口味、包装规格、标签、产地以及用户评论特色等属性,才能在商品搜索、推荐等场景中精准触达用户。商品属性挖掘的源数据主要包含商品标题,商品图片和半结构化数据三个维度。

美团NLP以及知识图谱文章提炼

商品标题包含了对于商品最重要的信息维度,同时,商品标题解析模型可以应用在查询理解中,对用户快速深入理解拆分,为下游的召回排序也能提供高阶特征。因此,这里我们着重介绍一下利用商品标题进行属性抽取的方法。

商品标题解析整体可以建模成文本序列标注的任务。例如,对于商品标题”乐事黄瓜薯片”,目标是理解标题文本序列中各个成分,如乐事对应品牌,黄瓜对应口味,薯片是品类,因此我们使用命名实体识别(NER)模型进行商品标题解析。然而商品标题解析存在着三大挑战:(1)上下文信息少;(2)依赖常识知识;(3)标注数据通常有较多的噪音。为了解决上述挑战,我们尝试在模型中引入了图谱信息,主要包含以下三个维度:

  • 节点信息:将图谱实体作为词典,以Soft-Lexicon方式接入,以此来缓解NER的边界切分错误问题。
  • 关联信息:商品标题解析依赖常识知识,例如在缺乏常识的情况下,仅从标题”乐事黄瓜薯片”中,我们无法确认”黄瓜”是商品品类还是口味属性。因此,我们引入知识图谱的关联数据缓解了常识知识缺失的问题:在知识图谱中,乐事和薯片之间存在着较强的relation,但是乐事跟黄瓜之间的relation比较弱,因此可以利用图结构来缓解NER模型常识知识缺少的问题。具体来说,我们通过图谱Graph Embedding的方式,利用图谱的图结构信息对图谱中的单字,词进行embedding表示,然后将embedding表示和文本语义的表征进行拼接融合,再接入NER模型,使得模型能够既考虑到语义,也考虑到常识知识的信息。
  • 节点类型信息:同一个词可以代表不同的属性,比如”黄瓜”既可以作为品类又可以作为属性。因此,对图谱进行embedding建模的时候,根据不同的类型对实体节点进行拆分。在将图谱节点表征喂入NER模型中时,利用注意力机制根据上下文来选择更符合语义的实体类型对应的表征 ,缓解不同类型下词语含义不同的问题,实现不同类型实体的融合。

美团NLP以及知识图谱文章提炼

在标注过程中,少标漏标或错标的问题无法避免,尤其像在商品标题NER这种标注比较复杂的问题上,尤为显著。对于标注数据中的噪音问题,采用以下方式对噪音标注优化:不再采取原先非0即1的hard的训练方式,而是采用基于置信度数据的soft训练方式,然后再通过Bootstrapping的方式迭代交叉验证,然后根据当前的训练集的置信度进行调整。我们通过实验验证,使用soft训练+ Bootstrapping 多轮迭代的方式,在噪声比例比较大的数据集上,模型效果得到了明显提升。具体的方法可参见我们在NLPCC 2020 比赛中的论文《Iterative Strategy for Named Entity Recognition with Imperfect Annotations》

美团NLP以及知识图谱文章提炼

知识图谱的构建往往是针对于各个领域维度的数据单独制定的挖掘方式。这种挖掘方式相对来说重人工,比较低效,针对每个不同的领域、每个不同的数据维度,我们都需要定制化的去建设任务相关的特征及标注数据。在商品场景下,挖掘的维度众多,因此效率方面的提高也是至关重要的。我们首先将知识挖掘任务建模为三类分类任务,包括节点建模、关系建模以及节点关联。在整个模型的训练过程中,最需要进行效率优化的其实就是上述提到的两个步骤:i)针对任务的特征提取,ii)针对任务的数据标注;

美团NLP以及知识图谱文章提炼

针对特征提取部分,我们摒弃了针对不同挖掘任务做定制化特征挖掘的方式,而是尝试将特征和任务解耦,构建跨任务通用的图谱挖掘特征体系,利用海量的特征库来对目标的节点/关系/关联进行表征,并利用监督训练数据来进行特征的组合和选择。具体的,我们构建的图谱特征体系主要由四个类型的特征组构成:i) 规则模板型特征主要是利用人工先验知识,融合规则模型能力;ii) 统计分布型特征,可以充分利用各类语料,基于不同语料不同层级维度进行统计;iii) 句法分析型特征则是利用NLP领域的模型能力,引入分词、词性、句法等维度特征;iv) 嵌入表示型特征,则是利用高阶模型能力,引入BERT等语义理解模型的能力

美团NLP以及知识图谱文章提炼

针对数据标注部分,我们主要从三个角度来提升效率。i) 通过半监督学习,充分的利用未标注的数据进行预训练;ii)通过主动学习技术,选择对于模型来说能够提供最多信息增益的样本进行标注;iii)利用远程监督方法,通过已有的知识构造远监督样本进行模型训练,尽可能的发挥出已有知识的价值。

reference

https://tech.meituan.com/2018/11/01/meituan-ai-nlp.html

https://blog.csdn.net/rlnLo2pNEfx9c/article/details/119306122

https://tech.meituan.com/2021/06/24/nature-language-process-nlp-knowledge-graph.html

Original: https://blog.csdn.net/weixin_48185819/article/details/119781288
Author: 还卿一钵无情泪
Title: 美团NLP以及知识图谱文章提炼

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/595064/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球