OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

2023年5月30日下午9:50 • 人工智能 • 阅读 84

OpenKG地址：http://openkg.cn/dataset/openconcept

官网：http://openconcepts.openkg.cn（提供Dump）

开放许可协议：CC BY-SA 4.0（署名-相同共享)

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

OpenConcepts 介绍

OpenConcepts (http://openconcepts.openkg.cn/) 是一个基于自动化知识抽取算法构建的中文概念图谱，由浙江大学知识引擎实验室贡献。本次开源了OpenConcepts中的440万概念核心实体，以及5万概念和1200万实体-概念三元组，并提供json,ttl, json-ld多种格式的原始Dump下载。

概念是人脑对事物的本质反应，能够帮助机器更好的理解自然语言。相较于传统的知识图谱，OpenConcepts包含大量中文细粒度概念，且具备自动更新、自动扩充的能力。比如对于”刘德华”这一实体，OpenConcepts不仅包含”香港歌手”、”演员”等传统概念，还具有”华语歌坛不老男歌手”、”娱乐圈绝世好男人”等细粒度标签。

OpenConcepts构建

构建知识图谱具有诸多挑战。早年的英文知识图谱如CyC、WordNet以及中文知识库如HowNet等大多通过专家手工构建，其构建成本非常高昂。Openconcepts采取完全自动化构建的方式，基于海量的中文网页数据和若干开放的中文知识库,通过自动化信息抽取、短语挖掘等自然语言处理技术，实现概念知识图谱的自动化构建。相较于传统的概念知识图谱，OpenConcepts的特点在于：

OpenConcepts包含大量的中文细粒度概念，这部分细粒度概念填补了中文细粒度知识的空白。
OpenConcepts是基于全自动化构建的方式，其整合了诸多自然语言处理算法并形成一套完整的知识抽取框架，具备自动化抽取、自动化扩展、自动化更新的能力。

OpenConcepts的自动化构建主要分为两大模块，1）概念知识的自动化抽取 2）概念知识的融合，相关技术已经发表在国际顶会KDD 2021。我们首先通过开放的知识库、百科InfoBox等结构化、半结构化数据抽取粗粒度的概念。对于细粒度的概念，我们采取短语挖掘和序列标注相结合的策略，通过实体-概念模板和无监督短语挖掘构造弱监督样本，并基于迭代的降噪学习训练基于序列标注的概念抽取模型（http://openconcepts.openkg.cn/concept_extract_page），在离线测试集上概念抽取模型准确率可达0.89，召回率可达0.85。然后，我们对抽取到的不同的实体和概念进行融合，并通过贝叶斯估计过滤掉低置信度的概念。此外，我们也构造人工规则约束对高层次的概念进行人工干预，保证准确率。

具体的说，我们首先从包含噪声的海量开放语料中提取常见的细粒度概念，然后获取候选概念和实例，并通过概率推理和概念匹配将候选概念和实例与相应的概念联系起来。我们定义了一组精准的模板来从高置信度的匹配查询中利用Bootstrapping方法提取概念短语。例如，”十大XXX”是一种可用于提取种子概念的模式。基于这种模式，我们可以抽取出”十大手机游戏”等概念。然而由于文本中存在大量的噪声，因此我们采用一种基于对齐一致性的Bootstrapping方法来处理含噪文本。假设在某一轮中找到的新模板p，n_s是现有种子概念集合中的概念数，p可以从查询集Q中提取这些概念。设n_e是p可以从Q中提取的新概念的个数，我们通过函数 Filter(p): 1) 和2) 维护模板集p ，其中、以及是预定义的阈值，用于控制提取概念的精度。其次，我们通过对齐一致性对挖掘出的概念进行过滤，以提高细粒度概念的质量。最后，我们对挖掘出的细粒度实例和候选概念，利用概念判别器来判断每一个候选是概念还是实例，并通过概率推理和概念匹配将实例与这些分类的概念联系起来。具体的流程如下图所示：

针对长尾概念，我们通过短语挖掘和自训练从有带噪的搜索日志中提取长尾概念。我们首先基于短语挖掘算法，并利用外部领域知识图谱中的术语进行长尾的概念挖掘。具体来说，我们首先过滤停止词，然后使用现成的短语挖掘工具AutoPhrase在无监督的情况下对语料库进行短语挖掘。

我们同时采用了一种基于自训练的序列标注算法，用于长尾概念的挖掘，进一步提取一些分散的概念。具体而言，我们基于上述无监督方法生成的一些实例/概念作为种子训练一个CRF序列标注模型，并基于海量无标注数据生成大量弱监督伪样本，然后我们基于伪标注样本训练了一个基于BERT序列标注模型。之后，我们基于CRF、BERT和领域字典得到的预测结果进行一致性校验，以过滤掉伪标注样本中的噪声，并迭代生成更可靠的训练样本。

最后，我们将部分概念与预定义的同义词词典对齐。然后，我们通过通过每天的用户搜索实例热度计算置信度得分，并根据用户的点击行为来估计概念置信度分布。最后，我们将两个不同粒度的置信度得分联合构建实例-概念分类。

OpenConcepts规模和用途

本次，我们开源了OpenConcepts中的440万概念核心实体，以及5万概念和1200万实体-概念三元组。这些数据包括了常见的人物、地点等通用实体。我们的数据还在不断更新中。本次开源的数据可在openkg.cn 获取，OpenConcepts能够为智能推荐、智能问答、人机对话等应用提供数据支持。

我们的API接口开放在url{http://openconcepts.openkg.cn/api_page}。可以指定实例，返回若干概念实例集，包含相应的概念层级和置信度。例如我们可以发送http://openconcepts.openkg.cn/api/entity_concept?entity=南华园，来询问”南华园”这一实例。返回一个字典，其中”位置”概念属于概念级别1，置信度为0.43；”楼盘”属于概念级别2，置信度为0.75；”房产”属于概念级别1，置信度为0.43；”学校”属于概念级别2，置信度为0.25；”教育”属于概念级别1，置信度为0.14。同时在网站的分页面我们也开放了各类概念数据集的下载链接。

结语及致谢

由于OpenConcepts是基于自动化算法从互联网语料获取的，其中难免存在错误的数据，在此表达歉意。感谢毕祯提供算法上的支持、唐坤实现在线演示系统，邓淑敏、余海阳、叶宏彬、杨嘉诚、李娟、邓鸿杰、李泺秋、杨帆、陈想、谢辛等提供数据和技术上的支持。

OpenKG

OpenKG（开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击 阅读原文，进入 OpenKG 网站。

Original: https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/118772195
Author: 开放知识图谱
Title: OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545313/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在ubuntu上安装多个版本的CUDA，并且可以随时切换

前言实验室工作站被多人使用导致需求不同的cuda版本，一直没找到一个完全完整靠谱的教程，这是我参考几个博客完成测试的全过程记录，方便以后操作，无任何商业用途，如有侵权，请联系删除…

人工智能 2023年7月21日
00158
瞧瞧别人家的API接口，那叫一个优雅

在实际工作中，我们需要经常跟第三方平台打交道，可能会对接第三方平台API接口，或者提供API接口给第三方平台调用。那么问题来了，如果设计一个优雅的API接口，能够满足：安全性、可…

人工智能 2023年7月30日
0059
知识抽取概念

知识抽取概念知识抽取包括三种要素：命名实体识别(NER)、实体关系抽取（RE）和属性抽取。属性抽取可以使用python爬虫爬取网站，较为简单，NER和RE作为知识抽取中的重要部分…

人工智能 2023年6月1日
00118
第11章：图像金字塔

第11章：图像金字塔 * – 一、理论基础： – + 1. 向下采样： + 2. 向上采样： – 二、pyrDown函数使用： – …

人工智能 2023年6月19日
00106
Localization-Aware Active Learning for Object Detection (ACCV)

原文链接这是一篇CCF-C文章，简要描述一下思想：目标检测任务的主动学习中的数据选择大多数都基于classification来，作者同时考虑了classification和lo…

人工智能 2023年7月10日
0064
python error tokenizing data_python 问题杂烩

python 问题杂烩 python problem cookbook ParserError: Error tokenizing data. C error: Calling r…

人工智能 2023年7月8日
0084
AttributeError: ‘NoneType’ object has no attribute ‘create_execution_context’

在使用tensorrt推理时 import pycuda.autoinit import numpy as np import pycuda.driver as cuda impo…

人工智能 2023年6月17日
0088
DDOS攻击分析

寻找代理服务器攻击原理：专用的DDoS攻击软件会向代理服务器发送特殊命令，该命令可以让代理服务器向攻击的目标网站发送连接请求。如果代理服务器非常多，同时连接目标网站的请求就会非常…

人工智能 2023年6月27日
0074
船舶轨迹预测

经济全球化程度日益增大，各国经济贸易往来频繁带动航运行业欣欣向荣，海域航道以及港口水域的负载增加，造成船舶交通阻塞、船舶碰撞事件事故频发等问题。因此，准确获取船舶航行实时动态信息，…

人工智能 2023年6月15日
00130
下载MNIST数据集并使用python将数据转换成NumPy数组(源码解析)

下载MNIST数据集并使用python将数据转换成NumPy数组 * – 首先来分析init_mnist函数 – 接下来继续分析load_mnist函数 &…

人工智能 2023年6月16日
0091
Autoware 障碍物车辆意图与轨迹预测

Autoware 障碍物车辆意图与轨迹预测yeye.liu@foxmail.comAutoware 中预测道路中其他车辆的意图与轨迹部分在一篇博士毕业论文的第四章中进行了详细解释，…

人工智能 2023年6月10日
0073
自然语言理解（NLU）-文本纠错学习笔记1

1概念理解：首先，文本纠错是实现文本语句自动检查、自动纠错的一项重要技术，提高语言的正确性并减少人工成本。通常类型有：语音转换语言转换、发音不标准、拼写错误、语法错误（多打漏打…

人工智能 2023年5月28日
0052
【OpenCV】在Python环境下安装OpenCV并检测是否安装成功

一、OpenCV概述 OpenCV是一个开源的计算机视觉库，可以在Windows、Linux、MacOS等操作系统上运行。它起源于英特尔性能实验室的实验研究，由俄罗斯的专家负责实现…

人工智能 2023年6月18日
0094
苹果手机适配Xcode14及iOS 16操作系统

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月30日
00102
【数据聚类】第三章第二节1：K-Means算法及其Python实现（距离度量方式、目标函数和算法流程）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0079
.NET 7 发布的最后一个预览版Preview 7，下个月发布RC

微软在2022年8月9日发布了.NET 7 Preview 7[1]，这是它在11月10日 RTM 之前进入发布候选阶段之前的最后预览版。预览版 7 已在 Visual Stu…

人工智能 2023年6月4日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

OpenKG开源系列 | 大规模中文概念图谱OpenConcepts (浙江大学)

大家都在看