基于Python的海贼王知识图谱构建设计

2023年6月10日上午6:26 • 人工智能 • 阅读 97

《海贼王》知识图谱构建

项目背景
项目内容
数据采集
3.1… 数据来源
3.2… 人物知识图谱构建
3.2.1. 抽取通用知识图谱中已有的目标域知识
3.2.2. 抽取网页中半结构化的知识
3.3… 关系抽取数据集构建
3.1. 数据集统计信息
3.4… 实体关系知识图谱构建
知识存储
4.1… 基于RDF 三元组数据库：Apache Jena
4.1.3 SPARQL查询示例
4.2… 基于原生图数据库：Neo4j
4.2.1. Neo4j简介
4.2.3. Cypher查询示例
知识抽取
5.1… 数据转换&标注统计
5.2… 训练
5.3… 训练结果
6.1. 图计算
6.1.1. 人物网络分析
6.1.2. 关键节点
6.1.3. 节点中心度
6.1.4. 社区发现
6.1.5. PageRank 6.2. 知识推理
知识应用
7.1… 智能问答
7.1.1. 支持的问题类型
7.1.2. 查询示例
7.2… 知识图谱可视化
参考资料

1.项目背景

《海贼王》(英文名ONE PIECE) 是由日本漫画家尾田荣一郎创作的热血少年漫画，因为其宏大的世界观、丰富的人物设定、精彩的故事情节、草蛇灰线的伏笔，受到世界各地的读者欢迎，截止2019年11 月7日，全球销量突破4亿6000万本 1 ，并被吉尼斯世界纪录官方认证为”世界上发行量最高的单一作者
创作的系列漫画” 2 。
《海贼王》从1997年开始连载至今，以及将近22年，在900多话的漫画中大量性格鲜明的角色相继登场，故事发生的地点也在不断变化，本文转载自http://www.biyezuopin.vip/onews.asp?id=15228这既给我们带来阅读的乐趣，同时也为我们梳理故事脉络带来了挑战。
本次任务试图为《海贼王》中出现的各个实体，包括人物、地点、组织等，构建一个知识图谱，帮助我们更好的理解这部作品。

2.项目内容
本项目内容包括数据采集、知识存储、知识抽取、知识计算、知识应用五大部分
1.数据采集
本次项目主要采集构建了两个知识图谱和一个关系抽取数据集
人物知识图谱：主要包含各个人物的信息
关系抽取数据集：标注出自然语言中存在的实体以及他们之间的关系实体关系知识图谱：构建《海贼王》中各个实体之间关系的知识图谱
2.知识存储
尝试使用了三元组数据库Apace Jena和原生图数据库Neo4j，并分别使用RDF结构化查询语言
SPARQL和属性图查询语言Cypher，在知识图谱上进行查询。
3.知识抽取
基于之间构建的关系抽取数据集，利用deepke中提供的工具进行关系抽取实践，测试了包括
PCNN、GCN、BERT等模型在我们构建数据集上的效果
4.知识计算
图计算：在Neo4j上对实体关系知识图谱进行了图挖掘，包括最短路径查询、权威结点发现、社区发现等
知识推理：在Apache Jena上对关系知识图谱进行了知识推理，补全了一部分的数据
5.知识应用
智能问答：基于REfO实现一个对于《海贼王》中人物的知识库问答系统(KBQA)。
可视化图片：通过D3对实体关系图片进行可视化，并整合了人物知识图谱中的信息，进行展示。

3.数据采集
3.1.数据来源
本次项目中所使用的数据主要来源为两个：一个是从别的知识图谱中获取已经存在的知识信息，另一个是从相关网页中爬取解析半结构化的自然语言文本信息。

encoding=utf-8

"""

@author: SimmerChan

@contact: hsl7698590@gmail.com

@file: word_tagging.py

@time: 2017/12/20 15:31

@desc: 定义Word类的结构；定义Tagger类，实现自然语言转为Word对象的方法。

"""
import jieba
import jieba.posseg as pseg

class Word(object):
    def __init__(self, token, pos):
        self.token = token
        self.pos = pos

class Tagger:
    def __init__(self, dict_paths):
        # TODO 加载外部词典
        for p in dict_paths:
            jieba.load_userdict(p)

        # TODO jieba不能正确切分的词语，我们人工调整其频率。
        jieba.suggest_freq(('喜剧', '电影'), True)
        jieba.suggest_freq(('恐怖', '电影'), True)
        jieba.suggest_freq(('科幻', '电影'), True)
        jieba.suggest_freq(('喜剧', '演员'), True)
        jieba.suggest_freq(('出生', '日期'), True)
        jieba.suggest_freq(('英文', '名字'), True)

    @staticmethod
    def get_word_objects(sentence):
        # type: (str) -> list
"""
        把自然语言转为Word对象
        :param sentence:
        :return:
"""
        return [Word(word, tag) for word, tag in pseg.cut(sentence)]

TODO 用于测试
if __name__ == '__main__':
    tagger = Tagger(['./external_dict/movie_title.txt',
                     './external_dict/person_name.txt',
                     './external_dict/vivre_zhpname.txt',
                     './external_dict/onepiece_place_terminology.txt'])
    while True:
        s = input()
        for i in tagger.get_word_objects(s):
            print(i.token, i.pos)

Original: https://blog.csdn.net/newlw/article/details/126759299
Author: biyezuopinvip
Title: 基于Python的海贼王知识图谱构建设计

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/595596/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习开篇之机器学习的分类

目录 1 引言 2 机器学习分类 2.1 监督学习（Supervised Learning） 2.1.1 传统监督学习 2.1.2 非监督学习 2.1.3 半监督学习 2.1.4 …

人工智能 2023年6月15日
0053
[python]使用pyinstaller打包带界面的Pytorch程序的多个问题

1 opencv兼容性问题 1.1 现象打包为一个exe完成后，在执行exe时，报错：ImportError: ERROR: recursion is detected duri…

人工智能 2023年7月24日
0060
Python图像处理丨基于OpenCV和像素处理的图像灰度化处理

摘要：本篇文章讲解图像灰度化处理的知识，结合OpenCV调用cv2.cvtColor()函数实现图像灰度操作，使用像素处理方法对图像进行灰度化处理。本文分享自华为云社区《[Pyt…

人工智能 2023年6月18日
0085
Python读取excel文件数据并插入数据库

例子：将excel文件StudentInfo.xls的学生信息插入到student表中一、连接mysql数据库安装第三方库pymysql： pip install pymys…

人工智能 2023年7月6日
0074
tensorflow人工智能项目-鸟类识别系统

介绍 Python作业机器学习、人工智能、模式识别课程、鸟类识别和检测系统。 [En] Machine learning, artificial intelligence, pat…

人工智能 2023年5月23日
00115
LinuxC实现FTP云盘

目录基础知识实现思路服务器客户端实现功能服务器功能客户端功能运行展示服务器客户端完整代码服务器客户端相关调用函数 socket()：创建一个网络通信端点…

人工智能 2023年6月29日
0045
Mask2Former

Masked-attention Mask Transformer for Universal Image Segmentation 图像分割是关于将不同语义的像素分组，例如，类别…

人工智能 2023年5月26日
0059
简单对抗神经网络GAN实现与讲解-图片对抗

1、理论讲解，清晰易懂：一文看懂「生成对抗网络 – GAN」基本原理+10种典型算法+13种应用 (easyai.tech) 2、代码实现集合： GitHub &#8…

人工智能 2023年5月30日
0090
联邦学习：FedProx框架

FEDERATED OPTIMIZATION IN HETEROGENEOUS NETWORKS 每日一诗：《当年万马尽腾空，就中紫骝尤最雄》明·张居正当年万马尽腾空，就中紫骝尤最…

人工智能 2023年6月23日
0068
超分算法之SRCNN

这篇文章是2014年的一篇论文，其主要意义在于作者推出的SRCNN是深度学习在超分上开篇之作！SRCNN证明了深度学习在超分领域的应用可以超越传统的插值等办法取得较高的表现力。参…

人工智能 2023年6月16日
0091
查看anaconda中的python,tensorflow版本

安装anaconda后，该如何查看anaconda对应的python版本在anaconda环境下安装tensorflow后，如何查看当前tensorflow版本 1、查看cond…

人工智能 2023年5月26日
00115
使用python对bin文件进行操作

博主想对神经网络模型的参数写入 bin 文件，方便在后续创建IP的过程中读取数据进行验证，记录 python 读取 pytorch 的模块参数并进行bin文件写入和读取操作。本文以…

人工智能 2023年7月23日
0084
OCR识别、模型训练等GPU环境安装配置（windows）

前提：显卡驱动正常。第一步：查看本机cuda版本 1、打开命令行 2、输入nvidia-smi 3、查看对应的 cuda version 第二步：下载对应的CUDA并安装 1、C…

人工智能 2023年5月25日
0079
视觉目标检测及分割任务中使用解耦头的好处

什么是解耦头？在做实例分割时，我们需要输出分类置信度图和实例mask图；在做目标检测时，我们需要输出目标的分类和边框位置；所以，这两类任务都需要输出分类和位置！采用两个不同的头解…

人工智能 2023年7月9日
0066
基于LSTM算法的股票预测

基于LSTM算法的股票预测 * – 一、LSTM基本原理 – + 1.长短期记忆(LSTM) – 二、LSTM预测股票走势 – + …

人工智能 2023年5月23日
0094
5.【并查集】概念、代码实现、优化（Find优化、Union优化）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于Python的海贼王知识图谱构建设计

大家都在看