结构化数据抽取成三元组_干货丨AI在数据防泄漏中的应用——知识图谱之知识抽取…

随着技术的不断发展,AI(Artificial Intelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一。

在数据安全领域领域,AI技术所能起到的作用越来越大,如针对数据防泄漏,运用知识图谱技术可以使数据实现结构化,减少人为性工作,从而让数据治理工作趋向智能化,提升工作效率。

在之前的文章中,明朝万达数据安全专家已经就”何为 AI在数据防泄漏中的应用–知识图谱”做了详细的介绍。之后我们也将以系列文章形式为大家分享”知识抽取”、”知识融合”、”知识推理”、”知识运用”的相关知识,大家一同探讨,深入了解。

知识图谱之知识抽取

知识抽取是指从不同来源、不同结构的数据中进行知识提取,提取出数据内涵的事实性信息并供给知识图谱做进一步加工处理后会形成知识,存入到知识图谱。

知识抽取需处理的数据为多源异构数据,一般包括非结构化数据、半结构化数据和结构化数据,其相应的知识抽取的方法和技术各不相同。

△多元异构数据与对应知识抽取技术

★ 从非结构化中获取知识用信息抽取,其难点在于结果的准确率与覆盖率;

★ 从半结构化数据中获取知识用包装器,难点在于包装器的自动生成、更新和维护;

★ 从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等;

★ 从链接数据中获取知识用图映射,难点在于数据对齐。

知识抽取:非结构化数据

面向非结构化数据的知识抽取使用信息抽取技术解决,信息抽取包括命名实体识别、关系识别、共指消歧、事件抽取及模板填充五个任务,其流程如下图所示:

知识抽取:半结构化数据

半结构化数据是指类似于百科、商品列表等本身存在一定结构但需要进一步提取整理的数据。面向半结构化的知识抽取使用包装器实现,其基本流程如下:

知识抽取:结构化数据

结构化数据就是指类似于关系库中表格形式的数据,该类数据往往在各项之间存在明确的关系名称和对应关系。因此可以简单的将其转化为RDF或其他形式的知识库内容。

关于知识抽取,一种常用的W3C推荐的映射语言是R2RML(RDB2RDF),其映射结果如下:

1、数据库表t_student结构

2、按照R2RML语言映射成RDF三元组知识结构

以及,现有的工具免费的有D2RQ,Virtuoso、MOrph等。

Original: https://blog.csdn.net/weixin_36415206/article/details/113490468
Author: 云东来
Title: 结构化数据抽取成三元组_干货丨AI在数据防泄漏中的应用——知识图谱之知识抽取…

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/557352/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • openCV(一)

    图像采样与分辨率 • 采样后得到离散图像的尺寸称为图像分辨率。分辨率是数字图像可辨别的最小细节。• 分辨率由宽(width)和高(height)两个参数构成。宽表示水平方向的细节数…

    人工智能 2023年6月22日
    065
  • WebRTC中AECM算法简介

    1,算法介绍以及整体框架 1.1算法整体框架 AECM 属于 WebRTC 语音处理引擎(Voice Engine)的子模块,是为移动设备专门设计的回声消除处理模块,其内部有根据芯…

    人工智能 2023年5月25日
    0131
  • 数据清洗:缺失值识别和处理方法

    缺失值识别 数据缺失分为两种:一是行记录的缺失;二是列值的缺失。 不同的数据存储和环境中对于缺失值的表示不同,例如数据库中是Null、Python返回对象是None、Pandas或…

    人工智能 2023年7月15日
    084
  • seed在模型中的应用及用法

    SEEDseed在深度学习代码中叫随机种子,设置seed的目的是由于深度学习网络模型中初始的权值参数通常都是初始化成随机数。而使用梯度下降法最终得到的局部最优解对于初始位置点的选择…

    人工智能 2023年7月12日
    0103
  • 线性判别分析(LDA)详解

    入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。 目录 一、LDA简介 二、数学原理(以二分类为例子) 1、设定 2、每一类…

    人工智能 2023年6月13日
    093
  • Praat脚本-033 | Praat脚本批量提取MFCC参数

    MFCC(Mel-frequency cepstral coefficients):梅尔频率倒谱系数。梅尔频率是基于人耳听觉特性提出来的, 它与Hz频率成非线性对应关系。梅尔频率倒…

    人工智能 2023年5月23日
    0127
  • mybatisplus 限制查询数量_【论文速递】知识图谱上的查询松弛

    前言:对于用户输入的一组实体,已经有一些算法可以从知识图谱中高效搜索能够连接这组实体的一些关联子图,但这样的子图可能不存在,或者规模太大而实际意义不大。为此,在这篇被Journal…

    人工智能 2023年6月1日
    077
  • PyTorch 08 —预训练模型(迁移学习)

    一、什么是预训练网络 预训练网络是一个保存好的之前已在大型数据集(大规模图像分类任务)上训练好的卷积神经网络。如果这个原始数据集足够大且足够通用,那么预训练网络学到的特征的空间层次…

    人工智能 2023年7月22日
    067
  • OpenCV入门函数API解析

    一切图像皆Mat cvtColor:用于将图像从一个颜色空间转换到另一个颜色空间的转换(目前常见的颜色空间均支持),并且在转换的过程中能够保证数据的类型不变,即转换后的图像的数据类…

    人工智能 2023年7月20日
    050
  • P-tuning v1 v2

    GPT Understands, Too (P-tuning) 根据训练目标,预训练语言模型能够划分为三种类型:1. 单向语言模型:GPT,用于自然语言生成任务2. 双向语言模型:…

    人工智能 2023年5月28日
    088
  • YOLO算法之YOLOv5

    目录 一、什么是YOLOv5? 二、YOLO目标检测技术发展史 * 1、发展历程一览 2、各版本差异 三、YOLOv5网络结构和组件 一、什么是YOLOv5? 参考学习: 了解YO…

    人工智能 2023年7月30日
    051
  • 图像处理入门一

    图形处理入门一 * – + 1.图像处理的基本知识 + 2.OpenCV入门详解 本文学习书籍为华为云的《从零到壹•Python图像处理及识别》,写博客的目的是为了记录…

    人工智能 2023年6月17日
    066
  • 论文导读 | 使用预训练语言模型作为知识库的可能性

    引言 近年来,预训练语言模型在NLP领域展现出了强大的能力而被广泛采用,成为了解决NLP问题的”银弹”。借助大规模数据集、以Transformer为代表的深…

    人工智能 2023年5月28日
    050
  • 第五届声学、振动、噪声控制国际研讨会(CAVNC 2022)

    The 5th Int’l Conference on Acoustics, Vibration and Noise Control (CAVNC 2022) 大会官网…

    人工智能 2023年5月25日
    0190
  • plt自定义图例

    1、不同自定义图例 导入对应的模块 from matplotlib import lines import matplotlib.pyplot as plt import matp…

    人工智能 2023年7月6日
    0108
  • 计算机视觉学习第5章——多视图几何

    目录 一、 外极几何 1.1 简单数据集 1.2 用Matplotlib绘制三维数据 1.3 计算F:八点法 1.4 外极点和外极线 二、照相机和三维结构的计算 2.1 三角部分 …

    人工智能 2023年6月25日
    089
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球