知识图到文本的生成——伍

2023年6月1日上午11:17 • 人工智能 • 阅读 88

2021SC@SDUSC

我们继续分析dataset类，dataset类位于lastDataset.py文件中，是该算法的核心代码之一。dataset类中一共有20个类函数，我将会挑选核心的函数来分析。

首先是对数据集建立词表的build_ent_vocab函数。

  def build_ent_vocab(self,path,unkat=0):
    ents = ""
    with open(path,encoding='utf-8') as f:
      for l in f:
        ents +=  " "+l.split("\t")[1]
    itos = sorted(list(set(ents.split(" "))))
    itos[0] == ""; itos[1] == ""
    stoi = {x:i for i,x in enumerate(itos)}
    return itos,stoi

参数中的path就是数据集所在的路径，调用的时候传入。unkat参数初始值为0，意为为转换。ents是声明的字符串变量，存储遍历读取到的字符串数据集。itos是一个列表变量，每个元素都是ents中根据” “切割出的分词。比如ents=’A B’，那么itos则为[‘A’,’B’]，初始化itos第一个值为unk，第二个值为pad，enumerate()函数将itos组合为索引序列，结果组合为stoi变量。返回数据对象itos和索引序列stoi。

接下来是mkGraphs函数。

  def mkGraphs(self,r,ent):
    ......

    return (adj,rel)

这个函数的作用是用adj和rel矩阵将三元组转换为entlist。具体操作非关键代码，此处不再赘述。

接下来是mkVocabs函数。

  def mkVocabs(self,args):
    args.path = args.datadir + args.data
    self.INP = data.Field(sequential=True, batch_first=True,init_token="", eos_token="",include_lengths=True)
    self.OUTP = data.Field(sequential=True, batch_first=True,init_token="", eos_token="",include_lengths=True)
    self.TGT = data.Field(sequential=True, batch_first=True,init_token="", eos_token="")
    self.NERD = data.Field(sequential=True, batch_first=True,eos_token="")
    self.ENT = data.RawField()
    self.REL = data.RawField()
    self.SORDER = data.RawField()
    self.SORDER.is_target = False
    self.REL.is_target = False
    self.ENT.is_target = False
    self.fields=[("src",self.INP),("ent",self.ENT),("nerd",self.NERD),("rel",self.REL),("out",self.OUTP),("sorder",self.SORDER)]

该段代码就是对这些参数进行操作，Field类和RawField类在之前已经详细分析过，此处不再单独分析这两个类。它设置了处理后保存的路径，设置INP和OUTP为顺序数据、先生成batch dimension的tensor、以”

    if args.eval:
      train = data.TabularDataset(path=args.datadir+args.traindata, format='tsv',fields=self.fields)
    else:
      train = data.TabularDataset(path=args.path, format='tsv',fields=self.fields)

    print('building vocab')

train变量为把data定义为以TSV格式存储的列的数据集。TabularDataset是一个类，用来定义以CSV、TSV或JSON格式存储的列的数据集。如果使用dict，键应该是JSON键或CSV/TSV列的子集，值应该是(name, field)的元组。这会允许我们从其JSON/CSV/TSV键名重命名列，还允许选择要加载的列的子集。

    self.OUTP.build_vocab(train, min_freq=args.outunk)
    generics =['','','','','']
    self.OUTP.vocab.itos.extend(generics)
    for x in generics:
      self.OUTP.vocab.stoi[x] = self.OUTP.vocab.itos.index(x)
    self.TGT.vocab = copy(self.OUTP.vocab)
    specials = "method material otherscientificterm metric task".split(" ")
    for x in specials:
      for y in range(40):
        s = ""
        self.TGT.vocab.stoi[s] = len(self.TGT.vocab.itos)+y
    self.NERD.build_vocab(train,min_freq=0)
    for x in generics:
      self.NERD.vocab.stoi[x] = self.OUTP.vocab.stoi[x]

首先对要输出的变量进行build_vocab操作，该函数为Field的类函数，之前已分析过，此处不再赘述。generics是作者（不是我，是写代码的人）在数据集中找的一个实例。接下来就是对这个数据集进行扩大、切割、存储操作，specials就是把”method material otherscientificterm metric task”这个字符串根据” “进行分割，也就是generics。

接下来看一个批处理函数fixBatch()。

  def fixBatch(self,b):
    ent,phlens = zip(*b.ent)
    ent,elens = self.adjToBatch(ent)
    ent = ent.to(self.args.device)
    adj,rel = zip(*b.rel)
    if self.args.sparse:
      b.rel = [adj,self.listTo(rel)]
    else:
      b.rel = [self.listTo(adj),self.listTo(rel)]
    if self.args.plan:
      b.sordertgt = self.listTo(self.pad_list(b.sordertgt))
    phlens = torch.cat(phlens,0).to(self.args.device)
    elens = elens.to(self.args.device)
    b.ent = (ent,phlens,elens)
    return b

参数b为传入的地址。ent,phlens = zip(b.ent)和adj,rel = zip(b.rel)为解压b，解压后仍为元组，对解压后的元组调用adjToBatch函数进行生成邻接矩阵的批处理操作，最后返回的是矩阵。最后b直接变为三元组并返回。

Original: https://blog.csdn.net/qq_50729659/article/details/121340858
Author: 槐廿拾
Title: 知识图到文本的生成——伍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556565/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

JOINT UNSUPERVISED AND SUPERVISED TRAINING FOR MULTILINGUAL ASR

JOINT UNSUPERVISED AND SUPERVISED TRAINING FOR MULTILINGUAL ASR 研究机构：google 文章来源：[2111.081…

人工智能 2023年5月25日
0085
OpenCV+Python学习笔记 : 图像灰度化处理

图像处理的第一步操作基本都是进行灰度化在进行图片识别的过程中，我们需要将视频中每一帧图片取出并且转化为灰度图片，现在大部分的彩色图像都是采用RGB 颜色模式，处理图像的时候，要分…

人工智能 2023年5月28日
00170
独家 | 多项式回归：从零开始学习梯度下降

作者：SETHNEHA 翻译：王可汗校对：陈丹本文约3200字，建议阅读 15 分钟本文为大家介绍多项式回归中的梯度下降算法。关键词：梯度下降、多项式回归、模型优化梯度…

人工智能 2023年6月18日
0081
Web前端大作业—电影网页介绍8页(html+css+javascript) 带登录注册表单

HTML实例网页代码, 本实例适合于初学HTML的同学。该实例里面有设置了css的样式设置，有div的样式格局，这个实例比较全面，有助于同学的学习,本文将介绍如何通过从头开始设计个…

人工智能 2023年6月26日
0092
基于机器学习方法校准MPU6050陀螺仪加速度计（含完整源码）

基于机器学习方法校准MPU6050陀螺仪加速度计（含源码）最近组装了一架无人机，想要自己写一个飞控，所以一直在研究陀螺仪，我使用的是目前最常用的MPU6050六轴运动传感器，如下…

人工智能 2023年6月17日
00110
最全PointNet和PointNet++要点梳理总结

训练流程 a. 训练环境配置由于 PointNet++ 的开源代码中添加了使用C++、Cuda编写的采样层，分组层，插值层，因此，需要单独编译这几个接口。编译步骤如下：首先，如果是…

人工智能 2023年6月16日
0083
手势识别Python-OpenCV

目录一、选题背景 5二、设计理念 52.1 搭建平台 52.2 问题描述 52.3 过程概述 6三、过程论述 63.1 数据集生成 63.1.1 标准化图片的采集 63.1.2肤色…

人工智能 2023年7月19日
0055
C++基础-2-引用

引用 2.1 引用的基本语法 2.2 引用的注意事项 2.3 引用做函数参数 2.4 引用做函数返回值 2.5 引用的本质 2.6 常量引用参考：《黑马程序员》C++教程 Ori…

人工智能 2023年6月4日
0074
sklearn库安装方法

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具，是机器学习中的常用第三方模块。它建立在 NumPy, SciPy和 Matplotli…

人工智能 2023年7月5日
0056
莫烦Tensorflow学习笔记（10-12）——构建简单的神经网络及其可视化

本笔记基于莫烦python的Tensorflow教程个人认为莫烦大神的视频教程不适合零基础的小白，如果是小白可以先观看李宏毅或者吴恩达的视频或者直接看书。莫烦大神的教程适合对深度…

人工智能 2023年5月25日
0085
毕业设计| 语音识别智能家居制作

智能家居类项目在毕业设计中最为常见，虽然已经到了”烂大街”的程度，但摆正心态，可以加入很多创新点，依然能学到更多知识。系统功能本语音控制的智能家居系统可…

人工智能 2023年5月25日
0072
机器学习笔记 – pytorch + unet + 数据科学碗竞赛医学图像分割

一、数据集概述数据集来自Kaggle网站的2018数据科学碗竞赛。数据科学碗竞赛由 Booz Allen 和 Kaggle 主办的 Data Science Bowl 是全球首…

人工智能 2023年7月22日
0090
C语言从0到1之《三子棋》的实现

🕺作者@启明星使🎃专栏：《数据库》《C语言》🏇分享一句话：沉香：差一点，怎么总是差一点杨戬：一定是练功的时候总是差不多，到了关键的时候就是差一点大家一起加油🏄‍♂️🏄‍♂️🏄‍♂…

人工智能 2023年6月28日
0085
常用的边缘检测滤波器

使用常见的边缘检测滤波器（3 × 3 3\times3 3 ×3）大小，对 fate.jpeg进行图像处理。边缘检测用于检测图像中的线。通常这样提取图像中的信息的操作被称为特征…

人工智能 2023年5月28日
0074
tf的API学习（01）——Keras

tf.keras命名空间的公共API。见一个用一个学一个总结一个 1Functions Input（…）：用于实例化Keras张量。 tf.keras.Input( s…

人工智能 2023年5月25日
0074
【Python 初学者】从零开始构建自己的神经网络

此图为使用神经网络预测猫狗案例。原创：CSDN/知乎：川川菜鸟文章目录 * – 什么是神经网络？ – 训练神经网络 – 前向传播 &#8211…

人工智能 2023年7月30日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识图到文本的生成——伍

大家都在看