pgn model和一些解决oov的方法

2023年5月25日下午1:17 • 人工智能 • 阅读 68

本周主要有面对out of vocabulary时的一些方法，以及对应的pgn模型。

1、当我们面对oov问题出现，往往的解决方法有以下：

01 忽略oov 遇到不认识的词，直接忽略，但是这种方法会严重影响文本摘要的意思。

02 用默认的词代替（unk）但是这种方法会直接造成，摘要内容可读性很差。

03 扩大词表这种方法，从某种程度上可以缓解。但是也会带来计算量大的问题，以及有一些低频词，是不能很好的学习到其中的意思（因为深度学习是基于统计来学习的）。

04 将token分解为char级别的这种虽然在某种程度上解决了oov的问题，但是char之间缺乏语义的信息，所以可读性很差。

05 spell check 这种可以改善因为拼写错误而出现的oov问题，但是没有办法解决本身就不在词典中的词。

06 subword的方法这种利用滑动窗口的方法，可以制造一些词根。但是问题是生成的时候，会产生很多的子词，可读性比较差。

07 Bpe的方法这种方法是基于词频统计的单个字符进行合并，依次将最高的平吕的字符合并为，对应的词根。这种方法，极大的解决了oov的问题。现在的robert和gpt就是采用的这种方法。

08 wordpiece 这种方法是基于字符与字符之间的最大概率计算得到的词根，在一定程度上也缓解了oov问题，但是其主要基于贪心的方法，这种方法会造成局部最优。不是很好的解决方法。现在的bert就是用的这种方法。

09 unigram的方法，这种方法是基于字符之间的损失性计算的,方法很好，但是用起来还很麻烦，目前这个方向上还在努力。

2、pgn模型

pgn模型是基于seq-seq而进行改造，使得遇到oov问题时，可以从原文中抽取内容。也基于coverage的方法，减少重复使用前面token的概率。也可以基于seq-seq的方法生成新的不在原文中的内容。

02 在attention部分做了一些许的改动。将coverage的部分，也引入计算attention。coverage表示的是当前状态之前的累积输入信息权重状态。

而且引入了p-gen，它是衡量当前文字是用原文中抽取还是要选择生成。是用context_vector,dec_code输入，decode_hidden三者通过加权计算，经过sigmoid得到的数值。

然后将输入encode_output和decode_hidden,coerage作用，得到了每个时态下的attention分布。

03 decode部分。通过target的输入token，经过embeding 层，经过gru得到当前序列时态的decode_output和隐层时态decode_hidden。将当前序列的输出与encode阶段得到的context_vector合并，最终得到的向量，经过vocab_size层的作用，得到词频的分布。

04 p-gen作用于attention分布和生成分布，在原文抽取和生成中选择，摘要中文字。

Original: https://blog.csdn.net/weixin_41710583/article/details/117172609
Author: weixin_41710583
Title: pgn model和一些解决oov的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/514292/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MMSegmentation 训练测试全流程

### 回答1： mms egmentat ion_是一个基于 _PyTorch_的 _图像分割_工具包，可以用于 _训练_和 _测试_各种 _图像分割_模型。Cityscapes…

人工智能 2023年7月23日
0045
R语言基于方差分析ANOVA检验模型拟合度（Fit Test）实战：检验同一数据集简单模型和复杂模型的拟合度差异

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0066
Canny边缘检测算法原理

Canny算子是在边缘检测的三个指标和三个准则的基础上发展起来的一种很有效的边缘检测方法三个指标：好的检测好的定位最小响应 3个准则：信噪比准则定位精度准则单边缘响应准则 can…

人工智能 2023年5月26日
0062
Ubuntu22.04与深度学习配置（已搭建三台服务器）

本人在三台Ubuntu22.04服务器上搭建了深度学习环境，现将搭建记录分享给大家！ Ubuntu22.04分区分区为UEFI格式的情况下： 200MB的EFI分区（逻辑分区）（…

人工智能 2023年6月17日
00127
Pandas数据分析2-数据分组、Apply函数、合并

数据分组 import pandas as pd path3 = "E:/kaggle数据/exercise_data/drinks.csv" df3 = pd…

人工智能 2023年7月8日
0084
【Python项目】Python利用神经网络自动生成的“藏头诗”生成器 | 附带源码

相关文件关注小编，私信小编领取哟！当然别忘了一件三连哟~~ 公众号：Python日志可以关注小编公众号，会不定时的发布一下Python小技巧，还有很多资源可以免费领取哟！！源码领…

人工智能 2023年7月14日
0079
电商用户画像标签表制作

`python ## 一、导入模块 #&…

人工智能 2023年7月9日
0072
基于树莓派和opencv实现人脸识别

基于树莓派和opencv实现人脸识别源码我放在github上了https://github.com/FjnuThomas/-opencv-各位哥哥姐姐clone代码别忘了给个小心…

人工智能 2023年7月19日
0091
R语言：商业数据分析实例（4）【总结篇，回归】

适用于有一定基础的初学者。内容为实战。本章节的内容围绕客户需求延伸，具体方案因人而异。欢迎大家在评论区提出不同的方案。使用到的数据：链接： https://pan.baidu….

人工智能 2023年6月16日
0087
Python每日一练（牛客数据分析篇新题库）——第29天：数据索引

文章目录 1. 修改属性1 2. 修改属性2 3. 重载运算《100天精通Python》专栏推荐白嫖80g Python全栈视频修改属性1 描述：请为牛客网的员工创建一个Em…

人工智能 2023年7月16日
0088
【PyTorch深度学习项目实战100例】—— 基于LSTM + 注意力机制（self-attention）进行天气变化的时间序列预测 | 第35例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年7月25日
0073
ARIMA模型时间序列数据分析（附python代码）

ARIMA模型建模流程建模流程 1 ）平稳性检验与差分处理我们选取原始数据bus 中的”prf_get_person_count “列，并截取前32 个…

人工智能 2023年7月17日
0061
YOLOv5训练自己的数据集(超详细)

目录一、准备深度学习环境二、准备自己的数据集 1、创建数据集 2、转换数据格式 3、配置文件三、模型训练 1、下载预训练模型 2、训练四、模型测试五、模型推理 YOLO…

人工智能 2023年6月16日
00144
R语言使用GGally包的ggpairs函数可视化变量相关性分析图：包含散点图、密度图、柱状图、箱图等、并自定义数据点的大小

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月15日
00116
Python实现哈希表（分离链接法）

构建简单的哈希表（字典对象）一、python实现哈希表只使用list，构建简单的哈希表（字典对象）不使用字典构造的分离连接法版哈希表 class HashList(): &q…

人工智能 2023年6月4日
0082
对比学习和度量学习loss的理解

度量学习和对比学习的思想是一样的，都是去拉近相似的样本，推开不相似的样本。但是对比学习是无监督或者自监督学习方法，而度量学习一般为有监督学习方法。而且对比学习在 loss 设计时，…

人工智能 2023年5月27日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pgn model和一些解决oov的方法

大家都在看