uie模型微调个人总结

2023年7月27日下午8:50 • 人工智能 • 阅读 54

技巧：

六月三十号补充，uie处理3000字的政策文件要占用12G左右的内存，uie处理一万字的文件时运行巅峰要占用28G左右内存，各位部署时，注意out of memory的错误，对应万字的超长文本目前只有加内存的解决方案。

六月二十七号补充，uie的schema定义时尽量一个schema的长度低于7个字，不然有很大概率，模型识别的效果很差，如图：”执行标准”有一个比较好的抽取效果，”文件执行范围和标准”就完全抽不出来，当然我doccano标注数据的schema也是和不同schema之间保持一致的。

为什么能不固定prompt?

传统Prompt模板各有不同，应对少样本能力不一样

UIE用大量数据固定了prompt的构造方式，就是条件加上抽取标签，所以有不固定的特点

标签其实模型压根都没见过，模型照样能看出来

Prompt技巧

1.与原文越相似越好抽

2.尽量符合常识

3.标注的样本尽量要短

训练技巧：

1.预测可以将batch_size设置为2或者更高来提高预测效率

2.uie-tiny 和base效果差距不大，但性能提高巨大

3.需要负样本的

环境配置：

只需要一个paddlepaddle，安装最新版即可，会自动给你安装许多相关包，

openAI尽量不要装在同一个环境，会改变numpy版本导致paddlepaddle不可用

csdn:

pip install paddlepaddle 报错 command ‘/usr/bin/gcc’ failed with exit code 1 或 command ‘gcc’ 报错_听雨江南牛的博客-CSDN博客

语料标注：

到目前五月二十四号，doccano已经更新到1.7.0版本，导出已经没有标注消失的问题，但是我手头数据有很多重复数据，我没有二次标注，doccano会以标注空的形式继续导出，但我更希望它忽视掉这些数据，不要导出，我依旧采用程序形式导出

csdn:

doccano标注完后，标注消失问题_听雨江南牛的博客-CSDN博客

项目部署和参数调整

最无脑的环节，全程跟着readme一步步向下执行就可以了，

需要改动一下数据路径：

另外需要改动模型保存和加载的路径，

需要改动用6层的uie-tiny模型，还是调用12层的uie-base，uie-tiny和uie-base效果基本没有差别，但是预测效率高很多，建议uie-tiny

必须改动的：
doccano中的：
       doccano_file  从doccano导出的数据标注文件
       save_dir: 训练数据的保存目录，默认存储在data目录下

finetune中的：
       train_path: 训练集文件路径。
       dev_path: 验证集文件路径。
       save_dir: 模型存储路径，默认为. / checkpoint
</code></pre>
<pre><code>可选的：
doccano中的：
       negative_ratio: 负样本与正样本的比例，该参数只对抽取类型任务有效。使用负样本策略可提升模型效果，负样本数量 = negative_ratio * 正样本数量。
       splits: 划分数据集时训练集、验证集所占的比例。默认为[0.8, 0.1, 0.1]
       is_shuffle: 是否对数据集进行随机打散，默认为True

finetune中的：
       learning_rate: 学习率，默认为1e - 5。
       batch_size: 批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数，默认为16。
       max_seq_len: 文本最大切分长度，输入超过最大长度时会对输入文本进行自动切分，默认为512。
       num_epochs: 训练轮数，默认为100。
       device: 选用什么设备进行训练，可选cpu或gpu。
       model`: 选择模型，程序会基于选择的模型进行模型微调

测试结果在gitee中

不公开，但是94条数据训练完想抽的基本都能抽出来

Original: https://blog.csdn.net/qq_44497995/article/details/124948225
Author: 听雨江南牛
Title: uie模型微调个人总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/719119/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

银行全面数字化：看本质、抓关键、建平台

数据经济时代，数字化转型浪潮滚滚而来，各大银行也开始了全面的数字化转型。然而，由于业务复杂、数据庞大、精细度要求高，对于数据的应用存在难题。如何从内而外进行全面数字化？可以看看这个…

人工智能 2023年7月16日
0051
MXNe

问题背景介绍 MXNet是一个基于深度学习的开源框架，MXNe是MXNet中的一个问题，是指求解非线性等式约束最小化问题。在本文中，我们将详细介绍MXNe问题的算法原理、公式推导、…

人工智能 2023年12月31日
0038
Windows内核–内核汇编代码赏析: Rtl memory系列函数(3.3.1)

找不到memcpy源代码? RtlXXXMemory宏和mem* 搜索WRK源代码，找不到memxxx相关函数的源代码。它们在如下prebuilt lib库中。 IDA工具查找nt…

人工智能 2023年6月27日
0078
裂缝检测专题（3）裂缝数据集dataset总结1-分类

裂缝检测技术-基于图像处理 * – 用于裂缝分类用于裂缝分类 Concrete Crack Images for Classification 像素值：227&#21…

人工智能 2023年6月18日
0059
python数据分析之pandas数据清洗（数据查看、空值的处理）

文章目录 * – 一、准备工作（导入数据） – 二、数据查看 – + 1、查看数据表的基本信息 + 2、空值的与缺失值概念（NAN、NAT） +…

人工智能 2023年7月6日
0058
spss分析方法-回归分析

回归分析是研究一个因变量与一个或多个自变量之间的线性或非线性关系的一种统计分析方法。下面我们主要从下面四个方面来解说：实际应用理论思想建立模型 *分析结果一、实际应用回归…

人工智能 2023年6月13日
0088
pandas实现筛选功能方式

1 筛选出数据的指定几行数据 data=df.loc[2:5] #这里的[2:5]表&amp…

人工智能 2023年6月15日
0081
简单分类算法

求解类别条件概率：x为一个待分类项，a k a_k a k 是x的第k个特征属性，假设这些属性相互独立 P ( x ∣ c i ) = P ( a 0 ∣ c i ) P ( a…

人工智能 2023年7月2日
0045
目标检测（二）传统目标检测与识别的特征提取——基于Haar-like特征的Viola Jones检测原理

目录简介积分图训练最优弱分类器训练强分类器强分类器级联分类器简介 Viola Jones检测器由三个核心步骤组成，即Haar-like特征和积分图、Adaboost分…

人工智能 2023年7月12日
0054
【十问十答】回归模型知识点

线性回归有四个假设：线性：自变量（x）和因变量（y）之间应该存在线性关系，这意味着x值的变化也应该在相同方向上改变y值。独立性：特征应该相互独立，这意味着最小的多重共线性。正…

人工智能 2023年6月28日
0080
Pytorch Softmax用法

Pytorch Softmax用法 pytorch中的softmax主要存在于两个包中分别是：torch.nn.Softmax(dim=None)torch.nn.function…

人工智能 2023年7月21日
0048
浅淡ConvMixer （Pytorch and Keras）

文章目录前言一、什么是ConvMixer？ * 1.网络结构图：二、实现步骤 * 1.Pytorch实现 2.keras实现总结前言卷积神经网络已经占据计算机视觉任务多…

人工智能 2023年7月13日
0054
自然语言处理（NLP）入门——预训练模型

ELMo和GPT认识 ELMO模型本质: Embeddings from Language Models. 解决的问题: 多义词的问题结构图最下层是embedding层中间…

人工智能 2023年5月30日
0070
python微信公众号自动推送（十分简单的教程）

目录一、注册微信公众号 1.注册链接 2.登录成功 3.关注该公众号 4.创建模板二、代码实现 1.爬取天气信息 2.计算生日天数 3.获取access token 4.获取关…

人工智能 2023年7月4日
0060
[EMNLP21-findings] BERT might be Overkill: Biomedical Entity Linker based on ResCNN 阅读笔记

BERT might be Overkill: A Tiny but Effective Biomedical Entity Linker based on Residual Co…

人工智能 2023年5月31日
0070
2021-2027全球与中国高质量语音市场现状及未来发展趋势

2021-2027全球与中国高质量语音市场现状及未来发展趋势高清晰度（HD）语音（也称为宽带语音）是一种音频技术，旨在以更高的采样率在更宽的频率范围内传输音频。从而能够提供更好…

人工智能 2023年5月25日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

uie模型微调个人总结

为什么能不固定prompt?

Prompt技巧

训练技巧：

大家都在看