【踩坑记录】OpenPrompt工具包如何使用？

2023年5月27日下午9:32 • 人工智能 • 阅读 136

家人们，泪目啊！整整弄了好几个小时，终于是跑起来了，跑起来了啊家人们，一起看看我踩过了哪些坑吧。关于Prompt的介绍可以看博主的另外两篇文章：
简明扼要：红到发紫的prompt是什么？【上】
详细介绍：红到发紫的Prompt是什么？【下】

*
– 介绍
– 安装
– 运行
–
+ 小demo
+ cannot import name ‘load_dataset’
+ 下载数据集
– demo详解
–
+ 第一步：确定NLP任务
+ 第二步：确定预训练语言模型
+ 第三步：定义模板
+ 第四步：答案映射
+ 第五步：构造PromptModel
+ 第六步:构造PromptDataLoader
+ 第七步：零样本预测

; 介绍

OpemPromt是一个清华大学提出的专门针对第四范式开发的工具。PromptModel和PromptDataset是用来与pytorch兼容的两个数据结构。PLMs与Tokenizer支持调用和管理各种各样的预处理语言模型。Template是Prompt的特色，该工具提供了很多可供选择的模板。Dataset支持跨不同NLP任务数据集的使用。

总而言之：OpenPrompt 提供一套完整的 Prompt Learning Pipeline，而其中每个 class 都继承了 torch 的类或者 huggingface 的类来实现，完美兼容最流行的深度学习框架和最流行的预训练模型框架，在代码风格和 pipeline 设计上也是完美贴合 huggingface 框架，让研究者可以以最少的学习成本上手和修改。

读者可以通过下面的参考资料和文献详细了解这个工具，本篇文章仅重点记录如何使用这个工具。

链接：https://github.com/thunlp/OpenPrompt
论文https://arxiv.org/abs/2111.01998
官方文档：https://thunlp.github.io/OpenPrompt/

安装

官方提供了两种安装方式，博主使用的是git方式

git clone https://github.com/thunlp/OpenPrompt.git
cd OpenPrompt
python setup.py install

此处有一个小坑，上面这三行命令是官方文档中的教程，相比于git中的readme中少了一行

pip install -r requirements.txt

requirements.txt里面记录的是一部分需要安装的工具包，刚开始我只是扫了一眼，发现有很多我已经安装过的包（比如torch，tansformers等），所以抱着偷懒的心态没有执行这一条命令，导致后面不停地找补🥺（频繁报错：no module），建议有条件的读者直接依次运行下面四行命令安装：

git clone https://github.com/thunlp/OpenPrompt.git
cd OpenPrompt
pip install -r requirements.txt
python setup.py install

运行

小demo

下载好之后可以打开tutorial文件夹中的脚本进行学习，不过，对我这种小白来说，还是不愿意直接看太长的例子，所以打算从官方文档中的sample入手。根目录下新建一个py文件


import torch
from openprompt.data_utils import InputExample
classes = [
    "negative",
    "positive"
]
dataset = [

    InputExample(
        guid = 0,
        text_a = "Albert Einstein was one of the greatest intellects of his time.",
    ),
    InputExample(
        guid = 1,
        text_a = "The film was badly made.",
    ),
]

from openprompt.plms import load_plm
plm, tokenizer, model_config, WrapperClass = load_plm("bert", "bert-base-cased")

from openprompt.prompts import ManualTemplate
promptTemplate = ManualTemplate(
    text = '{"placeholder":"text_a"} It was {"mask"}',
    tokenizer = tokenizer,
)

from openprompt.prompts import ManualVerbalizer
promptVerbalizer = ManualVerbalizer(
    classes = classes,
    label_words = {
        "negative": ["bad"],
        "positive": ["good", "wonderful", "great"],
    },
    tokenizer = tokenizer,
)

from openprompt import PromptForClassification
promptModel = PromptForClassification(
    template = promptTemplate,
    plm = plm,
    verbalizer = promptVerbalizer,
)

from openprompt import PromptDataLoader

data_loader = PromptDataLoader(
    dataset=dataset,
    tokenizer=tokenizer,
    template=promptTemplate,
    tokenizer_wrapper_class=WrapperClass,
)

promptModel.eval()
with torch.no_grad():
    for batch in data_loader:
        logits = promptModel(batch)
        preds = torch.argmax(logits, dim=-1)
        print(classes[preds])

右键运行这个脚本，有可能此时还是会报错，根据提示，缺什么就pip install什么（由于前一步的偷懒，我感觉我至少pip了十几次😅）。直到控制台成功预测出标签，说明上面的demo运行成功。

cannot import name ‘load_dataset’

我想重点记录一下这个报错，提醒自己不要偷懒。根据控制台的提示可以发现，这是由于某些脚本中某一句import报红导致的错误：

from datasets import load_dataset

看到这个datasets，我理所当然地认为是在OpenPrompt\datasets这个文件夹下引入load_dataset，尝试了很多办法，完全没找到datasets中有任何py脚本，因为这个问题浪费了很多时间，后来才发现，requirements.txt中有提示需要安装datasets这个包，这就说明上述import的是需要安装的外部包，并不是项目里面现存的包，只是作者取了相同的名字而已😭。只需要pip一下就完事儿了。

pip install datasets

下载数据集

datasets文件夹中有各种sh文件，里面存储的是下载实验数据的shell脚本，根据需要，读者可以选择自己想要的数据集进行下载。因为我的电脑是windows，在pycharm中执行这些脚本会更加方便。参考这篇博客：https://blog.csdn.net/weixin_43897187/article/details/118406368
解决了直接用pycharm运行shell的问题。设置完成之后，我的shell path是这样的：

如果不记得自己的git安装目录在哪里，在cmd中输出 where git 既可以看到了（保姆级别的教程了有没有！）
继续尝试运行shell脚本，可能会报错：wget：command not found

参考这篇博客：https://blog.csdn.net/u013810234/article/details/104408009完美解决。运行shell脚本就可以看到数据集已经被下载下来了。
【踩坑记录】OpenPrompt工具包如何使用？

; demo详解

既然已经可以跑通了，那么我们一起来看一下官方给的小小demo都有哪些值得学习的地方吧🥳~

第一步：确定NLP任务

确定NLP任务也就是需要确定输出标签以及数据集。这里的输出标签指的是下游任务的输出，也就是y。本例只有两个类别，表示情感正向的positive，和情感负向的negative。


import torch
from openprompt.data_utils import InputExample

classes = [
    "negative",
    "positive"
]

dataset = [
    InputExample(
        guid = 0,
        text_a = "Albert Einstein was one of the greatest intellects of his time.",
    ),
    InputExample(
        guid = 1,
        text_a = "The film was badly made.",
    ),
    InputExample(
        guid = 2,
        text_a = "That is wonderful.",
    ),
]

这个小demo没有从外部加载数据集，这是简单构造了一个测试句子。对于一个正常的流程，需要从外部加载训练测试集和测试集。

第二步：确定预训练语言模型

这里加载的是一个训练好的bert语言模型，这也是为什么上一步只有测试数据没有训练数据的原因。


from openprompt.plms import load_plm
plm, tokenizer, model_config, WrapperClass = load_plm("bert", "bert-base-cased")

第三步：定义模板

这一块对应就是模板工程中的问题了，本例采用的格式是 [x],It was [Z]，x对应代码中的text_a，应填入输入语句。Z对于mask，是LM的预测结果。


from openprompt.prompts import ManualTemplate
promptTemplate = ManualTemplate(
    text = '{"placeholder":"text_a"} It was {"mask"}',
    tokenizer = tokenizer,
)

第四步：答案映射

这一块对应的是答案工程，在这个例子中把消极类投射到单词bad，把积极类投射到单词good, wonderful, great。


from openprompt.prompts import ManualVerbalizer
promptVerbalizer = ManualVerbalizer(
    classes = classes,
    label_words = {
        "negative": ["bad"],
        "positive": ["good", "wonderful", "great"],
    },
    tokenizer = tokenizer,
)

第五步：构造PromptModel

promptModel有三个对象，分别是：PLM,Prompt,Verbalizer，分别对应Prompt研究重点中的这三个部分：


from openprompt import PromptForClassification
promptModel = PromptForClassification(
    template = promptTemplate,
    plm = plm,
    verbalizer = promptVerbalizer,
)

第六步:构造PromptDataLoader

与数据加载和数据处理有关


from openprompt import PromptDataLoader

data_loader = PromptDataLoader(
    dataset=dataset,
    tokenizer=tokenizer,
    template=promptTemplate,
    tokenizer_wrapper_class=WrapperClass,
)

第七步：零样本预测

在上述过程中，没有用任何训练数据对Bert进行调整，就实现了零样本的情感分类。只需要将Model处理为PromptModel，DataLoader处理为PromptDataLoader 就可以向基于Pytorch的其他机器学习一样完成训练和测试。


promptModel.eval()
with torch.no_grad():
    for batch in data_loader:
        logits = promptModel(batch)
        preds = torch.argmax(logits, dim=-1)
        print(classes[preds])

Original: https://blog.csdn.net/qq_39328436/article/details/121744344
Author: vector<>
Title: 【踩坑记录】OpenPrompt工具包如何使用？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527793/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像处理——几种简单的旋转变换的不详细推导过程（不同坐标系的变换）（二）

图像处理——几种简单的旋转变换的不详细推导过程（不同坐标系的变换）（二） * – 一、绕原点的旋转（二维） – 二、绕任意点的旋转（二维） – …

人工智能 2023年6月22日
0099
基于Avaya H323 IP录音系统的解决方案

1)支持数字、模拟、VOP等多种录音方式,支持分布式管理。 2)支持多种录音模式,可以在交换机前端录音,也可以在后端坐席录音 3)支持多通道录音,可以同时启动多个通道,对通话进行录…

人工智能 2023年5月23日
0076
分类问题的评价指标

符号含义TP将正类预测为正类FN将正类预测为负类FP将负类预测为正类TN将负类预测为负类实际为正实际为负 TP真正例FP假正例 FN假负例TN真负例 P(positive) 和 …

人工智能 2023年7月2日
0082
多线激光雷达+imu的gazebo仿真

多线激光雷达+imu的gazebo仿真前言：在做2D/3D slam的课题研究时，往往我们手里头没有昂贵的多线激光雷达和惯性传感器，ros提供了相应的传感器插件，通过插件可以在物…

人工智能 2023年6月16日
00131
【路径规划】第一周：路径规划开源代码汇总(ROS) 版本

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0069
知识抽取实现方案——实体抽取

参考地址：知识抽取-实体及关系抽取 – 知乎目录摘要：实体抽取：标准实现流程（用机器学习方法）编码方式深度学习方法评价指标实体链接摘要：知识抽取涉及…

人工智能 2023年6月1日
0097
OpenCV（2）——基本图像处理

函数接口： cv2.cvtColor(存储彩色图&#x50CF…

人工智能 2023年6月22日
00142
计算机视觉图像处理Opencv基础知识（附详解代码）上

计算机视觉图像处理Opencv基础知识 (附详解代码)上此部分内容为在学习唐宇迪老师课程中，自己微调后部分知识以及代码，想更多了解移步唐老师课程。* 计算机视觉图像处理Openc…

人工智能 2023年6月22日
0095
数据可视化 – Streamlit实现页面组件交互与展示（以K-Means为例）

一、简介本人数据分析小白，最近接触到了Streamlit这个组件，发现真的很好用！尤其是它提供的交互功能，可以让很多数据分析的结果清晰直观地展现在页面上，比起手动修改参数，一遍一…

人工智能 2023年6月16日
00165
【渝粤教育】国家开放大学2018年春季 0008-22T简明现代汉语参考试题

试卷编号：0008 座位号 2017—2018学年度第二学期期末考试简明现代汉语试题（开卷）2018年7月 1.普通话里阴平的调值是。2．词义除了有理性义，还可以有义。3．语…

人工智能 2023年5月25日
0077
Pandas 1.2：Pandas基础数据操作

目录 1. 索引操作 2. 赋值操作 3. 排序测试数据：test.csv 读取文件并将第一列设为索引： data = pd.read_csv("F:/test.csv…

人工智能 2023年7月6日
0073
电脑分屏没有声音_怎样解决qq屏幕分享没有声音问题

我们经常会使用qq来进行屏幕分享，有时会出现没有声音和黑屏的问题，这时我们应该怎么去解决呢?下面就让学习啦小编告诉你解决qq屏幕分享没有声音的方法，希望对大家有所帮助。解决qq屏…

人工智能 2023年5月27日
00277
（六）多项式回归

文章目录前言 1. 一个例子 2. 多项式回归模型 3. 代码实现前言这篇文章介绍多项式回归。一个例子线性回归可以很好地拟合线性分布的数据，但是对于非线性的数据却派不上…

人工智能 2023年6月13日
0092
（2014）Glove:Global Vectors for Word Representation

基于全局信息的单词向量表示 Abstract * Introduction Related Work Abstract 1、目前词向量学习模型能够成功的使用算术计算（词向量的加、减…

人工智能 2023年6月2日
0090
Python：结合列表和字典，编写一个简单的学生成绩管理系统

本次主要使用新学的列表和字典，结合定义函数等知识点，成功编写了一个简单的学生成绩管理系统。实现了在系统内使用学生的姓名或者学号，即可实现显示、添加、删除、修改、查找(增删改查)、成…

人工智能 2023年7月6日
00139
目标检测: 一文读懂 Mosaic 数据增强

前言在 Yolo-V4、 Yolo-V5中，都有一个很重要的技巧，就是 Mosaic数据增强，这种数据增强方式简单来说就是把4张图片，通过随机缩放、随机裁减、随机排布的方式进行拼…

人工智能 2023年6月17日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31