基于Prompt的MLM文本分类

2023年5月30日下午9:25 • 人工智能 • 阅读 83

简介

常规NLP做文本分类时常用Transfer Learning的方式，在预训练bert上加一个分类层，哪个输出节点概率最大则划分到哪一类别。而基于Prompt的MLM文本分类是将文本分类任务转化为MLM（ Masked Language Modeling）任务，通过[MASK]位置的输出来判断类别。
例如通过文本描述判定天气好坏，类别【好、坏】：

常规方式：今天阳光明媚！【好】
基于Prompt的MLM：天气[MASK]，今天阳光明媚！【天气好，今天阳光明媚！】

Prompt的设定可以有多种方式设定，手写Prompt 、自动离散Prompt、自动连续 P-Tuning，自行查找论文

实验

先手写Prompt做个实验：
就以上面👆例子中的Prompt，” 天气[MASK]+带分类文本”

import os
import logging
import datasets
import transformers
import numpy as np
from sklearn import metrics
from datasets import Dataset
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from transformers import Trainer, TrainingArguments, BertTokenizer, BertForMaskedLM

os.environ['CUDA_VISIBLE_DEVICES'] = '4'
transformers.set_seed(1)
logging.basicConfig(level=logging.INFO)

class LecCallTag():

    def data_show(self, data_file):
        with open(data_file, 'r', encoding='utf-8') as f:
            data = f.readlines()
        logging.info("获取数据：%s" % len(data))
        tags_data_dict = {}
        for line in data:
            text_label = line.strip().split('\t')
            if text_label[1] in tags_data_dict:
                tags_data_dict[text_label[1]].append(text_label[0])
            else:
                tags_data_dict[text_label[1]] = [text_label[0]]
        logging.info("其中，各分类数量：")
        for k, v in tags_data_dict.items():
            logging.info("%s: %s" % (k, len(v)))
        return tags_data_dict

    def data_process(self, data_file):
        with open(data_file, 'r', encoding='utf-8') as f:
            data = [line.strip().split('\t') for line in f.readlines()]
        text = ['天气[MASK]，'+_[0] for _ in data]
        label = ['天气'+_[1]+','+_[0] for _ in data]
        return text, label

    def create_model_tokenizer(self, model_name, n_label=0):
        tokenizer = BertTokenizer.from_pretrained(model_name)
        model = BertForMaskedLM.from_pretrained(model_name)
        return tokenizer, model

    def create_dataset(self, text, label, tokenizer, max_len):
        X_train, X_test, Y_train, Y_test = train_test_split(text, label, test_size=0.2, random_state=1)
        logging.info('训练集：%s条，\n测试集：%s条' %(len(X_train), len(X_test)))
        train_dict = {'text': X_train, 'label_text': Y_train}
        test_dict = {'text': X_test, 'label_text': Y_test}
        train_dataset = Dataset.from_dict(train_dict)
        test_dataset = Dataset.from_dict(test_dict)
        def preprocess_function(examples):
            text_token = tokenizer(examples['text'], padding=True,truncation=True, max_length=max_len)
            text_token['labels'] = np.array(tokenizer(examples['label_text'], padding=True,truncation=True, max_length=max_len)["input_ids"])
            return text_token
        train_dataset = train_dataset.map(preprocess_function, batched=True)
        test_dataset = test_dataset.map(preprocess_function, batched=True)
        return train_dataset, test_dataset

    def create_trainer(self, model, train_dataset, test_dataset, checkpoint_dir, batch_size):
        args = TrainingArguments(
            checkpoint_dir,
            evaluation_strategy = "epoch",
            learning_rate=2e-5,
            per_device_train_batch_size=batch_size,
            per_device_eval_batch_size=batch_size,
            num_train_epochs=15,
            weight_decay=0.01,
            load_best_model_at_end=True,
            metric_for_best_model='accuracy',
        )
        def compute_metrics(pred):
            labels = pred.label_ids[:, 3]
            preds = pred.predictions[:, 3].argmax(-1)
            precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average='weighted')
            acc = accuracy_score(labels, preds)
            return {'accuracy': acc, 'f1': f1, 'precision': precision, 'recall': recall}
        trainer = Trainer(
            model,
            args,
            train_dataset=train_dataset,
            eval_dataset=test_dataset,

            compute_metrics=compute_metrics
        )
        return trainer

def main():
    lct = LecCallTag()
    data_file = '/data.txt'
    checkpoint_dir = "/checkpoint/"
    batch_size = 16
    max_len = 64
    n_label = 3
    tags_data = lct.data_show(data_file)
    text, label = lct.data_process(data_file)
    tokenizer, model = lct.create_model_tokenizer("bert-base-chinese")
    train_dataset, test_dataset = lct.create_dataset(text, label, tokenizer, max_len)
    trainer = lct.create_trainer(model, train_dataset, test_dataset, checkpoint_dir, batch_size)
    trainer.train()

if __name__ == '__main__':
    main()

实验结果

在实验数据集（自建、小样本500条）上
常规做bert-finetuning文本分类的结果：acc为84%,f1为83%
基于Prompt的MLM文本分类结果：acc为87%,f1为86%
修改Prompt，评测结果会浮动，可参考Prompt的设定方式继续优化效果

注

在分类文本前添加提示语，如将”今天阳关明媚！”变为”天气，今天阳光明媚！”在小样本下也可以使准确率提升！

Original: https://blog.csdn.net/u013546508/article/details/115358833
Author: SUN_SU3
Title: 基于Prompt的MLM文本分类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545195/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MMDetection框架入门教程（完全版）

网上MMDetection的教程看似有很多，但感觉都不成系统，看完一圈下来还是不知道MMDetection要怎么用。这里还是推荐直接跟着官方教程，结合源码学习MMDetection…

人工智能 2023年6月16日
00115
【机器学习技巧】-训练过程中，loss参数出现NAN怎么解决？解决方案汇总？

一、背景因为最近在搞毕设，借用交友网站上的yolov5开源代码训练自己的数据集时，第一个epoch就显示各个loss=nan。而后，近乎绝望的我找到一个玩计算机视觉玩得不错的U…

人工智能 2023年6月16日
00122
论文阅读：《Compositional Attention Networks for Machine Reasoning》

标题：机器推理的合成注意网络来源：ICLR 2018 https://arxiv.org/abs/1803.03067代码：https://github.com/stanfordn…

人工智能 2023年6月4日
0098
MATLAB实现智能计算方法实验：实验四 RBF神经网络

资源链接 MATLAB实现智能计算方法课程所有实验代码资源链接为：MATLAB实现智能计算方法课程所有实验代码资源实验汇总 MATLAB实现智能计算方法课程所有实验汇总博客链接为…

人工智能 2023年6月15日
0086
拉普拉斯Laplace算子和高斯二阶导核（LOG算子）和SIFT算法

前置知识边缘检测：图像边缘的强度（边缘线的清晰度）由图像的梯度的强度决定，因为梯度值越强，说明x轴、y轴的像素点变化越快，所以该点处越可能是边缘。边缘和梯度方向是垂直的。举个例子…

人工智能 2023年6月18日
00139
遇到‘nvcc‘ 不是内部或外部命令,也不是可运行的程序或批处理文件怎么办？亲测有效

这段时间初学深度学习，安装CUDA和cuDNN遇到一个问题，如下但是通过nvidia-smi检查了显卡驱动没问题，如下并且在C:\Program Files\NVIDIA GP…

人工智能 2023年6月16日
00107
手动绘制R语言Logistic回归模型的外部验证校准曲线（Calibration curve）（2）

校准曲线图表示的是预测值和实际值的差距，作为预测模型的重要部分，目前很多函数能绘制校准曲线。一般分为两种，一种是通过Hosmer-Lemeshow检验，把P值分为10等分，求出每等…

人工智能 2023年6月16日
0098
【综述寿命预测】基于机器学习的设备剩余寿命预测方法综述

论文题目:基于机器学习的设备剩余寿命预测方法综述论文年份:2019论文作者:裴洪/胡昌华/司小胜/张建勋/庞哲楠/张鹏论文单位:火箭军工程大学导弹工程学院DOI:10.3901/J…

人工智能 2023年6月15日
0085
drift）问题

问题描述对于无人驾驶汽车或飞行器等自主移动设备来说，精确的定位和导航是非常重要的。然而，在实际应用中，由于多种原因（如传感器误差、环境变化等），车辆或飞行器可能会产生偏离期望路径…

人工智能 2024年1月4日
0064
（九）逻辑回归多分类应用

逻辑回归（Logistics Regression）属于分类算法，最适合解决二分类问题，也可以解决多分类问题，下面两个例子都是解决多分类的应用一、鸢尾花案例 import num…

人工智能 2023年7月3日
0084
【R语言】logistic回归（二）多因素logistic回归

文章目录前言一、多因素logistic回归分析 * 1. 数据准备 2. 回归分析前言 logistic回归分析是医学统计分析过程中常用的一种影响因素分析的方法，最常用的是二…

人工智能 2023年6月16日
00134
深度学习（PyTorch）——flatten函数的用法及其与reshape函数的区别

Flatten层用来将输入”压平”，即把多维的输入一维化，常用在从卷积层到全连接层的过渡。Flatten不影响batch的大小。就是把高纬度的数组按照ｘ…

人工智能 2023年7月21日
0079
【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2）））

【神经网络与深度学习-TensorFlow实践】-中国大学MOOC课程（十三）（人工神经网络（2））） 13 人工神经网络（2） * 13.1 小批量梯度下降法 – 1…

人工智能 2023年5月26日
00114
金融风控数据分析

一、信贷底层库表详解与数据集市构建 1.信贷业务底层数据核心库表穿透式详解 1）客户信息表结构与数据（customer_info）客户信息表是根据客户在前端申请信贷产品时主动填写…

人工智能 2023年7月15日
00106
如何用最短时间学会数据分析？

零基础，想学习数据分析的朋友，往往有如下困惑：网上资料一大堆，完全零基础，从哪开始入手懒癌晚期，无法坚持完成学习生活压力太大，想尽快学会数据分析，提升竞争力经常遇到问题，自己研…

人工智能 2023年6月11日
00114
人工智能AI 生成的艺术：从文本到图像

人工智能生成艺术简史首先，让我们把事情弄清楚一点。”人工智能与艺术”一般可以从两个方面来理解：人工智能在分析现有艺术的过程中人工智能在创造新艺术的过程…

人工智能 2023年6月25日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Prompt的MLM文本分类

简介

实验

实验结果

注

大家都在看