simpletransformers的 single sentence classification和sentence pair classification

2023年5月28日下午12:51 • 大数据 • 阅读 80

1. 导入相关模块

import warnings
warnings.simplefilter('ignore')

import gc
import os

import numpy as np
import pandas as pd

from sklearn.model_selection import StratifiedKFold

from simpletransformers.classification import ClassificationModel, ClassificationArgs

os.environ["CUDA_DEVICE_ORDER"]="PCI_BUS_ID"
os.environ['CUDA_VISIBLE_DEVICES'] = '3'

2. 读取数据，并处理空值


train = pd.read_csv('data/train.csv')
test = pd.read_csv('data/test.csv')

train['content'].fillna('', inplace=True)
test['content'].fillna('', inplace=True)

3. 设置模型的参数

TransformerModel具有dict参数，其中包含许多属性，这些属性提供对超参数的控制。

def get_model_args():
    model_args = ClassificationArgs()
    model_args.max_seq_length = 32
    model_args.train_batch_size = 16
    model_args.num_train_epochs = 1
    model_args.sliding_window=True
    model_args.evaluate_during_training = True
    model_args.evaluate_during_training_verbose = True
    model_args.fp16 = False
    model_args.no_save = True
    model_args.save_steps = -1
    model_args.overwrite_output_dir = True
    model_args.output_dir = dir
    return model_args

4. single sentence classification 交叉验证训练模型

model = ClassificationModel(
    "roberta", "roberta-base"
)

model = ClassificationModel(
    "bert", "KB/bert-base-swedish-cased"
)

outputs/best_model为本地保存模型的路径。

model = ClassificationModel(
    "bert", "outputs/best_model"
)

oof = []
prediction = test[['id']]
prediction['bert_pred'] = 0

n_folds = 3
kfold = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=2021)
for fold_id, (trn_idx, val_idx) in enumerate(kfold.split(train, train['label'])):
    train_df = train.iloc[trn_idx][['content', 'label']]
    valid_df = train.iloc[val_idx][['content', 'label']]
    train_df.columns = ['text', 'label']
    valid_df.columns = ['text', 'label']

    model_args = get_model_args()
    model = ClassificationModel('bert',
                                'hfl/chinese-roberta-wwm-ext',
                                args=model_args)
    model.train_model(train_df, eval_df=valid_df)

    _, vaild_outputs, _  = model.eval_model(valid_df)

    df_oof = train.iloc[val_idx][['id', 'label']].copy()
    df_oof['bert_pred'] = vaild_outputs[:,1]
    oof.append(df_oof)

    print('predict')
    _, test_outputs = model.predict([text for text in test['content']])
    prediction['bert_pred'] += test_outputs[:, 1] / kfold.n_splits

    del model, train_df, valid_df, vaild_outputs, test_outputs
    gc.collect()

不同任务所对应的模型

TaskModelBinary and multi-class text classification

Conversational AI (chatbot training)

Language generation

Language model training/fine-tuning

Multi-label text classification

Multi-modal classification (text and image data combined)

Named entity recognition

Question answering

Regression

Sentence-pair classification

Text Representation Generation

Document Retrieval

df_oof = pd.concat(oof)
df_oof = df_oof.sort_values(by='id')
df_oof.head(10)

df_oof[['id', 'bert_pred']].to_csv('roberta_pred_oof.csv', index=False)
prediction[['id', 'bert_pred']].to_csv('roberta_pred_test.csv', index=False)

5. sentence pair classification 交叉验证训练模型

def get_model_args():
    model_args = ClassificationArgs()
    model_args.max_seq_length = 32
    model_args.train_batch_size = 16
    model_args.num_train_epochs = 1
    model_args.sliding_window=True
    model_args.evaluate_during_training = True
    model_args.evaluate_during_training_verbose = True
    model_args.fp16 = False
    model_args.no_save = True
    model_args.save_steps = -1
    model_args.overwrite_output_dir = True
    model_args.output_dir = dir
    return model_args

oof = []
prediction = test[['id']]
prediction['bert_pred'] = 0

n_folds = 3
kfold = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=2021)
for fold_id, (trn_idx, val_idx) in enumerate(kfold.split(train, train['label'])):
    train_df = train.iloc[trn_idx][['level_4', 'content', 'label']]
    valid_df = train.iloc[val_idx][['level_4', 'content', 'label']]
    train_df.columns = ['text_a', 'text_b', 'label']
    valid_df.columns = ['text_a', 'text_b', 'label']

    model_args = get_model_args()
    model = ClassificationModel('bert',
                                'hfl/chinese-roberta-wwm-ext',
                                num_labels=2,
                                args=model_args)
    model.train_model(train_df, eval_df=valid_df)

    _, vaild_outputs, _  = model.eval_model(valid_df)

    df_oof = train.iloc[val_idx][['id', 'label']].copy()
    df_oof['bert_pred'] = vaild_outputs[:,1]
    oof.append(df_oof)

    print('predict')
    _, test_outputs = model.predict([list(text) for text in test[['level_4', 'content']].values])
    prediction['bert_pred'] += test_outputs[:, 1] / kfold.n_splits

    del model, train_df, valid_df, vaild_outputs, test_outputs
    gc.collect()

df_oof = pd.concat(oof)
df_oof = df_oof.sort_values(by='id')
df_oof.head(10)

df_oof[['id', 'bert_pred']].to_csv('roberta_pred_oof.csv', index=False)
prediction[['id', 'bert_pred']].to_csv('roberta_pred_test.csv', index=False)

6. sentence-transformers

获取文本相关性

直接使用预训练模型，获取文本相关性
使用训练样本微调之后，获取文本相关性

import numpy as np
import torch
from sentence_transformers import SentenceTransformer, util

Original: https://blog.csdn.net/qq_30129009/article/details/121530992
Author: junjian Li
Title: simpletransformers的 single sentence classification和sentence pair classification

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531622/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

安卓-通讯录

练习掌握 Android 软件开发基本编程技术、Android 系统 SQLite 数据库的使用、通话、短信的使用等，设计制作一 Android 通讯录软件。实现的通讯录功能和界…

大数据 2023年11月10日
0042
大数据Hadoop-Spark集群部署知识总结（一）

大数据Hadoop-Spark集群部署知识总结一、启动/关闭 hadoop myhadoop.sh start/stop 分步启动：第一步：在hadoop102主机上 sbin…

大数据 2023年5月26日
0091
Scala IF…ELSE 语句

Scala IF…ELSE 语句是通过一条或多条语句的执行结果（True或者False）来决定执行的代码块。 if 语句 if 语句有布尔表达式及之后的语句块组成。 i…

大数据 2023年6月3日
0096
武林头条-建站小能手争霸赛

好话说在前头如果你想在自己的主机上 [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message…

大数据 2023年6月3日
0090
Docker 的多阶段构建

我们 Build 一个应用的时候，将我们的源代码也构建进去的，这对于类似于 golang 这样的编译型语言肯定是不行的，因为实际运行的时候我只需要把最终构建的二进制包给你就行，把源…

大数据 2023年5月29日
0063
【Redis】分布式限流与Redis实现限流的四种方式（Redis专栏启动）

大数据 2023年11月15日
0049
【SQLite快速入门】

文章目录 SQLite数据类型对数据库文件SQL语句： SQL的语句格式 * 1 创建表：create语句 2 创建表：create语句（设置主键） 3 查看表 4 修改表：a…

大数据 2023年11月11日
0042
「精益企业」支持原则，价值观，思维方式，实施指南和领导角色

现在每家企业都是软件企业。敏捷不是一个选项，它不仅是团队的选择，也是一种业务需求。 [En] Agile is not an option, and it’s not …

大数据 2023年5月24日
00117
实时开发平台建设实践，深入释放实时数据价值丨 04 期直播回顾

原文链接：实时开发平台建设实践，深入释放实时数据价值视频回顾：点击这里课件获取：点击这里一、实时数仓建设背景随着整体行业的数字化转型不断深入以及技术…

大数据 2023年5月26日
0085
Redis哨兵模式

大数据 2023年11月15日
0024
【Go】Go Gorm Sqlite3 CreateInBatches 报错：too many SQL variable 排查与解决

Go：1.17.7 Gorm：gorm.io/gorm v1.22.3 Gorm-Sqlite3-driver: gorm.io/driver/sqlite v1.2.4 matt…

大数据 2023年11月10日
0044
虚拟机开启hive的命令

一.什么是hiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行…

大数据 2023年11月12日
0051
设置的下载器的bug整理

1，流不小心关闭了，那就把流打开就好了: 2,不小心写成递归了，不断的自己调用自己： 3，有些工具类的方法，在内部类的方法里使用会报错，在外部就不会，例如： JOptionPane…

大数据 2023年5月26日
0068
【大数据笔记】- Hive UDF开发超简单教程

大数据 2023年11月13日
0030
QT入门第十三天 QSqlite3数据库操作【增删改查精髓】

[ Qt_提供了一个非常方便的 _数据库_模块，可以用于进行 _数据库_的 _增删改查操作。以下是一些基本的示例代码，用于展示如何在 Qt_中进行 _数据库操作： 1. 连…

大数据 2023年11月11日
0036
Maven异常：Could not find artifact

maven build 的时候报错 Could not find artifact pom:001-SNAPSHOT 异常实习的第一天把一个maven项目导入到idea中运行,但…

大数据 2023年6月3日
00110

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31