用Bert做英法机器翻译

2023年5月30日下午6:18 • 人工智能 • 阅读 57

过程基本参考自BERT实战——（5）生成任务-机器翻译，结合我个人的数据集在数据处理部分做了些调整，完整代码可见translate.ipynb

一、数据处理

我的数据集是这样的：

第一列是英文，第二列是对应的法文翻译，第三列是文本来源，所以说第三列是不需要的

1.首先是读取数据，把前两列存入数组中，并把前90%的数据作为训练集，后10%的数据作为验证集

f=open("fra.txt","r",encoding="utf-8").readlines()
en=[]
fre=[]
data=[]
for l in f:
    line=l.strip().split("\t")
    tmp={}
    tmp["en"]=line[0]
    tmp["fr"]=line[1]
    data.append(tmp)
print(len(data))
print(data[0])
train_size=int(len(data)*0.9)
train_data=data[:train_size]
val_data=data[train_size:]

2.把数据存入到对应的文件中

f=open("train.txt","w")
for i in train_data:
    f.write(str(i)+"\n")
f.close()
f=open("val.txt","w")
for i in val_data:
    f.write(str(i)+"\n")
f.close()

3.加载分词器


from transformers import AutoTokenizer
model_checkpoint="Helsinki-NLP/opus-mt-en-ro"
tokenizer=AutoTokenizer.from_pretrained(model_checkpoint,use_fast=True)

4.定义预处理函数，把数据按源语言和目标语言分开，作为dataset中的input_ids和labels

from datasets import load_dataset
raw_datasets=load_dataset("text",data_files={"train":"train.txt","validation":"val.txt"})

max_input_length=64
max_target_length=64
source_lang="en"
target_lang="fr"

def preprocess_function(examples):
    inputs=[eval(ex)[source_lang] for ex in examples["text"]]
    targets=[eval(ex)[target_lang] for ex in examples["text"]]
    model_inputs=tokenizer(inputs,max_length=max_input_length,truncation=True)

    with tokenizer.as_target_tokenizer():
        labels=tokenizer(targets,max_length=max_target_length,truncation=True)
    model_inputs["labels"]=labels["input_ids"]
    return model_inputs

tokenized_datasets=raw_datasets.map(preprocess_function,batched=True)

分别输出raw_datasets和tokenized_datasets的结构，可以看到后者多了三列内容，我们只需要关注input_ids和labels就行：

二、加载预训练模型，并设置参数

1.预训练模型和训练参数


from transformers import AutoModelForSeq2SeqLM
model=AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)

from transformers import Seq2SeqTrainingArguments
batch_size=8
args=Seq2SeqTrainingArguments(
    "test-translation",
    evaluation_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=batch_size,
    per_device_eval_batch_size=batch_size,
    weight_decay=0.01,
    save_total_limit=3,
    num_train_epochs=10,
    predict_with_generate=True,
    fp16=False,
)

2.载入数据收集器


from transformers import DataCollatorForSeq2Seq
data_collator=DataCollatorForSeq2Seq(tokenizer,model=model)

3.加载评估方法


import numpy as np

from datasets import load_metric
metric=load_metric("sacrebleu")
print("successfully import metric")

4.评估方法只能接收特定格式的数据，因此要把用postprocess_text方法把preds和labels处理成对应的格式

def postprocess_text(preds,labels):
    preds=[pred.strip() for pred in preds]
    labels=[[label.strip()] for label in labels]
    return preds,labels

def compute_metrics(eval_preds):
    preds,labels=eval_preds
    if isinstance(preds,tuple):
        preds=preds[0]
    decoded_preds=tokenizer.batch_decode(preds,skip_special_tokens=True)

    labels=np.where(labels!=-100,labels,tokenizer.pad_token_id)
    decoded_labels=tokenizer.batch_decode(labels,skip_special_tokens=True)

    print("type(decoded_preds)=",type(decoded_preds))
    print("type(decoded_labels)=",type(decoded_labels))
    decoded_preds,decoded_labels=postprocess_text(decoded_preds,decoded_labels)

    result=metric.compute(predictions=decoded_preds,references=decoded_labels)
    result={"bleu":result["score"]}

    prediction_lens=[np.count_nonzero(pred!=tokenizer.pad_token_id) for pred in preds]
    result["gen_len"]=np.mean(prediction_lens)
    result={k:round(v,4) for k,v in result.items()}
    print("result is as follow============================")
    print(result)
    return result

三、开始训练（微调模型）


import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
from transformers import Seq2SeqTrainer
trainer=Seq2SeqTrainer(
    model,
    args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics
)
trainer.train()

训练结果如下：

sacrebleu的评测结果是乘了100后的，所以可以看到评估出来的bleu是在44%左右。
这个实验是用A100跑的，但是跑了10个epoch竟然花了两个半小时。

Original: https://blog.csdn.net/yuanren201/article/details/124866061
Author: 阿袁的小园子
Title: 用Bert做英法机器翻译

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544455/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python+neo4j构建基于知识图谱的电影知识智能问答系统

将返回的查询结果匹配至相应的回复语句，输出完成电影知识问答的整个过程下面针对于智能问题系统的四个步骤分别进行讲解，说明实现的步骤以及主要代码： ~~~~~~~~本部分思想较为…

人工智能 2023年6月10日
0074
【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】

⛄一、获取代码方式获取代码方式1：完整代码已上传我的资源：【语音识别】基于matlab GUI HMM中文语音识别【含Matlab源码 1385期】点击上面的蓝色字体，付费直接下…

人工智能 2023年5月25日
0069
从源码编译安装 TensorFlow C++ 库和 DeepMD-kit

DeepMD 简介 DeePMD-kit 是一个用 Python/C++ 编写的软件包，旨在最大限度地减少构建基于深度学习的原子间势能和力场模型以及执行分子动力学 (MD) 所需的…

人工智能 2023年5月26日
0055
C#基础巩固与进阶（定时语音播报+PDF水印+分片上传+EF6框架）

b站视频： 2022年C#进阶教程-C#应该学到什么程度（针对编程思维）前提 UI框架：WinForm(基于.net framework 4.6.1）、MaterialSkin….

人工智能 2023年6月27日
0061
TensorFlow-深度学习笔记

文章目录教程环境配置 * 安装Windows CPU版本tensorflow 安装CUDA、cuDNN 安装Windows GPU版本tensorflow 查看使用的是CPU还…

人工智能 2023年5月25日
0058
把盏言欢,款款而谈,ChatGPT结合钉钉机器人(outgoing回调)打造人工智能群聊/单聊场景,基于Python3.10

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0030
【计算机视觉】数字图像处理（五）—— 图像的退化与复原

数字图像处理（五）—— 图像的退化与复原 * – 一、图像退化 – + 图像退化的定义： – 二、图像复原 – + （一）、图像复原…

人工智能 2023年6月23日
0070
LQR控制算法及其仿真实现

文章目录 1 离散有限时间系统 * 1.1 LQR问题描述 1.2 最小二乘法求解 1.3 最小二乘法编程实现 1.4 动态规划算法 1.5 动态规划算法实现 2 拉格朗日乘子法求…

人工智能 2023年6月2日
0072
NeRF 源码分析解读（一）

NeRF 源码解读（一）前言 NeRF 是三维视觉中新视图合成任务的启示性工作，最近领域内出现了许多基于 NeRF 的变种工作。本文以pytorch 版 NeRF 作为基础对 N…

人工智能 2023年6月16日
0049
2D 语义分割——DeepLabV3plus 复现

文章目录语义分割简介 DeepLabV3plus * 模型结构基础知识点模型实现 Backbone 设计实验结果语义分割简介 😸语义分割结合了图像分类、目标检测和图像分割…

人工智能 2023年7月22日
0043
半监督学习算法在自然语言处理任务中的应用是什么

详细解决问题：半监督学习算法在自然语言处理任务中的应用在自然语言处理(Natural Language Processing, NLP)任务中，数据注释是非常昂贵且耗时的工作。为…

人工智能 2024年1月1日
0024
各种说明方法的例句_句子的说明方法有哪些（说明方法的句子大全集）

资料：关于说明文的说明方法打比方：天上的星星像一颗颗宝石。作比较：春天的雨细腻柔媚，夏天的雨粗犷热烈。举例子：晕能预示天气。比如，在新疆地区，出现晕。映入眼帘的是一个晶莹的…

人工智能 2023年6月1日
0045
【Transformer开山之作】Attention is all you need原文解读

Attention Is All You Need Transformer原文解读与细节复现导读在Transformer出现以前，深度学习的基础主流模型可分为卷积神经网络CNN…

人工智能 2023年6月25日
0098
花卉识别(tensorflow)

参考教材：人工智能导论(第4版) 王万良高等教育出版社实验环境：Python3.6 + Tensor flow 1.12 人工智能导论实验导航实验一：斑马问题 https://…

人工智能 2023年7月26日
0052
使用Pandas进行数据清洗

数据清洗的目的是修正异常值，以更好地进行运算和观察结果。通过 Pandas对序列或数据帧的清洗分为两个步骤：异常检测和数据修正。 1.异常检测Pandas中的空值用’ …

人工智能 2023年7月9日
0088
Python中说no module named ＂torch＂是什么情况?

原因这是一行作为小白时常犯的错，这个报错说明在你电脑当前环境下没有安装torch这个模块解决办法系统环境：Win10+Python3.6 此处推荐第三种方法到官网获取相关安装指令…

人工智能 2023年7月21日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

用Bert做英法机器翻译

大家都在看