fairseq笔记

2023年5月28日上午7:37 • 人工智能 • 阅读 81

训练新模型

以机器翻译为例子开始

Fairseq 包含多个翻译数据集的示例预处理脚本：IWSLT 2014（德语-英语）、WMT 2014（英语-法语）和 WMT 2014（英语-德语）。预处理和二值化 IWSLT 数据集：

> cd examples/translation/
> bash prepare-iwslt14.sh
> cd ../..

> TEXT=examples/translation/iwslt14.tokenized.de-en

> fairseq-preprocess --source-lang de --target-lang en \
    --trainpref $TEXT/train --validpref $TEXT/valid --testpref $TEXT/test \
    --destdir data-bin/iwslt14.tokenized.de-en

我在脚本中写了注释，方便对脚本语言不熟练的同学入门，如果熟练的同学可以回忆一下这个预处理做了什么，然后跳转到关于fairseq-preprocess的源码讲解部分，

下载数据集
下载subword-nmt和moses
清洗训练集
去掉包含
用moses分词，把标点符号和英文单词分开
保留1-175长度和源语言目标语言长度1.5比例内的句子
全部单词变小写
把训练数据集（清洗后的）按照22:1划分成训练集和验证集
把原验证集测试集全划分成测试集
bpe算法

#!/usr/bin/env bash

echo 'Cloning Moses github repository (for tokenization scripts)...'
git clone https://github.com/moses-smt/mosesdecoder.git

echo 'Cloning Subword NMT repository (for BPE pre-processing)...'
git clone https://github.com/rsennrich/subword-nmt.git

SCRIPTS=mosesdecoder/scripts
TOKENIZER=$SCRIPTS/tokenizer/tokenizer.perl
LC=$SCRIPTS/tokenizer/lowercase.perl
CLEAN=$SCRIPTS/training/clean-corpus-n.perl
BPEROOT=subword-nmt/subword_nmt
BPE_TOKENS=10000

URL="http://dl.fbaipublicfiles.com/fairseq/data/iwslt14/de-en.tgz"
GZ=de-en.tgz

if [ ! -d "$SCRIPTS" ]; then
    echo "Please set SCRIPTS variable correctly to point to Moses scripts."
    exit
fi

src=de
tgt=en
lang=de-en
prep=iwslt14.tokenized.de-en
tmp=$prep/tmp
orig=orig

mkdir -p $orig $tmp $prep

echo "Downloading data from ${URL}..."
cd $orig

wget "$URL"

if [ -f $GZ ]; then
    echo "Data successfully downloaded."
else
    echo "Data not successfully downloaded."
    exit
fi

tar zxvf $GZ

cd ..

echo "pre-processing train data..."
for l in $src $tgt; do
    f=train.tags.$lang.$l
    tok=train.tags.$lang.tok.$l

    cat $orig/$lang/$f | \
    grep -v '' | \
    grep -v '' | \
    grep -v '' | \

    sed -e 's///g' | \
    sed -e 's///g' | \
    sed -e 's///g' | \
    sed -e 's///g' | \

    perl $TOKENIZER -threads 8 -l $l > $tmp/$tok

    echo ""
done

perl $CLEAN -ratio 1.5 $tmp/train.tags.$lang.tok $src $tgt $tmp/train.tags.$lang.clean 1 175

for l in $src $tgt; do
    perl $LC < $tmp/train.tags.$lang.clean.$l > $tmp/train.tags.$lang.$l
done

echo "pre-processing valid/test data..."
for l in $src $tgt; do

    for o in ls $orig/$lang/IWSLT14.TED*.$l.xml; do

    fname=${o##*/}

    f=$tmp/${fname%.*}
    echo $o $f

    grep ' $o | \
        sed -e 's/\s*//g' | \
        sed -e 's/\s*\s*//g' | \
        sed -e "s/\'/\'/g" | \

    perl $TOKENIZER -threads 8 -l $l | \
    perl $LC > $f
    echo ""
    done
done

echo "creating train, valid, test..."

for l in $src $tgt; do
    awk '{if (NR%23 == 0)  print $0; }' $tmp/train.tags.de-en.$l > $tmp/valid.$l
    awk '{if (NR%23 != 0)  print $0; }' $tmp/train.tags.de-en.$l > $tmp/train.$l

    cat $tmp/IWSLT14.TED.dev2010.de-en.$l \
        $tmp/IWSLT14.TEDX.dev2012.de-en.$l \
        $tmp/IWSLT14.TED.tst2010.de-en.$l \
        $tmp/IWSLT14.TED.tst2011.de-en.$l \
        $tmp/IWSLT14.TED.tst2012.de-en.$l \
        > $tmp/test.$l
done

TRAIN=$tmp/train.en-de
BPE_CODE=$prep/code
rm -f $TRAIN
for l in $src $tgt; do
    cat $tmp/train.$l >> $TRAIN
done

echo "learn_bpe.py on ${TRAIN}..."
python $BPEROOT/learn_bpe.py -s $BPE_TOKENS < $TRAIN > $BPE_CODE

for L in $src $tgt; do
    for f in train.$L valid.$L test.$L; do
        echo "apply_bpe.py to ${f}..."
        python $BPEROOT/apply_bpe.py -c $BPE_CODE < $tmp/$f > $prep/$f
    done
done

preprocess的源码分析

先讲怎么从命令行中截获参数，fairseq用的是python 标准库里的argparser，顾名思义，是参数解析器。

在python中，有如下四种类型的参数，分别是位置参数、关键字参数、默认参数和可变参数。其中位置参数和关键字参数讲的是调用的方式，比如以下例子：

def print_hello(name, sex)

print_hello('小明','male')

print_hello(sex='male',name='小明')

位置参数通过参数定义的位置来传递参数;关键字参数通过键值对的方式来传递参数，不需要考虑位置关系。当关键字参数和位置参数混用的时候，需要特别注意， 位置参数必须在关键字参数之前，所以解析的方式就是逐个把位置参数送入形参，再把关键字和形参结合，一旦关键字参数和位置参数相同，比如 print_hello(1, name='小明')就会因为name有两个实参报错。

默认参数就是在形参定义的时候，带上的默认值，比如

def print_hello(sex，name='male')

这时候调用的时候就可以不传name的实参进去，当然需要注意的是，默认参数也必须在位置参数之后。

可变参数就是有时候我们不确定调用的时候会传递多少个参数，此时可以用packing包裹位置参数或者关键字参数。
比如包裹位置参数的例子


def func(*args):
    ....

func()
func(a)
func(a, b, c)

所有传进去的参数都会被args收集，他是一个tuple类型的变量。

def func(**kargs):
    ....

func(a=1)
func(a=1, b=2, c=3)

kargs是一个dict类型的变量。
需要注意的是，args和kargs并不是必须的命名，只是一种习惯，区别是元组还是字典，靠的是**的数量。

我们什么时候需要argparse，比如我们写好了一个python脚本hello.py
你可以直接使用

python hello.py

来运行这个脚本，但有时候你并不满足只是运行，可能还需要从外界获取一点额外的信息，比如说，使用者的名字，运行的次数，等等。这时你就可以使用argparse，达到下面的效果:

python hello.py --name 小明 --time 3

这时小明和3就会被传入hello.py中，并且可以被获取，我们不会讲的特别深入，只保证你能明白fairseq用这个做什么，感兴趣可以自行从python的官方文档中阅读。

讲完argparse的用途，我们讲怎么做。
基本上是三部曲，第一是创建解析器，第二步是往解析器里添加需要解析的参数，第三步是开始解析参数。这就好像开辅导班，第一步是租店面，第二步是确定教什么科目，第三步是招收对应的老师为学生授课这样(奇怪的例子orz)

argparse中，有一个命令解析类，叫做 ArgumentParser，他的构造函数中的所有参数都是关键字参数，也就是要用键值对的方式传进去，他有非常多的成员，我们只讲fairseq用的部分。
bool类型的add_help，当这个参数是true的时候，你可以通过-h或者–help读到这个 hello.py所有参数的帮助(当然这得是你写了才有东西输出)。
bool类型的 allow_abbrev，这个是允许使用缩写的意思，在python3.5以后默认开启，比如我们定义了–time 这个参数，当你实际使用时采用–ti 3，也可以被识别到time参数上，当然，一旦你输入的缩写是多个参数的共同前缀，产生了歧义时，这个选项就无法使用了。

在定义完一个解析器之后，我们需要为里面加上需要解析的内容，这个是通过解析器类的 add_argument方法进行的，比如我们需要让这个参数解析器接受 --time，就是通过这个方法加的。这个方法常用的参数如下：
default – 说白了如果定义了这个，就允许这个参数被当成默认参数处理，如果没写，或者把这一个参数定义成None，那这个参数就无法在命令行缺省该参数时使用。
name or flags – 这个参数就是用来写–time的，为这个解析器类加上需要解析的参数，需要注意，如果在同一个add_argument里面写多个flags ('-f', '--foo')，也可以只写一个name比如 (bar)，需要注意，不加-的会被解析成位置参数，是不允许缺省的，一旦缺省了会报错，而加了-的会被认为是可选参数，同时如果flags不是一个字母，前面要加–，如果是一个字母，只用一个-。
dest – 这个说起来有点绕啊，其实他和name需要区分一下，他是parser创建完后，解析了参数之后(后面会说的parse_args()方法)，你用什么变量名来获取刚刚的参数，比如说啊
parser.add_argument(‘-f’, ‘–foo-bar’, ‘–foo’)，这里面所有的参数都是flags对吧，那之后我们要调用这个参数，就是通过parse.foo_bar，因为如果有–的，会选择第一个–的names去掉杠杠，而且把里面的-变成_（这是因为变量名的规范要求），如果只有-的，就取第一个-的name作为内容。

讲完参数的类型后，我们开始看源码部分的argparse内容。 fairseq-preprocess调用的是 fairseq_cli/preprocess.py的 cli-main()。

def cli_main():
    parser = options.get_preprocessing_parser()
    args = parser.parse_args()
    main(args)

其中options的路径是 fairseq/options.py，我们看看预处理的解析器函数内容是什么。

def get_preprocessing_parser(default_task="translation"):
    parser = get_parser("Preprocessing", default_task)
    add_preprocess_args(parser)
    return parser

上面这三行里面，get_parser创建了一个parser，他的两个实参中，第一个字符串类的desc并没有用上，更像是一个和不同cli指令区分开的标记，只是为了增加可读性。这个函数的具体注释写在代码体里面了。

def get_parser(desc, default_task="translation"):
"""

    Args:
        desc: 没用上，这里像是一个信息标记
        default_task:  默认任务

    Returns:

"""

    usr_parser = argparse.ArgumentParser(add_help=False, allow_abbrev=False)
    usr_parser.add_argument("--user-dir", default=None)

    usr_args, _ = usr_parser.parse_known_args()

    utils.import_user_module(usr_args)

    parser = argparse.ArgumentParser(allow_abbrev=False)
    gen_parser_from_dataclass(parser, CommonConfig())

    from fairseq.registry import REGISTRIES

    for registry_name, REGISTRY in REGISTRIES.items():
        parser.add_argument(
            "--" + registry_name.replace("_", "-"),
            default=REGISTRY["default"],
            choices=REGISTRY["registry"].keys(),
        )

    from fairseq.tasks import TASK_REGISTRY

    parser.add_argument(
        "--task",
        metavar="TASK",
        default=default_task,
        choices=TASK_REGISTRY.keys(),
        help="task",
    )

    return parser

Original: https://blog.csdn.net/koala_cola/article/details/122482738
Author: koala_cola
Title: fairseq笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530398/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

opencv+python图像匹配——模版匹配、特征点匹配

最近在做图像检测上的项目，需要进行图像匹配的相关内容，查阅了opencv的匹配方法，整理了模版匹配和特征点匹配的内容，并总结成博客。模版匹配与特征点匹配模板匹配模版匹配是一种…

人工智能 2023年6月17日
0075
实体关系抽取笔记（一）

1. 背景实体关系抽取是NLP领域的一个基础任务，在文本挖掘、信息检索、智能问答等领域广泛存在、非常重要。实体关系抽取是指在实体识别的基础上从非结构化文本中抽取出预先定义的实体关…

人工智能 2023年5月28日
0048
YOLO V6论文精读

Introduction 在论文中，作者通过实证观察了几个促使我们重新提供YOLO框架的重要因素： (1)从RepVGG [3]中重新参数化是一种优越的技术，在检测中尚未得到很好的…

人工智能 2023年7月27日
0052
【debug】【联合编译】No CUDA runtime is found, using CUDA_HOME=‘/usr/local/cuda-10.0‘

Error: No CUDA runtime is found, using CUDA_HOME=’/usr/local/cuda-10.0′ 错误原因： …

人工智能 2023年6月17日
0073
真人语音朗读软件_【软件更新】文字转语音神器，基本接近真人配音！

免责声明此软件”仅限学习交流，不能用于商业用途”，如用于商业用途，请到官方购买正版软件，追究法律责任与本站无关。软件介绍我们的朋友大多文语转换工具很少，…

人工智能 2023年5月27日
0064
Tensorflow安装后出现的问题

在Tensorflow安装完成后，为了检查是否安装成功时出现以下问题 (tf_gpu) C:\Users\1789834715>pythonPython 3.9.7 (def…

人工智能 2023年5月23日
00144
Scala系列-2、scala函数式编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。传送门：大数据系列文章目录目录 * – foreach算子 …

人工智能 2023年6月28日
0046
假设检验——T-test, F-test, Z-test ,Chi squared test

T-test 用来比较两样本平均值之间是否具有显著性差异。T-test类型： one-sample t-test，用来比较单个样本平均值和一个给定的平均值（理论值）； indepe…

人工智能 2023年7月17日
0051
neo4j安装，jdk安装，环境变量配置

JDK安装：https://www.oracle.com/cn/java/technologies/javase-downloads.html Neo4j安装：https://ne…

人工智能 2023年6月1日
0070
动手实现深度学习（9）：第四篇：optimization的实现

神经网络的学习目的是找到使得损失函数的值尽可能小的参数，这个寻找最优参数的过程称为最优化（optimization）。本章会介绍4中优化函数，给出实现代码和测例。测例方面，首先会…

人工智能 2023年6月4日
0076
【OpenCV】Chapter9.边缘检测与图像分割

最近想对OpenCV进行系统学习，看到网上这份教程写得不错，于是跟着来学习实践一下。【youcans@qq.com, youcans 的 OpenCV 例程, https://yo…

人工智能 2023年7月18日
0053
遗传算法详解python代码实现以及实例分析

遗传算法文章目录遗传算法前言一、遗传算法是什么？二、实例讲解 * 例题1 – 1.初始化种群 2.优胜劣汰 3.根据优胜劣汰的结果，交配生殖、变异 5.生物遗…

人工智能 2023年6月12日
00117
快速上手opencv_contrib安装（Windows11）

目录一、安装资料准备二、安装编译 * 1. cmake安装 2. opencv4.2.0源代码编译和opencv4.2.0_contirb解压 3. opencv编译 4. …

人工智能 2023年6月19日
0075
人工智能：卷积神经网络及YOLO算法入门详解与综述（二）

经过前六章的阅读，我从三个世界、数据法则、信息纽带、知识升华、自然智能以及人工智能六个方面对于信息科学技术与创新有了深层次的认识与了解。从对于三个世界的描述中，我了解到了物理、生物…

人工智能 2023年6月23日
00108
Python实时垃圾分类系统（环境教程＆完整源码＆数据集)

1.背景如今，垃圾分类已成为社会热点话题。其实在2019年4月26日，我国住房和城乡建设部等部门就发布了《关于在全国地级及以上城市全面开展生活垃圾分类工作的通知》，决定自2019…

人工智能 2023年7月28日
0087
免费GPU：九天•毕昇平台使用教程

背景深度学习非常依赖设备，训练模型就类似在”炼丹”，没有好的炼丹炉，想要复现顶刊中那些动辄8卡/4卡 Tesla V100显卡训练的模型，只能是&#822…

人工智能 2023年6月16日
00116

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

fairseq笔记

训练新模型

大家都在看