NLP中的BPE（byte pair encoding）分词算法

2023年5月30日下午8:04 • 人工智能 • 阅读 85

本篇博客的算法来源的论文是 Neural Machine Translation of Rare Words with Subword Units，感兴趣的读者可以自行在Google学术上搜索。

算法提出的问题背景

2016年左右（改论文发表于2016）Neural machine translation(NMT)中有着一个众所周知的问题——稀有词与未知词的翻译问题。一般来说，神经网络中的词表被限制在30000-50000个词汇，但是对于翻译来说，各种词汇都可能出现（比如英语中的复合词汇，网络新词等），这种限制无疑使问题解决得效果大打折扣。对于英语来说，一个单词可能有不同时态，进行时，过去时，一般现在时等，比如look, looking, looks, looked这些单词都表示的意思，但是传统处理手段就是在词表中为这些单词各开一个位置，这不仅造成了冗余，还削弱了它们之间的相关性。
基于上述问题，论文中提出将一个单词用可变长度表示，也就是关注于更小的分词单元（subword unit）似乎更加有吸引力。对于word-level的NMT模型，在遇到新词以后往往需要借助查阅字典的手段（15年左右被提出的一种方法，它假设source和target中的词汇是一一对应的），论文作者认为这种假设在很多情况不适用，事实上也的确如此。此外，这种模型没法翻译或者生成没见过的单词。一些学者提出将未知的单词直接从source language复制到target language的翻译中，这对于名字来说确实很合理，但是在其他情况也许就不适用了。

算法希望实现的目标

创建一个subword-level的NMT模型，对于稀有词和未知词的翻译能够自己结果，能够生成在训练时没有见过的新词，能够从subword representations中学习复合词和音译词。

Byte Pair Encoding(BPE)

BPE算法最初是在1994提出的一种简单的数据压缩技术，它会迭代多次，每一次迭代的时候将出现频率最高的字节对用一个单个的，没出现过的字节替代，这样就从两个字节变成了一个字节。论文中采用了这个算法来做单词切割。只不过合并的不是字节对，而是单词中的字符或者字符序列。
首先，将每个单词用一个字符序列表示，然后在末尾增加一个单词结束符（比如look，就变成l o o k ）,然后利用这些字符序列来统计字符对的频率。（l o o k 这个序列可以看作 l o, o o, o k , k 这几个字符对）。每一轮迭代的时候将出现频率最高的字符对合并。每次合并产生一个新的symbol,它代表了一个n-gram的字符。最终新的symbol 词典的大小等于最初的词典大小加上merge操作的数量。我们可以将这个操作施加到从一个文本中统计出的词频表上。

算法实现

首先，词频表的key需要是一个字符序列，且在末尾加上一个单词结束符，字符之间有空格方便后面拆分

vocab = {
          'l o w ':5,
          'l o w e r ':2,
          'n e w e s t ':6,
          'w i d e s t ':3
         }

第二步，我们需要构建自己的symbol表，也就是一个个字符对

from collections import defaultdict

def get_stat(vocab_dict):
    result = defaultdict(int)
    for word,freq in vocab_dict.items():
        symbol = word.split()
        for i in range(len(symbol) - 1):
            result[symbol[i],symbol[i+1]] += freq
    return result

第三步，我们需要实现一个merge方法，它的作用是传入一个频率最高的字符对，我们在原始的vocab_dict中挨个检查每个sequence，如果包含这个字符对就将其合并。并增加这个字符对作为key
这块涉及到了正则表达式里面的零宽断言，详细可以查看我的另一篇博文https://blog.csdn.net/qq_43152622/article/details/118967901?spm=1001.2014.3001.5501

re.compile('(? + bigram + '(?!\S)')

def Merge_vocab(pair,vocab_dict):
"""
    pair:出现频率最高的字符对
    vocab_dict:原始的词汇表
"""
    v_out = dict()
    bigram = re.escape( ' '.join(pair))
    p = re.compile('(? + bigram + '(?!\S)')
    for word in vocab_dict:
        w_out = p.sub(''.join(pair),word)
        v_out[w_out] = vocab_dict[word]
    return v_out

num_merges = 12
vocab_dict = {'l o w ' : 5, 'l o w e r ' : 2,'n e w e s t ':6, 'w i d e s t ':3,"f a s t e r ":5}
for i in range(num_merges):
    pairs = get_stat(vocab_dict)
    best =max(pairs, key=pairs.get)
    vocab_dict = Merge_vocab(best, vocab_dict)
    print(best)

可以看到最后的结果中一些出现次数最多的subword已经被合并了。

Original: https://blog.csdn.net/qq_43152622/article/details/118992918
Author: 算法菜鸟飞高高
Title: NLP中的BPE（byte pair encoding）分词算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544828/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu安装CUDA

一、官网下载cuda_（版本号）_linux.run 注意30显卡只能用cuda11.0以上版本二、安装cuda 在.run文件目录打开终端 sudo chmod 777 cud…

人工智能 2023年5月26日
0047
【通信原理】通信系统概念、组成、分类、度量的分析与研究

🚀个人主页：欢迎访问Ali.s的首页 ⏰ 最近更新：2022年8月15日 ⛽ Java框架学习系列：【Spring】【SpringMVC】【Mybatis】 🔥 Java项目实战系…

人工智能 2023年7月18日
0081
opencv kmeans (C++)

kmeans 函数原型 double cv::kmeans( InputArray data, int K, InputOutputArray bestLabels, TermCr…

人工智能 2023年7月19日
0058
three.js之组对象

文章目录简介例子查看组对象组对象相关方法 * add remove 层级模型节点命名、查找、遍历 * 模型命名例子遍历查找本地坐标与世界坐标 * 例子本地坐标世…

人工智能 2023年7月30日
0050
yolov5实现机器视觉ai自瞄，本人跑代码训练时总结下来的坑（参数设置，服务器使用，自动打标签，训练速度，显存使用率…）

想到啥些啥，都是些我遇到的，很坑，但偏偏又有点蠢的问题。路过进来的朋友可以 ctrl+F 搜一下有没有自己苦恼的问题。 1，训练的模型使用越小（最小是yolov5n），帧数越高，…

人工智能 2023年7月27日
0078
pandas 时间序列

文章目录 * – 为什么要学习pandas中的时间序列 – 生成一段时间范围 – 关于频率的更多缩写 – 在DataFrame中使用…

人工智能 2023年7月6日
0062
树莓派4B安装 ubuntu20.04 & VNC远程桌面 & 安装ROS noetic

树莓派4B安装 ubuntu20.04 & VNC远程桌面 & 安装ROS noetic 1、安装ubuntu * 方式1：下载Imager文件。方式2：下载镜像…

人工智能 2023年6月1日
0087
Python判断一组数据是否服从正态分布

前言从文件中获取数据，判断数据是否服从正态分布或者近似服从正态分布。正态分布：也称”常态分布”，又名高斯分布（Gaussian distribution…

人工智能 2023年7月5日
0068
Origin曲线拟合教程

今天是自我学习的第n天~ 一、线性和多项式拟合（一）线性拟合和异常值去除首先，异常值通常被描述为与其他点”非常遥远”的数据点集合中的数据点或观察值，因此…

人工智能 2023年7月26日
0053
GANs系列：CGAN(条件GAN）原理简介以及项目代码实现

一、原始GAN的缺点生成的图像是随机的，不可预测的，无法控制网络输出特定的图片，生成目标不明确，可控性不强。针对原始GAN不能生成具有特定属性的图片的问题， Mehdi Mirz…

人工智能 2023年6月16日
00107
软件智能：aaas系统设计概要之序结篇：计算的三位一体主义

计算的三位一体主义 computational trinitarianism【计算库】 _计算的三位一体主义_简单的理解就是一切皆计算computation。它是关于现实的实证主…

人工智能 2023年5月31日
0083
OpenCV-如何刷新动态图像

文章目录 * – 【问题描述】 – 【解决方案1】 – 【解决方案2】超简单！！【问题描述】【C++解决】我都不知道该如何准确去描述这个…

人工智能 2023年7月19日
0054
基础图像处理 python+opencv

目录一.图像基础处理操作 1.1.图像读取： 1.2.灰度变化： 1.3.图片显示： 1.4.相关代码：二.图像直方图： 2.1.直方图相关介绍： 2.2.相关代码： 2.3….

人工智能 2023年6月21日
00101
【Apollo 6.0项目实战】LGSVL 与 Apollo 6.0联合仿真教程

### 回答1：如果你想在 Ubuntu 18.04 上安装 Apollo 6.0，你可以按照以下步骤进行操作: 1. 下载 Apollo 6.0 安装包：https:// ap…

人工智能 2023年6月2日
0059
Python中多线程的简单使用

from threading import Timer import time def run1(): print(1) print(2) print(3) def run2():…

人工智能 2023年6月6日
0070
损失函数小结

损失函数用于衡量真实值y_true和预测值y_pred之间的差异。通常情况下y_true和y_pred维度相同，但特殊情况下维度不同，一般来讲框架(包括tensorflow和min…

人工智能 2023年5月25日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

NLP中的BPE（byte pair encoding）分词算法

大家都在看