自然语言处理(NLP)之一：文本预处理（文本准备）

2023年5月27日下午8:12 • 人工智能 • 阅读 90

1. 文本预处理概述

与机器学习任务一样，自然语言处理任务的第一步是文本(数据)准备或文本(数据)预处理。文本预处理流程如下图所示：

[En]

Like machine learning tasks, the first step of natural language processing tasks is text (data) preparation or text (data) preprocessing. The process of text preprocessing is shown in the following figure:

文本预处理受分词步骤的限制。以前的文本标准化和文本清洗是语料级(章节级)粒度的文本处理，而词清洗、标准化和文本表示是词级的粒度文本处理。

[En]

Text preprocessing is bounded by word segmentation steps. The previous text standardization and text cleaning are corpus-level (chapter-level) granularity text processing, and then word cleaning, standardization and text representation are word-level granularity text processing.

语料级文本处理的作用对象是数据集中的每一篇语料，它比单词级文本处理效率更高，并且可以提前去除影响分词效果的障碍（如：英文中按空格分词，但与单词直接相邻的逗号等标点会产生非标准单词的分词结果（’word,’ 标准形式应该是’word’））。

词级文本处理是在对语料库进行切分之后进行的，其处理对象是每个语料库中的每个单词。它主要进行四个主要步骤：词语过滤、词语书写标准化(如大写数字和阿拉伯数字的统一、英语单词不同时态的统一、语音书写形式的统一等)、拼写纠错和文本表示。

[En]

Word-level text processing is performed after the corpus is segmented, and its processing object is every word in each corpus. It mainly carries out four major steps: word filtering, standardization of word writing (such as the unification of capital numbers and Arabic numerals, the unification of different tenses of English words, the unity of voice writing forms, etc.), spelling error correction and text representation.

; 2. 文本标准化

2.1 字符编码标准化（全角英文字符转半角）

在计算机中，所有中文字符都是全角字符，而英文字母、阿拉伯数字及符号有全角和半角两种unicode编码方式。它们的全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)，半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)；而空格符比较特殊，全角unicode编码为12288 (0x3000)，半角为32 (0x20)。

可见 除空格符外，每个全角字符的unicode编码等于其半角字符的unicode编码加65248，因此字符unicode编码标准化实现代码如下：


def full_to_half(text:str):
    _text = ""
    for char in text:
        inside_code = ord(char)
        if inside_code == 12288:
            inside_code = 32
        elif 65281  inside_code  65374:
            inside_code -= 65248
        _text += chr(inside_code)
    return _text

2.2 英文大小写字母统一化

英文字母大小写的统一化可直接借助python内置字符串方法实现，具体代码如下：


def upper2lower(text:str):
    return text.lower()

2.3 中文繁简字统一化

中文繁体字与简体字的统一化借助opencc包的OpenCC类实现，该类通过不同的转换功能代码实现不同的文字转化功能，转换功能代码表如下所示：

转换代码功能说明t2s繁体中文转简体s2t简体中文转繁体s2twp简体中文转繁体中文（带短语）t2hk繁体中文转繁体（香港标准）hk2s繁体中文（香港标准）转简体中文s2hk简体中文转繁体中文（香港标准）t2tw繁体中文转繁体（台湾标准）tw2s繁体中文（台湾标准）转简体中文tw2sp繁体中文（台湾标准）转简体中文（带短语）s2tw简体中文转换成繁体中文（台湾标准）

繁体和简体中文统一代码如下：

[En]

The code for the unification of complex and simplified Chinese is as follows:

from opencc import OpenCC

def chinese_standard(text:str, conversion='t2s'):
    cc = OpenCC(conversion)
    return cc.convert(text)

3. 文本清洗

文本清洗中，常通过Unicode码过滤来去除非文本内容。Unicode码表中，中日韩统一表意文字字符区间为 4E00~9FA5，半角英文字母、阿拉伯数字及符号的字符区间为 0x21~0x7E，所以标准文本字符范围为 [ 4E00 , 9FA5 ] ∪ [ 0x21 , 0x7E ] [\text{4E00}, \text{9FA5}] \cup[\text{0x21}, \text{0x7E}][4E00 ,9FA5 ]∪[0x21 ,0x7E ]。

非文本内容过滤和标点符号过滤使用正则表达式实现，如下所示：

[En]

Non-text content filtering and punctuation filtering are implemented with regular expressions, as follows:

import re
def clear_character(text):

    pattern = [
        "[^\u4e00-\u9fa5^a-z^A-Z^0-9^\u0020^\u0027^\u002e]",
        "\.$"
    ]
    return re.sub('|'.join(pattern), '', text)

4. 分词

敬请详见作者文章：文本表示：分词.

5. 词的清洗

敬请详见作者文章：文本表示：词的清洗.

6. 词的标准化

敬请详见作者文章：文本表示：词的标准化.

7. 拼写纠错

敬请详见作者文章：文本预处理：拼写纠错.

Original: https://blog.csdn.net/xunyishuai5020/article/details/122511940
Author: HadesZ~
Title: 自然语言处理(NLP)之一：文本预处理（文本准备）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527555/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【神经网络】-在linux环境下进行pytorch安装

在linux环境下进行pytorch安装创建pytorch环境在pytorch环境下安装pytorch 检查是否安装成功在pytorch环境下运行python代码创建pyt…

人工智能 2023年7月20日
0035
基于树莓派4B的智能无人巡逻小车设计

计算机工程实训报告题目智能警用无人巡逻小车视频演示地址：树莓派暑期工程实训-模拟警用无人巡逻小车_哔哩哔哩_bilibili 一、实验内容与要求 1.1 实验内容本实验使用…

人工智能 2023年6月17日
0062
【期末划重点】数据挖掘

数据挖掘重点 1、第一章 2、第二章 3、第三章 * 3.1ID3算法 3.2 C4.5算法 3.3 CART算法 ==（基尼系数）== 3.4 贝叶斯定理 3.6 K-最近邻（…

人工智能 2023年5月31日
0064
数据科学学习之统计实验的设计、检验与分析

专栏/前文链接本文为《数据分析与数据科学》专栏中的第三篇，专栏的链接在这里. 第一篇博文的链接在这里. 第二篇博文的链接在这里. 希望本文与此专栏能够对接触，学习和研究数据科学的…

人工智能 2023年7月16日
0060
c++ 函数重载

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0064
聚类算法汇总（附代码）

本次整理了聚类工程里面常见算法，以及给出合适的工程结构方便调用，编写常用的聚类指标当作聚类结果函数，并Github链接在文末，供大家交流学习。 “物以类聚，人以群分&#…

人工智能 2023年6月2日
0065
卷积神经网络 —— 图像识别与深度学习

视频教程学习链接： https://www.icourse163.org/learn/XUST-1206363802?tid=1467124640#/learn/content?t…

人工智能 2023年6月16日
0063
使用分类权重解决数据不平衡的问题

在分类任务中，不平衡数据集是指数据集中的分类不平均的情况，会有一个或多个类比其他类多的多或者少的多。在我们的日常生活中，不平衡的数据是非常常见的比如本篇文章将使用一个最常见的例子…

人工智能 2023年7月2日
0038
作物病虫害识别数据集资源合集

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月23日
0088
自编码器概念

目录自编码器的定义与原理 * 自编码器简介自编码器的设计自编码器的应用变分自编码器（VAE）自编码器的定义与原理自编码器简介 Encoder：将图片编码并压缩成向量De…

人工智能 2023年6月25日
0080
图像基础操作——读取、显示、保存

一幅被定义为二维函数f（x，y）坐标的图像，亮度为任何坐标（x，y）处的振幅。当f的x，y和振幅都是有限且离散的量时，称为数字图像。一、读取图像：imread（’f…

人工智能 2023年7月19日
0056
回归(平方损失)与分类[ ( BCE、CE) 和 (Focal loss) ]

回归损失与分类损失回归用于逼近某个数值，预测的结果是连续的，例如预测小明的身高，160,161,162,163cm。平方损失即MSE：分类用于预测物体属于某一个标签，预测的结果是…

人工智能 2023年7月3日
0059
actor-critic代码逐行解析（tensorflow版）

深度强化学习算法actor-critic代码逐行解析（tensorflow版） Actor是基于Policy-Gradients。可以选择连续动作，但是必须循环一个回合才可以更新策…

人工智能 2023年5月23日
0063
yolov5的anchor详解

以yolov5s v3为例： *anchor长啥样及怎么得到的？以下是yolov5 v3.0中的anchor anchors: 1. [10,13, 16,30, 33,23] …

人工智能 2023年5月26日
0077
CGAN—LSGAN的原理与实现与informer代码理解（1）

文章目录摘要一. 条件GAN以及最小二乘GAN的原理与代码实现 * 1.1 CGAN与原始GAN的不同与优势 1.2 CGAN的代码实现 1.３ LSCGAN的原理 &#821…

人工智能 2023年5月28日
0062
加密流量分类-论文3：FS-Net: A Flow Sequence Network For Encrypted Traffic Classification

FS-Net是一个端到端的分类模型，它从原始流中学习代表性特征，然后在一个统一的框架中对它们进行分类。采用多层编码器-解码器结构，可以深入挖掘流的潜在序列特征，并引入重构机制，提高…

人工智能 2023年7月2日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

自然语言处理(NLP)之一：文本预处理（文本准备）

1. 文本预处理概述

; 2. 文本标准化

2.1 字符编码标准化（全角英文字符转半角）

2.2 英文大小写字母统一化

2.3 中文繁简字统一化

3. 文本清洗

4. 分词

5. 词的清洗

6. 词的标准化

7. 拼写纠错

大家都在看