中文数据清洗

2023年5月31日上午4:45 • 人工智能 • 阅读 80

1、HTML标签去除

从Web获得的数据通常包含许多HTML实体、注释，如lt；& gt；& &；，嵌入在原始数据中。这些信息属于噪音数据，会严重影响数据的质量，需要使用正则表达式去除。

2、去除URL

网页文本数据中，如推特、评论中，会包含一些URL和链接，根据业务需求，不是项目需要的数据，因此需要去除。

3、长串数字、特殊符号去除

通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容，在非特定的文本任务情境下可以去除。或者将其转换为归一化的特征，如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。每篇文本数据中可能会包含一些空格、tab键和\u4300等一些与业务需求无关的符号，需要先对每篇文章进行分句，然后使用规则方法进行去除。

4、无意义的文本

无意义的文本指诸如广告内容、版权信息和个性签名等信息内容，如上信息不应该作为文本特征被模型学习。通过对噪音进行清洗以获取高质量的数据，能够使模型更好地去拟合实际的语义特征，增强模型的泛化能力，提升信息抽取的准确率。

5、移除表情符

文本数据（通常是语音转录）可能包含人类表情符号，比如[laughing], [Crying], [Audience paused]。这些表情符号通常与内容信息无关，需要移除。这种情况可以用正则表达式来完成。

6、 Normalization （ 英文词标准化）

从网络上获取的数据后，需要对数据Normalization 。数据中通常包含英文表述，句子第一个单词的首字母一般是大写，也会存在全部字母都大写用于表示强调和区分风格，更易于人类理解表达，但是从计算机的角度来说是无法区别’Car’、’car’、’CAR’是否表达相同的意思，因此需要把文本中所有字母都转换为小写或大写(通常意义上是小写)，统一用唯一的标识符进行表示。

7、数据格式统一

通过在不同数据源网站对数据进行不断采集以及积累，原始数据集格式有json，word，excel，pdf等，数据存储格式不统一，在数据清洗阶段，需要将数据进行统一处理成txt格式存储，为后期信息抽取阶段节省时间成本。

8、数据去重

通过爬虫从网页中获取的数据存在网页ID不同，文字内容相同的情况，这类数据来源于不同发文者转载或者复制其它网站的文字内容，需要对文本进行去重操作，已达到最大化有效数据的数量。

9、分裂的附加词

在社交论坛中的生成文本数据，本质上是完全非正式的。大多数推文伴随着多个附加词，例如RayyDay. PrimeCythOrth.等，如上实体需要用规则和正则表达式分裂成正常形式。

10、 变形词识别和替换

中文表述方式灵活多样，采集的数据来源于众多网站，不同网站的数据表述方式有简体或者繁体，这在特殊的自然语言处理场景下的增加了难度。因此，需要对变形词识别和替换，通过建立常见变形词的映射表，进行简繁替换；使用拼音首字母的方法来鉴别同音替换的变形词；或者用 Word2vec词向量来对比变形词与上下文的语意关联度，从而识别出该词是否经过了变形。

Original: https://blog.csdn.net/w__Y__w/article/details/121823043
Author: w__Y__w
Title: 中文数据清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548750/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言：商业数据分析实例（4）【总结篇，回归】

适用于有一定基础的初学者。内容为实战。本章节的内容围绕客户需求延伸，具体方案因人而异。欢迎大家在评论区提出不同的方案。使用到的数据：链接： https://pan.baidu….

人工智能 2023年6月16日
0087
CelebA数据集下载|HTTPSConnectionPool(host=‘drive.google.com‘, port=443)|RuntimeError:Dataset not found

CeleA是香港中文大学的开放数据，包含10177个名人身份的202599张图片，并且都做好了特征标记，这个数据集对人脸相关的训练来说是非常好用的数据集。但是它不像其他数据集一样…

人工智能 2023年6月24日
00119
【pyspark】DataFrame基础操作（二）

介绍一下 pyspark 的 DataFrame 基础操作。一、选择和访问数据 PySpark DataFrame 是惰性计算的，简单地选择一列不会触发计算，但它会返回一个 Co…

人工智能 2023年7月6日
0075
NLP文本生成的评价指标有什么？

文章目录 NLP文本生成的评价指标有什么？ * 1. BLEU 2. ROUGE – 2.1 ROUGE-N （将BLEU的精确率优化为召回率） 2.2 ROUGE-L…

人工智能 2023年5月28日
0076
Python进阶——网课不愁系列AI换脸技术

俗话说的好：网络一线牵，珍惜这段缘！网络的水很深，年轻人你把握不住，众所周知照片是可以P的，但是”视频”是”P”不了的（狗头保命）…

人工智能 2023年7月29日
0070
语音数据标注规范

一、基本原则 a) 听取原始音频文件中的内容，切片、校对原始转译文本，将错误文字改写正确，生成标注文本及相关标签数据； b) 听到什么就写什么，不加字，不少字；例如”…

人工智能 2023年5月23日
0099
Pytorch环境搭建

1.创建环境首先打开Anaconda 命令提示行，即打开Anaconda Prompt,前面显示(base)说明已经进入Anaconda的基础环境，然后我们键入 conda cr…

人工智能 2023年7月20日
0096
MPC（模型预测控制）控制小车沿轨迹移动——C++实现

任务说明要求如下图所示，给定一条轨迹，要求控制小车沿这条轨迹移动，同时可以适用于系统带有延时的情况。注意，本篇文章只给出部分C++代码参考。主要流程首先用运动学自行车模型（K…

人工智能 2023年6月1日
00135
SiameseFC超详解

SiameseFC 前言 * 论文来源参考文章论文原理解读 * 首先要知道什么是SOT？（Siamese要做什么） SiameseFC要解决什么问题？ SiameseFC用了什…

人工智能 2023年5月28日
0093
多层神经网络

为了解决线性不可分的问题，可以在输入层和输出层之间增加隐含层。隐含层和输出层一样，也是具有计算能力的功能神经元。这种增加了隐含层的神经网络就被称为多层神经网络。在前面说过，与或非…

人工智能 2023年7月14日
00119
手把手教你用tensorflow2.3训练自己的分类数据集

配合视频一起食用这篇教程效果更佳：手把手教你用tensorflow2训练自己的数据集 tensorflow2.x版本对小白非常友好，2.x的api中对keras进行了合并，大家只需…

人工智能 2023年7月4日
0051
Pytorch的一些小问题

实质上就是model.parameters()为空说明模型 DRPGAT初始化的时候没有继承module，原来我的初始化是： class DRPGAT(object): 修改为：…

人工智能 2023年7月23日
0069
windows 安装kafka流程

1、安装jdk 安装地址：www.oracle.com/java/technologies/downloads 下载好后进行安装，基本上一路点击下一步，不要忘记了把安装目录更换一下…

人工智能 2023年7月29日
0058
有监督学习算法如何选择合适的特征

问题背景介绍有监督学习是机器学习中的一种常用任务，旨在通过学习已知数据集的输入和输出之间的关系，建立一个准确的预测模型。在有监督学习算法中，选择合适的特征是关键的一步。特征选择的…

人工智能 2024年1月2日
0072
Pandas怎样实现DataFrame的合并

一、merge（合并）的语法： pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None, l…

人工智能 2023年6月13日
0059
成绩 (爱思创算法四)(期中测试)(答案记录)

这篇文章还是是为了帮助一些像我这样的菜鸟找到简单的题解题目描述期末考试终于结束了，小爱老师正在整理学生的成绩。由于老师在考试之后要讲题，所以同学们的分数会在考试后有所…

人工智能 2023年6月27日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

中文数据清洗

大家都在看