中文数据清洗

1、HTML标签去除

从Web获得的数据通常包含许多HTML实体、注释,如lt;& gt;& &;,嵌入在原始数据中。这些信息属于噪音数据,会严重影响数据的质量,需要使用正则表达式去除。

2、去除URL

网页文本数据中,如推特、评论中,会包含一些URL和链接,根据业务需求,不是项目需要的数据,因此需要去除。

3、长串数字、特殊符号去除

通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容,在非特定的文本任务情境下可以去除。或者将其转换为归一化的特征,如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等。每篇文本数据中可能会包含一些空格、tab键和\u4300等一些与业务需求无关的符号,需要先对每篇文章进行分句,然后使用规则方法进行去除。

4、无意义的文本

无意义的文本指诸如广告内容、版权信息和个性签名等信息内容,如上信息不应该作为文本特征被模型学习。通过对噪音进行清洗以获取高质量的数据,能够使模型更好地去拟合实际的语义特征,增强模型的泛化能力,提升信息抽取的准确率。

5、移除表情符

文本数据(通常是语音转录)可能包含人类表情符号,比如[laughing], [Crying], [Audience paused]。这些表情符号通常与内容信息无关,需要移除。这种情况可以用正则表达式来完成。

6、 Normalization 英文词标准化)

从网络上获取的数据后,需要对数据Normalization 。数据中通常包含英文表述,句子第一个单词的首字母一般是大写,也会存在全部字母都大写用于表示强调和区分风格,更易于人类理解表达,但是从计算机的角度来说是无法区别’Car’、’car’、’CAR’是否表达相同的意思,因此需要把文本中所有字母都转换为小写或大写(通常意义上是小写),统一用唯一的标识符进行表示。

7、数据格式统一

通过在不同数据源网站对数据进行不断采集以及积累,原始数据集格式有json,word,excel,pdf等,数据存储格式不统一,在数据清洗阶段,需要将数据进行统一处理成txt格式存储,为后期信息抽取阶段节省时间成本。

8、数据去重

通过爬虫从网页中获取的数据存在网页ID不同,文字内容相同的情况,这类数据来源于不同发文者转载或者复制其它网站的文字内容,需要对文本进行去重操作,已达到最大化有效数据的数量。

9、分裂的附加词

在社交论坛中的生成文本数据,本质上是完全非正式的。大多数推文伴随着多个附加词,例如RayyDay. PrimeCythOrth.等,如上实体需要用规则和正则表达式分裂成正常形式。

10、 变形词识别和替换

中文表述方式灵活多样,采集的数据来源于众多网站,不同网站的数据表述方式有简体或者繁体,这在特殊的自然语言处理场景下的增加了难度。因此,需要对变形词识别和替换,通过建立常见变形词的映射表,进行简繁替换;使用拼音首字母的方法来鉴别同音替换的变形词;或者用 Word2vec词向量来对比变形词与上下文的语意关联度,从而识别出该词是否经过了变形。

Original: https://blog.csdn.net/w__Y__w/article/details/121823043
Author: w__Y__w
Title: 中文数据清洗

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548750/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球