关于文本数据预处理的一些方法

2023年5月28日下午1:25 • 大数据 • 阅读 100

最近在进行一个关于深度学习的文本情感分类的项目，从数据获取到清洗，以及文本标注这些都在准备。文本预处理是NLP中十分关键的一个流程，正所谓数据是否优质决定着神经网络的训练效果，以及后续对神经网络的调参，本文分享一些基本的文本预处理方法。

文章目录

数据浏览
一、数据整合以及体量观测
二、文本数据分词
三、词云
四、句长统计
总结

数据浏览

由于项目上运用到的情感分类数据是要用于进行5分类的情感分类，数据体量较大，本文只选取其中很小一部分进行预处理，大体数据集合如下：

; 一、数据整合以及体量观测

这部分更多是对数据进行读取以及对各个标签数据集合进行整合，对各个标记进行整合

import matplotlib.pyplot as plt
import pandas as pd
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

one = pd.read_csv('情感-1.csv', encoding='gbk', header=None, )
two = pd.read_csv('情感-2.csv', encoding='gbk', header=None, )
three = pd.read_csv('情感-3.csv', encoding='gbk', header=None, )
four = pd.read_csv('情感-4.csv', encoding='gbk', header=None, )
five = pd.read_csv('情感-5.csv', encoding='gbk', header=None, )

def chart():
    len_list = [len(one), len(two), len(three), len(four), len(five), ]

    plt.bar(range(1, 6), len_list, )
    text = dict(list(zip(range(1, 6), len_list)))
    for i, j in text.items():
        plt.text(i, j, j, size = 15)
    plt.show()

def to_data():
    path = [one, two, three, four, five]
    data = pd.concat(path)
    data.to_csv('data.csv', header=False, index=False)
chart()
to_data()

结果预览：

二、文本数据分词

接下来就是对保存的文本进行一个分词操作，我们选用jieba分词，该分词有三种模式：
精确模式（jieba.cut()）：把文本精确的切分开，不存在冗余单词
全模式（jieba.lcut()）：把文本中所有可能的词语都扫描出来，有部分冗余单词
搜索引擎模式（jieba.lcut_for_search()）：在精确模式基础上，对长词再次切分

import jieba
import pandas as pd

def cut_word():
    data = pd.read_csv('data.csv', header=None, )[0]

    with open('cut_word.txt', 'w', encoding='utf-8')as fp:
        for i in data:
            fp.write(str(' '.join(jieba.lcut(i))))
            fp.write(str('\n'))
 cut_word()

效果展示:

由于是运用到文本情感分析上没有对分词进行停用词以及去掉一些符串操作，在情感分析中一些停用词的由于往往具有不同的情感。

三、词云

对分词文本进行词云统计，以获取该语料的词频特性，在词云绘制中我们需要对用于词云绘制的语料进行去停用词操作，停用词往往是一段话、一篇文章出现最多的，如果不去除我们生成的词云将会难以判断出语料的词频特性。

import numpy as np
import wordcloud
from PIL import Image
import matplotlib.pyplot as plt

def cloud(Save = False):
    text = 'cut_word.txt'
    with open(text, encoding='utf-8') as f:
        text = f.read()
    stopwords = set()
    word = [line.strip() for line in open('Stopword.txt', 'r', encoding='utf-8').readlines()]
    stopwords.update(word)
    mask = np.array(Image.open('t01d0ea9f758acc4ce1.jpg'))

    w = wordcloud.WordCloud(width=800,height=600,
    background_color='white', font_path='SIMLI.TTF',
    mask=mask, stopwords=stopwords)
    w.generate(text)
    plt.imshow(w)
    plt.show()
    if Save:
        save_path = 'wordCloud.png'
        w.to_file(save_path)

cloud(Save=True)

词云图片展示：通过这个图片我们就能直观得展示出语料得核心词，以及语料是什么性质的。

四、句长统计

在我们进行词嵌入以及需要设定的句子序列长短时，就要考虑文本数据的句子长度信息，这就使得对句子长短的统计显得更加重要。

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

plt.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_csv('data.csv', header=None)[0]
data_len = []
for j in data:
    data_len.append(len(j))
print(data_len)
print('总句子数：', len(data))
print('最长句子：',np.max(data_len))
print('最小值：', np.min(data_len))
print('中位数：', int(np.median(data_len)))
print('平均值：', int(np.mean(data_len)))
data_list = {
            5: 0, 10: 0, 15: 0, 20: 0, 25: 0, 30: 0, 35: 0, 40: 0,
            45: 0, 50: 0, 55: 0, 60: 0, 65: 0, 70: 0, 75: 0,
            80:0
            }
for i in data:
    if len(i) < 5:
        data_list[5] += 1
    elif len(i) < 10:
        data_list[10] += 1
    elif len(i) < 15:
        data_list[15] += 1
    elif len(i) < 20:
        data_list[20] += 1
    elif len(i) < 25:
        data_list[25] += 1
    elif len(i) < 30:
        data_list[30] += 1
    elif len(i) < 35:
        data_list[35] += 1
    elif len(i) < 40:
        data_list[40] += 1
    elif len(i) < 45:
        data_list[45] += 1
    elif len(i) < 50:
        data_list[50] += 1
    elif len(i) < 55:
        data_list[55] += 1
    elif len(i) < 60:
        data_list[60] += 1
    elif len(i) < 65:
        data_list[65] += 1
    elif len(i) < 70:
        data_list[70] += 1
    elif len(i) < 75:
        data_list[75] += 1
    elif len(i) > 75:
         data_list[80] += 1

print(data_list)
x = []
y = []
for key, index in data_list.items():
    x.append(key)
    y.append(index)
print(x)
print(y)

plt.plot(x, y ,color='b', marker='o',
             markerfacecolor='red', markersize=7)
plt.title("数据集句子长度统计图")
plt.xlabel('句子长度')
plt.ylabel('统计量')

for a, b in data_list.items():
    print(a, b)
    plt.text(a, b, b, size=15)
plt.text(77, 30, '句长>80', size=10, color="b")
plt.text(62, 75, "统计总数量：%d" % len(data), size=10, color="r")
plt.text(62, 70, "句长最大值：%d" % np.max(data_len), size=10, color="r")
plt.text(62, 65, "句长最小值：%d" % np.min(data_len), size=10, color="r")
plt.text(62, 60, "句长中位数：%d" % int(np.median(data_len)), size=10, color="r")
plt.text(62, 55, "句长平均数：%d" % int(np.mean(data_len)), size=10, color="r")
plt.show()

总结

本文介绍了一些基础方法对文本数据预处理的方法，这些方法虽然简单但是很大程度上有利于后续我们对于情感分类的进行，以及神经网络的构建。其中有一些代码或者其他的可能是我借鉴其他大佬博主的，如有雷同十分抱歉！如果对您产生影响希望能告知我一下。谢谢！~ 。~

Original: https://blog.csdn.net/weixin_54730336/article/details/120454051
Author: 仍旧丶
Title: 关于文本数据预处理的一些方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531772/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Nginx 开源版编译安装教程

本文示例在虚拟机 Rocky Linux 8.5 系统中编译安装 Nginx 开源版软件。关于虚拟机 Rocky Linux 8.5 系统的安装配置教程可参考这篇文章：VMwar…

大数据 2023年5月27日
0078
快速离线安装docker-compose

1、到官网下载docker-compose的离线包下载地址：https://github.com/docker/compose/releases 2、下载好离线包，把离线包放在指…

大数据 2023年5月29日
0063
docker方式安装redis-自定义redis配置文件

大数据 2023年11月16日
0058
Flink1.13-java版教程（高阶2）

第 9 章状态编程 9.1 Flink 中的状态在流处理中，数据不断到达和处理。在计算和处理每项任务时，可以直接根据当前数据转换输出，也可以依赖其他一些数据。由任务维护并用于计…

大数据 2023年5月24日
0095
【阅读笔记】技术前沿（视觉-语言预训练、能量模型）

视觉-语言预训练 (Vision-Language Pre-training，VLP) 预训练模型，生成图像标注，视觉问答模型角度，基于编码器-解码器的模型在「图文检索」task…

大数据 2023年5月28日
0092
大数据学习笔记——————-(12_1)

第11章 zookeeper应用程序接口 Zookeeper有一个官方的API绑定的Java和C。 ZooKeeper Community提供大多数语言（.NET，Python等）…

大数据 2023年5月26日
0094
十二、神经网络语言模型

神经网络语言模型 1.NNLM的原理 1.1 语言模型假设 S_表示某个有意义的句子，由一串特定顺序排列的词w 1 , w 2 , . . , w n w_1,w_2,..,w_…

大数据 2023年5月28日
0072
血的教训—入侵redis并远程控制你的机器场景复现

大数据 2023年11月16日
0033
Linux删除MySQL

查看进程 csharp;gutter:true; rpm -qa | grep -i mysql</p> <pre><code> ##### 删…

大数据 2023年5月26日
00148
2个qubit的量子门

量子计算机就是基于单qubit门和双qubit门的，再多的量子操作都是基于这两种门。双qubit门比单qubit门难理解得多，不过也重要得多。它可以用来创建纠缠，没有纠缠，量子机就…

大数据 2023年6月3日
00103
Hive表的存储格式

Hive表的存储格式文件格式-概述 ; Hive的文件格式-TextFile TextFile 是Hive中默认的文件格式存储形式为按行存储工作中最常见的数据文件格式就是Te…

大数据 2023年11月13日
0037
1. 大数据概述

一、列举Hadoop生态的各个组件及其功能、以及各个组件之间的相互关系，以图呈现并加以文字描述 1. HDFS（Hadoop分布式文件系统） Hadoop分布式文件系统是Hadoo…

大数据 2023年6月3日
0097
hive从入门到放弃(四)——分区与分桶

分区可以提高查询效率，实际上 hive 的一个分区就是 HDFS 上的一个目录，目录里放着属于该分区的数据文件。分区的基本操作 create table partition_ta…

大数据 2023年6月3日
00100
SQLite3文件转化为SQL文件转储

SQLite3文件转化为SQL文件 1.将 .sqlite3 文件保存下来，并导出为 .sql 文件在导出之前，先确保安装了 sqlite这个库下载 sqlite pip in…

大数据 2023年11月10日
0044
论文笔记 EMNLP 2020|Reading the Manual-Event Extraction as Definition Comprehension

文章目录 * – 1 简介 – + 1.1 创新 – 2 任务定义 – 3 方法 – 4 模型 – 5 实验…

大数据 2023年5月28日
0077
AI项目实战-机器学习算法（基础篇）

说明：本文的侧重点在于快速了解机器学习在项目中涉及到常见算法概念、应用，以及在保持核心原理本质的前提条件下，尽量用简单易懂的方式介绍这些算法原理，抛砖引玉，打破心理障碍，让AI尽快…

大数据 2023年6月3日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关于文本数据预处理的一些方法

文章目录

大家都在看