（NLP）文本预处理

2023年5月30日下午6:30 • 人工智能 • 阅读 74


import re

punc = '[~`!#$%^&*()_+-=|\';":/.,?>

with open('toutiao_cat_data.txt', 'r', encoding='utf') as f:
    lines = f.readlines()
    for i in range(len(lines)):
        lines[i] = lines[i].strip().split('_!_')[3]
        lines[i]= re.sub(punc, '', lines[i])

print(f'文本总行数：{len(lines)}')
for i in range(5):
    print(lines[i])

结果如下：

文本总行数：382688
京城最值得你来场文化之旅的博物馆
发酵床的垫料种类有哪些哪种更好
上联黄山黄河黄皮肤黄土高原怎么对下联
林徽因什么理由拒绝了徐志摩而选择梁思成为终身伴侣
黄杨木是什么树

分词

在语言学中，词是具备独立意义的最小单位。由合适的词进行排列组合形成有意义的句子。对文本信息进行处理的第一步就是进行分词。
如果是英文文本的话，分词就简单许多了，由于英文的语法特性，其句子中的每个词都用空格分开，因此英文分词就直接利用python自带的split()函数以空格分割就行。
如果文本是中文的话，情况就要复杂一些了。一个分词策略就是：我们先准备一个很大很大词典，对一句话中的第一个字进行查询，如果它能够在词典中查到，说明它是词，那就取前两个字，再进行查询，一直到无法查询位置，然后再将下标移动到查不到词的最后一个字，重复。
感觉自己实现有一点复杂，还好python有相应的库——jieba (得自己下载)。利用jieba.lcut()就可以进行分词。

import jieba

import logging
jieba.setLogLevel(logging.INFO)

token_lines = []

for line in lines:
    token_lines.append(jieba.lcut(line))

print(token_lines[0])
print(token_lines[1])

结果如下：

['京城', '最', '值得', '你', '来场', '文化', '之旅', '的', '博物馆']
['发酵', '床', '的', '垫料', '种类', '有', '哪些', '哪', '种', '更好']

词表

我们通过头条新闻数据集来构建一个自己的词表。
首先将分词结果都添加到一个列表中，再将重复的单词去掉，最后再将其变成字典的形式方便索引，因为学习模型无法处理字符串，只能处理数字。


token = []

for token_line in token_lines:
    token.extend(token_line)

import collections
vocab = collections.Counter(token)

from matplotlib import pyplot as plt
x = [i for i in range(3000)]
y = list(vocab.values())[0:3000]
plt.plot(x, y)
plt.show()

vocab_dict = {}
for i, j in enumerate(vocab):
    vocab_dict[j] = i

print(vocab_dict['你'])
print(vocab_dict['文化'])

结果如下：

3
5

词频图如下：

Original: https://blog.csdn.net/qq_43871173/article/details/125731254
Author: lambda99
Title: （NLP）文本预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544515/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

LabVIEW什么时候需要使用DLL封装 Calling External APIs

LabVIEW什么时候需要使用DLL封装所谓封装就是指为另一种软件提供兼容性接口的程序。由于第三方DLL的开发设计通常是为了从C语言（或者其它类似的底层语言）中调用，而不从是La…

人工智能 2023年6月30日
0068
【Numpy总结】第七节：Numpy常用的函数（汇总所有函数，收藏这一篇就OK啦~）

一、Numpy 的加减乘除 numpy 进行加减乘除时，可以使用运算符号，即： +，-，*，/ ，也可以使用对应的…

人工智能 2023年6月15日
0087
回归与聚类算法————分类算法-逻辑回归与二分类

目录 1、逻辑回归的应用场景 2、逻辑回归的原理 2.1 输入 2.2 激活函数 2.3 损失以及优化 2.3.1 损失 2.3.2优化 3、逻辑回归API 4, 案例：癌症分类…

人工智能 2023年6月17日
0091
损失函数 | BCE Loss（Binary CrossEntropy Loss）

BCE（Binary CrossEntropy）损失函数 * – + 图像二分类问题—>多标签分类 + Sigmoid和Softmax的本质及其相应的…

人工智能 2023年7月20日
0047
opencv的ORB特征（slambook2 orb_cv.cpp代码详解）

ORB特征提取与匹配 slambook2/ch7/orb_cv.cpp 1. 头文件 #include #include #include #include #include us…

人工智能 2023年7月19日
0063
Landsat 7两个热红外波段B61和B62的区别与应用时的选择方法

本文介绍 Landsat 7遥感影像数据中 B61、 B62两个热红外波段的区别，以及研究应用时二者选择的依据。 Landsat 7遥感影像数据具有2个热红外波段，分别是 Ban…

人工智能 2023年6月29日
0078
《动手学深度学习》第三章——（4）softmax回归的简洁实现_学习思考与习题答案

文章目录 * – 重新审视Softmax的实现 – 优化算法 – 训练 – 练习作者github 源码地址 # softmax回归…

人工智能 2023年6月17日
0067
腾讯Turing Lab论文入选ICASSP，图像AI研究成果获国际认可

近日，全球顶级信号处理技术会议 ICASSP 2022 公布了论文入选名单。由王君乐博士带领的腾讯Turing Lab实验室论文——《针对手机游戏的主观与客观视频质量评价》（Sub…

人工智能 2023年5月27日
0085
【神经网络】学习笔记十四——Seq2Seq模型

本文简要介绍seq2seq，即序列到序列的基本知识，是深度学习和NLP中一个重要的知识。从三部分来说，seq2seq基本简介，应用场景和原理解析。一、什么是Seq2Seq 所谓…

人工智能 2023年5月28日
0081
目标检测2——卷积注意力模块

卷集注意力模块（CBAM）为后续YOLOv4网络加入卷集注意力模块，在这里记录一下卷集注意力模块的理解。文章目录卷集注意力模块（CBAM） * 1.卷集注意力模块整体结构 2…

人工智能 2023年7月12日
0076
自动（智能）驾驶系列| 插播深挖自动驾驶数据集

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0081
Planning-Apollo路径决策规划及问题

Apollo中采用路径规划和速度规划解耦的方法，由 EM Planner演变而来，路径规划是基于参考线的规划，放弃了 EM Planner中的路径决策 DP过程。 1. 算法原理 …

人工智能 2023年6月10日
0093
Windows11&Ubuntu18.04安装OpenCV4.5.0&VISP3.5.0

Windows11&Ubuntu18.04安装OpenCV4.5.0&VISP3.5.0 一 Windows11安装OpenCV4.5.0&VISP3.5….

人工智能 2023年7月20日
0059
HDF5 library version mismatched error的解决方案

1.报错信息 `cWarning! HDF5 library version mismatched errorThe HDF5 header files used to compi…

人工智能 2023年5月24日
0053
C++ 灰度图像伪彩色处理

真彩色是指影像中的物体颜色和人类肉眼所见的颜色非常相似。在黑白影像中全彩则是指物体的明亮程度。但因为颜色染料等媒体的化学等性质和人类肉眼不同，因此不可能得到绝对的真彩色。伪彩色的…

人工智能 2023年6月22日
0096
Keras深度学习实战（1）——神经网络基础与模型训练过程详解

Keras深度学习实战（1）——神经网络基础与模型训练过程详解 * – 0. 前言 – 1. 神经网络基础 – + 1.1 简单神经网络的架构 …

人工智能 2023年6月16日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（NLP）文本预处理

目录

大家都在看