关于NLP中的文本预处理的完整教程

2023年5月28日上午12:49 • 人工智能 • 阅读 90

实现文本预处理
在下面的python代码中，我们从Twitter情感分析数据集的原始文本数据中去除噪音。之后，我们将进行删除停顿词、干化和词法处理。

导入所有的依赖性。

! pip install contractions
import nltk
import contractions
import inflect
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import LancasterStemmer, WordNetLemmatizer
from bs4 import BeautifulSoup
import re, string, unicodedata
复制代码

去除噪音。

第一步是去除数据中的噪音；在文本领域，噪音是指与人类语言文本无关的东西，这些东西具有各种性质，如特殊字符、小括号的使用、方括号的使用、空白、URL和标点符号。

下面是我们正在处理的样本文本。

正如你所看到的，首先有许多HTML标签和一个URL；我们需要删除它们，为此，我们使用BeautifulSoup。下面的代码片段将这两者都删除了。

to remove HTML tag
def html_remover(data):
  beauti = BeautifulSoup(data,'html.parser')
  return beauti.get_text()

to remove URL
def url_remover(data):
  return re.sub(r'https\S','',data)

def web_associated(data):
  text = html_remover(data)
  text = url_remover(text)
  return text

new_data = web_associated(data)
复制代码

在去除HTML标签和URL后，仍有一些标点符号和空白的噪音，以及括号内的文本数据；这也需要被处理。

def remove_round_brackets(data):
  return re.sub('\(.*?\)','',data)

def remove_punc(data):
  trans = str.maketrans('','', string.punctuation)
  return data.translate(trans)

def white_space(data):
  return ' '.join(data.split())

def complete_noise(data):
  new_data = remove_round_brackets(data)
  new_data = remove_punc(new_data)
  new_data = white_space(new_data)
  return new_data

new_data = complete_noise(new_data)
复制代码

现在，正如你所看到的，我们已经成功地去除文本中的所有噪音。

对文本进行规范化处理。

通常情况下，文本规范化首先要对文本进行标记，我们较长的语料现在要被分割成若干个词块，NLTK的标记器类可以做到这一点。之后，我们需要对语料库中的每个单词进行小写，将数字转换为单词，最后进行缩略语替换。

def text_lower(data):
  return data.lower()

def contraction_replace(data):
  return contractions.fix(data)

def number_to_text(data):
  temp_str = data.split()
  string = []
  for i in temp_str:
    # if the word is digit, converted to
    # word else the sequence continues
    if i.isdigit():
      temp = inflect.engine().number_to_words(i)
      string.append(temp)
    else:
      string.append(i)
  return temp_str

def normalization(data):
  text = text_lower(data)
  text = number_to_text(text)
  text = contraction_replace(text)
  nltk.download('punkt')
  tokens = nltk.word_tokenize(text)
  return tokens

tokens = normalization(new_data)
print(tokens)
复制代码

现在，我们已经接近基本文本预处理的尾声；现在，我们只剩下一件重要的事情：停止词。在分析文本数据时，停顿词根本没有意义；它只是用于装饰性目的。因此，为了进一步降低维度，有必要将停顿词从语料库中删除。

最后，我们有两种选择，即用词干化或词组化的形式来表示我们的语料库。词干化通常试图将单词转换为其词根格式，而且大多是通过简单地切割单词来进行。而词根化也是做干化的任务，但以适当的方式意味着它将单词转换为词根格式，如’scenes’将被转换为’scene’。人们可以在词干化和词缀化之间进行选择。

def stopword(data):
  nltk.download('stopwords')
  clean = []
  for i in data:
    if i not in stopwords.words('english'):
      clean.append(i)
  return clean

def stemming(data):
  stemmer = LancasterStemmer()
  stemmed = []
  for i in data:
    stem = stemmer.stem(i)
    stemmed.append(stem)
  return stemmed

def lemmatization(data):
  nltk.download('wordnet')
  lemma = WordNetLemmatizer()
  lemmas = []
  for i in data:
    lem = lemma.lemmatize(i, pos='v')
    lemmas.append(lem)
  return lemmas

def final_process(data):
  stopwords_remove = stopword(data)
  stemmed = stemming(stopwords_remove)
  lemm = lemmatization(stopwords_remove)
  return stemmed, lemm
stem,lemmas = final_process(tokens)
复制代码

下面我们可以看到经过词干化和词缀化的单词。

结语。
在这篇文章中，我们讨论了文本的预处理对模型的建立是如何必要的。从一开始，我们就学会了如何去除HTML标签，并从URL中去除噪音。首先，为了去除噪音，我们必须对我们的语料库进行概述，以定制噪音成分。我们已经观察到在词干化和词条化之间的巨大权衡，我们应该始终使用词条化的词。

最后
如果你觉得这篇文章对你有点用的话，麻烦请给我们的开源项目点点star:http://github.crmeb.net/u/defu不胜感激！

免费获取源码地址：http://ym.baisouvip.cn/html/wzym/36.html

PHP学习手册：https://doc.crmeb.com

技术交流论坛：https://q.crmeb.com

Original: https://blog.csdn.net/qq_39221436/article/details/124244361
Author: CRMEB定制开发
Title: 关于NLP中的文本预处理的完整教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528373/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

智能宠物喂食器语音芯片应用设计方案（基于唯创语音芯片WT588E02-8S（C001）功能拓展）

智能宠物喂食器语音芯片应用设计方案（基于唯创语音芯片 WT588E02-8S（C001）功能拓展）概述本文主要通过使用唯创知音语音芯片扩展目录进行选型微定制，达到节省成本…

人工智能 2023年5月25日
00100
Embedding 基础

一、什么是Embedding 简单来说，Embedding 就是用一个数值向量”表示”一个对象（Object）的方法，这里说的对象可以是一个词、一个物品，也…

人工智能 2023年6月24日
0091
0x00007FF872444FD9 处(位于 Project1.exe 中)有未经处理的异常: Microsoft C++ 异常: cv::Exception，位于内存位置 0x000000F11

0x00007FF872444FD9 处(位于 Project1.exe 中)有未经处理的异常: Microsoft C++ 异常: cv::Exception，位于内存位置 0x…

人工智能 2023年7月19日
0090
超越前作，实现动漫风格迁移——AnimeGANv2

前言之前一直在研究如何将图像动漫化，尝试了阿里云api和百度api，效果都不尽如人意。结果发现了一个宝藏github项目——AnimeGANv2，能够将现实世界场景照片进行动漫风…

人工智能 2023年6月17日
0079
Linux & Windows 的Tensorflow 配置: Nvidia 老显卡运算能力低于3.0

实测成功配置信息1： Windows10，GT755m, Capability 3.0 Ana(Mini)conda管理，环境 Python 3.6(.13) Cuda=9.0 C…

人工智能 2023年5月24日
0095
情感分类问题IMDB实战(SimpleRNN，LSTM，GRU）

使用经典的 IMDB 影评数据集来完成情感分类任务。 IMDB 影评数据集包含了50000 条用户评价，评价的标签分为消极和积极，其中 IMDB 评级一、数据集加载以及数据集预…

人工智能 2023年7月1日
0088
图像处理数学基础

泛函分析函数：数域->数域泛函：函数->数域算子：函数->函数在适当的函数类中选择一个函数使得某值取得最值，变分法就是求泛函极值的方法。泛函分析在图像处…

人工智能 2023年6月18日
0075
经典卷积神经网络——resnet

resnet 前言一、resnet 二、resnet网络结构三、resnet18 * 1.导包 2.残差模块 2.通道数翻倍残差模块 3.rensnet18模块 4.数据测试 …

人工智能 2023年7月21日
0056
池化层如何帮助网络实现平移不变性(translatio

问题介绍在深度学习中，卷积神经网络（Convolutional Neural Networks, CNN）是一种常用的架构，广泛应用于计算机视觉任务中。然而，CNN的一个重要挑战…

人工智能 2024年1月4日
0040
基于yolov5的mjpg-streamer服务器搭建

前言：使用onnxruntime 加载YOLOV5的onnx模型，基于python版本的http.server搭建mjpg-streamer服务器，使用opencv打开电脑摄像头或…

人工智能 2023年7月20日
0050
【PyTorch深度学习项目实战100例】—— 基于ResNet18实现昆虫分类任务 | 第23例

; 前言大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集…

人工智能 2023年6月17日
0096
解决huggingface中模型无法自动下载或者下载过慢的问题

项目场景：调用hugging face公开模型数据集中的transformers模型。问题描述：默认源在国内下载模型过慢，甚至不开始下载。原因分析：部分博客解决方案为：在…

人工智能 2023年7月22日
00126
FCN——语义分割的开山鼻祖（基于tf-Kersa复现代码）

1、什么是语义分割（semantic segmentation）？图像语义分割，简而言之就是对一张图片上的所有像素点进行分类，将所有属于同一类的物体标记为同一像素点。而今天要来…

人工智能 2023年5月26日
00101
树的存储结构

双亲存储结构 ● 做法 • 一种顺序存储结构 , 用一组连续空间存储树的所有节点,• 同时在每个节点中附设一个伪指针指示其双亲节点的位置• 按顺序依次存储 , 逐层逐个节点存储在数…

人工智能 2023年6月28日
00102
【文件处理】——Python pandas 写入数据到excel中

目录 1、创建一个新的excel表格 2、获取写入excel的数据data 3、将data类型转换为pandas接受的类型 4、写入到excel中 5、保存excel 最终结果 …

人工智能 2023年7月6日
0063
Gradio：轻松实现AI算法可视化部署

如何将你的AI算法迅速分享给别人，让对方体验，一直是一件麻烦事儿。首先大部分人都是在本地跑代码，让别人使用你的模型，以往有这三种方案：上github 将代码打包或者封装成doc…

人工智能 2023年7月14日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

关于NLP中的文本预处理的完整教程

大家都在看