文本预处理

2023年5月28日下午12:49 • 大数据 • 阅读 74

文本预处理（持续更新）

文本预处理的核心或者说是干嘛的？
答：把词变成能训练的东西。
本文目的：作为一个工具使用

1、简单粗暴的文本处理（英文）
将非英文直接替换成空格，并将所有字母都转化成小写

with open('text.txt','r',encoding='utf-8') as f:
    lines = f.readlines()

import re
simple_process_file = [ re.sub('[^A-Za-z]+',' ',line).strip().lower() for line in lines ]

效果如下：

文本预处理

2、分词（英文）

def tokenize(lines,token = 'word'):
    if token == 'word':
        return [ line.split() for line in lines ]
    elif token == 'char':
        return [list(line) for line in lines]
    else:
        print("error: unknown token type"+token)

对s1作用后，效果如下：

文本预处理

3、构建vocabulary，即一个字典，形式为：{‘word’:id}
id可以是词出现的次数，也可以是一个从0开始的编码

import numpy as np
MAX_VOCAB_SIZE = 5
from collections import Counter
vocab = dict(Counter(token[0]).most_common(MAX_VOCAB_SIZE-1))
vocab[""] = len(token[0]) - np.sum(list(vocab.values()))

这样，就得到了形如{‘word’:出现次数}的vocabulary，添加了未知词

文本预处理

下面可以根据词来构建形如{‘word’:id}，id是从0开始的下标的vocabulary

idx_to_word = [word for word in vocab.keys()]
word_to_idx = {word:i for i, word in enumerate(idx_to_word)}

idx_to_word是能根据对应的下标返回单词的list。

文本预处理

4、将单词转化成对应的id

def encode_text(texts):
    encoded_text = []
    for text in texts:
        E = []
        for word in text.strip().split():
            if word in word_to_idx.keys():
                E.append(word_to_idx[word])
            else:
                E.append(word_to_idx[''])
        encoded_text.append(E)
    return encoded_text

再定义一个句子s2，将两句话一起放进去得到结果如下：

文本预处理

Original: https://blog.csdn.net/weixin_45153966/article/details/121684569
Author: spespusliar
Title: 文本预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531610/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hive数据仓库

基本使用 sql语言 show databases; 查看数据库 ; 不能省略优点：学习成本低:提供了类SQL查询语言HQL,使得熟悉SQL语言的开发人员无需关心细节,可以快速…

大数据 2023年11月12日
0058
HDFS集群配置

1 node1-4关闭和禁用防火墙 [root@node1 ~]● firewalld.service – firewalld – dynamic firewall daemon …

大数据 2023年5月25日
0080
数据中台的数据仓库和商业智能BI的数据仓库有什么区别？

数据中台的数据仓库和商业智能BI的数据仓库本质上没有任何区别，都是在底层业务系统数据源和上层应用之间做了一个隔离层，进行上下两层的解耦合。从数据分析应用角度来讲，不管是大数据还是小…

大数据 2023年11月12日
0053
2021年大学生大数据技能竞赛上海分区HIVE篇解析

项目需求自2019年底，湖北省武汉市监测发现不明原因肺炎病例，中国第一时间报告疫情，迅速采取行动，开展病因学和流行病学调查，阻断疫情蔓延。SARS-CoV-2是一种有着高扩散能力…

大数据 2023年11月13日
0032
Linux安装Redis

大数据 2023年11月16日
0050
Nginx 反向代理 HTTP、HTTPS、WS、WSS、SSH 配置(2022.03.31)

简单记录 Nginx 反向代理相关的一些配置文件，描述不足之处请自行查阅相关资料。 1. HTTP 配置 upstream web { server domain.com:80; …

大数据 2023年6月3日
0080
[人工智能-深度学习-52]：循环神经网络 – RNN的缺陷与LSTM的解决之道

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客本文网址：https://blog.csdn.net/HiWangWenBing/art…

大数据 2023年5月28日
0097
docker资源隔离

1.2 什么是Linux的容器(LXC–LinuX Container)？ 1.2.1 主机虚拟化与容器的区别 image.png 1.2.2 容器发展之路容器技术最…

大数据 2023年5月29日
0083
Typora配置阿里云图床

一、Typora安装PicGo 更新typora到最新版，打开文件——> 偏好设置——> 图像——> 上传服务选择 PicGo-Core——> 下载或更新…

大数据 2023年6月3日
0063
JVM -XX:NewRatio、-XX:SurvivorRatio参数含义

newRatio 是调整新生代和老年代的比例 survivorRatio 是调整eden和surviovor区域的大小 -Dspring.profiles.active=dev m…

大数据 2023年5月28日
00112
Neo4j—性能优化

不会项目管理的研发不是好司机（^^ ^^），开个玩笑，目的是想说项目管理很重要，研发同胞们需要重视、重视、重视（重要的事情说三遍）。随着项目业务扩展，不再是停留在基本某一业务范围，…

大数据 2023年6月3日
0092
cat常用命令和参数

cat命令详解用法功能 cat filename 获取文件内容 cat file1 file2 > newfile 将file2的内容追加到file1，生成新文件newf…

大数据 2023年5月27日
0083
『Android』复杂数据的存储SQLite和Room框架

『Android』复杂数据的存储SQLite和Room框架 🍁简介 🌷创建数据库 * 抽象方法实例方法构造方法 🌺操作数据 * 添加数据老师&学长博客 🌳Room（官…

大数据 2023年11月10日
0052
Ubuntu20详细安装步骤

镜像下载、域名解析、时间同步请点击阿里云开源镜像站 Ubuntu20.04服务器版安装下载地址：https://ubuntu.com/download/desktop 一、语言选…

大数据 2023年5月27日
00105
Hive 总结

大数据 2023年11月14日
0065
【学习笔记】Reids的哨兵机制

大数据 2023年11月16日
0036

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球