Pandas数据分析18——pandas文本处理

2023年7月16日下午3:18 • 人工智能 • 阅读 71

pandas对文本数据也有很多便捷处理方法，可以不用写循环，向量化操作运算速度快，还可以进行高级的正则表达式，各种复杂的逻辑筛选和匹配提取信息。对于机器学习来说，从文本中做特征工程很是很有用的。

还是先导入包，读取案例数据

import numpy as np
import pandas as pd
data = 'https://www.gairuo.com/file/data/dataset/team.xlsx'
df = pd.read_excel(data)

文本数据类型

object 和 StringDtype 是 Pandas 的两个文本类型，不过作为新的数据类型，官方推荐 StringDtype 的使用。

默认情况下，文本数据会被推断为 object 类型。

pd.Series(['a', 'b', 'c'])

string 类型需要专门进行指定：

pd.Series(['a', 'b', 'c'], dtype="string")
pd.Series(['a', 'b', 'c'], dtype=pd.StringDtype())

转换,可以从其他类型转换到这两个类型：

s = pd.Series(['a', 'b', 'c'])
s.astype("object")
s.astype("string")

df.convert_dtypes().dtypes

对于非字符类型我们可以先进行转换，再使用


df.Q1.astype(str).str

df.team.astype("string").str
df.Q1.astype(str).astype("string").str

.str后要展示数据要进行分割


df.team.astype("string").str.strip()

对索引进行操作

df.index.str.lower()

df.columns.str.lower()
df.columns.str.strip()

df.columns.str.strip().str.lower().str.replace('q', '_')

文本格式

格式转化


s = pd.Series(['lower', 'CAPITALS', 'this is a sentence', 'SwApCaSe'])
s.str.lower()
s.str.upper()
s.str.title()
s.str.capitalize()
s.str.swapcase()
s.str.casefold()

文本对齐

类似字符串的格式化，可以填充或者对齐


s.str.center(10, fillchar='-')

s.str.ljust(10, fillchar='-')

s.str.rjust(10, fillchar='-')

指定宽度，填充内容对齐方式，填充内容


s.str.pad(width=10, side='left', fillchar='-')

s.str.zfill(10)

文本计数和编码


s.str.count('a')

s.str.count(r'a|b|c')

s.str.len()


s.str.encode('utf-8')

s.str.decode('utf-8')

s.str.normalize('NFC')

格式判断

类别判断,以下方法可以判断文本的相关格式：

检查字母和数字字符
s.str.isalpha() # 是否纯英文数字单词组成
s.str.isalnum() # 是否单词、数字或者它们组合形式组成

请注意，对于字母数字检查，针对混合了任何额外标点或空格的字符的检查将计算为 False

s.str.isdecimal() # 是否数字 0-9 组成合规10进制数字
s.str.isdigit() # 同 但可识别 unicode中的上标和下标数字
s.str.isnumeric() # 是否可识别为一个数字，同 isdigit 可识别分数
s.str.isdecimal()  #是否为小数

s.str.isspace() # 是否空格
s.str.islower() # 是否小写
s.str.isupper() # 是否大写
s.str.istitle() # 是否标题格式，只有第一个字母大写

wrap将长文本拆分开指定宽度的字符，用换行连接

s.str.wrap(10)

文本高级处理

文本分割

#对内容中的下划线进行了分隔，分隔后每个内容都成为了一个列表，其中对空值是不起作用的。
s2 = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'], dtype="string")
s2.str.split('_')

分隔后可以使用 get 或者 [] 来取出相应内容，不过 [] 是列表切片操作更加灵活，不仅可以取出单个内容，也可以取出多个内容组成的片断。

取出每行第二个，列表索引从 0 开始

s2.str.split('_').str[1]

get 只能传一个值
s2.str.split('_').str.get(1)

[] 可以使用切片操作

s2.str.split('_').str[1:3]
s2.str.split('_').str[:-2]
如果不指定分隔符，会按空格进行分隔
s2.str.split()
限制分隔的次数，从左开始，剩余的不分隔
s2.str.split(n=2)

字符展开,使用 split 可以将分隔后的数据展开形成新的行内容。

s2.str.split('_', expand=True)

指定展开列数，n 为切片右值

s2.str.split('_', expand=True, n=1)

rsplit 和 split一样，只不过它是从右边开始分隔，如果没有n参数，rsplit和split的输出是相同的。

s2.str.rsplit('_', expand=True, n=1)

使用正则，对于规则比较复杂的，分隔符处可以传入正则表达式：

s = pd.Series(["1+1=2"])
s.str.split(r"\+|=", expand=True)

文本切片选择 slice

可以使用 .str.slice() 将指定的内容切除掉，不过还是推荐使用 s.str[]来实现，这样和Python字符串列表操作是一样的

s = pd.Series(["koala", "fox", "chameleon"])
s.str.slice() # 不做任何事
s.str.slice(1) # 切掉第一个字符
s.str.slice(start=1) #同上

其他参数用法

切除最后一个以前的，留下最后一个
s.str.slice(start=-1) # s.str[-1]
切除第二位以后的
s.str.slice(stop=2) # s.str[:2]
切除步长为2的内容
s.str.slice(step=2) # s.str[::2]
切除从开头开始，第4位以后并且步长在3的内容
同 s.str[0:5:3]
s.str.slice(start=0, stop=5, step=3)

划分 partition

.str.partition可以将文本按分隔符号划分为三个部分，形成一个新的 DataFrame或者相关数据类型。

s = pd.Series(['Linda van der Berg', 'George Pitt-Rivers'])
s.str.partition()

其他

从右开始划分
s.str.rpartition()
指定符号
s.str.partition('-')
划分为一个元组列
s.str.partition('-', expand=False)
对索引进行划分
idx = pd.Index(['X 123', 'Y 999'])
idx.str.rpartition()

文本替换

s = pd.Series(['12', '-$10', '$10,000'], dtype="string")
s.str.replace('$', '')

s.str.replace(r'$|,', '')#逗号也替换

如果我们替换 -$ 则发现不起作用，是因为替换字符默认是支持正则的（可以使用 regex=False 不支持），可以进行转义来实现。

s.str.replace('-$', '') # 不起作用
s.str.replace(r'-\$', '-') # 进行转义后正常

指定位置替换

slice_replace 可以将保留选定内容，剩余内容进行替换：

s = pd.Series(['a', 'ab', 'abc', 'abdc', 'abcde'])
保留第一个，其他的替换或者追加 X
s.str.slice_replace(1, repl='X')

指定位置前删除并用 X 替换

s.str.slice_replace(stop=2, repl='X')

指定区间的内容被替换

s.str.slice_replace(start=1, stop=3, repl='X')

重复替换

对整体重复两次
pd.Series(['a', 'b', 'c']).repeat(repeats=2)
对每个行内的内容重复两次
pd.Series(['a', 'b', 'c']).str.repeat(repeats=2)
指定每行重复几次
pd.Series(['a', 'b', 'c']).str.repeat(repeats=[1, 2, 3])

文本连接

方法 s.str.cat 可以做文本连接的功能，下面介绍如何将序列的文本或者两个文本序列连接在一起的方法。

#自身的连接
s = pd.Series(['a', 'b', 'c', 'd'], dtype="string")
s.str.cat(sep=',')
'a,b,c,d'
s.str.cat()

对空值的处理：

t = pd.Series(['a', 'b', np.nan, 'd'], dtype="string")
t.str.cat(sep=',')
#'a,b,d'
t.str.cat(sep=',', na_rep='-')

指定列表序列连接

s.str.cat(['A', 'B', 'C', 'D'])

s.str.cat(t, na_rep='-')#空值处理

当然我们也可以使用 pd.concat 来进行链接两个序列:

d = pd.concat([t, s], axis=1)
'''
    0   1
0   a   a
1   b   b
2       c
3   d   d'''
两次连接
s.str.cat(d, na_rep='-')

文本连接的对齐方式：

u = pd.Series(['b', 'd', 'a', 'c'],
              index=[1, 3, 0, 2],
              dtype="string")
以左边索的为主
s.str.cat(u)
s.str.cat(u, join='left')
以右边的索引为主
s.str.cat(u, join='right')
其他
s.str.cat(t, join='outer', na_rep='-')
s.str.cat(t, join='inner', na_rep='-')

文本查询

查询 findall

s = pd.Series(['Lion', 'Monkey', 'Rabbit'])
s.str.findall('Monkey')
'''
0          []
1    [Monkey]
2          []
dtype: object
'''
大小写敏感，不会查出内容
s.str.findall('MONKEY')

s.str.findall('on')   #包含on

利用正则查询和给定文本相同的内容：

忽略大小写
import re
s.str.findall('MONKEY', flags=re.IGNORECASE)
以 on 结尾
s.str.findall('on$')
包含多个的会形成一个列表
s.str.findall('b')

可以使用str.find匹配返回匹配结果的位置（从0开始），-1为不匹配：

s.str.find('Monkey')

s.str.find('on')       #此外，还有 .str.rfind，是从右开始匹配。

文本包含

包含 contains

判断字符是否有包含关系，经常用在数据筛选中。它默认是支持正则的，如果不需要可以关掉。na=nan 可以指定

s1 = pd.Series(['Mouse', 'dog', 'house and parrot', '23', np.NaN])
s1.str.contains('og', regex=False)

可以用在数据查询筛选中：

名字包含 A 字母
df.loc[df.name.str.contains('A')]
包含 A 或者 C
df.loc[df.name.str.contains('A|C')]
忽略大小写
import re
df.loc[df.name.str.contains('A|C', flags=re.IGNORECASE)]
包含数字
df.loc[df.name.str.contains('\d')]

另外，.str.startswith 和 .str.endswith 还可以指定开头还是结尾包含：

s = pd.Series(['bat', 'Bear', 'cat', np.nan])
s.str.startswith('b')
对空值的处理
s.str.startswith('b', na=False)
s.str.endswith('t')
s.str.endswith('t', na=False)

文本匹配

#匹配 match，确定每个字符串是否与正则表达式匹配。
pd.Series(['1', '2', '3a', '3b', '03c'], dtype="string").str.match(r'[0-9][a-z]')

文本提取

提取 extract， .str.extract 可以利用正则将文本中的数据提取出来形成单独的列，下列中正则将文本分为两部分，

第一部分匹配 ab 三个字母，第二位匹配数字，最终得这两列，c3 由于无法匹配，最终得到两列空值。

s=pd.Series(['a1', 'b2', 'c3'],dtype="string")
s.str .extract(r'([ab])(\d)', expand=True)

expand 参数如果为真则返回一个 DataFrame，不管是一列还是多列，为假时只有一列时才会返回一个 Series/Index。

s.str.extract(r'([ab])?(\d)')

取正则组的命名为列名
s.str.extract(r'(?P[ab])(?P\d)')

匹配全部，会将一个文本中所有符合规则的匹配出来，最终形成一个多层索引数据：

s = pd.Series(["a1a2", "b1b7", "c1"],index=["A", "B", "C"], dtype="string")
two_groups = '(?P[a-z])(?P[0-9])'
s.str.extract(two_groups, expand=True) # 单次匹配

s.str.extractall(two_groups)

提取虚拟变量

可以从字符串列中提取虚拟变量。例如用” |”分隔：

s = pd.Series(['a', 'a|b', np.nan, 'a|c'], dtype="string")
s.str.get_dummies(sep='|')

也可以对索引进行这种操作：

idx = pd.Index(['a', 'a|b', np.nan, 'a|c'])
idx.str.get_dummies(sep='|')

Original: https://blog.csdn.net/weixin_46277779/article/details/126233515
Author: 阡之尘埃
Title: Pandas数据分析18——pandas文本处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/696665/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

（人工智能）数据的回归与分类分析

目录一、Excel线性回归数据分析二、判断线性回归是否成立三、鸢尾花Iris数据集 * 1、Anaconda创建虚拟环境及安装对应的包 2、LinearSVC（C）方式实现分…

人工智能 2023年6月18日
0056
Pytorch以及tensorflow中KLdivergence的计算

KL 散度是一个距离衡量指标，衡量的是两个概率分布之间的差异。y p r e d y_{pred}y p r e d 指的是模型的输出的预测概率，形如[0.35,0.25,0.4…

人工智能 2023年5月25日
0089
【机器学习算法】线性回归算法

文章目录一、线性回归 * 1. 回归问题 – – 回归和分类 2. 预测未来 – – 机器学习实现预测的流程 3. 线性方程 &#…

人工智能 2023年6月15日
0085
架构之路15. 创业 – 厌倦

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0069
基于人脸识别的门禁系统报告

*课题背景随着社会经济的快速发展，人民生活水平的不断提高，群众的安全防卫意识也逐步提升。由此，人们对安全防卫系统的要求越来越高。如何利用新的技术手段设计更加可靠的安防系统，增加居…

人工智能 2023年7月28日
0053
云服务器部署stable diffusion webui

一些过程+亿些踩坑记录都是因为自己显卡太差，正好还有剩下来的深度学习平台租的服务器，单纯用的话没有必要这么麻烦，但训练对显存有要求而且我也没打算拿着小笔记本电脑跑到天荒地老。目…

人工智能 2023年7月30日
0083
无卷积步长或池化:用于低分辨率图像和小物体的新 CNN 模块SPD-Conv

No More Strided Convolutions or Pooling:A New CNN Building Block for Low-Resolution Images…

人工智能 2023年7月26日
0067
Pandas数据结构

1.Series 1.1通过列表创建Series 1.2通过字典创建Series 2.DataFrame 2.1DataFrame索引 2.2DataFrame常用属性 3.pan…

人工智能 2023年7月6日
0073
[深度学习]如何替换YoloV5的主干网络:Flexible-Yolov5

Flexible-Yolov5:可自定义主干网络的YoloV5工程实践本文目录：概述理论学习与环境配置准备自己的数据集修改或调整自定义的主干网络部署训练一、概述 Yo…

人工智能 2023年7月5日
0091
观远数据完成2.8亿元C轮融资

近日,一站式数据分析与商业智能平台提供商——杭州观远数据有限公司(以下简称”观远数据”)宣布完成新一轮2.8亿元C轮融资。本轮融资由全球知名的老虎环球基金(…

人工智能 2023年6月11日
0083
国庆假期看了一系列图像分割Unet、DeepLabv3+改进期刊论文，总结了一些改进创新的技巧

关于图像分割方面的论文改进目前深度学习图像处理主流方向的模型基本都做到了很高的精度，你能想到的方法，基本上前人都做过了，并且还做得很好，因此越往后论文越来越难发，创新点越来越…

人工智能 2023年7月25日
0061
Numpy：连续索引元素赋值失败的问题

最近用numpy做索引赋值时，发现了一个连续索引的问题，记录一下。 numpy数组可以通过整数index索引（Integer array indexing ）或者元素True Fa…

人工智能 2023年6月29日
0045
Pandas使用自定义函数

如果想要应用自定义的函数，或者把其他库中的函数应用到 Pandas 对象中，有以下三种方法： 1) 操作整个 DataFrame 的函数：pipe() 2) 操作行或者列的函数：a…

人工智能 2023年7月7日
0078
卷积神经网络之狗猫数据集的分类实验

文章目录 * – 一、环境配置 – 二、猫狗数据集 – + （一）制作数据集 + （二）卷积神经网络CNN + * 1. 网络模型搭建 * 2….

人工智能 2023年5月26日
0098
【编译原理】之基础知识

文章目录前言引论基础知识 * 一、什么叫做编译程序 – 1. 翻译程序 2. 编译程序 3. 解释程序 4. 诊断编译程序 5. 优化程序 6. 目标机 7. 交叉…

人工智能 2023年5月30日
0090
python panel dataframe_从DataFrame创建面板(Create Panel from DataFrame)

从DataFrame创建面板(Create Panel from DataFrame) 我是python和pandas的新手。我在Pandas中创建Panel时遇到问题。 def…

人工智能 2023年7月9日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31