pandas 文本处理大全（附代码）

2023年8月6日下午6:59 • Python • 阅读 59

大家好，我是东哥。

继续更新 pandas数据清洗，历史文章：

感兴趣可以关注这个话题pandas数据清洗，第一时间看到更新。

所有数据和代码可在我的 GitHub获取：

https://github.com/xiaoyusmd/PythonDataScience

本次来介绍关于文本处理的常用方法。

文本的主要两个类型是 string和 object。如果不特殊指定类型为 string，文本类型一般为 object。

文本的操作主要是通过 访问器 str 来实现的，功能十分强大，但使用前需要注意以下几点。

访问器只能对 Series 数据结构使用。 除了常规列变量 df.col以外，也可以对索引类型 df.Index和 df.columns使用
确保访问的对象类型是字符串 str 类型。 如果不是需要先 astype(str)转换类型，否则会报错
访问器可以多个连接使用。 如 df.col.str.lower().str.upper()，这个和 Dataframe中的一行操作是一个原理

下面正式介绍文本的各种骚操作，基本可以涵盖日常95%的数据清洗需要了，一共 8 个场景。

以下操作均基于下面的数据：

import pandas as pd
import numpy as np

df = pd.DataFrame({'name':['jordon', 'MIKE', 'Kelvin', 'xiaoLi', 'qiqi','Amei'],
                   'Age':[18, 30, 45, 23, 45, 62],
                   'level':['high','Low','M','L','middle',np.nan],
                   'Email':['jordon@sohu.com','Mike@126.cn','KelvinChai@gmail.com','xiaoli@163.com',np.nan,'amei@qq.com']})
Index(['name', 'age', 'level', 'email'], dtype='object')

格式判断

下面均为判断操作，因此返回布尔值。

s.str.isalpha
s.str.isnumeric
s.str.isalnum
s.str.isupper
s.str.islower
s.str.isdigit

对齐


s.str.center(, fillchar='*')

s.str.ljust(8, fillchar='*')

s.str.rjust(8, fillchar='*')

s.str.pad(width=8, side='both',fillchar='*')


df.name.str.center(8, fillchar='*')
0         [jordon, sohu.com]
1            [Mike, 126.cn]
2    [KelvinChai, gmail.com]
3          [xiaoli, 163.com]
4                        NaN
5             [amei, qq.com]


df.Email.str.split('@' ,expand=True)
   0              1      2
0    jordon      sohu     com
1    Mike          126     cn
2    KelvinChai  gmail   com
3    xiaoli      163       com
4    NaN            NaN    NaN
5    amei          qq       com

3、文本替换

文本替换有几种方法： replace， slice_replace， repeat

replace替换

replace方法是最常用的替换方法，参数如下：

pal：为被替代的内容字符串，也可以为正则表达式
repl：为新内容字符串，也可以是一个被调用的函数
regex：用于设置是否支持正则，默认是 True


df.Email.str.replace('com','cn')
0     xxx@sohu.com
1       xxx@126.cn
2    xxx@gmail.com
3      xxx@163.com
4              NaN
5       xxx@qq.com

或者将新内容写成 被调用的函数。

df.Email.str.replace('(.*?)@', lambda x:x.group().upper())
0         jXXrdon@sohu.com
1             MXXke@126.cn
2    KXXlvinChai@gmail.com
3          xXXaoli@163.com
4                      NaN
5             aXXei@qq.com

重复替换

repeat可以实现重复替换的功能，参数 repeats设置重复的次数。

df.name.str.repeat(repeats=2)
'jordonMIKEKelvinxiaoLiqiqiAmei'

df.name.str.cat(sep='-')
'high-Low-M-L-middle-*'

2. 拼接序列和其他类列表型对象为新的序列

下面先将name列和 *列拼接，再将 level列拼接，形成一个新的序列。


df.name.str.cat(['*']*6).str.cat(df.level)
0      jordonhighjordon@sohu.com
1             MIKELowMike@126.cn
2    KelvinMKelvinChai@gmail.com
3          xiaoLiLxiaoli@163.com
4                    qiqimiddle*
5               Amei*amei@qq.com

将一个序列与多个对象拼接为一个新的序列

5、文本提取

文本提取主要通过 extract来实现的。

extract参数：

pat: 通过正则表达式实现一个提取的pattern
flags: 正则库 re中的标识，比如 re.IGNORECASE
expand: 当正则只提取一个内容时，如果 expand=True会展开返回一个 DataFrame，否则返回一个 Series


df.Email.str.extract(pat='(.*?)@(.*).com')
    Email                     @position
0     jordon@sohu.com           6.0
1     Mike@126.cn               4.0
2     KelvinChai@gmail.com     10.0
3     xiaoli@163.com             6.0
4     NaN                       NaN
5     amei@qq.com               4.0

上面示例返回 @在email变量中的位置。

另外一个查找方法是 findall

findall参数：

pat: 要查找的内容，支持正则表达式
flag: 正则库 re中的标识，比如 re.IGNORECASE

findall和 find的区别是支持正则表达式，并返回具体内容。这个方法有点类似 extract，也可以用于提取，但不如 extract方便。

df.Email.str.findall('(.*?)@(.*).com')
0     True
1    False
2     True
3     True
4        *
5     True

df.loc[df.Email.str.contains('jordon|com', na=False)]
     Amei   Kelvin  MIKE    jordon  qiqi    xiaoLi
0     0     0       0       1       0       0
1     0     0       1       0       0       0
2     0     1       0       0       0       0
3     0     0       0       0       0       1
4     0     0       0       0       1       0
5     1     0       0       0       0       0

以上就是本次分享内容。

原创不易，欢迎点赞、留言、分享，支持我继续写下去。

感兴趣可以关注这个话题pandas数据清洗，第一时间看到更新。

所有数据和代码可在我的 GitHub获取：

https://github.com/xiaoyusmd/PythonDataScience

Original: https://blog.csdn.net/yuxiaosmd/article/details/123172469
Author: Python数据科学
Title: pandas 文本处理大全（附代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/738207/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NumPy数组的高级操作

一.堆叠操作 stack（堆叠）：将两个ndarray对象堆叠在一起组合成一个新的ndarray对象。根据堆叠的方向不同分为hstack和wstack两种。 hstack：水平方向…

Python 2023年8月25日
0056
上手Pandas，带你玩转数据（4）– 数据清洗

文章目录 * – 描述性方法 – + 注： – 汇总数据 – pandas处理文本数据 – 检查缺失值 – …

Python 2023年8月17日
0069
新的系列(一步步学习Python)

一些想说的话: 我在之前发表过一些游戏之类的文章,我觉得写的并不怎么好,我决定在后面的文章里多写一点基础的,通俗易懂的文章. 说起Python的数据分析让我不由得觉得Python的…

Python 2023年8月30日
0050
Django 使用cmd 创建工程

1 通过pip安装 Django 如果你是通过升级的方式安装Django，那么你需要先卸载旧的版本。 Django 提供3种发行版本，推荐使用官方的稳定版本：你的操作系统提供的发…

Python 2023年11月1日
0038
pygame制作飞机大战

今天正好有些时间，就把前两天看到的一篇制作飞机大战的文章https://blog.csdn.net/A757291228/article/details/116305295，按照步…

Python 2023年9月20日
0056
从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑

从 0 到 1 搞一个 Compose Desktop 版本的玩天气之踩坑大家好，好久不见，接下来一段时间我会系统性地写一套关于 Compose Desktop 的文章，带大家从…

Python 2023年9月17日
0082
【Python】数据分析.matplotlib.折线图案例处理（及显示中文处理）

文章目录 python之matplotlib使用系统字体实例1：温度变化统计实例2：交友数量折线图以下是本人学习过程中的折线图小案例，其实matplo…

Python 2023年5月24日
0093
Pandas – 10.1 聚合groupby-agg/aggreagte

count / np.count_nonzero 统计频数（不包含NaN值）size 统计频数（包含NaN值）mean / np.mean 求平均值std / np.std 样本…

Python 2023年8月7日
0056
Python代码阅读（第19篇）：合并多个字典

本篇阅读的代码实现了合并多个字典的功能。本篇阅读的代码片段来自于30-seconds-of-python。 Python 代码阅读合集介绍：为什么不推荐Python初学者直接看项…

Python 2023年5月25日
0070
ReactNative动画效果分析（仅从Android端源代码进行分析），ndk开发前景

如何查看Android端动画源码：首先打开nodeModule-react-native-ReactAndroid-src-main-java-com-facebook-reac…

Python 2023年11月8日
0056
〖Python接口自动化测试实战篇⑫〗- 实战 – unittest框架之用例组织

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0036
成功解决：下载的谷歌浏览器，打开却是“2345浏览器”，方法亲测有效

试了网络上提及到的各种方法：方法一：修改源文件命名找到谷歌浏览器源文件位置，修改.exe文件命名。重新启动结果无效方法一卒同时也试了第二种方法方法二：修改浏览器属性命名 …

Python 2023年10月10日
00145
一文带你攻克JDK新特性

1.Java8 新特性介绍 1.1 实验介绍在国内，Java8 是当之无愧的普及率最高的 JDK 版本，从笔者工作开始，就一直使用的是 JDK8 的版本，虽然现在 JDK19 …

Python 2023年11月6日
0031
Linux常用操作命令大全

目录一、目录及文件操作 1.1创建目录 1.2删除目录或文件 1.3重命名目录或文件名称 1.5目录及文件列表查看 1.6复制目录或文件 1.7剪切目录或文件 1.8搜索目录或文…

Python 2023年9月26日
0040
羊了个羊第二关通关率不到0.1%？我这里100%

前言 ; 准备工作步骤 1 配置fiddler和WX环境 fiddler配置其他的照我截的图片配置就好这样 fiddler 就配置好，是不是很简单 ; WX配置配置代理注…

Python 2023年10月31日
0044
【Python 实战基础】Pandas如何从字符串中解析某一数据，并统计多于一次的该数据

一、实战场景二、主要知识点文件读写基础语法 Pandas list 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas如何从字符串中解析某一数据…

Python 2023年8月22日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas 文本处理大全（附代码）

3、文本替换

5、文本提取

大家都在看