dataframe数据分析常用操作汇总

2023年8月7日上午3:07 • Python • 阅读 53

dataframe的常用操作汇总

目录
1.建 1
2.读 2
3.存 2
4.阅 2
5.取 2
6.改 4
7.增 4
8.删 5
9.并 5
10.序 7

1.建

创建只有一列的数据框

df = pd.DataFrame([1, 2, 3, 4, 5], columns=[‘宽度’], index=[‘a’, ‘b’, ‘c’, ‘d’, ‘e’])

创建3行2列的数据框

df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=[‘分数’, ‘长度’], index=[‘a’, ‘b’, ‘c’])

对行命名

df.index.name = ‘公司’

创建3行2列的数据框

df = pd.DataFrame({‘key1’: [1, 2, 3], ‘key2’: [4, 5, 6]})

创建2行3列的数据框

df = pd.DataFrame.from_dict({‘a’: [1, 3, 5], ‘b’: [2, 4, 6]}, orient=”index”)

创建3行4列的数据框

df = pd.DataFrame(np.arange(12).reshape(3, 4), index=[1, 2, 3], columns=[‘A’, ‘B’, ‘C’, ‘D’])

对索引重命名

df = df.rename(index={‘A’: ‘万科’, ‘B’: ‘阿里’, ‘C’: ‘百度’}, columns={‘date’: ‘日期’, ‘score’: ‘分数’})

把某列设置为行索引

df = df.set_index(‘日期’)

重置行索引，把索引变成数字索引格式

df = df.reset_index()

重新建立索引

df = df.reset_index(drop=True) # 删除原来的索引，重新建立由0开始的索引

2.读

df = pd.read_excel(r’D:\codes\dataframe\wine.xls’) # 读取excel文件
df = pd.read_csv(r’D:\codes\dataframe\bigfile.csv’) # 读取csv文件

3.存

df.to_excel(r’D:\codes\dataframe\wine1.xls’, index=False) # 保存为excel文件
df.to_excel(r’D:\codes\dataframe\data_0.xlsx’, columns=[‘a’, ‘f’], index=False) # 保存a列和f列
df.to_csv(r’D:\codes\bigfile1.csv’, encoding=’utf-8′, index=False) # 保存为csv文件
df.to_csv(r’D:\codes\bigfile1.csv’, encoding=’gb18030′, index=False) # 保存为csv文件

4.阅

df.index # 展示数据框的行的名称
df.columns # 展示数据框的列的名称
df.values # 数控框中间的取值
df.size # 数据框值的个数
df.ndim
df.T.shape
df.head() # 查看前5行的数据
df.tail() # 查看最后5行的数据
df.shape # 查看数据库的要素
df.dtypes # 查看数据表的类型
df.info() # 查看数据的基本信息
df[‘b’].value_counts() # 统计b列中数值出现的次数
df.describe() # 查看基本的统计信息（最大、最小、平均、中位、四分位、标准差）

5.取

取元素

df.iloc[0][‘d’] # 选取第1行d列的值
df[[‘b’, ‘d’]][0:2] # 选取b列、d列；第1行和第2行的值
df.iloc[6, 5] # 选取第7行第6列的值
df.iloc[3, 2:4] # 选取第4行，第3、第4列的值
df.iloc[6, [5]] # 选取第7行第6列的值，结果类型为Series
df.iloc[[6], 5] # 选取第7行第6列的值，结果类型为Series
df.iloc[[6], [5]] # 选取第7行第6列的值，结果类型为DataFrame
df.iloc[1:3, 2] # 选取第2、第3行叁列的值
df.iloc[1:3, [2]] # 选取第2、第3行叁列的值
df.iloc[1:3, 2:4] # 选取第2、3行，第3、4列的值
df.iloc[1:3, [2, 4]] # 选取第2、3行，第3、4列的值
df.iloc[[1, 3], [0]] # 选取第2、3行，第1列的值
df.iloc[[1, 3], [0, 4]] # 选取第2、第4行，第1、第5列的值
df.iloc[:2, :3] # 选取前两行，前三列的值
df.loc[‘one’, [‘b’, ‘d’]] # 返回’a’行’w’、’x’列，这种用于选取行索引列索引已知
df.loc[‘four’, ‘f’] # 选取four行f列的值
df1 = df[(df[‘d’] > 1) & (df[‘g’] == 6)] # 取d列大于1且g列等于6的行

取行 ——单行

df[1:2] # 选取第2行，返回的是DataFrame
df[-1:] # 选取最后1行，返回的是DataFrame
df.loc[‘four’] # 选取four列，返回的是Series
df.loc[[‘four’]] # 选取four列，返回的是DataFrame
df.iloc[-1] # 选取DataFrame最后一行，返回的是Series
df.iloc[-1:] # 选取DataFrame最后一行，返回的是DataFrame
df.iloc[[-1]] # 选取DataFrame最后一行，返回的是DataFrame
df.iloc[0, :] # 选取第1行，返回的是Series
df.iloc[0] # 选取第1行，返回的是Series
df.iloc[[0]] # 选取第1行，返回的是DataFrame

取行 ——多行

df[‘three’:’six’] # 选取three到six，返回的是 前闭后闭的DataFrame
df.loc[[‘three’, ‘six’]] # 选取three行和six行
df.iloc[:2, :] # 选取第1行到第2行
df.iloc[:-2] # 选取第1行到倒数第3行
df.iloc[[0, 3, 5]] # 选取第1、第4、第6行
df.iloc[0:4] # 选取第1到第4行共4行
df[0:2] # 取第1行到第2行的所有行，前闭后开，包括前不包括后
df.head() # 选取前5行，需要前10行则dta.head(10)
df.tail() # 选取后5行，需要后10行则data.tail(10)

取列 ——单列

df.e # 取e列, 使用点属性,返回的是Series类型
df[‘e’] # 取e列, 使用类字典属性,返回的是Series类型
df[[‘e’]] # 取e列，返回的是DataFrame属性
df.叁 # 选取叁列, 使用点属性,返回的是Series类型
df[‘叁’] # 选取叁列, 使用类字典属性,返回的是Series类型
df[[‘叁’]] # 选取叁列，返回的是DataFrame属性
df.iloc[:, 0] # 选取第1列，返回的是Series类型
df.iloc[:, [0]] # 选取第1列，返回的是DataFrame

取列 ——多列

df[[‘a’, ‘d’]] # 选取a、d两列，返回的是DataFrame
df.loc[:, ‘a’:’e’] # 选取从a到e的所有列，返回的是DataFrame
df.iloc[:, :3] # 选取第1到第3列，返回的是DataFrame
df.iloc[:, 0:4] # 选取第1到第4列，返回的是DataFrame
df.iloc[:, [0, 3, 5]] # 选取第1、第4、第6列

6.改

df.columns=[‘name1’, ‘name2’] # 修改列索引名称
df1 = df.rename({‘one’: ‘一’}) # 把”one”行的名称修改为”一”
df1 = df.rename(columns={‘d’: ‘D’}) # 把”d”列的名称修改为”D”
df1 = df.rename(index={‘three’: ‘三’, ‘four’: ‘四’}, columns={‘e’: ‘E’, ‘g’: ‘G’}) # 修改行，列的名称
df1 = df.set_index(‘g’) # 把g列变成行索引
df[‘d’].astype(‘string’) # 把”d”列的int32数据变为字符串
df1 = df.reset_index(drop=True) # 删除原来的索引，重新建立由0开始的索引
df1 = df.reset_index() # 把行索引变成列名为index的列，行索引修改成按数字排列
df1.index.name = ‘中文’ # 对行索引命名为中文
print(df1)

7.增

增加列
df[‘列名称’] = list_data # 增加新的一列
df.insert(3,’列名称’,list_data) # 在索引为3的位置插入新的一行

增加行
df.iloc[1] = list_data # 在索引为1的位置插入行

合并dataframe
df = pd.merge(df1, df2, how=’left’, on=[‘key1’, ‘key2’])

df = df1.join(df2, on=[‘key1’, ‘key2′], how=’inner’)

df = df.append(df_new)

df = pd.concat([df1, df2])

8.删

df1 = df.drop(columns=’e’) # 删掉”e”列
df1 = df.drop(columns=[‘b’, ‘d’]) # 删掉”b”列和”d”列
df1 = df.drop([‘b’, ‘d’], axis=1) # 删掉”b”列和”d”列
df1 = df.drop([‘three’, ‘six’]) # 删掉”three”行和”six”行
df1 = df.drop([‘three’, ‘six’], axis=0) # 删掉”three”行和”six”行
df1 = df.drop(‘four’) # 删掉”four”行
df1 = df.drop(index=[‘five’, ‘seven’]) # 删掉”five”行和”seven”行
df1 = df[~df[‘a’].isin([0])] # 删除’a’列数据中为0的行（或理解为取出’a’列数据不为0的行）
df1 = df[df[‘a’].isin([0])] # 删除’a’列数据不为0的值（或理解为取出’a’列数据为0的行）
df1 = df[df[‘f’] > 19] # 删除’f’列数据小于19的行（或理解为取出数据大于19的行）

9.并

df = pd.DataFrame(np.arange(49).reshape(7, 7), index=[‘one’, ‘二’, ‘three’, ‘four’, ‘five’, ‘six’, ‘seven’], columns=[‘a’, ‘b’, ‘叁’, ‘d’, ‘e’, ‘f’, ‘g’])
df1 = pd.DataFrame(np.arange(14).reshape(2, 7), index=[‘eight’, ‘nine’], columns=[‘a’, ‘b’, ‘叁’, ‘d’, ‘e’, ‘f’, ‘g’])
df2 = pd.DataFrame(np.arange(14).reshape(7, 2), index=[‘one’, ‘二’, ‘three’, ‘four’, ‘five’, ‘six’, ‘seven’], columns=[‘h’, ‘i’])
df3 = pd.DataFrame(np.arange(14).reshape(2, 7), index=[‘one’, ‘nine’], columns=[‘a’, ‘b’, ‘叁’, ‘d’, ‘e’, ‘f’, ‘g’])
df4 = pd.DataFrame(np.arange(14).reshape(7, 2), index=[‘one’, ‘二’, ‘three’, ‘four’, ‘five’, ‘six’, ‘seven’], columns=[‘b’, ‘i’])

result = pd.concat([df, df2, df4], axis=0) # 3个数据框简单叠加
result = pd.concat([df, df1], axis=0) # 两个列索引相同、行索引不同的dataframe按行相加
result = pd.concat([df, df1], axis=1) # 两个列索引相同、行索引不同的dataframe按列相加
result = pd.concat([df, df3], axis=0) # 两个列索引相同、行索引部分相同的dataframe按行相加
result = pd.concat([df, df3], axis=1) # 两个列索引相同、行索引部分相同的dataframe按列相加
result = pd.concat([df1, df3], axis=0) # 两个列索引相同、行索引部分相同的dataframe按行相加
result = pd.concat([df1, df3], axis=1) # 两个列索引相同、行索引部分相同的dataframe按列相加

result = df.merge(df3) # 自动找相同的元素合并两个表
result = pd.merge(df, df1) # 根据两个表格中相同列中相同元素合并，自动找相同的元素
result = pd.merge(df, df1, on=’a’) # 根据a列合并，两个表中a列相同元素的行保留，
result = pd.merge(df, df1, on=[‘a’, ‘f’]) # 根据a列和f列合并，两个表中a列和f列相同元素的行保留
result = pd.merge(df, df2) # 没有相同列的两个表格合并，保留最多的列，最少的行
result = pd.merge(df2, df) # 没有相同列的两个表格合并，
result = pd.merge(df, df4, how=’outer’) # 两个表合并，取并集，保留所有的行和列
result = pd.merge(df, df4, how=’inner’) # 两个表合并，取交集，保留左右表的共同内容
result = pd.merge(df, df4, how=’left’) # 两个表合并，左表所有内容都保留，右表保留和左表相同的内容
result = pd.merge(df, df4, how=’right’) # 两个表合并，右表所有内容都保留，左表保留和左表相同的内容
result = pd.merge(df, df1, left_index=True, right_index=True) # 以两个数据框的行索引合并，相同的索引保留，没有相同的就是空集

result = df.append(df1) # 两个数据行相加

pd.merge(df1, # 第1个数据表
df2, # 第2个数据表
how=’inner’, # inner交集/outer并集/left左全保留右保留相同的/right右全保留
on=None, # 根据某个字段进行连接，必须存在于两个DateFrame中（若未同时存在，则需要分别使用left_on和right_on来设置）
left_on=None, # 左连接，以DataFrame1中用作连接键的列
right_on=None, # 右连接，以DataFrame2中用作连接键的列
left_index=False, # 将DataFrame1行索引用作连接键
right_index=False, # 将DataFrame2行索引用作连接键
sort=False, # 根据连接键对合并后的数据进行排列，默认为True
suffixes=(‘_x’, ‘_y’), # 对两个数据集中出现的重复列，新数据集中加上后缀_x,_y进行区别
copy=True,
indicator=False,
validate=None
)
pd.concat(objs,
axis=0,
join=’outer’,
join_axes=None,
ignore_index=False,
keys=None,
levels=None,
names=None,
verify_integrity=False,
sort=None,
copy=True
)
pd.join(other,
on=None,
how=’left’,
lsuffix=”,
rsuffix=”,
sort=False
)

10.序

df1 = df.sort_index() # 根据行索引升序排列
df1 = df.sort_index(axis=0) # 根据行索引升序排列
df1 = df.sort_index(axis=1) # 根据列索引升序排列
df1 = df.sort_index(ascending=False) # 根据行索引降序排列
df1 = df.sort_index(ascending=True) # 根据行索引升序排列
df1 = df.sort_index(inplace=False) # 根据索引值排序，原数组df不变。
df1 = df.sort_index(inplace=True) # 根据索引值排序，原数组df变化。
df1 = df.sort_values(by=’b’) # 把b列的数据升序排序，其他数据跟随变化
df1 = df.sort_values(by=’b’, ascending=True) # 把b列的数据升序排序，其他数据跟随变化
df1 = df.sort_values(by=’b’, ascending=False) # 把b列的数据降序排序，其他数据跟随变化
df1 = df.sort_values(by=[‘a’, ‘d’], ascending=False) # 把a和d列的数据降序排列

Original: https://blog.csdn.net/weixin_44354213/article/details/128018652
Author: 谢群广州
Title: dataframe数据分析常用操作汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739029/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

手把手教你：基于粒子群优化算法（PSO）优化卷积神经网络（CNN）的文本分类

系列文章手把手教你：人脸识别考勤系统 @ 系列文章项目简介一、粒子群算法（PSO）简介二、项目展示二、环境需求环境安装实例三、重要功能模块介绍 1.数据预处理模块（d…

Python 2023年6月10日
0088
阿里资深架构师熬夜纯手写的238页微服务容器化开发实战笔记

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月7日
0036
**手把手教你安装 Anaconda + Tensor flow+Pycharm**

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月29日
0021
matplotlib和tensorboard可视化（学习笔记）

本文记录了pytorch训练可视化的内容，分别用matplotlib和tensorboard实现，内容比较简单，适合入门，博客记录在此，仅备今后之用。参考博客： 1.matplo…

Python 2023年9月6日
0046
【cmd命令】【python+conda】python创建虚拟环境、pip和conda安装、换源

cmd是commend的缩写。是命令行。是一个32位的命令行程序。微软Windows系统基于Windows上的命令解释程序，类似于微软的DOS操作系统。 DOS是磁盘操作系统的缩…

Python 2023年9月9日
0071
spyder/conda安装包报错：conda info could not be constructed. KeyError: ‘pkgs_dirs‘

打开conda，报错特征如下：报错信息打开powershell，输入conda info一通报错。 (base) PS C:\Users\Administrator> c…

Python 2023年9月7日
0066
准备工作（一）—— 安装MySQL

说明：大部分用户都是使用Windows，Linux文章后续发布。一、下载MySQL MySQL官网：https://www.mysql.com 选择：DOWNLOADS->…

Python 2023年6月9日
0064
谷歌浏览器无法翻译此网页

原因：谷歌关闭了中国大陆的谷歌翻译服务方案一：通过 hosts 把谷歌翻译的 API 指向国内可用服务器地址一、按 Win + R 键打开运行 ➡ 输入 cmd 回车 ➡ 输入…

Python 2023年10月10日
0057
python 生成器与迭代器

生成器生成器: 节省空间 generator 生成器 f = [i for i in range(1,1001)] # 列表 f = (i for i in range(1,10…

Python 2023年11月1日
0026
GANs系列：DCGAN原理简介与基础GAN的区别对比

本文长期不定时更新最新知识，防止迷路记得收藏哦！还未了解基础GAN的，可以先看下面两篇文章： GNA笔记–GAN生成式对抗网络原理以及数学表达式解剖入门GAN实战&…

Python 2023年10月9日
0039
重采样篇④：二维数组最值重采样（针对遥感影像转为的数组）

关键词：最大值，最小值，重采样，numpy，切片，np.where，python 分辨率为10m的遥感影像读出的数组origin_arr的性状为9×9，如何通过不遍历的方式将其重采…

Python 2023年8月28日
0045
基于Xlinx的时序分析与约束（3）—-基础概念（下）

目录 1、4种基本的时序路径 2、发射沿（Launch Edge）与锁存沿（Latch Edge） 3、数据到达时间（Data Arrival Time） Original: ht…

Python 2023年11月7日
0042
simpleui模板的使用

回答1： Django 是一个基于 Django 的后台管理系统框架，它提供了一些简单易用的页面定制功能，可以让开发者快速定制自己的后台管理页面。要定制 Django 的页面，可…

Python 2023年8月5日
0036
Part 4:Pandas新增数据列【直接赋值、apply、assign、分条件赋值】

Pandas怎样新增数据列? ¶ 在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析 1.直接赋值2. df.apply方法3. df.assign方法4．按…

Python 2023年8月2日
0081
【python】标准库（第七讲）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月2日
0043
Django项目中表的查询的操作

2022-09-29 shell操作：我在使用中是pycharm与数据库建立连接的一个工具。使用的环境：在此处是用在了虚拟环境中。使用场景：一般是在创建的表中插入数据后，…

Python 2023年6月9日
0071

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

dataframe数据分析常用操作汇总

1.建

2.读

3.存

4.阅

5.取

6.改

7.增

8.删

9.并

10.序

大家都在看