0 pandas概述–1文件读取与写入–2 基本操作

2023年8月9日上午3:44 • Python • 阅读 40

这个系列是看 https://github.com/yeayee/joyful-pandas 的笔记。

pandas概述

拿到数据—-读取数据—-读取到了数据得到的是怎样的数据对象？

主要操作：索引，分组，…，合并操作

学习方式：任务驱动型学习

文件读取

可以读取csv格式，txt格式，xls或xlsx格式的文件

df = pd.read_csv(r'data\table.csv')
print(df.head)

如果读取文件时遇到和列数不对应的行，此时会报错。若报错行可以忽略，添加以下参数:

pandas.read_csv(***,error_bad_lines=False)

df_txt = pd.read_table(r'data\table.txt')
print(df_txt)

df_excel = pd.read_excel('data/table.xlsx')
print(df_excel.head())

取消读入表头，可以设置参数header=None

写入文件

将pandas里面的文件对象写入成 外部文件格式.

可以写入成csv格式，xls或xlsx格式.

df.to_csv('data/new_table.csv')

df.to_excel('data/new_table2.xlsx', sheet_name='sheet1')

基本数据结构介绍

a.创建一个series 对象：
series对象最常用的属性是values，index，name，dtype。
values: 就是series里的数据，index: 行索引，name: 这个series的名字，dtype：数据类型。

直接指定values就能创建一个series，可以使用numpy的ndarray数据类型来指定。

s1 = pd.Series(np.random.randn(5))
print(s1)

0   -0.255273
1   -1.413714
2   -0.728769
3    0.261680
4   -0.356917
dtype: float64

输出的最后一行都会给出数据类型呢的dtype。
前面没有给index，出来的就是默认索引，其实也可以 自己给一个序列来指定索引。
还可以给指定name，给这个series起名，最后一行也会输出这个series的name。

s1 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'],name='my series')
print(s1)

使用字典创建Series，行索引index默认就是字典的keys，值就是字典的values。


s = pd.Series({'first name': 'Michale', 'last name': 'Flemming', 'age': 7})
print(s)

a   -0.546030
b    0.196577
c   -0.433328
d   -0.298501
e    0.599840
Name: my series, dtype: float64

b.访问series数据类型：
就是可以访问前面提到的series的values，name，index，dtype
注意：这里s1.values是一个ndarray。

print(s1.values, s1.name, s1.index, s1.dtype, sep='\n')

[-0.26455693  0.2447298   0.45488016  0.17527088  0.98411053]
my series
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
float64

c.取出某一个元素

print(s1['a'])

0.4812269481502948

d.调用方法

print(s1.mean())

0.20148419138305326

查看一下series对象所有的方法：

print([meth for meth in dir(s1) if not meth.startswith('__')])

结果不列出来了，太多了。

a.创建一个DataFram对象
数据是用字典传入，列索引就是字典的键，行索引也是自己设置的。
index 和每列的值都可以使用 python list 来设置。

df = pd.DataFrame({'col1': list('abcde'), 'col2': range(5, 10), 'col3': [1.3, 2.5, 3.6, 3.2, 8]},
index=list('一二三四五'))

  col1  col2  col3
一    a     5   1.3
二    b     6   2.5
三    c     7   3.6
四    d     8   3.2
五    e     9   8.0

b.取出一列称为Series

print(df['col1'])
print(type(df), type(df['col1']))

取一列：
一    a
二    b
三    c
四    d
五    e
Name: col1, dtype: object
<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.series.Series'>

c.修改行名或列名
试了一下，怎么不好使…（ 原来这个操作没有设置inplace的话，是返回一个新对象…）

注意： 默认inplace=False. 这样是返回一个新的dataframe对象，原对象不变。
如果设置inplace=True， 返回的是None，并且直接在 原对象上修改。

renamed_df1 = df1.rename(index={'一': 'one'}, columns={'col1':'new_col1'},inplace=True)
print(renamed_df1)
print(df1)

None
    new_col1  col2  col3
one        a     5   1.3
二          b     6   2.5
三          c     7   3.6
四          d     8   3.2
五          e     9   8.0

d.调用属性和方法
df.index;df.colums; 第一个看行索引是什么东西；第二个看列索引是什么东西。
df.values;df.shape; 注意values返回的数据类型是ndarray。
df.mean() 这个是对每一列取平均，所以对应每一列会有一个均值。（第三章详细介绍这种aggregation）

print(df1.index)
print(df1.columns)
print(df1.values, type(df1.values))
print(df1.shape)
print(df1.mean())

Index(['一', '二', '三', '四', '五'], dtype='object')
Index(['col1', 'col2', 'col3'], dtype='object')
[['a' 5 1.3]
 ['b' 6 2.5]
 ['c' 7 3.6]
 ['d' 8 3.2]
 ['e' 9 8.0]] <class 'numpy.ndarray'>
(5, 3)
col2    7.00
col3    3.72
dtype: float64

e.索引对齐特性
比如相减是对应索引一样的行相减
下面的这个例子结果就不是0.

df2 = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 2, 3]}, index=[1, 2, 3])
df3 = pd.DataFrame({'A': [1, 2, 3], 'B': [1, 2, 3]}, index=[2, 3, 1])
print(df2)
print(df3)
print(df2-df3)

f. 行列的添加与删除

drop,del,pop都是实现删除的功能
drop: 既可以删除一整行，也可以删除一整列，像rename有inplace选项。

df1.drop(index='五', columns='col1', inplace=True)

pop()删除一整列，就是很像list的pop，直接在原对象操作，返回被删掉的列。

poped_col = df1.pop('col1')
print(poped_col)

del 直接删掉一列

del df1['col1']
print(df1)

添加一列：像字典一样df1[‘new_col’]=[,…,] ; assign
df[‘new_col’]=[,…,] 形式的添加要注意等号右边序列的长度要和df的 行数一致，不然会报错。
assign如果使用Series添加列的话，不用考虑上面长度一致的问题，添加的列的长度太短，会补上NaN. 长度过长会裁掉。使用list添加列，也会有上面的问题。
assign具体用法见《合并》那一节。

df1['col1'] = [1, 2, 3, 4]
print(df1)

注意：assign不能在原对象上修改，也没有inplace操作。

print(df1.assign(C=pd.Series(list('def'))))

   col2  col3  col1    C
一     5   1.3     1  NaN
二     6   2.5     2  NaN
三     7   3.6     3  NaN
四     8   3.2     4  NaN

上面出现NaN的原因是：索引对齐…C=pd.Series(list(‘def’))的行索引是0 1 2, 现在修改一下：

print(df1.assign(C=pd.Series(list('def'), index=list('一二三'))))

   col2  col3  col1    C
一     5   1.3     1    d
二     6   2.5     2    e
三     7   3.6     3    f
四     8   3.2     4  NaN

g. 选择列
根据类型选择。
df1.select_dtypes()

print(df1)
print(df1.select_dtypes(include=['number']))

   col2  col3  col1    C
一     5   1.3     1    d
二     6   2.5     2    e
三     7   3.6     3    f
四     8   3.2     4  NaN
   col2  col3  col1
一     5   1.3     1
二     6   2.5     2
三     7   3.6     3
四     8   3.2     4

h.将Series转换为DataFrame
注意：dataframe求mean()之后变成series

df1_mean = df1.mean()
df1_mean.name = 'df1_mean'
print(df1_mean, type(df1_mean))

print(df1_mean.to_frame())

col2    6.50
col3    2.65
col1    2.50
Name: df1_mean, dtype: float64 <class 'pandas.core.series.Series'>
      df1_mean
col2      6.50
col3      2.65
col1      2.50

i. dataframe可以转置
直接df.T

print(df2)
print(df2.T)

总结一下，操作就那么几种，创建一个数据类型， 访问其属性、调用其方法、根据索引访问数据。

Original: https://blog.csdn.net/weixin_44360866/article/details/125889400
Author: Michael_Flemming
Title: 0 pandas概述–1文件读取与写入–2 基本操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743842/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu安装OpenCV3.4.5（两种方法&&图文详解）

博主在ubuntu20.04系统上又需要安装opencv，此前在18.04上安装过多次opencv，对计算机视觉开源库还是比较熟悉，本次安装记录下详细过程，方便后来同学少走弯路。 …

Python 2023年10月27日
0052
pandas计数函数：value_counts( )和counts( )的使用

EurekaLog 7.5 (18-August-2016) 1)..Important: Installation layout was changed. All package…

Python 2023年8月22日
0043
Lombok好用是好用，就是容易踩坑，这份避坑指南请查收

序言各位好啊，我是会编程的蜗牛，作为java开发者，我们平常在开发过程中，总是希望能够尽量少敲代码。这一方面，当然是为了偷懒，另一方面，当然也是为了代码看起来更加简洁一点，不断往…

Python 2023年10月19日
0057
【第十周第 2 节】：Scrapy 基础（一）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月6日
0028
Pandas学习记录

文章目录前言一、Series 二、DataFrame 三、Pandas的主要方法四、作业要求即代码实现前言大三上数据可视化，数据预处理作业学习记录。一、Series …

Python 2023年8月22日
0061
English Learning – L1-13 主动脉修饰（上） 2023.1.16 周一

English Learning – L1-13 主动脉修饰（上） 2023.1.16 周一 11 主动脉修饰 * 11.1 定语 – 两大核心 when…

Python 2023年11月7日
0041
JUC包(java.util.concurrent)下的常用子类

文章目录前言一、对象锁juc.locks包二、原子类三、四个常用工具类 * 3.1 信号量 Semaphore 3.2 CountDownLatch 总结前言博主个人社…

Python 2023年8月2日
0063
pandas-多索引和高级索引（具有层次索引的高级索引方法）

语法上，使用 .loc()方法，在高级索引中加入 MultiIndex（多层索引）, 1. 简单来说，多层索引的索引键（keys）来自元组的格式。输出：注意 df.loc[‘b…

Python 2023年8月8日
0063
Python中经典排序方法

排序介绍数据的排序是在解决实际问题时经常用到的步骤，也是数据结构的考点之一，下面介绍10种经典的排序方法。首先，排序方法可以大体分为插入排序、选择排序、交换排序、归并排序和桶排…

Python 2023年11月9日
0035
❤️数据科学-Pandas、Numpy、Matplotlib秘籍之精炼总结

前言：先感受一下数据科学的魅力，上图是在Smart Dubai 2017 GITEX科技周展台上推出Smart Decision-Making Platform（智能决策平台），…

Python 2023年9月2日
0044
python test.py_python之测试框架pytest（二）

一、ddt(数据驱动测试 Data-Driven Testing) 1、数据和测试逻辑分离，便于维护。当数据和测试逻辑各自需要修改的时候，不会影响到对方 2、测试用例之间是独立的，…

Python 2023年9月13日
0037
一个更快的YOLOv5问世，附送全面中文解析教程

作为计算机视觉领域的基础性技术，目标检测在业界具有广泛应用，而YOLO系列因其综合性能较好，成为广受欢迎的首选框架。这次，为了让用户深入了解 OneFlow 训练目标检测模型的可…

Python 2023年10月8日
0056
深度学习框架新手快速上手指南

新手入门深度学习框架怎么办？快速、可拓展、易于使用且支持自动求导的深度学习框架-MegEngine 配备了新手入门文档，助力初学者快速上手框架。新手入门深度学习框架怎么办？快速、…

Python 2023年10月29日
0037
千万不要和男生说：世界上没有奥特曼，否则你会见识到真正的奥特曼。

前言都说毁掉一个男生很简单，跟他说 “世界上没有奥特曼。” 据说这一句话如同五雷轰顶。一直以来，我都以为这只是一个玩笑的梗。但是无数事实证明，奥特曼真的…

Python 2023年9月24日
0046
“东数西算”背景下算力服务对算力经济发展影响分析

中国联通算力_网络实践案例目录 1 中国联通 _算力_网络研发历程回顾 ……………… 1 2 中国…

Python 2023年10月10日
0041
深度学习-Tensorboard可视化面板

文章目录简介安装 SummaryWriter * 新建添加数字运行添加图片添加直方图添加模型结构实战前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍…

Python 2023年9月27日
0057

0 pandas概述–1文件读取与写入–2 基本操作

pandas概述

文件读取

写入文件

基本数据结构介绍

大家都在看