Python之pandas库(万年一更版)

2023年8月20日上午12:03 • Python • 阅读 34

大体上的更新就这样子啦，还有一些函数没有补充上去，等哪天用到了想起来了我又回来补嘿嘿。

前言

博主是第一次写文章，也是非计算机的小白一枚，刚刚开始接触科研，希望以此记录一下学习过程。

如果有哪里不完全或者是不对的地方，希望各位能多多指正啦！

一、pandas是什么？

对于博主来说，pandas就像是一个工具，处理数据以及分析数据。

那如何学习pandas呢？

学好pandas首先你得对numpy有一定的了解。

基本数据类型Series一维结构，可以理解为竖起来的listDateframe二维结构，可以理解为excel表格

二、开始正式学习啦！！

1.基本数据类型

1.1认识Series(系列)

先上段简单的代码！

import pandas as pd
s_1 = pd.Series([1,2,3,4,5,6,7]) #注意S必须要大写!!!

好了，这样我们就创建了一个简单的 Series了，我们来看看它里面的内容

我们可以发现他的索引也就是index和他的值也就是value是一一对应的关系

那么可能有些人觉得这个索引不顺眼，那可不可以换呢？答案是当然可以了！

import pandas as pd

s_1 = pd.Series([1,2,3,4,5,6,7],index=['a','b','c','d','e','f','g'])

让我们看看效果！

Series的属性

s_1.index
>>Index(['a', 'b', 'c', 'd', 'e', 'f', 'g'], dtype='object')
s_1.values
>>array([1, 2, 3, 4, 5, 6, 7])

”’查”’

(1)通过标签
s_1['d']#访问的index为d
s_1[['a','d']]#访问的index为a和d
s_1[['a':'d']]#访问的index为a到d
(1)通过列表
s_1[0]
s_1[[0,4]]
s_1[[0:4]]

”’增删改”’

s_2 = pd.Series(['rose','lily'])
s_3 = pd.Series(['2'],index = ['d'])
s_3 = s_2.append(s_3)#s_2 s_3的数据类型得相同!!

s_1.drop('a')

s_2[0] = 'petter'

1.2认识Dataframe(数据框)

可以简单理解为一个Excel表格，废话不多说！先上代码

import pandas as pd
df_1 = pd.DataFrame({'age':[10,11,12],
                'name':['Tim','jack','rose'],
                'income':[100,200,300]},
                index=['person1','person2','person3'])

让我们再来看看效果，是不是对理解有了更进一步的认识呢！

我们接下来看看它的属性吧！！

df_1.index
>>Index(['person1', 'person2', 'person3'], dtype='object')
df_1.columns
>>Index(['age', 'name', 'income'], dtype='object')
df_1.values
>>array([[10, 'Tim', 100],
       [11, 'jack', 200],
       [12, 'rose', 300]], dtype=object)

改名字

#修改列名
df_1.columns = ['a','c','f']#字符型
df_1.columns = range(0,len(df_1.columns))#数字型
#精确修改
df_1.rename(columns={1:'hh'},inplace = True)

如果想改行名的话直接在把columns换成index就可以了！

来看看df_1变成什么样子了

”’增加行or列” ‘

df_1['pay'] = [1,2,3]
df_1.loc['person4',[0,'hh',2,'pay']] = [13,'jimi',400,90]

效果

可以看出，以上都是在最后一行或者最后一列增加，那接下来我们来看指定位置增加

指定位置

DataFrameName.insert(loc,colums,value)

loc:是一个整数，我们要插入列的位置
column:是一个 字符串，列名

2.访问DataFrame

df_1.hh#访问列名为hh的
df_1[[0,2]]#访问第一列和第三列
df_1[0:2]#访问前三行
df_1.loc[['person1','person4']]#访问名字
df_1.loc['person1','hh']#访问特定的值

2.1删除操作

data = df_1.drop('hh',axis=1,inplace = False)
#删除名字为hh的这一列,不会在原处修改
del df_1['hh']#删除名字为hh的这一列,直接在原数据修改
df_1.drop('person2',axis=0,inplace = True)
#删除名字为hh的这一行,会在原处修改

2.2 查询数据的方法

先创建一个数据框

import pandas as pd
import numpy as np
datas = pd.date_range('20221001',periods = 5)
df = pd.DataFrame(np.arange(30).reshape(5,6),index = datas,
                  columns = ['a','b','c','d','e','f'])

loc方法#标签索引

df.loc[index.columns]

df.loc['20221003','b']#某个值
>>13
df.loc['20221004',['b','d']]#2个值
>>b    19
  d    21
Name: 2022-10-04 00:00:00, dtype: int64
df.loc[:,['b','d']]#所有行的b d列
>>           b   d
2022-10-01   1   3
2022-10-02   7   9
2022-10-03  13  15
2022-10-04  19  21
2022-10-05  25  27

iloc方法(位置索引)

df.iloc[2,1]
df.iloc[3,[1,3]]
df.iloc[:,[1,3]]

ix方法(混合索引)

在pandas版本0.20.0及其以后版本中，ix已经不被推荐使用，。这是为什么呢？这是由于ix的复杂特点可能使ix使用起来有些棘手：

3. DataFrame常见操作

3.1排序

import pandas as pd

dic = {'name':['kiti','beta','peter','tom'],
       'age':[20,18,35,21],
       'gender':["f","f",'m','m']}
df = pd.DataFrame(dic)

#根据年龄排序
df = df.sort_values(by = ['age']) #升序
df = df.sort_values(by = ['age'],ascending = False)#降序

#值替换
df['gender'] = df['gender'].replace(['m','f'],['male','fmale'])

#重新排列数据中的列
colos = ['name','gender','age']
df = df.loc[:,colos]

3.2数据文件的导入与导出

import pandas as pd

#读文件
df1 = pd.read_csv("file.csv",header = None)
df2 = pd.read_csv("file.xlxs",header = None)

#导出文件
df1.to_csv("file.csv",index = False,header = True)

高能预警

4.处理数据常见操作

4.1缺失值处理

进行逻辑判断并判断空值所在位置

na = df.isnull()

找出空值所在行数据

df[na.any(axis = 1)]

找出空值所在列数据

df[na[["列名"]].any(axis = 1)]

填充缺失值

df = df.fillna('1')

4.2重复值的处理

result1 = df.duplicated()
#结果只有True和False，完全相同才是True

找某列或者多列

result2 = df.duplicated(['列名'])
result3 = df.duplicated(['列名1','列名2'])

new_df1 = df.drop_duplicates #完全重复
new_df2 = df.drop_duplicates(['列1','列2'])#部分重复

4.3抽取数据

比较

df[df['列1']>17000]
df[df['列1'].between(1500,19000)]

字样匹配

df['name'].str.contains['apple',na=False]

4.4数据合并

“concat函数”

concat[df1,df2,……]

import pandas as pd
import numpy as np
df_1 = pd.DataFrame(np.arange(12).reshape(3,4))
df2 = df1*2#df2的数据的值是1的2倍

横向
new_df1 = pd.concat([df_2,df_1])
竖向
new_df2 = pd.concat([df_2,df_1],axis = 1)

”’join”’ inner:交集 outer:并集

df3 =pd.DataFrame(np.arange(12).reshape(3,4),index = ['a','s','d'])
new_df3 = pd.concat([df_1,df_3],axis = 1,join = 'inner')
new_df3 = pd.concat([df_1,df_3],axis = 1,join = 'outer')

大体上的更新就这样子啦，还有一些函数没有补充上去，等哪天用到了想起来了我又回来补嘿嘿。

Original: https://blog.csdn.net/qq_62969774/article/details/126970591
Author: 瓦伦丁的拐杖
Title: Python之pandas库(万年一更版)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754354/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python-turtle绘制雪容融，已打包成exe可直接运行

之前我们放出了冰墩墩绘制的源代码，雪容融的绘制却是一直没有。今天在逛论坛的时候终于发现有大佬写出来了，给大佬递茶！先来看看绘制的效果如何，个人觉得还是很惟妙惟肖的，哈哈哈~ 阅读全…

Python 2023年11月3日
0028
linuxsed替换字符串后保存_字符串方法——replace()

1、字符串方法—— replace() str.replace(old, new[,max]) 参数说明(Parameters) old：被替换的字符串 new：新字符串，替换原来…

Python 2023年8月8日
0087
【回望2022，走向2023】一个双非二本非科班的学生的旅途

目录 1.自我介绍 2.高考与暑假梦想幻灭决心暑假 3.大一上学期 4.奋进之路 5.展望未来 1.自我介绍我是一个双非本科的大一学生，在2023年的新春之际，借着CSD…

Python 2023年11月5日
0032
Python和Go是什么？它们之间有什么区别？

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0067
【C语言进阶】一篇带你掌握字符串和内存函数

目录一：strlen * 模拟实现：二：strcpy * 模拟实现：三：strcat * 模拟实现：四：strcmp * 模拟实现：五：strncpy * 模拟实现：六…

Python 2023年11月5日
0030
YOLOv5 + StrongSORT with OSNet

项目简介 YOLOv5 + StrongSORT with OSNet：YOLOv5检测器 + StrongSORT跟踪算法 + OSNet行人重识别模型项目地址：https:/…

Python 2023年9月29日
0044
python绘图总结1

1.python绘图坐标轴不显示科学计数法如果使用代码： ax.ticklabel_format(useOffset=False, style=’plain’)会报错：Attri…

Python 2023年9月2日
0045
Django学习笔记02

2 创建应用程序在虚拟环境活动状态下，执行命令startapp: python manage.py satartapp learning_logs 项目中新增了文件夹learni…

Python 2023年8月6日
0045
C++：C++编译过程：看完还不懂C++编译过程来捶我

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月4日
0039
力扣（两数之和）python解法

这道题有两种做法，一种是暴力破解，另外一种可以采用哈希表方式破解，暴力破解很简单，但是在最后两个测试案例时过不了，原因是：时间超时，因为，在实际业务中，为了提升用户体验感，需要减少…

Python 2023年6月12日
0087
Python面向对象的程序设计详情

[ Python_向对象 _程序设计_是一种编程范式，它将程序看作是一系列对象的集合，每个对象都有自己的 _属性_和方法。在 _Python_中，可以使用抽象基 _类（Abstra…

Python 2023年9月24日
0034
Flask搭建服务(五)：gunicorn使得服务性能降低问题及解决

使用ab进行压测，发现使用gunicorn后，服务性能反而下降了，这是ab结果：压测命令：$ ab -c 10 -n 1000 -p post.txt -T applicatio…

Python 2023年8月14日
0058
JMeter+JDK+目录详解安装配置（详细教程）

一、JMeter下载/安装 1、首先你要先去官网下载，这是地址：https://jmeter.apache.org 2、点Download Releases，选择最新版的下载 3、…

Python 2023年8月2日
0075
【图解】连狗子都能看懂的Python基础总结！

介绍在这篇文章中，我写了关于机器学习和DeepLerning用户的Python编程基础知识我以初学者容易理解的方式进行了说明，如果你有任何问题，请评论。本文所介绍的 &#82…

Python 2023年8月24日
0043
one-hot编码

one-hot编码什么是one-hot编码 one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任…

Python 2023年10月7日
0060
使用python工具Matplotlib画图

matplotlib画散点图首先调用一下画图的库 import matplotlib.pyplot as plt plt.scatter(x, y, s=None, c=None…

Python 2023年9月7日
0057

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python之pandas库(万年一更版)

1.基本数据类型

1.1认识Series(系列)

​1.2认识Dataframe(数据框)

2.访问DataFrame

2.1删除操作

2.2 查询数据的方法

3. DataFrame常见操作

3.1排序

3.2数据文件的导入与导出

4.处理数据常见操作

4.1缺失值处理

4.2重复值的处理

4.3抽取数据

4.4数据合并

大家都在看

1.2认识Dataframe(数据框)