Python数据分析之pandas（保姆级教程）

2023年8月20日下午5:09 • Python • 阅读 64

一、前言

一般情况下，numpy总是和pandas一起出现。如果numpy处理的数据类似于list类型的话，那么pandas处理的数据就类似于dictionary类型。

二、前提准备

使用pandas的话，需要将pandas这个第三方包，提前下载到你的python解释器中。
（1）Win + R，输入cmd，然后点击确定

（2）在Windows的终端中输入如下命令，然后回车

pip install pandas

三、具体使用

1.基本使用

（1）使用pandas生成序列


import pandas as pd
import numpy as np

s = pd.Series([1, 3, 6, np.NAN, 66, 88])
print(s)

（2）生成日期序列


dates = pd.date_range('20220822', periods=6)
print(dates)

（3）生成DataFrame


df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=['a', 'b', 'c', 'd'])
print(df)

print("-" * 50)

df1 = pd.DataFrame(np.arange(12).reshape((3, 4)))
print(df1)

（4）使用字典参数生成DataFrame


df2 = pd.DataFrame({'A': 1.0, 'B': pd.Timestamp('20210701'),
                    'C': pd.Categorical(['test1', 'test2', 'test3', 'test4']), 'D': 'ff'})
print(df2)

（5）Dataframe的属性


print(df2.dtypes)

print(df2.index)

print(df2.columns)

print(df2.values)

print(df2.describe())

（6）在Dataframe中进行排序


df2 = df2.sort_index(axis=1, ascending=False)

print(df2)
print("-" * 50)
df2 = df2.sort_index(axis=0, ascending=False)
print(df2)

print("%" * 50)

df2 = df2.sort_values(by='C')
print(df2)

（7）对Dataframe进行转置


print(df2.T)

2.选择数据

（1）选择列


import numpy as np
import pandas as pd
"""
    pandas从DateFrame中选取一行
"""

dates = pd.date_range('2022.07.01', periods=6)

df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A', 'B', 'C', 'D'])
print(df)

print(df.A)
print("-" * 50)
print(df['A'])

（2）通过”切片”选择数据

print("-" * 50)

print(df[1:3])
print("&" * 50)

print(df['20220703':'20220705'])

（3）根据标签进行选择数据


print("-" * 50)
print(df.loc['20220701'])


print("-" * 50)

print(df.loc[:, ['B', 'C']])


print("-" * 50)
print(df.loc["20220702", ['C', 'D']])

（4）根据位置选择数据


print("-" * 50)
print(df.iloc[3])

print("-" * 50)
print(df.iloc[[1,3,5], 1:3])

（5）根据条件进行选择数据


print("-" * 50)
print(df[df.A > 8])

3. 设置值

设置值的本质就是：先选择数据，然后再赋值

（1）通过位置选择数据，然后改变数据


import numpy as np
import pandas as pd

"""
   在指定位置进行替换值
"""

dates = pd.date_range('20220701', periods=6)

df = pd.DataFrame(np.arange(24).reshape((6,4)), index=dates, columns=['A', 'B', 'C', 'D'])
print(df)

df.iloc[2, 2] = 666
print("-" * 50)
print(df)

（2）通过标签选择数据，然后改变数据


df.loc['20220701', 'B'] = 999
print("-" * 50)
print(df)

（3）通过选择列选择数据，然后改变数据

df['D'] = np.NAN
print(df)

（4）给Dataframe新加一列


df['E'] = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20220701', periods=6))
print("-" * 50)
print(df)

（5）通过条件选择数据，然后改变数据


df[df.A > 0] = 2222
print(df)

4.处理丢失数据

（1）丢弃NaN值


import numpy as np
import pandas as pd

dates = pd.date_range('20220701', periods=6)

df = pd.DataFrame(np.arange(24).reshape(6, 4), index=dates, columns=['A', 'B', 'C', 'D'])

df.iloc[0, 1] = np.NAN
df.iloc[1, 2] = np.NAN
print("-" * 50)
print(df)

"""
    丢弃nan
"""

df = df.dropna(axis=1, how='any')
print("-" * 50)
print(df)

（2）替换NaN值

"""
    替换nan
"""

print(df.fillna(value=0))

（3）判断df的各个位置上是否缺失数据


print(df.isnull())

（4）判断df中是否存在NaN值


print("-" * 50)
print(np.any(df.isnull()) == True)

5.导入导出数据

（1）读取数据

import numpy as np
import pandas as pd
"""
    用pandas导入导出数据
"""

data = pd.read_csv("AAH691(2).csv", encoding='gb18030')
print(data)

（2）存储数据


data.to_pickle('test.pickle')

6.使用contact合并Dataframe

（1）contact竖直方向合并


import numpy as np
import pandas as pd

"""
    pandas中的合并
"""

df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'])
df2 = pd.DataFrame(np.ones((3, 4))*1, columns=['a', 'b', 'c', 'd'])
df3 = pd.DataFrame(np.ones((3, 4))*2, columns=['a', 'b', 'c', 'd'])

print("-" * 50)
print(df1)
print("-" * 50)
print(df2)
print("-" * 50)
print(df3)

print("-" * 50)

res = pd.concat([df1, df2, df3], axis=0, ignore_index=True)
print(res)

（2）contact水平方向合并


print("-" * 50)

res = pd.concat([df1, df2, df3], axis=1)
print(res)

（3）outer方式合并

print("-" * 50)
df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'], index=[1, 2, 3])
df2 = pd.DataFrame(np.ones((3, 4))*2, columns=['b', 'c', 'd', 'e'], index=[2, 3, 4])
print(df1)
print("-" * 50)
print(df2)

res = pd.concat([df1, df2], join="outer", ignore_index=True)
print("-" * 50)
print(res)

（4）inner方式合并


res = pd.concat([df1, df2], join="inner", ignore_index=True)
print("-" * 50)
print(res)

（5）使用append进行添加df

"""
    append的使用，默认数据框架df进行纵向合并，添加到最下面
"""
df1 = pd.DataFrame(np.ones((3, 4))*0, columns=['a', 'b', 'c', 'd'], index=[1, 2, 3])
df2 = pd.DataFrame(np.ones((3, 4))*2, columns=['a', 'b', 'c', 'd'], index=[2, 3, 4])
df3 = pd.DataFrame(np.ones((3, 4))*3, columns=['a', 'b', 'c', 'd'], index=[2, 3, 4])
print("-" * 50)
print(df1)
print("-" * 50)
print(df2)
print("-" * 50)
print(df3)
print("-" * 50)

res = df1.append([df2, df3], ignore_index=True)
print(res)

（6）使用append添加Series


s1 = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s1)
print("-" * 50)
res = df1.append(s1, ignore_index=True)
print(res)

7.使用merge合并Dataframe

（1）基于公共列进行合并


import numpy as np
import pandas as pd

"""
    merge的使用
"""

left = pd.DataFrame({'key':['K0', 'K1', 'K2', 'K3'],
                    'A':['A0', 'A1', 'A2', 'A3'],
                    'B':['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key':['K0', 'K1', 'K2', 'K3'],
                    'C':['C0', 'C1', 'C2', 'C3'],
                    'D':['D0', 'D1', 'D2', 'D3']})

print(left)
print("-" * 50)
print(right)
print("-" * 50)

res = pd.merge(left, right, on='key')
print(res)

（2）inner形式的merge合并

print("-" * 50)
left = pd.DataFrame({'key1':['K0', 'K0', 'K1', 'K2'],
                     'key2':['K0', 'K1', 'K0', 'K1'],
                    'A':['A0', 'A1', 'A2', 'A3'],
                    'B':['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1':['K0', 'K1', 'K1', 'K2'],
                      'key2':['K0', 'K0', 'K0', 'K0'],
                    'C':['C0', 'C1', 'C2', 'C3'],
                    'D':['D0', 'D1', 'D2', 'D3']})

print(left)
print("-" * 50)
print(right)

print("-" * 50)
res = pd.merge(left, right, on=['key1', 'key2'], how="inner")
print(res)

（3）outer形式的merge合并


print("-" * 50)
res = pd.merge(left, right, on=['key1', 'key2'], how="outer")
print(res)

（4）right形式的merge合并


print("-" * 50)
res = pd.merge(left, right, on=['key1', 'key2'], how="right")
print(res)

（5）left形式的merge合并


print("-" * 50)
res = pd.merge(left, right, on=['key1', 'key2'], how="left")
print(res)

（6）merge参数之indicator

df1 = pd.DataFrame({'col1':[0, 1], 'col_left':['a', 'b']})
df2 = pd.DataFrame({'col1':[1, 2, 2], 'col_right':[2, 2, 2]})
print("-" * 50)
print(df1)
print("-" * 50)
print(df2)

res = pd.merge(df1, df2, on='col1', how='outer', indicator="indicator_column")
print("-" * 50)
print(res)

（7）merge参数之index

left = pd.DataFrame({'A':['A0', 'A1', 'A2'],
                     'B':['B0', 'B1', 'B2']},
                    index=['K0', 'K1', 'K2'])

right = pd.DataFrame({'C':['C0', 'C1', 'C2'],
                      'D':['D0', 'D1', 'D2']},
                     index=['K0', 'K2', 'K3'])

print("-" * 50)
print(left)
print("-" * 50)
print(right)
print("-" * 50)

res = pd.merge(left, right, left_index=True, right_index=True, how='outer')
print(res)

（8）merge参数之suffixes

boys = pd.DataFrame({'k':['K0', 'K1', 'K2'], 'age':[1, 2, 3]})
girls = pd.DataFrame({'k':['K0', 'K0', 'K3'], 'age':[4, 5, 6]})

print("-" * 50)
print(boys)
print("-" * 50)
print(girls)

res = pd.merge(boys, girls, on='k', suffixes=['_boy', '_girl'], how='outer')
print("-" * 50)
print(res)

8. numpy和pandas处理数据之后，用matplotlib进行绘制图像

（1）对Series数据进行绘制线性图


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

data = pd.Series(np.random.randn(1000), index=np.arange(1000))

data = data.cumsum()
data.plot()
plt.show()

（2）对Dataframe数据进行绘制线性图


data = pd.DataFrame(np.random.randn(1000, 4),
                    index=np.arange(1000),
                    columns=["A", "B", "C", "D"])

data = data.cumsum()

data.plot()

plt.show()

（3）对Dataframe数据进行绘制散点图

ax = data.plot.scatter(x='A', y='B', color='DarkBlue', label='Class 1')
data.plot.scatter(x='A', y='C', color='DarkGreen', label='Class 2', ax=ax)
plt.show()

pandas总结完毕，撒花撒花…

Original: https://blog.csdn.net/Elon15/article/details/126467725
Author: 时代&信念
Title: Python数据分析之pandas（保姆级教程）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754989/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

scrapy爬虫小说

scrapy爬虫小说 1.pip下载scrapy包 windows下载: windows徽标键+R打开运行,输入 cmd回车进入命令行；…

Python 2023年10月6日
0035
scrapy的cookie管理

需要把settings.py的COOKIES_ENABLED设置为false COOKIES_ENABLED = False def start_requests(self): h…

Python 2023年10月2日
0048
Spring Cloud:微服务基础知识

✨ Spring Cloud:微服务基础知识一、系统架构演变 * 1. 单体应用架构 2. 垂直应用架构 3. 分布式架构 4. SOA架构 – 4.1 SOA概念 …

Python 2023年10月7日
0043
WinUI（WASDK）项目实践——优雅的开发上位机应用（新）

摘要这就是一个记录自己进行WinUI项目实践的博客，项目开源地址如下，觉得有帮助的可以去看看，因为项目都开源了，所以保姆级的讲解肯定不如直接看代码来的实在了。电子脑壳项目地址 …

Python 2023年10月23日
0045
什么是推荐系统？推荐系统类型、用例和应用

推荐系统是机器学习的一类，它可使用数据来帮助预测、缩小范围，并找到人们在呈指数级增长的选项中寻找的内容。什么是推荐系统？推荐系统是一种人工智能或人工智能算法，通常与机器学习相关…

Python 2023年9月28日
0043
2021/4/21

序作为学了一年还没到的学渣，对于python连皮毛都没有触及的菜鸟，被要求老师做一个大作业，这个差不多就决定了我的期末成绩，作为一个上课划水下课划水的菜鸟的人来说。这还不如让我再…

Python 2023年9月25日
0054
【使用pytest重构项目】pytest标记：查找测试策略以及标记测试函数运行

前言一直想学习自动化测试，但是都没行动，业余时间学习零零碎碎并记录20210419。 6、使用pytest重构项目 pytest框架介绍 pytest标记 pytest参数处理 …

Python 2023年9月15日
0038
表弟打把王者的时间，我就用python写了个自动玩贪吃蛇的程序

文章目录我的表弟最近放假了，没有做作业。我气得差点想给他买三年的高考和五年的模拟。 [En] My cousin recently had a holiday and didn&…

Python 2023年5月24日
0078
数字(number)

4.2 数字(number) Python中数字类型有4种：整型(int) 布尔型(bool) 浮点数(float) 复数(complex) 形如：1、233、-6、69这样的数…

Python 2023年5月23日
0086
django单元测试

测Django的东西仅限于在MTV模型。哪些可以测？哪些不可以。 1、html里的东西不能测。 Html里的HTML代码大部分都是写死的,嵌套在html中的Django模板语言也不…

Python 2023年8月6日
0035
基于改进PSO-ABC算法的机器人路径规划（Matlab代码实现）

👨‍🎓 个人主页：研学社的博客 💥💥💞💞 欢迎来到本博客❤️❤️💥💥 🏆博主优势： 🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️ 座右铭：行百里者，半于九十。 …

Python 2023年10月8日
0047
ImGUI 1.87 绘制D3D外部菜单

ImGUI 它是与平台无关的C++轻量级跨平台图形界面库，没有任何第三方依赖，可以将ImGUI的源码直接加到项目中使用，该框架通常会配合特定的D3Dx9等图形开发工具包一起使用，I…

Python 2023年10月20日
0060
【网络安全工程师面试合集】—一文看懂什么是路由算法

2.5. 路由算法 2.5.1. 简介 2.5.2. 路由选择算法的功能 2.5.3. 自治系统 AS (Autonomous System) Original: https://…

Python 2023年9月17日
0044
微信支付v3接口的官方 Java SDK

啰嗦几句：微信支付v3版接口麻烦吗？在对接微信支付v3接口时，本来是一件很简单的事情，其实微信支付v3接口并不是很复杂，但是微信团队的管理很混乱，给我们开发者带来了巨大的麻烦。微…

Python 2023年10月16日
0047
【python报错】ImportError: DLL load failed while importing utilsextension: 找不到指定的模块。（完美解决办法）

问题描述 pyhon命令报错：ImportError: DLL loa…

Python 2023年8月2日
0045
彻底搞懂kubernetes调度框架与插件

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月3日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31