Pandas（数据分析处理库）—小练习

2023年8月8日下午1:04 • Python • 阅读 63

import pandas as pd
import numpy as np
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

1，显示当前版本信息

pd.show_versions()
"""
INSTALLED VERSIONS
 0   animal    10 non-null     object
 1   age       8 non-null      float64
 2   visits    10 non-null     int64
 3   priority  10 non-null     object
dtypes: float64(1), int64(1), object(2)
memory usage: 400.0+ bytes
"""

4，索引

df.iloc[:4]

5，指定选择数据范围

df[df['visits'] > 1]

6，查看缺失值

df[df['age'].isnull()]

7，通过给定范围查找某一属性

df[(df['animal'] =='cat') & (df['age'] < 3)]

8，改变数值

df.loc['f','age'] = 1.5
df[(df['animal'] =='cat') & (df['age'] < 3)]

9，groupby求均值

df.groupby('animal')['age'].mean()
"""
animal
cat      2.333333
dog      5.000000
snake    2.500000
Name: age, dtype: float64
"""

10，计算相同属性值的个数

df['animal'].value_counts()
"""
cat      4
dog      4
snake    2
Name: animal, dtype: int64
"""

11，属性值进行映射

df['priority'] = df['priority'].map({'yes':True,'no':False})
df.head()

12，属性值进行替换

df['animal'] = df['animal'].replace('snake','tangyudi')
df.head()

13，数据透视表

df.pivot_table(index = 'animal',columns = 'visits',values='age',aggfunc = 'mean')

14，提取均值组成新的数据

df = pd.DataFrame(np.random.random(size = (5,3)))
df.head()

df.sub(df.mean(axis = 1),axis = 0)

15，统计不同属性值的个数

len(df) - df.duplicated(keep=False).sum()
"""
5
"""

len(df.drop_duplicates(keep=False))
"""
5
"""

16，给定数据，分别求滑动窗口的均值（加入补0操作）

df = pd.DataFrame({'group': list('aabbabbbabab'),
                       'value': [1, 2, 3, np.nan, 2, 3,
                                 np.nan, 1, 7, 3, np.nan, 8]})
df.head(12)

g1 = df.groupby(['group'])['value']
g2 = df.fillna(0).groupby(['group'])['value']
s = g2.rolling(3,min_periods=1).sum()/g2.rolling(3,min_periods=1).count()
s.reset_index(level = 0,drop=True).sort_index()
"""
0     1.000000
1     1.500000
2     3.000000
3     1.500000
4     1.666667
5     2.000000
6     1.000000
7     1.333333
8     3.666667
9     1.333333
10    3.000000
11    4.000000
Name: value, dtype: float64
"""

17，指定时间序列进行计算

dt = pd.date_range(start = '2022-05-04',end = '2022-10-14',freq = 'D')
s = pd.Series(np.random.rand(len(dt)),index = dt)
s[:5]
"""
2022-05-04    0.456731
2022-05-05    0.525470
2022-05-06    0.491474
2022-05-07    0.468223
2022-05-08    0.629639
Freq: D, dtype: float64
"""

s[s.index.weekday == 2].sum()
"""
11.524919039461853
"""

18，重采样

s.resample('M').mean()
"""
2022-05-31    0.487334
2022-06-30    0.508629
2022-07-31    0.522216
2022-08-31    0.500842
2022-09-30    0.555139
2022-10-31    0.449785
Freq: M, dtype: float64
"""

19，对缺失值数据自动计算

df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
              'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
              'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', ' (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})
df.head()

df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df.head()

20，将From_To这一列展开成两个特征

temp = df.From_To.str.split('_',expand = True)
temp.columns = ['From','To']

temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()

df = df.join(temp)
df.head()

21，删除From_To这一列

df = df.drop('From_To',axis = 1)
df.head()

22，去掉airline中多余的字符

df['Airline'] = df['Airline'].str.extract('([a-zA-Z\s]+)',expand = False).str.strip()
df.head()

23，将RecentDelays中的数据分开写

delays = df['RecentDelays'].apply(pd.Series)
delays.columns = ['delay_{}'.format(n) for n in range(1,len(delays.columns)+1)]
delays

24，多重索引

letters = ['A','B','C']
numbers = list(range(10))
mi = pd.MultiIndex.from_product([letters,numbers])
s = pd.Series(np.random.rand(30),index=mi)
s
"""
A  0    0.773126
   1    0.030788
   2    0.440044
   3    0.751953
   4    0.073763
   5    0.750470
   6    0.422485
   7    0.256091
   8    0.867278
   9    0.167302
B  0    0.617402
   1    0.884274
   2    0.745445
   3    0.017106
   4    0.289594
   5    0.346788
   6    0.430361
   7    0.900921
   8    0.933771
   9    0.550062
C  0    0.343099
   1    0.767047
   2    0.963959
   3    0.971750
   4    0.321016
   5    0.544492
   6    0.649962
   7    0.934818
   8    0.266529
   9    0.155592
dtype: float64
"""

25，定位数据

s.loc[pd.IndexSlice[:'B',5:]]
"""
A  5    0.750470
   6    0.422485
   7    0.256091
   8    0.867278
   9    0.167302
B  5    0.346788
   6    0.430361
   7    0.900921
   8    0.933771
   9    0.550062
dtype: float64
"""

26，按索引计算

s.sum(level = 1)
"""
0    1.733627
1    1.682110
2    2.149448
3    1.740809
4    0.684373
5    1.641749
6    1.502808
7    2.091831
8    2.067578
9    0.872956
dtype: float64
"""

27，变换索引

new = s.swaplevel(0,1)
new
"""
0  A    0.773126
1  A    0.030788
2  A    0.440044
3  A    0.751953
4  A    0.073763
5  A    0.750470
6  A    0.422485
7  A    0.256091
8  A    0.867278
9  A    0.167302
0  B    0.617402
1  B    0.884274
2  B    0.745445
3  B    0.017106
4  B    0.289594
5  B    0.346788
6  B    0.430361
7  B    0.900921
8  B    0.933771
9  B    0.550062
0  C    0.343099
1  C    0.767047
2  C    0.963959
3  C    0.971750
4  C    0.321016
5  C    0.544492
6  C    0.649962
7  C    0.934818
8  C    0.266529
9  C    0.155592
dtype: float64
1

"""

Original: https://blog.csdn.net/qq_41264055/article/details/124566915
Author: beyond谚语
Title: Pandas（数据分析处理库）—小练习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742317/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

再再肝3天，整理了70个Python面向对象编程案例，怎能不收藏？

在 Python 中创建一个类及其对象 class Employee: salary = 10000 name = "John Doe" emp1 = Empl…

Python 2023年8月24日
0050
Spark 参数说明

* – 前言 – Spark Job 提交 – + Spark Job 提交流程 + Spark Job提交参数说明 + * 应用程序参数 * …

Python 2023年11月8日
0049
Retinanet网络详解

Retinanet 网络结构详解以及源代码讲解网络backbone使用ResNet【18， 34， 50， 101， 152】 FPN层首先输入的照片的大小为672×…

Python 2023年8月2日
0066
聊一聊安全且正确使用缓存的那些事 —— 关于缓存可靠性、关乎数据一致性

大家好，又见面了。本文是笔者作为掘金技术社区签约作者的身份输出的缓存专栏系列内容，将会通过系列专题，讲清楚缓存的方方面面。如果感兴趣，欢迎关注以获取后续更新。在上一篇文档《聊一…

Python 2023年10月16日
0040
postman一些你不常用的实用技巧，竟然还能这么玩

序言各位好啊，我是会编程的蜗牛，作为java开发者，平时调试接口的时候，肯定需要用到接口调试工具，或者Swagger之类的。Swagger的优势在于它可以将后台加的一些接口注释信…

Python 2023年10月17日
0050
django笔记第三节

1.激活django环境：activate Django命令行进入HelloWorld目录，输入：python manage.py shell进入shell（与python环境类似…

Python 2023年8月5日
0060
MATLAB 双目相机标定

MATLAB 双目相机标定 Write by Champrin on 2022-12-11GUET Evolution Team Visual GroupReference art…

Python 2023年10月28日
0050
python+uiautomator2+pytest自动化测试框架（二）

基本目录说明 case 存放case的目录使用@pytest.mark.parametrize 装饰器+对应yml文件的参数，进行case的执行例如test_a读取yml文件中…

Python 2023年9月11日
0037
Python、golang、java、nodejs的HTTP性能对比

文章目录前言一、测试环境二、测试方案1 二、测试方案2 前言这两年都在使用Python写后端服务，因业务并发量不大，完全可以满足业务需求，而且编码效率较高，也就没关心其ht…

Python 2023年8月12日
0083
【Django实战（1）：开始建立第一个Django网站——创建项目、app】

环境：windows、python3.8前提：使用工具：pycharm，安装Django包 1.创建项目（命令行，直接在pycharm创建） 1.命令行在pychram的终端中使…

Python 2023年8月6日
0050
如何识别假爬虫？

我们在检查网站日志的时候，经常会遇到各种各样的爬虫。有的是正常的爬虫，例如：搜索引擎爬虫（百度搜索引擎爬虫、Google 搜索引擎爬虫，Bing 搜索引擎爬虫、YandexBot …

Python 2023年6月10日
0080
Python基础：第012课——最小的程序框架（代码解析）

Python基础：第012课——最小的程序框架（代码解析）观看视频参考：pygame详细教程参考案例：游戏模块Pygame 作为一个入门级的游戏开发库，其实并不难学，只要掌握 …

Python 2023年9月21日
0062
终究还是错付了！这2种Python字符串格式化的写法已经被淘汰了，你是不是还在用？

今天我们来讨论一个问题： python里是如何格式化字符串的？实际工作中使用的是哪一种？一、3种方式 %格式化已淘汰 format格式化（python2.6新增）不好用，处于…

Python 2023年5月24日
00108
pytest学习笔记

目录 1、虚拟环境准备 2、安装pytest 3、pytest使用约束 4、执行方式 5、pytest常用运行参数介绍 6、解决大批量执行测试case问题多进程 7、失败重跑机制(…

Python 2023年9月13日
0051
人工智能大数据时代下的工程伦理问题探讨

人工智能大数据时代下的工程伦理问题探讨一、引言人工智能技术以及大数据建设作为二十一世纪新兴技术，给人们带来更便捷的生活，社会中涌现出许多新技术，人与人工智能也越来越密不可分。伦理的…

Python 2023年10月7日
0099
可变形卷积（DCN）

可变形卷积即DCN（缩写取自Deformable ConvNets）提出于ICCV 2017的paper: Deformable Convolutional Networks 论文…

Python 2023年11月7日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas（数据分析处理库）—小练习

1，显示当前版本信息

4，索引

5，指定选择数据范围

6，查看缺失值

7，通过给定范围查找某一属性

8，改变数值

9，groupby求均值

10，计算相同属性值的个数

11，属性值进行映射

12，属性值进行替换

13，数据透视表

14，提取均值组成新的数据

15，统计不同属性值的个数

16，给定数据，分别求滑动窗口的均值（加入补0操作）

17，指定时间序列进行计算

18，重采样

19，对缺失值数据自动计算

20，将From_To这一列展开成两个特征

21，删除From_To这一列

22，去掉airline中多余的字符

23，将RecentDelays中的数据分开写

24，多重索引

25，定位数据

26，按索引计算

27，变换索引

大家都在看