pandas上

2023年8月18日下午11:50 • Python • 阅读 82

pandas上

1 什么是Pandas
2 Series
*
（1）Series对象的创建与类型
（2）修改类型
（2）取值
（3）索引
（4）索引和值
（5）unique()的功能
2 查看pandas的官方文档
*
（1）百度 pandas series where
（2）翻到下面找到实例
3 DataFrame
*
（1）DataFrame对象的创建
–
- a 通过读取表格创建，行索引与列索引
- b 通过读取JSON文件创建
- b 通过字典或列表创建
- c 通过numpy对象创建列表
（2）DataFrame的基本属性与查询情况
（3）通过位置取切片、值
–
- a 取行（不要求掌握）
- b 取列
- c 取值（不要求掌握）
（4）通过df.loc和df.iloc取切片和值
–
- a df.loc 通过标签索引取数据
- b df.iloc 通过位置获取行数据
（5）DataFrame的值的修改
（5）DataFrame字符串方法
（7）缺失数据处理
–
- a 判断数据是否为NaN：pd.isnull(df),pd.notnull(df)
- b NaN的处理
（8）布尔索引
（9）排序
（10）常用统计方法
（11）apply与applymap
（12）练习

1 什么是Pandas

pandas是一种高性能、易于使用的数据结构和数据分析工具，其有两种主要数据类型：
Series 一维，带标签数组
DataFrame 二维，Series容器

2 Series

（1）Series对象的创建与类型

未指定索引，索引就是0,1,2,3,4……

指定索引

通过字典创建一个Series，此时字典的键就是索引

dtype(‘0’)表示object类型

; （2）修改类型

（2）取值

Series对象可以根据键取值，也可以根据位置取值，其实本质都是根据索引取值

; （3）索引

（4）索引和值

; （5）unique()的功能

unique()相当于集合操作，即去掉重复，只有Series对象才能调用，DataFrame不行

2 查看pandas的官方文档

以series的where为例

（1）百度 pandas series where

点击第一个

; （2）翻到下面找到实例

3 DataFrame

Series对象是一维的，如果数据是二维的，该怎么办？
此时可以使用DataFrame（数据框）来处理，DataFrame是Series的容器。

（1）DataFrame对象的创建

a 通过读取表格创建，行索引与列索引

使用pd.read_csv()方法可以读取数据

import pandas as pd
df = pd.read_csv("./dogNames2.csv")
print(df)
print(type(df))

输出

     Row_Labels  Count_AnimalName
0         RENNY                 1
1        DEEDEE                 2
2     GLADIATOR                 1
3        NESTLE                 1
4          NYKE                 1
...         ...               ...

4159    ALEXXEE                 1
4160  HOLLYWOOD                 1
4161      JANGO                 2
4162  SUSHI MAE                 1
4163      GHOST                 3

[4164 rows x 2 columns]
<class 'pandas.core.frame.DataFrame'>

0 1 2 …这些都是行索引，Row_Labels和Count_AnimalName则为列索引

DataFrame对象既有行索引，又有列索引
行索引，表明不同行，横向索引，叫index，0轴，axis=0
列索引，表名不同列，纵向索引，叫columns，1轴，axis=1

b 通过读取JSON文件创建

大数据集通常存储到JSON文件中，或者从JSON文件中读取。

使用 read_json()方法读取

; b 通过字典或列表创建

字典里面嵌列表（以列表为值）

列表里面嵌字典，每一条记录以字典的形式作为列表的一个元素，即列表里有多个字典，每个字典只记录一条数据

如果某些字段有缺失，则系统自动用NaN 代替，NaN类似于np.nan

c 通过numpy对象创建列表

import pandas as pd
import numpy as np
t = pd.DataFrame(np.arange(12).reshape((2,6)))
print(t)
print(type(t))

输出

   0  1  2  3   4   5
0  0  1  2  3   4   5
1  6  7  8  9  10  11
<class 'pandas.core.frame.DataFrame'>

也可以在建立DataFrame对象的同时，指定其行索引和列索引

（2）DataFrame的基本属性与查询情况

和一个ndarray一样，我们通过shape，ndim，dtype了解这个ndarray的基本信息

df.head(3)和df.tail(3)返回的类型并不为Series，而是DataFrame，df.describe只有对数值型（int、float）的字段有效

import pandas as pd

data = pd.read_csv("datasets_IMDB-Movie-Data.csv")
print(data.info())

输出

可以看到，数据公有12个字段，前10个字段都有1000个数据，最后两个不到1000，因此最后两个字段有缺失。

（3）通过位置取切片、值

a 取行（不要求掌握）

; b 取列

方括号里面是字段

取DataFrame的一列，若是一对方括号，则其类型是Series，若是两对方括号，则其类型为DataFrame

c 取值（不要求掌握）

; （4）通过df.loc和df.iloc取切片和值

a df.loc 通过标签索引取数据

df.loc[行标签，列标签]

取某个具体位置的值，结果可能是字符串型，也可能是numpy的数值型

; b df.iloc 通过位置获取行数据

同df.loc相似，切片也是闭合型的。
如果取行，则t.iloc[2:,]，列位置处的冒号可以省略，但如果取列，那么行位置处的冒号不能省略

无论df.loc还是df.iloc，取某个具体位置的值，结果可能是字符串型，也可能是numpy的数值型，去某一行或某一列，则是Series对象，取不同行列的多个值，则是DataFrame对象。

（5）DataFrame的值的修改

可以直接对pandas的某个元素直接复制np.nan，如果是numpy对象，则需要先该数据类型为浮点型

; （5）DataFrame字符串方法

先将DataFrame对象中的字符串列筛选出来，然后 .str.方法名(…)，返回的结果是Series。
例如

import pandas as pd
import numpy as np
df = pd.read_csv("./dogNames2.csv")
print(df.head(10))
print(50*'*')
df2 = df["Row_Labels"].str.lower()

print(df2.head(10))

输出

  Row_Labels  Count_AnimalName
0      RENNY                 1
1     DEEDEE                 2
2  GLADIATOR                 1
3     NESTLE                 1
4       NYKE                 1
5  BABY GIRL                 3
6      EVVIE                 1
7    AMADEUS                 1
8     FINLEY                 4
9       C.C.                 1
**************************************************
0        renny
1       deedee
2    gladiator
3       nestle
4         nyke
5    baby girl
6        evvie
7      amadeus
8       finley
9         c.c.

Name: Row_Labels, dtype: object

（7）缺失数据处理

a 判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

; b NaN的处理

处理方式1：删除NaN所在的行列dropna (axis=0, inplace=False)，inplace表示原地修改，不生成新对象

t = pd.DataFrame({'T':[0, 4, 8], 'X':[1.0, 5.0, np.nan], 'Y':[2, 6, 10], 'Z':[3.0, np.nan, 11.0]})

如果不加参数，则删除NaN所在的行

处理方式2：填充数据，t.fillna(t.mean())，填充均值，t.fillna(t.median())，填充中位数，t.fillna(0)填充0

t.mean()，t.median()是对列求均值和中位数，是除NaN之外的值的均值和中位数

（8）布尔索引

回到之前狗的名字的问题上，假如我们想找到所有的使用次数超过700并且名字的字符串的长度大于4的狗的名字，应该怎么选择？
直接在中括号中添加条件，&表示且，|表示或

例如

import pandas as pd
import numpy as np

file_path = "datasets_IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

print(df["Year"]==2015)

输出

0      False
1      False
2      False
3      False
4      False
       ...

995     True
996    False
997    False
998    False
999    False
Name: Year, Length: 1000, dtype: bool

df[“Year”]==2015返回的是一个以逻辑值构成的Series对象。
中括号里如果是由逻辑值组成的Series对象，那么就是对行进行筛选

但中括号里不能直接用逻辑值，而是应该用Series对象，否则会报错
pandas上

（9）排序

df.sort_values(by="Count_AnimalName",ascending=True)

不止DataFrame，Series对象也能调用这个方法，Series调用这个方法时不需要by
Count_AnimalName是排序所依据的字段
ascending表示是否升序，默认为True

（10）常用统计方法

除了刚刚介绍的df.mean()，df.median()，还有df.max()，df.min()，同样是统计每个字段的

还可以使用df.idxmax和df.idxmin返回最大最小值所在的行索引

df.idxmax和df.idxmin返回的是Series对象

老版本的pandas是通过ser.argmax和ser.argmin来实现这种功能，但是这两种方法只能被Series对象调用，不能被DataFrame对象调用，即必须先对DataFrame对象先去行或列。

; （11）apply与applymap

（12）练习

假设现在我们有一组从2006年到2016年1000部最流行的电影数据，我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？

import pandas as pd
import numpy as np

file_path = "datasets_IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

print(df.head(1))
print(80 * '*')

print(df["Rating"].mean())
print(80 * '*')

print(len(set(df["Director"].tolist())))

输出

   Rank                    Title  ... Revenue (Millions) Metascore
0     1  Guardians of the Galaxy  ...             333.13      76.0

[1 rows x 12 columns]
********************************************************************************
6.723199999999999
********************************************************************************
644

假如要统计这1000部电影的参演演员总数，则代码为

import pandas as pd

file_path = "datasets_IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

temp_actors_list = df["Actors"].str.split(", ").tolist()
actors_list = [i for j in temp_actors_list for i in j]

actors_num = len(set(actors_list))

print(actors_num)

输出

actors_list = [i for j in temp_actors_list for i in j]可能比较难读懂，这是两个循环嵌套，看下面代码的注释，就能明白

import pandas as pd

file_path = "datasets_IMDB-Movie-Data.csv"
df = pd.read_csv(file_path)

print(df["Actors"].str.split(", "))
print(80 * '*')
print(type(df["Actors"].str.split(", ")))
print(80 * '*')

temp_actors_list = df["Actors"].str.split(", ").tolist()

actors_list = [i for j in temp_actors_list for i in j]

actors_num = len(set(actors_list))

print(actors_num)

输出：

0      [Chris Pratt, Vin Diesel, Bradley Cooper, Zoe ...

1      [Noomi Rapace, Logan Marshall-Green, Michael F...

2      [James McAvoy, Anya Taylor-Joy, Haley Lu Richa...

3      [Matthew McConaughey,Reese Witherspoon, Seth M...

4      [Will Smith, Jared Leto, Margot Robbie, Viola ...

                             ...

995    [Chiwetel Ejiofor, Nicole Kidman, Julia Robert...

996    [Lauren German, Heather Matarazzo, Bijou Phill...

997    [Robert Hoffman, Briana Evigan, Cassie Ventura...

998    [Adam Pally, T.J. Miller, Thomas Middleditch,S...

999    [Kevin Spacey, Jennifer Garner, Robbie Amell,C...

Name: Actors, Length: 1000, dtype: object
********************************************************************************
<class 'pandas.core.series.Series'>
********************************************************************************
2015

Original: https://blog.csdn.net/weixin_44457930/article/details/114707669
Author: weixin_44457930
Title: pandas上

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/753483/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Nginx】三、Nginx实现四层负载均衡&Nginx实现限流&防盗链&流量镜像

Nginx实现四层负载均衡一、Nginx实现四层负载均衡 * 1、四层负载均衡与七层负载均衡区别 2、Nginx四层负载均衡配置 3、SocketTool工具 4、TCP&amp…

Python 2023年11月7日
0058
一文速学-时间序列分析算法之一次移动平均法和二次移动平均法详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月1日
0055
猿创征文｜【深度学习前沿应用】文本生成

; 猿创征文｜【深度学习前沿应用】文本生成作者简介：在校大学生一枚，C/C++领域新星创作者，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等…

Python 2023年10月24日
0039
python+pytest单元测试框架之执行用例

一、执行多个测试用例 1.在一个测试类中创建多个测试用例。写入如下代码，保存为test_class.py #coding:utf-8 class TestClass(): def …

Python 2023年9月13日
0050
最详细的Excel模块Openpyxl教程（五）-结合Numpy和Pandas

在上次的推文中，我们介绍了使用Openpyxl来进行数据的过滤和排序的操作，相关推文可以从本公众号的底部相关菜单获取。在那篇推文中我们使用到了Pandas。因此本次推文我们就来看…

Python 2023年8月7日
0058
pytest-常用运行参数

pytest-常用运行参数原创我的事说来话长2022-08-02 22:51:31©著作权文章标签 pytest 文章分类 Python 后端开发 ©著作权归作者所有：来自5…

Python 2023年5月24日
0071
Python数据分析+可视化项目教学：分析猛男童年的玩具，并可视化展示商品数据

前言你相信光吗（那年要不是我拿着手电筒照着电视机，迪迦奥特曼早就被打到了）来自京东平台上的数据，万代奥特曼与万代高达以及乐高三大类型玩具的数据对比分析，消费者更爱哪一类？那么…

Python 2023年8月19日
0052
五子棋游戏单机版pygame_PY：一学就会！最基础语法实现五子棋游戏

Hello各位，我又来了！昨天早上接了个单子，客户是个留学生，想做一个小游戏作为作业。要求大概是这样的：噫，这两天正想着考完试做个贪吃蛇小游戏玩玩，这边就来了个五子棋的单子…

Python 2023年9月24日
0035
pygame战棋游戏制作之战棋棋子设置（二）

简介在上一篇推文中，我们成功地将地图绘制出来，但是只有一个网格，十分单调，战棋游戏肯定是要有棋子的。这一篇主要讲解棋子是如何设置的。正文棋子本质就是地图二维数组中的一个下标…

Python 2023年9月19日
0044
Python Scrapy框架学习笔记

基本步骤创建工程 scrapy startproject 工程名创建爬虫文件 scrapy genspider 爬虫文件名 www.xxx.com 或者 scrapy gens…

Python 2023年10月5日
0047
win10 OpenPCDet 训练KITTI以及自己的数据集

文章目录 * – 1.OpenPCDet – 2.OpenPCDet 训练KITTI数据集 – + 2.1KITTI数据集的摆放 + 2.2数据…

Python 2023年8月1日
0055
python scratch file_Python crawler:scratch的Pycharms构建一个scratch环境+创建一个scratch项目实例,爬虫,Scrapy,之,PyCharm…

一、基本环境 win10 PyCharm Python 3.6 二、scrapy 环境搭建安装两个python模块： Twisted、scrapy 。在cmd中安装会快捷一点。 …

Python 2023年10月4日
0032
手记系列之三 —– 关于使用Nginx的一些使用方法和经验

前言本篇文章主要介绍的关于本人在使用Nginx的一些使用方法和经验~ Nginx介绍介绍 Nginx(“engine x”)是一款是由俄罗斯的程序设计师…

Python 2023年10月15日
0033
Pytest实战

Pytest测试框架是动态语言Python专用的测试框架，使用起来非常的简单，这主要得易于它的设计，Pytest测试框架具备强大的功能，丰富的第三方插件，以及可扩展性好，可以很好的…

Python 2023年8月13日
0064
MySQL、索引优化&参数优化

1.对查询进行优化应尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where 子句中对字段进行 null 值判断，否…

Python 2023年6月10日
0071
学习笔记-Python-DataFrame常见操作总结

DataFrame的创建 1.1. 从已有数据集创建 1.1.1. 从excel文件中读取 import numpy as np import pandas as pd df1 =…

Python 2023年8月7日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas上

pandas上

（1）Series对象的创建与类型

; （2）修改类型

（2）取值

; （3）索引

（4）索引和值

; （5）unique()的功能

（1） 百度 pandas series where

; （2） 翻到下面找到实例

（1）DataFrame对象的创建

a 通过读取表格创建，行索引与列索引

b 通过读取JSON文件创建

; b 通过字典或列表创建

c 通过numpy对象创建列表

（2）DataFrame的基本属性与查询情况

（3）通过位置取切片、值

a 取行（不要求掌握）

; b 取列

c 取值（不要求掌握）

; （4）通过df.loc和df.iloc取切片和值

a df.loc 通过标签索引取数据

; b df.iloc 通过位置获取行数据

（5）DataFrame的值的修改

; （5）DataFrame字符串方法

（7）缺失数据处理

a 判断数据是否为NaN：pd.isnull(df),pd.notnull(df)

; b NaN的处理

（8）布尔索引

（9）排序

（10）常用统计方法

; （11）apply与applymap

（12）练习

大家都在看

（1）百度 pandas series where

; （2）翻到下面找到实例