Pandas —–简述 Series和DataFrame

2023年6月2日上午5:29 • 人工智能 • 阅读 85

http://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html

pandas 10分钟入门教程

import pandas as pd #Series 和 DataFrame 都是 Pandas库的数据结构，使用前要导入

一、 Series 简述、创建

Series简述和创建
简述

Series 可以理解为一维数组，其一个索引index对应一个值values；也可以看做是定长的有序字典

创建

S = pd.Series(data, index= index)

其中data数据类型可以有： python dict 、numpy数组和常量

A. python dict

dict 的key做索引， values做索引对应的值

B. numpy
】

C. 常量

操作：
Series部分属性

index和values属性

import pandas as pd
data = ['jordan', 'james', 'kobe']
se1 = pd.Series(data, index=range(3))
print se1.index
print se1.values

name属性，索引的name属性

se1.name = 'rank_number'
se1.index.name = 'num'
se1.index = ['No1', 'No.2', 'No.3']           #修改索引

Series部分方法

pd.isnull()            # 检查是额否有NaN（缺失值），返回一个Series，数据为boolean

排序：
pd.Series.sort_index()  # 按照索引排序
pd.Series.order()          # 按 值 排序， 有任何缺失值时，放到Series尾部

索引、切片

se2 = pd.Series(np.arange(5), index = list('apple'))
se2['p']                     # 索引， 索引值为'p'的都会列出来
se2['a':'l']                 # 切片， 与Python和numpy切片不同，  Series "非数值" 切片是 "包前又包后的"（满嘴顺口溜也考不上研！！Doge）
se2[: 3]                                          #切片，  通过数值切片依旧是 "包前不包后"

重新索引

Series的reindex方法重新索引，由下图看出来reindex方法是复制了原始的Series，并没有改变原始数据

se1 = pd.Series(['a', 'aa', 'aaa'], index=[1,2,3])
se1.reindex([1,2,3,4])                     # 当索引对应的数据为空时，默认NaN填充
se1.reindex(['1','2','3','4'])             # 当改变索引的数据类型时  int -> string 时，对应数据也会改变
se1.reindex([1,2,3,4],fill_value=0)        # fill_values参数，设置缺失值

还有几种缺失值填充的参数：
        # ffill / pad                     # 向前填充/搬运 值
        # bfill / backfill                # 向后填充/搬运 值

二、DataFrame

简述和创建
简述:

DataFrame是一种含有行索引、列索引的表格类型的数据结构，其每列都是不同的值类型。

创建:

A. 单层字典创建：

import pandas as pd
play_info = {
    "name": ['jordan', 'james', 'kobe', 'johnson', 'shark'],
    'club': ['Bulls', 'Heat', 'Lakers', 'Lakers', 'Lakers'],
    'position':['sg', 'sf', 'sg', 'pg', 'c'],
    'number': ['23', '6', '24', '32', '33']
}
p_df = pd.DataFrame(play_info)     # 未指定index行索引，默认添加有序索引; 如果没有指定column列索，那么列序是随机。如下图所示;
若创建DataFrame时， play_info 中的数据有缺失值， 会自动使用NaN填充，这就不举例了
print p_df
p_df = pd.DataFrame(play_info, columns=['name', 'number', 'club', 'position'])  # 指定列索引columns顺序
p_df = pd.DataFrame(play_info, columns=['name', 'number', 'club', 'position'], index=['one', 'two', 'three', 'four', 'five'])  #显示指定行索引

B. 嵌套字典创建：

data2 = {
    'nevada' : {
        2001 : 2.4,
        2002 : 2.9
    },
    'ohio':{
        2000 : 1.5,
        2001 : 1.7,
        2002 : 3.6
    }
}
df1 = pd.DataFrame(data2)  # 嵌套字典创建，没有显示指定index时， 内层字典 的key 会被合并、排序
print df1

C. 先创建DataFrame数据，再使用 index和columns属性指定

DataFrame.index = []            # 增加行索引  /   修改行索引
DataFrame.columns = []          # 增加列索引  /   修改列索引          （如下图就是修改行、列索引）

属性:

name属性

df.index.name =
df.columns.name =
df.values    # 返回 DataFrema的数据为 ndarray类型

DataFrame() 构造函数可以接收的数据类型

2nd- array 数据矩阵数组、列表和元组组成的字典

字典每个key在DataFrame中为一列

numpy的结构化数组

类似”数组组成的字典”

Series组成的字典

每个Series在DataFrame中为一列，未显示之指定索引，会合并

字典组成的字典（嵌套字典，如上例所示）

每个内层字典成为一列，内层字典的key被合并，行列索引未指定则合并

字典或Series的列表

各项成一行。字典key/ series索引的并集成为DataFrame 的 columns

由列表/元组组成的列表

类似 2nd-array

另一个 DataFram

该DataFrame 的index未显示指定时，沿用

Numpy的 MaskedArray

类似 2nd-array，只是掩码值在结果DataFrame中成为缺失值 NaN

上述表格在《利用Python进行数据分析》P123页也有，我只是改了一部分（按我的理解）

索引对象

DataFrame的索引对象不支持修改，保证了多个数据结构之间的安全共享

index对象还有多个

Index

广义的Index，由Python object组成的numpy数组

Int64Index

整数数组特殊的Index

MultiIndex

“层次化”索引对象

DatetimeIndex

时间戳，Numpy的datetime类型表示

PeriodIndex

时间间隔数据的特殊Index

注：上述表格《利用Python进行数据分析》P125也有，只是改了一些。

操作
索引

#返回一个Series
p_df['name']                     # 如下第一个图

#如下图2
DataFrame.iloc[int_num]          # 行索引数据类型为  int 时，使用iloc 。   int_num为索引整数值   （基于数字）
DataFrame.loc['str']             # 列索引数据类型为  string 时，使用loc。  str为索引具体的值     （基于字符串）
#如下图3
DataFrame.ix[[rows_index], [col_index]]        # ix  基于标签索引，

Original: https://www.cnblogs.com/HankCui/p/11032738.html
Author: hankcui
Title: Pandas —–简述 Series和DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559885/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow笔记2（北京大学）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0088
虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境 1.1 打开 Anaconda 自带的 Anaconda Prompt 1.2 打开 Anaconda Prompt 之后，在命令行输入命…

人工智能 2023年7月27日
0067
图计算如何实时保障运动应急救助？

从三百年前图论诞生到上世纪六十年代，”图”技术已大量被用于实际生产，从我们熟悉的导航、搜索推荐，到工业应用中的资源调度、道路建设，再到溯源物资的供应链、患者…

人工智能 2023年6月1日
0098
KeyBLD Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieval

KeyBLD: Selecting Key Blocks with Local Pre-ranking for Long Document Information Retrieva…

人工智能 2023年5月31日
0082
网络攻击防范

目录扫描窥探攻击畸形报文攻击特殊报文攻击 FW的URPF技术 TCP/UDP流量攻击 TCP类攻击 TCP防范–源认证 TCP防范–会话检查 UDP类…

人工智能 2023年6月29日
0076
【前沿技术RPA】万字吃透UiPath如何处理异常

🐋作者简介：博主是一位.Net开发者，同时也是RPA和低代码平台的践行者。🐬个人主页：会敲键盘的肘子🐰系列专栏：UiPath🦀专栏简介： UiPath在传统的RPA（Robotic…

人工智能 2023年7月19日
00374
【随机森林】深入浅出讲解随机森林算法

1、集成学习介绍常言道：”一个篱笆三个桩，一个好汉三个帮”。集成学习模型便是综合考量多个学习器的预测结果，从而做出决策。集成学习通过训练学习出多个估计器，…

人工智能 2023年6月16日
0097
简单线性回归和多元线性回归

有很多初学者不知道如何用R语言做回归，这里我讲解一下简单线性回归和多元线性回归。当回归模型包含一个因变量和一个自变量时，我们称为简单线性回归。比如：身高和体重的关系。当有不止…

人工智能 2023年6月18日
0098
NVIDIA CUDA各版本下载链接(包括最新11版本和以往10.2版本）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月21日
0063
Mask R-CNN网络详解

论文名称：Mask R-CNN论文下载地址：https://arxiv.org/abs/1703.06870 在阅读本篇博文之前需要掌握 Faster R-CNN、 FPN以及 F…

人工智能 2023年6月16日
00106
[论文阅读] KGAT: Knowledge Graph Attention Network for Recommendation

原文：https://arxiv.org/pdf/1905.07854.pdf代码：https://github.com/xiangwang1223/knowledge_graph…

人工智能 2023年6月1日
0079
halcon标定助手的使用流程

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月20日
0066
文献翻译|新兴功率集成电路用400–600伏4H-碳化硅横向场效应晶体管的设计和制造方法

新兴功率集成电路用400–600伏4H-碳化硅横向场效应晶体管的设计和制造方法摘要：本文报道了在6英寸N+衬底上400–600伏、4H-碳化硅横向场效应晶体管的演示和制作。P-…

人工智能 2023年6月6日
0093
Linux60个小时速成

Linux速成文章目录 Linux速成 * 1 前言 – 1.1 课程介绍 1.2 学习方向 1.3 应用领域个人桌面领域服务器领域嵌入式领域 1.4 学习阶段…

人工智能 2023年5月30日
0089
Numpy报错：ImportError: numpy.core.multiarray failed to import

导入自定义的 python 模块时，出现以下报错： ImportError: numpy.core.multiarray failed to import from .cv2 im…

人工智能 2023年5月23日
00116
【CV第一篇】计算机视觉的四大基本任务

开篇寄语修炼一途，乃窃阴阳，夺造化，转涅槃，握生死，掌轮回。武之极，破苍穹，动乾坤！！ ——《武动乾坤》由魔方智能CV空间调研、整理、创作或转载，如有侵权，请联系后台作相应处理…

人工智能 2023年7月28日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas —–简述 Series和DataFrame

大家都在看