Python数据分析——pandas数据结构（DataFrame）

2023年8月6日下午3:50 • Python • 阅读 50

一、pandas数据结构–DataFrame

DataFrame 是表格型的数据结构，每列值的数据类型可以不同，也可以相同
DataFrame 常用于二维数据。
DataFrame 的属性： values,index,columns,dtypes

二、创建DataFrame对象

1.格式： pandas.DataFrame(data[,index[,columns]])

参数说明：
data：是输入给DataFrame构造器的数据 index：是DataFrame对象中行索引的标签。 columns：是DataFrame对象中列索引的标签。
可以通过DataFrame的属性index、values和columns。
1.获取DataFrame对象所有列的名称. 对象名.columns
2.获取DataFrame对象的索引列表，对象名.index
3.获取存储在数据结构中的所有元素（值），对象名.values

2.随机数生成DataFrame对象,使用默认索引。

import numpy as np
import pandas as pd

pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)

df = pd.DataFrame(np.random.randint(1, 20, (5,3)),
                  index=range(5),
                  columns=('A', 'B', 'C'))

3.随机数生成DataFrame对象，使用时间序列作为索引


df = pd.DataFrame(np.random.randint(5, 15, (10, 3)),
                  index=pd.date_range(start='202007150900',
                                      end='202007151800',
                                      freq='H'),
                  columns=['熟食', '化妆品', '日用品'])

4.用字典创建DataFrame对象使用姓名字符串做索引

df = pd.DataFrame({'语文':[87,79,67,92],
                   '数学':[93,89,80,77],
                   '英语':[90,80,70,75]},
                  index=['张三', '李四', '王五', '赵六'])

5.嵌套字典创建DataFrame对象.

外部的键生成列名称，内部的键生成索引标签。

df = pd.DataFrame({'张三':{'数学':67,'程序设计':78},
                   '杨下':{'物理':78,'程序设计':99},
                   '冒瞳':{'数学':56,'实习':67}})
print(df,df.values,df.index,df.columns,sep='\n\n')

运行结果：

         张三  杨下  冒瞳
数学      67.0   NaN  56.0
程序设计  78.0  99.0   NaN
物理       NaN  78.0   NaN
实习       NaN   NaN  67.0

[[67. nan 56.]
 [78. 99. nan]
 [nan 78. nan]
 [nan nan 67.]]

Index(['数学', '程序设计', '物理', '实习'], dtype='object')

Index(['张三', '杨下', '冒瞳'], dtype='object')

6.用由Series组成的字典生成DataFrame对象

df = pd.DataFrame({'product':pd.Series(['电视机','手机','空调']),
                  'price':pd.Series([6500,3400,7899]),
                  'count':[23,45,28]})
df1 = pd.DataFrame({'product':['电视机','手机','空调'],
                  'price':[6500,3400,7899],
                  'count':[23,45,28]})
print(df,df1,sep='\n\n')

dt = {'product':['电视机','手机','空调'],
      'price':[6500,3400,7899],
     'count':[23,45,28]}

df1 = pd.DataFrame(dt,columns=['product','count'])
print('\n',df1)

运行结果：

  product  price  count
0  电视机   6500     23
1    手机   3400     45
2    空调   7899     28

  product  price  count
0  电视机   6500     23
1    手机   3400     45
2    空调   7899     28

   product  count
0  电视机     23
1    手机     45
2    空调     28

三、DataFrame数据中的元素选择

1.查看前n行、后n行数据 : 函数head()与tail()的使用

df = pd.DataFrame({'语文':[87,79,67,92,67,87,54],
                   '数学':[93,89,80,77,56,78,69],
                   '英语':[90,80,70,75,75,34,85]},
                  index=['张三', '李四', '王五', '赵六','王冠','张一','吴玉'])
print('查看全部数据'.center(20,'='))

print('查看前5行的数据'.center(20,'='))

print('查看后3行的数据'.center(20,'='))

2.利用列名访问一列的数据


print('\n',df)

print('利用[列名]访问整列的数据'.center(20,'='))
print(df['语文'].head(2))

print("df.列名 与 df['列名'] 访问相同".center(30,'='))
print(df['语文'],df.语文,sep='\n')

print('利用[列名,列名，...]访问多列的数据'.center(26,'='))
print(df[ ['语文','英语'] ].tail(6))

运行结果：

       语文  数学  英语
张三    87    93    90
李四    79    89    80
王五    67    80    70
赵六    92    77    75
王冠    67    56    75
张一    87    78    34
吴玉    54    69    85

===利用[列名]访问整列的数据====
张三    87
李四    79
Name: 语文, dtype: int64

====df.列名 与 df['列名'] 访问相同=====
张三    87
李四    79
王五    67
赵六    92
王冠    67
张一    87
吴玉    54
Name: 语文, dtype: int64

===利用[列名,列名，...]访问多列的数据===
      语文  英语
李四    79    80
王五    67    70
赵六    92    75
王冠    67    75
张一    87    34
吴玉    54    85

3.访问指定信息


print('显示吴玉的所有成绩'.center(30,'='))
print(df[df.index=='吴玉'])
print('显示王冠的所有成绩'.center(30,'='))
print(df[df.index=='王冠'])
print('显示赵六的所有成绩'.center(30,'='))
print(df[df.index=='赵六'])

4.新增或修改一条列数据


df['python'] = [78,54,89,76,56,45,87]
df['语文'] = [100,100,100,100,100,100,100]
print(df)

5.新增或修改一条行数据


print('新增 于一 的所有的成绩'.center(29,'='))
df.loc['于一'] = [66,45,88,99]
df.loc['赵六'] = [99,99,99,99]
print(df)

运行结果：

==========显示吴玉的所有成绩===========
      语文  数学  英语
吴玉    54    69    85
==========显示王冠的所有成绩===========
      语文  数学  英语
王冠    67    56    75
==========显示赵六的所有成绩===========
      语文  数学  英语
赵六    92    77    75

      语文  数学  英语  python
张三   100    93    90      78
李四   100    89    80      54
王五   100    80    70      89
赵六   100    77    75      76
王冠   100    56    75      56
张一   100    78    34      45
吴玉   100    69    85      87

=========新增 于一 的所有的成绩========
      语文  数学  英语  python
张三   100    93    90      78
李四   100    89    80      54
王五   100    80    70      89
赵六    99    99    99      99
王冠   100    56    75      56
张一   100    78    34      45
吴玉   100    69    85      87
于一    66    45    88      99

6.利用切片访问一行或多行的数据


print('利用切片访问一行或多行的数据'.center(26,'='))
print(df[:1],df[3:6],sep='\n\n')

print(df['数学'][6])

运行结果：

======利用切片访问一行或多行的数据======
      语文  数学  英语  python
张三   100    93    90      78

      语文   数学  英语   python
赵六    99    99    99      99
王冠   100    56    75      56
张一   100    78    34      45

69

7.利用切片访问多行多列数据

print('利用切片访问多行多列数据'.center(26,'='))

运行结果：

=======利用切片访问多行多列数据=======
      语文  python  数学
王五   100      89    80
赵六    99      99    99
王冠   100      56    56
      语文  python  数学
王五   100      89    80
赵六    99      99    99
王冠   100      56    56

8.利用 loc,iloc 进行访问或修改指定信息

'''
loc[行索引名称或条件，列索引名称]
iloc[行索引位置，列索引位置] 或 iloc[行索引位置] 即 iloc使用数字做索引
'''
print(df)
print('索引为5的行 iloc[5]'.center(40,'='))
print(df.iloc[5])

print('索引为[3:5]的行 iloc[3:5]'.center(40, '='))
print(df.iloc[3:5])

print('索引为[3:5]的行且列为0:2的所有数据'.center(40, '='))
print(df.iloc[3:5,0:2])

print('访问指定行（0，3，5）指定列（0，2）的数据'.center(40, '='))
print(df.iloc[[0,3,5],[0,2]])

print('访问"于一"的语文与python成绩'.center(40, '='))

print(df)
print('修改行索引为5的值 iloc[5]'.center(40,'='))
df.iloc[5]=[100,65,99,99]
print(df.iloc[5])

print('修改索引为[3:5]的行的数据 iloc[3:5]'.center(40, '='))
df.iloc[3:5]=100
print(df.iloc[3:5])

print('将python成绩乘以0.7'.center(40, '='))
df.语文 =df.语文*0.7
print(df)

print('将"吴玉"成绩都加10'.center(40, '='))
df.loc['吴玉'] =df.loc['吴玉']+10

运行结果：

      语文  数学  英语  python
张三   100    93    90      78
李四   100    89    80      54
王五   100    80    70      89
赵六    99    99    99      99
王冠   100    56    75      56
张一   100    78    34      45
吴玉   100    69    85      87
于一    66    45    88      99
=============索引为5的行 iloc[5]=============
语文      100
数学       78
英语       34
python     45
Name: 张一, dtype: int64
==========索引为[3:5]的行 iloc[3:5]==========
      语文  数学  英语  python
赵六    99    99    99      99
王冠   100    56    75      56
=========索引为[3:5]的行且列为0:2的所有数据==========
      语文  数学
赵六    99    99
王冠   100    56
========访问指定行（0，3，5）指定列（0，2）的数据=========
      语文  英语
张三   100    90
赵六    99    99
张一   100    34
===========访问"于一"的语文与python成绩===========
      语文  数学  英语  python
张三   100    93    90      78
李四   100    89    80      54
王五   100    80    70      89
赵六    99    99    99      99
王冠   100    56    75      56
张一   100    78    34      45
吴玉   100    69    85      87
于一    66    45    88      99
===========修改行索引为5的值 iloc[5]============
语文      100
数学       65
英语       99
python     99
Name: 张一, dtype: int64
=======修改索引为[3:5]的行的数据 iloc[3:5]========
      语文  数学  英语  python
赵六   100   100   100     100
王冠   100   100   100     100
=============将python成绩乘以0.7=============
      语文  数学  英语  python
张三  70.0    93    90      78
李四  70.0    89    80      54
王五  70.0    80    70      89
赵六  70.0   100   100     100
王冠  70.0   100   100     100
张一  70.0    65    99      99
吴玉  70.0    69    85      87
于一  46.2    45    88      99
==============将"吴玉"成绩都加10===============
      语文   数学   英语  python
张三  70.0   93.0   90.0    78.0
李四  70.0   89.0   80.0    54.0
王五  70.0   80.0   70.0    89.0
赵六  70.0  100.0  100.0   100.0
王冠  70.0  100.0  100.0   100.0
张一  70.0   65.0   99.0    99.0
吴玉  80.0   79.0   95.0    97.0
于一  46.2   45.0   88.0    99.0

9.筛选符合条件的数据


df1 = df[df.语文<60]
df11 = df[df['语文']<60]
print(df1,df11,sep='\n\n')

df2 = df[(df.语文<60) & (df.python<60)]
print(df2)

运行结果：

      语文  数学  英语  python
于一  46.2  45.0  88.0    99.0

      语文  数学  英语  python
于一  46.2  45.0  88.0    99.0

Empty DataFrame
Columns: [语文, 数学, 英语, python]
Index: []

10.插入数据的操作方法

import pandas as pd

df1 = pd.DataFrame([['张一','男',20],
                    ['五十','男',22],
                    ['吴下','男',18],
                    ['刘苛玉','女',19]],
                   columns=['姓名','性别','年龄'])

print("在最后新增一列".center(30,'='))
print("在数据框最后加上 '籍贯'一列")

df1['籍贯']=['江苏','河南','江苏','浙江']
print(df1)

print("在指定位置新增列:用insert（）".center(30,'='))

df1.insert(2,'班级',['英才1901']*4)
print(df1)

运行结果：

===========在最后新增一列============
在数据框最后加上 '籍贯'一列
     姓名 性别  年龄  籍贯
0    张一   男    20  江苏
1    五十   男    22  河南
2    吴下   男    18  江苏
3  刘苛玉   女    19  浙江

=====在指定位置新增列:用insert（）=====
     姓名 性别      班级  年龄  籍贯
0    张一   男  英才1901    20  江苏
1    五十   男  英才1901    22  河南
2    吴下   男  英才1901    18  江苏
3  刘苛玉   女  英才1901    19  浙江

大家伙学会了吗？记得一键三连哦~
三克斯~ O(∩_∩)O哈哈~

Original: https://blog.csdn.net/ChristensonLee/article/details/116516614
Author: KirinLee_01
Title: Python数据分析——pandas数据结构（DataFrame）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/737873/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

安卓APPUI自动化测试:python+uiautomator2+pytest+pytest-html

*自动化测试框架自动化测试框架：python+uiautomator2+pytest+pytest-html *自动化的设计模式设计模式：POM（PageObject Mode…

Python 2023年9月9日
0053
【ffmpeg】YUV实践

【ffmpeg】YUV实践前言生成YUV * 使用摄像头采集到YUV数据从现有的视频文件中提取YUV数据播放YUV 播放Y分量提取各分量参考资料个人简介 📦个人主页：…

Python 2023年9月16日
0032
【射雕英雄传】文本分析初步（姓名，丹药，秘籍，招式）[scrapy, jieba, matplotlib]

大三上学期选了学校高瓴开的大数据分析导论，最后的final分为两个部分，本文讲述第一部分的完成步骤。大致可以描述为：爬取文章，从本文本构造user_dict，利用jieba分词，分…

Python 2023年9月2日
0052
Pandas 学习

1.为什么使用Pandas pandas的优势增强图表可读性便捷的数据处理能力读取文件方便封装了Matplotlib、 Numpy的画图和计算 ; 2.pandas的数据结…

Python 2023年8月22日
0049
初入深度学习2——如何使用一个深度学习库

初入深度学习2——如何使用一个深度学习库学习前言使用一个深度学习仓库 * 一、环境配置 – 1、仓库包含requirements.txt 2、仓库不包含requir…

Python 2023年9月28日
0050
使用python播放mp3音频文件

pygame 安装 pip3 install pygame sudo apt-get install libsdl2-mixer-2.0-0 libsdl2-image-2.0-0…

Python 2023年9月17日
0074
ImportError: Couldn‘t import Django

ImportError: Couldn’t import Django ImportError: Couldn’t import Django 在使用Dja…

Python 2023年8月3日
0045
53_Pandas中的条件替换值（where, mask）

我会解释如何在pandas中根据条件赋值。虽然它不使用 if 语句，但它可以处理条件分支，如 if then … 或 if then … else &#82…

Python 2023年8月6日
0078
7┃音视频直播系统之 WebRTC 中的连接的创建、STUN/TURN 以及 NAT 穿越

一、Candidate 即 ICE Candidate（ICE 候选者）。表示 WebRTC 与远端通信时使用的协议、IP 地址和端口一般组成包括: 本地 IP 地址、本地端口号…

Python 2023年6月10日
0087
Anaconda国内镜像汇总（conda & pip）

临时切换通道举例： conda install pytorch torchvision -c https://mirrors6.tuna.tsinghua.edu.cn/anaco…

Python 2023年9月8日
0064
动态调整日志级别思路&实现

引言上篇文章性能调优——小小的 log 大大的坑已将详细的介绍了高并发下，不正确的使用日志姿势，可能会导致服务性能急剧下降问题。文末也给各位留下了解决方案——日志级别动态调整…

Python 2023年10月22日
0052
基于opencv的人脸识别

一、需求分析. 1.1 功能与技术需求 1.2 开发环境与运行需求二、设计过程 2.1 主要技术原理 2.2采用的关键技术 2.3系统设计流程 2.4系统各功能模块三、实验运…

Python 2023年8月2日
0065
Django-PyCharm调试

目录（一）PyCharm命令运行项目 1、打开自己创建的MyDjango项目 2、配置Django Server （1）打开”运行/调试配置对话框” 编…

Python 2023年8月6日
0048
[python] arch linux install mysql and use with python

1. 概述 2. 安装 MySQL / MariaDB 3. 运行 MySQL / MariaDB 4. 配置 MySQL / MariaDB 5. 使用 MySQL / Mari…

Python 2023年6月16日
0075
Python库之数据可视化—Matplotlib

文章目录前言 💙Matplotlib库简介 * 🍎matplotlib.pyplot 库概述 🍓matplotlib.pyplot 库解析 💜plt 库绘图区域函数 * 🌳fig…

Python 2023年9月1日
0068
强化学习实战：表格型Q-Learning玩井字棋（二）开始训练！

在强化学习实战 | 表格型Q-Learning玩井字棋（一）搭个框架中，我们构建了以Game() 和 Agent() 类为基础的框架，本篇我们要让agent不断对弈，维护Q表格…

Python 2023年6月3日
00125

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据分析——pandas数据结构（DataFrame）

一、pandas数据结构–DataFrame

二、创建DataFrame对象

三、DataFrame数据中的元素选择

大家都在看