DataFrame

2023年6月2日上午5:31 • 人工智能 • 阅读 83

一、定义

DataFrame表示的是矩阵的数据表，它包含已排序的列集合，每列可以是不同的值类型（数值、字符串、布尔值等）。

DataFrame既有行索引也有列索引，它可以被看做一个共享相同索引的Series的字典。

DataFrame中的数据是以⼀个或多个⼆维块存放的（⽽不是列表、字典或别的⼀维数据结构）

二、创建

2.1 利用包含等长度列表或NumPy数组的字典

如果列索引顺序如果未指定，默认值为排列顺序

如果行索引未指定，默认为0到n-1

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']}
frame = pd.DataFrame(data)

指定列索引，则按照列索引顺序

指定行索引，则将行索引按顺序排列下去

columns = ['year','pop','state']
index = ['one','two','three','four','five','six']
frame2 = pd.DataFrame(data,columns = columns, index = index)

2.2 包含字典的嵌套字典。

未有的数值填入NaN

data_2 = {'Nevada':{2001:2.4, 2002:2.9},
        'Ohio':{2001:1.5, 2001:1.7, 2003:3.6},
       }
frame = pd.DataFrame(data_2)

2.3 从Excel中读取

注意使用pd.excel是要安装xlrd包。

import pandas as pd
import xlrd
path_file_1 = r'E:\splider\pk\text.csv'
path_file_2 = r'E:\splider\pk\text.xlsx'
df_1 = pd.read_csv(path_file_1, encoding='gbk', header=0)
df_2 = pd.read_excel(path_file_2)
print('df_1\n', df_1)
print('df_2\n', df_2)

2.3 从数据库中读取

三、索引

3.1 轴

axis=0 就是axis=index

axis=1 就是axis=columns

谈谈我的理解。

3.1.1 创建角度看

DataFrame既有行索引也有列索引，它可以被看做一个共享相同索引的Series的字典。

为什么axis=0为axis=index？

1.DataFrame和Series都有index索引。而Series没有columns索引。

2.从下面创建的例子来看，外层逗号第一次分隔元素。冒号第二次分隔元素。

import  pandas as pd
创建Series
obj_1 = pd.Series(['1',
                   '2',
                   '3'])
创建DataFrame
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']}
frame = pd.DataFrame(data)

3.1.1 展示角度看

DataFrame与Series一致的为index。为axis=0

DataFrame与Series不一致的为columns。为axis=1

3.2 改变索引顺序，重新索引。

column中可以调整列索引的顺序。

如果想调整行索引的顺序，需要分两步走。第一步建索引，第二步调整索引。

在调整索引时，可以增加索引，也可以减少索引。增加索引如果没有没有对应的值，则会填入NaN。

索引对象是 不可变的；索引对象是可以重复的。重复的索引取值相同

import pandas as pd
data = {'state':['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year':[2000, 2001, 2002, 2001, 2002, 2003],
        'pop':['1.5', '1.7', '3.6', '2.4', '2.9', '3.2']}
columns=['state', 'pop', 'year','month']
index = ['one', 'two', 'three', 'four', 'five', 'sxi']  # 只能是6个元素，不能多也不能少
frame = pd.DataFrame(data, columns=columns, index=index)
print('frame\n', frame)

columns = ['state', 'state', 'pop', 'year', 'month', 'day']
index = ['three', 'three', 'four', 'two', 'five', 'sxi', 'seven']   # 可以是任意个元素
frame_1 = pd.DataFrame(frame, index=index,columns=columns)
frame_2 = frame_1.reindex(index=index, columns=columns)        #如果不指定index或者columns默认为index
frame_3 = frame_1 == frame_2                                   #对比frame_1与frame_2；结果为除了NaN值为False，其余为True
print('frame_1\n', frame_1)
print('frame_2\n', frame_2)
print(frame_3)

3.3 重设行索引

一般是选择某一列作为行索引，可以为重复，可以为None值。

有两种方法：

一种是设置成dataframe格式时，设置好行索引，可以为nan值。

一种是利用set_index设置成行索引。

import pandas as pd

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,None],
        'year2':[2001,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']

        }
df = pd.DataFrame(data)
print('原始df\n',df)
df = pd.DataFrame(data, index=data['year'])
print('设置index的df\n',df)
print(df)
df.set_index(df['year2'], inplace=True)
print('重设ndex的df\n',df)

3.4 常用索引操作。

3.5 重新索引

见3.1

3.6 选取与过滤

3.6.1 使用标签与索引选取行与列

import pandas as pd
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': ['1.5', '1.7', '3.6', '2.4', '2.9', '3.2']}
columns = ['state', 'pop', 'year']
index = ['one', 'two', 'three', 'four', 'five', 'sxi']  # 只能是6个元素，不能多也不能少
frame = pd.DataFrame(data, columns=columns, index=index)
pop = frame['pop']                        # 此处与Series不同，pop是在DataFrame的columns上的，而Series则是在index上的。
pop_year = frame['pop':'year']          # 报错，和Series不同
index1_3 = frame[1:3]                     # 选取行数,根据索引位置
index_bool = frame[frame['year'] > 2001]  # 根据bool选取
print('pop\n', pop)
print('\nindex1_3\n', index1_3)
print('\nindex_bool\n', index_bool)

3.6.2 使用loc与iloc选取

import pandas as pd
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': ['1.5', '1.7', '3.6', '2.4', '2.9', '3.2']}
columns = ['state', 'pop', 'year']
index = ['one', 'two', 'three', 'four', 'five', 'sxi']     # 只能是6个元素，不能多也不能少
frame = pd.DataFrame(data, columns=columns, index=index)
loc_1 = frame.loc['one', ['year', 'pop']]                 # 指定索引及其顺序
iloc_1 = frame.iloc[0, [2, 1]]                            # 指定索引及其顺序
loc_2 = frame.loc[:'four', 'pop':'year']                  # 使用切片指定索引
iloc_2 = frame.iloc[:4, 1:3]                              # 使用切片指定索引

print('frame\n', frame)
print('\nloc_1\n', loc_1)
print('\niloc_1\n', iloc_1)
print('\nloc_2\n', loc_2)
print('\niloc_2\n', iloc_2)

3.6.3 整数索引。

与Series一致，如果索引中存在整数，最好使用标签索引。

3.6.4 二次选取。

当用3.5.1和3.5.2进行选取后。选取出来的如果为Series和DataFrame；则仍可以按照Series与DataFrame的选取规则进行选取。

import pandas as pd
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': ['1.5', '1.7', '3.6', '2.4', '2.9', '3.2']}
columns = ['state', 'pop', 'year']
index = ['one', 'two', 'three', 'four', 'five', 'sxi']     # 只能是6个元素，不能多也不能少
frame = pd.DataFrame(data, columns=columns, index=index)
year = frame.loc['one', ['year', 'pop']]['year']

print('year\n', year)

注：优先使用标签索引。

四、算术运算与自动对齐

4.1 直接相加减

⾃动的数据对⻬操作在不重叠的索引处引⼊了NA值。

缺失值会在算术运算过程中传播。

对于DataFrame，对⻬操作会同时发⽣在⾏和列上

对于有数据库经验的⽤户，这就像在索引标签上进⾏⾃动外连接。

⾃动的数据对⻬操作在不重叠的索引处引⼊了NA值。缺失值会在算术运算过程中传播。

对于DataFrame，对⻬操作会同时发⽣在⾏和列上。

如果DataFrame对象 加减乘除，没有共⽤的列或⾏标签，结果都会是空。

import pandas as pd
import numpy as np
df_1 = pd.DataFrame(np.arange(1, 13, 1).reshape(3, 4), index=list('qsl'), columns=list('qian'))
df_2 = pd.DataFrame(np.arange(1, 13, 1).reshape(4,3), index=list('qian'), columns=list('qsl'))

print('+\n', df_1+df_2)
print('\n/\n', df_1/df_2)

4.2 在算术算法中填充值。

在对不同索引的对象进⾏算术运算时，你可能希望当⼀个对象中某个轴标签在另⼀个对象中找不到时填充⼀个特殊值。

可以注意到当两边的行索引和列索引都没有值时，依然会被填入空。

如果其中一个有，而另一个没有。则会被填入 fill_value。

import pandas as pd
import numpy as np
index = list('qslian')
columns = list('qslian')
df_1 = pd.DataFrame(np.arange(1, 13, 1).reshape(3, 4), index=list('qsl'), columns=list('qian'))
df_2 = pd.DataFrame(np.arange(1, 13, 1).reshape(4,3), index=list('qian'), columns=list('qsl'))
df_3 = df_1 + df_2
df_4 = df_1.add(df_2, fill_value=0)
df_5 = df_1.radd(df_2, fill_value=0)
df_6 = df_1.div(df_2, fill_value=1)
df_3 = df_3.reindex(index=index, columns=columns)
df_4 = df_4.reindex(index=index, columns=columns)
df_5 = df_5.reindex(index=index, columns=columns)
df_6 = df_6.reindex(index=index, columns=columns)

print('df1\n', df_1)
print('df_2\n', df_2)
print('df_3\n', df_3)
print('df_4\n', df_4)
print('df_5\n', df_5)
print('df_6\n', df_6)

五、操作

5.1 drop操作。

和Series操作一致，不同点在与要加上轴axis。默认axis=0

import pandas as pd
import numpy as np
index = list('qslian')
columns = list('qslian')
df_1 = pd.DataFrame(np.arange(1, 13, 1).reshape(3, 4), index=list('qsl'), columns=list('qian'))
df_2 = pd.DataFrame(np.arange(1, 13, 1).reshape(4,3), index=list('qian'), columns=list('qsl'))
df_3 = df_1 + df_2
df_4 = df_1.add(df_2, fill_value=0)
df_5 = df_1.radd(df_2, fill_value=0)
df_6 = df_1.div(df_2, fill_value=1)
df_3 = df_3.reindex(index=index, columns=columns)
df_4 = df_4.reindex(index=index, columns=columns)
df_5 = df_5.reindex(index=index, columns=columns)
df_6 = df_6.reindex(index=index, columns=columns)

print('df1\n', df_1)
print('\nldf_2\n', df_2)
print('\nldf_3\n', df_3)
print('\nldf_4\n', df_4)
print('\nldf_5\n', df_5)
print('\nldf_6\n', df_6)

5.2 重命名列索引

import pandas as pd

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,None],
        'year2':[2001,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']
        }
df = pd.DataFrame(data)
df.rename(columns={'year2':'year3'}, inplace=True)
print(df)

5.3 广播

当我们从DataFrame减去Series，每⼀⾏都会执⾏这个操作。这就叫做⼴播

import pandas as pd
import numpy as np

df_1 = np.arange(12).reshape(3, 4)
Series = df_1[0]
df_2 = df_1 - Series
print(df_2)

5.3 排序与排名

5.3.1 按索引和值排序。

import pandas as pd
data = {'state':[87,45,87,12,87,34],
        'year':[2000, 2001, 2002, 2001, 2002, 2003],
        'pop':[30,45,89,30,87,89]}
index = list('qiansh')
df_1 = pd.DataFrame(data,index=index)
df_2 = df_1.sort_index(ascending = False)  # False为降序，默认为True,也就是升序，axis 默认为0，也就是按index。
df_3 = df_1.sort_index(axis = 1)
df_4 = df_1.sort_values(by=['state','pop'],axis=0,ascending=[False,True]) # 按值进行排序
df_5 = df_1.sort_values(by=['s','a'],axis=1,ascending=[True,False])
print('df_1\n',df_1)
print('\ndf_2\n',df_2)
print('\ndf_3\n',df_3)
print('\ndf_4\n',df_4)
print('\ndf_5\n',df_5)

排序中如果碰到空值，默认情况下一律放到最后。参见Series。

5.3.1 排名。

参见Series。

六筛选数据

筛选数据可以看成索引的补充。

筛选数据不外乎两点：

1.删除不要的，使用drop

2 选择需要的，使用索引。

6.1 删除不要的

6.1.1 根据字段是否满足条件进行删除。

import pandas as pd

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,None],
        'year2':[2001,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']

        }

df = pd.DataFrame(data)
a = df[df['year'] == 2001].index.tolist()
df.drop(a, inplace=True)  #删除df['year']==2001的值。
print('drop_a\n', df)

6.1.2 根据索引删除。

如果根据索引删除，最好能够提前重设行索引。

import pandas as pd

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,None],
        'year2':[2001,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']

        }
df = pd.DataFrame(data)
df.set_index(df['year2'], inplace=True)

df.drop(2002, inplace=True)
print(df)

6.2 选择需要的

import pandas as pd

data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
        'year':[2000,2001,2002,2001,2002,None],
        'year2':[2001,2001,2002,2001,2002,2003],
        'pop':['1.5','1.7','3.6','2.4','2.9','3.2']
        }

df = pd.DataFrame(data)
df = df[df['year']>2000]

print(df)

Original: https://www.cnblogs.com/qianslup/p/11898665.html
Author: qsl_你猜
Title: DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/559895/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python中stack和unstack函数（附加reset_index,set_index函数）

一、介绍在用pandas进行数据重排时，经常用到stack和unstack两个函数。 stack的意思&…

人工智能 2023年7月24日
0045
基于连续小波变换和卷积神经网络的轴承故障诊断研究

摘要基于凯斯西厨大学的轴承数据，首先利用数据增强方法，对原始数据进行重叠采样，增加样本数量。然后，利用连续小波变换，将一维的训练样本转换为二维RGB图像。其次，将处理好的样本进行…

人工智能 2023年7月13日
0060
ubuntu-18.04上cmake编译安装Opencv-4.2库及contrib扩展库

前言：此篇介绍在ubuntu下安装opencv，先在PC上学会使用opencv，后续将进阶到ARM开发板上，其编译依赖cmake，因此需先下载安装cmake。 $开头代表linux…

人工智能 2023年6月19日
0069
python数据分析——简单且有用的代码

时隔多天，终于又要开始我的博客生涯了，经过这个月的python数据分析和机器学习，总结了一些经验，同时也收获了一些大佬的优秀博客，感兴趣的可以观看我的收藏夹，废话不多说，直接进入正…

人工智能 2023年7月7日
0051
opencv图像水平/竖直拼接hconcat()/vconcat()

hconcat函数在opencv中有如下三个重载函数： 1. CV_EXPORTS void hconcat(const Mat src, size_t nsrc, OutputA…

人工智能 2023年7月18日
0075
Python-Matplotlib可视化（4）——添加注释让统计图通俗易懂

Python-Matplotlib可视化（4）——添加注释让统计图通俗易懂 * – 前言 – 添加标题 – 为坐标轴添加标签 – 添…

人工智能 2023年7月15日
00102
【SLAM】DM-VIO(ros版)安装和论文解读

dm-vio的安装进入官方链接，基本上就是按照readme的操作来：下载代码： git clone https://github.com/lukasvst/dm-vio.gi…

人工智能 2023年7月28日
0084
深度学习中的优化算法之AdaGrad

之前在https://blog.csdn.net/fengbingchun/article/details/123955067 介绍过SGD(Mini-Batch Gradient…

人工智能 2023年6月16日
00112
基于pytorch-openpose框架的的人体姿态检测

1.在github上下载pytorch-openpose压缩包，网址为：https://github.com/Hzzone/pytorch-openpose 2.解压后所需要cud…

人工智能 2023年6月15日
0096
【火灾检测】基于matlab GUI森林火灾检测系统（带面板）【含Matlab源码 1921期】

⛄一、火灾检测简介 1 引言目前森林火灾是破坏森林的最主要的灾害之一, 影响很大。森林是各种珍禽异兽的家园, 森林遭受火灾后, 会破坏野生动物赖以生存的环境。严重的森林火灾不仅能引…

人工智能 2023年6月20日
00102
用excel做logistic回归分析_用Excel做回归分析的详细步骤

一、什么是回归分析法 “回归分析”是解析”注目变量”和”因于变量”并明确两者关系的统计方法。此时，我们把因子…

人工智能 2023年6月18日
0073
Yolov5应用轻量级通用上采样算子CARAFE

特征上采样是现代卷积神经网络架构中的关键操作，例如特征金字塔。其设计对于密集预测任务，如目标检测和语义/实例分割至关重要。在本研究中，我们提出了一种称为内容感知特征重组（CARAF…

人工智能 2023年7月29日
0048
3.SPSS Modeler数据基本分析笔记

3.1数据基本分析（实验）任务介绍：本小节实训我们要练习 SPSS Modeler当中的数据基本分析部分。Modeler数据基本分析包括5大块内容： 1.数据质量分析 2.描…

人工智能 2023年7月15日
0074
《数据挖掘基础》实验：Weka平台实现分类算法

实验目的进一步理解分类算法（决策树、贝叶斯），利用weka实现数据集的分类处理，学会调整模型参数，以图或树的形式给出挖掘结果，并解释规则的含义。实验要求随机选取数据集（UCI…

人工智能 2023年7月16日
0092
人工智能实验——八数码难题

人工智能实验——八数码难题人工智能实验——八数码难题人工智能实验——八数码难题 * 八数码难题简介八数码难题所用到的算法简介代码实现解释运行结果显示代码附件程序可视化…

人工智能 2023年6月22日
0093
使用recognize_google（）出现 RequestError: recognition connection failed: [WinError 10060] 由于连接方在一段时间后没有

重新运行：(获取我的音频文件的内容) [En] Rerun: (got the contents of my audio file) ‘the stale smell of old…

人工智能 2023年5月23日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31