【Pandas库】(3) DataFrame的创建方法及基本操作

2023年7月6日下午4:42 • 人工智能 • 阅读 98

各位同学好，今天给大家介绍一下Pandas库中DataFrame类型数据的创建方法和基本操作。
文章内容如下：

（1）使用字典类创建。

字典类有： ①数组、列表、元组构成的字典；②Series构造的字典；③字典构造的字典。

（2）使用列表类创建。

列表类有： ①二维数组；②字典构造的列表；③Series构成的列表

（3）基本操作。

①查看索引；②指定索引；③转置操作；④通过索引获取数据；⑤追加一列；⑥删除列

首先，我简单介绍一下DataFrame：
① DataFrame数据结构可以理解为 python版的excel表格。
② 是表格型数据结构，它包含一组有序的列，每列可以是不同类型的值。
③ DataFrame既有行索引，又有列索引。每列数据可以是不同类型。
④ 可以看作是由Series组成的字典，共用一个索引，数据以二维结构存放。

1. 创建方法–字典类

1.1 使用数组、列表或元组构成的字典构造DataFrame

创建方法： pd.DataFrame(字典名)

创建后，列索引对应的是字典中的标签名，行索引对应默认值。

import pandas as pd
数组、列表或元组构成的字典构造dataframe
a1 = {"a":[1,2,3,4],"b":(5,6,7,8),"c":np.arange(9,13)}  #建立字典
frame1 = pd.DataFrame(a1)  # 构造dataframe

1.2 使用Series构造的字典构造DataFrame

创建方法同 pd.DataFrame(字典名)，展示如下。

字典中标签’a’和’b’对应的值为 Series类型。np.arange(3)是利用numpy库创建一个数组[0,1,2]；通过pd.Series(数组)将其转化为Series类型的[0,1,2]。

series构造的字典构造dataframe
pd1 = pd.DataFrame({"a":pd.Series(np.arange(3)),"b":pd.Series(np.arange(3,5))})

1.3 使用字典构造的字典（字典嵌套）来构造DataFrame

创建方法同 pd.DataFrame(字典名)，展示如下。

外层字典的标签名为’a’,’b’,’c’，且标签’a’对应的值是一个字典类型，标签名为’apple’,’banana’，值分别为3.6,5.7。因此a5可看成是由两层字典构成，其 本身是一个字典类型， 标签对应的值也是字典类型。

通过字典构造的字典（字典嵌套）来构造dataframe
a5 = {"a":{"apple":3.6,"banana":5.7},"b":{"apple":2.1,"banana":8.2},"c":{"apple":5.2}}
pd2 = pd.DataFrame(a5)

2. 创建方法–列表类

2.1 使用二维数组构造DataFrame

创建方法： pd.DataFrame(列表)

arr1是利用numpy库产生的由1到12的 一维数组，通过reshape(行数,列数)改变数组形状，要求改变后数组的元素个数与原始数组的元素个数相同。

import numpy as np
二维数组构造dataframe
arr1 = np.arange(1,13).reshape(4,3)
frame4 = pd.DataFrame(arr1)
指定行列索引，必须与原来的列表，行数和列数相同

2.2 使用字典构造的列表创建DataFrame

创建方法同上：pd.DataFrame(列表)

列表l1是 由三个字典构成。创建后，字典内部的key变成列索引。 一定要和由字典嵌套创建的DataFrame区分开来。

字典构造的列表构造dataframe
l1 = [{"apple":3.6,"banana":5.0},{"apple":2,"banana":8},{"apple":1.8}]
pd3 = pd.DataFrame(l1)

2.3 使用Series构成的列表构造DataFrame

创建方法同上：pd.DataFrame(列表)

列表l2 由两个Series类型数据构成。np.random.rand(n)表示随机生成n个0到1之间的数，构成数组，再通过pd.Series()转换成Series类型数据。

series构成的列表构造dataframe
l2 = [pd.Series(np.random.rand(3)),pd.Series(np.random.rand(2))]
pd4 = pd.DataFrame(l2)

3. 基本操作

3.1 查看索引

查看行索引：变量名.index
查看列索引：变量名.columns
查看值：变量名.values

a2 = frame1.index     # 查看行索引
a3 = frame1.columns   # 查看列索引
a4 = frame1.values    # 查看value值

3.2 创建时指定索引排序

指定行索引：pd.DataFrame(字典,index=[索引名])
指定列索引：pd.DataFrame(字典,index=[索引名],columns=[索引名])

此处指定的列索引名必须是原字典中存在的索引，如果不存在，则该列索引名对应的值是nan

a1 = {"a":[1,2,3,4],"b":(5,6,7,8),"c":np.arange(9,13)}
frame1 = pd.DataFrame(a1)
指定index行索引
frame2 = pd.DataFrame(a1,index=["Alex","Block","Cici","Dalin"])
指定columns列索引
frame3 = pd.DataFrame(a1,index=["Alex","Block","Cici","Dalin"],columns=["a","b","c","d"])

3.3 转置操作

方法：变量名.T# 行和列互换位置

pd5 = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","c","b"],columns=["A","B","C"])
转置操作，行与列转置，和numpy一样
a6 = pd5.T

3.4 通过索引获取列数据

方法：变量名[列索引名]

获取索引名所在列的数据，返回结果是Series类型。 对行操作涉及高级索引，本文章只介绍基本操作，其余后续再介绍。

pd5 = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","c","b"],columns=["A","B","C"])
通过索引获取列数据
gt = pd5["A"]

3.5 追加一列

方法： 变量名[列索引名]=自定义值

此处的列索引名为原DataFrame中不存在的索引名，才能在原数据最后一列追加一组值。如果此处的索引名和原数据中的索引名重复，则会更改原数据中的值。

pd5 = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","c","b"],columns=["A","B","C"])
追加一列
pd5["D"] = 9  #该列所有数都是9
pd5["E"] = [1,2,3]  #该列上各行分别是1，2，3
pd5['A'] = [999,888,777]  #更改原pd5上'A'列的值

3.6 删除一列

方法：del(变量名[列索引名]) # 删除指定列的所有数据

删除列
del(pd5["D"])

Original: https://blog.csdn.net/dgvv4/article/details/121304295
Author: 立Sir
Title: 【Pandas库】(3) DataFrame的创建方法及基本操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674355/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

NVIDIAJetsonAGXXavier安装OpenPCDet完整踩坑记录

最近要使用Xavier部署一些点云网络，需要安装OpenPCDet，于是开始了漫长的配环境之路。前期准备由于使用的是公司的板卡，因此需要首先获取sudo权限。一定要有sudo…

人工智能 2023年7月24日
0068
利用Excel自带的数据分析工具进行回归分析

该方法使用的是。之所以利用Excel只是因为它的操作比较简单，自带的VBA很方便。不用涉及其他的代码操作。回归分析通过对一组观察值使用”最小二乘法”直线拟…

人工智能 2023年7月17日
0058
Android的JSON解析（上）

🍖🍖 作者：不良使🍖🍖🍖🍖 潜力创作新星华为云享专家🍖🍖🍖🍖🍖 Python+Android🍖🍖🍖🍖🍖🍖 博客记录学习的思路，项目和错误,寻找志同道合的朋友🍖🍖🍖🍖🍖🍖🍖 如…

人工智能 2023年7月30日
0057
pytorch源码编译

下载源代码和依赖库需要在内部隔离网络中从源码编译pytorch，但内部网络无法链接github。且pytorch依赖库众多，一个一个地下载依赖库不太现实。我采用的方法是：在外部可…

人工智能 2023年7月23日
0063
ROS快速入门第一讲——ROS的工作空间创建

ROS的工作空间创建 scc18@ubuntu:~$ mkdir ros_ws scc18@ubuntu:~$ cd ros_ws/ scc18@ubuntu:~/ros_ws$ …

人工智能 2023年6月10日
0076
【实体识别】深入浅出讲解命名实体识别（介绍、常用算法）

命名实体识别的背景命名实体识别（Named Entity Recognition, 简称 NER）（也称为实体识别、实体分块和实体提取）是信息提取的一个子任务，旨在将文本中的命名…

人工智能 2023年5月31日
0086
【神经网络】学习笔记十四——Seq2Seq模型

本文简要介绍seq2seq，即序列到序列的基本知识，是深度学习和NLP中一个重要的知识。从三部分来说，seq2seq基本简介，应用场景和原理解析。一、什么是Seq2Seq 所谓…

人工智能 2023年5月28日
0085
「C++小游戏教程」猜数游戏

引言本章主要讲解如何做一个简易的猜数游戏，分为用户猜数和系统猜数。前置芝士：「C++小游戏教程」基本技巧(1)——随机化用户猜数系统想好一个在 [ 1 , 100 ] [1…

人工智能 2023年6月30日
0067
制作自己的 tusimple 格式数据集

tusimple 格式数据集制作与标注小结最近在看 LaneNet ，然后参考网上的博客记录一下自己制作个人 tusimple 格式数据集的过程。 1.前期准备工具： labe…

人工智能 2023年5月25日
00105
win10跑深度学习程序无法调用gpu的问题（已解决）

win10跑深度学习真的是一言难尽，但是windows系统又使用的比较习惯，过去使用过ubuntu系统，里面写文档什么的确实不习惯，所以自己做的实验项目也主要是以win10为主工具…

人工智能 2023年6月16日
0073
Nvidia jetson测试 Hybridnets:多任务端到端感知网络目标检测+可行驶区域+车道线检测

Hybridnets:多任务端到端感知网络目标检测+可行驶区域+车道线一、学习笔记 Efficient Hybrid Network: Inducting Scattering…

人工智能 2023年7月9日
0087
粒子群算法求解0-1背包问题

目录一、粒子群算法的概念二、粒子群算法分析三、粒子群算法种类 1.基本粒子群算法 2.标准粒子群算法 3.压缩粒子群算法 4.离散粒子群算法四、粒子群算法流程五、例题一…

人工智能 2023年6月15日
0071
计算机网络(第四弹) — TCP 套接字编程的通信模型及实现流程

TCP 套接字编程 1 流套接字通信流程 2 TCP 流套接字编程 3 注意事项 4 关于长短连接的理解 * 4.1 概念 4.2 区别 1 流套接字通信流程 ; 2 TCP 流套…

人工智能 2023年6月29日
0061
图像识别技术

目录一、图像识别的介绍二、图像识别原理文字识别数字图像处理和识别物体的识别提取字符特征样本训练与识别三、图像识别的应用一、图像识别的介绍随着图像处理技术的飞速发…

人工智能 2023年7月26日
0080
【计量经济学】SPSS——一元线性回归【方差分析、残差分析】

基于中国居民总量消费支出与收入资料作一元线性回归分析数据可关注公众号：321红绿灯回复一元线性回归获得 ; 一、实验目的随着社会经济发展的步伐加快，人民生活水平得到明显的提高…

人工智能 2023年6月16日
00142
【信号识别】基于matlab深度学习CNN信号调制分类【含Matlab源码 2066期】

⛄一、深度学习CNN信号调制分类概述 1 背景介绍在通信信号处理领域, 特别是在非协作通信信号盲解调研究领域, 每时隙突发信号的调制方式不同, 必须进行信号的调制方式自动识别。信号…

人工智能 2023年7月3日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31