⚫ 结构化数据可以通过pandas中的to_csv函数实现以csv文件格式存储文件DataFrame.to_csv(path_or_buf=None, sep=’,’, na_rep=”, columns=None, header=True, index=True,index_label=None,mode=’w’,encoding=None)

参数名称说明path_or_buf接收string。代表文件路径。无默认。sep接收string。代表分隔符。默认为”,”。na_rep接收string。代表缺失值。默认为””。columns接收list。代表写出的列名。默认为 None。header接收boolean，代表是否将列名写出。默认为True。index接收boolean，代表是否将行名（索引）写出。默认为True。index_labels接收sequence。表示索引名。默认为None。mode接收特定string。代表数据写入模式。默认为w。encoding接收特定string。代表存储文件的编码格式。默认为None。

读取Excel文件

⚫ pandas提供了read_excel函数来读取 “xls””xlsx”两种Excel文件

pandas.read_excel(io, sheet_name=0, header=0, index_col=None, names=None, dtype=None)

参数名称说明io接收string。表示文件路径。无默认。sheetname接收string、int。代表excel表内数据的分表位置。默认为0。header接收int或sequence。表示将某行数据作为列名。默认为infer，表示自动识别。names接收int、sequence或者False。表示索引列的位置，取值为sequence则代表多重索引。默认为None。index_col接收int、sequence或者False。表示索引列的位置，取值为sequence则代表多重索引。默认为None。dtype接收dict。代表写入的数据类型（列名为key，数据格式为values）。默认为 None。

存储Excel文件

⚫ 将文件存储为Excel文件，可以使用to_excel方法。其语法格式如下。 DataFrame.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

⚫ to_csv方法的常用参数基本一致，区别之处在于指定存储文件的文件路径参数名称为excel_writer，并且没有sep参数，增加了一个sheetnames参数用来指定存储的Excel sheet的名称，默认为sheet1。

Series

⚫ pandas提供的一维数组，由索引和值两部分组成。

⚫ 其中值的类型可以不同。

⚫ 如果在创建时没有明确指定索引则会自动使用从0开始的非负整数作为索引。

创建Series

pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)

#&#x4F8B;9.3:series&#x521B;&#x5EFA;&#x4E00;&#x7EF4;&#x6570;&#x7EC4;
import pandas as pd
import numpy as np
#&#x81EA;&#x52A8;&#x521B;&#x5EFA;&#x4ECE;0&#x5F00;&#x59CB;&#x7684;&#x975E;&#x8D1F;&#x6574;&#x6570;&#x7D22;&#x5F15;
s1 = pd.Series(range(1, 20, 5))
#&#x4F7F;&#x7528;&#x5B57;&#x5178;&#x521B;&#x5EFA;Series&#xFF0C;&#x4F7F;&#x7528;&#x5B57;&#x5178;&#x7684;&#x952E;&#x4F5C;&#x4E3A;&#x7D22;&#x5F15;
s2 = pd.Series({'&#x8BED;&#x6587;':90, '&#x6570;&#x5B66;':92, 'Python':98, '&#x7269;&#x7406;':87, '&#x5316;
&#x5B66;':92})
#&#x4F7F;&#x7528;array&#x521B;&#x5EFA;Series
s3 = pd.Series(np.arange(5,10), index=['a', 'b', 'c', 'd', 'e'])

⚫ 通过索引的方式选取Series中的单个或一组值

print(s1[3])
s1[3] = -17
print(s1)
print(s2['&#x8BED;&#x6587;'])
s2['&#x8BED;&#x6587;'] = 94
print(s2[['&#x8BED;&#x6587;', 'Python&#x2019;]])
print(s2[s2.values >= 90])
print(s3[s3.index != 'd'])

⚫ 基本运算

s2.mean() #&#x5747;&#x503C;
s2.median() #&#x4E2D;&#x4F4D;&#x6570;
s2.sum() #&#x6C42;&#x548C;
s2.std() #&#x6807;&#x51C6;&#x5DEE;
s2.mode() #&#x4F17;&#x6570;
s2.value_counts() #&#x6BCF;&#x4E2A;&#x503C;&#x7684;&#x6570;&#x91CF;
s2/2 #&#x5BF9;&#x6BCF;&#x4E2A;&#x503C;&#x9664;2
s2 //2 #&#x5BF9;&#x6BCF;&#x4E2A;&#x503C;&#x9664;2&#x540E;&#x53D6;&#x6574;
s2 %2 #&#x53D6;&#x4F59;
s2 **2 #&#x6C42;&#x5E73;&#x65B9;
np.sqrt(s2) #&#x6C42;&#x5F00;&#x65B9;
np.log(s2) #&#x6C42;&#x5BF9;&#x6570;
s3=s3.drop(&#x2018;b&#x2019;)#&#x5220;&#x9664;&#x6570;&#x636E;

DataFrame

数据框的构造

➢pandas.DataFrame(data=None, index=None, columns=None)

✓ data：ndarray、list 或dict

✓index：行索引

✓columns：列名列表

import pandas as pd
d=[[1.3,2.0,3,4],[2,4,1,4],[2,5,1.9,7],[3,1,0,11]]
df = pd.DataFrame(d,index=['a','b','c','d'],columns=list('ABCD'))
print(df)
df1 = pd.DataFrame(index=['1','2'],columns=['b','c']) #&#x751F;&#x6210;&#x7F3A;&#x5931;&#x503C;&#x77E9;&#x9635;
print(df1)
df2 = pd.DataFrame(0,index=['1','2'],columns=['b','c']) #&#x751F;&#x6210;&#x5168;&#x96F6;&#x77E9;&#x9635;
print(df2)
d={'color':['blue','green','yellow','red','white'],
'object':['ball','pen','pencil','paper','mug'],'price':[1.2,1.0,0.6,0.9,1.7]}
df3 = pd.DataFrame(d,index=['a','b','c','d','e'])
print(df3)

基本属性

函数返回值values元素index索引columns列明dtypes类型size元素个数ndim维度数shape数据形状（行列数目）

查改增删DataFrame数据

⚫ 查看访问DataFrame中的数据——数据基本查看方式

➢对单列数据的访问：DataFrame的单列数据为一个Series。

有以下两种方式来实现对单列数据的访问。

✓以字典访问某一个key的值的方式使用对应的列名，实现单列数据的访问。

✓以属性的方式访问，实现单列数据的访问。（不建议使用，易引起混淆）

⚫ 对某一列的某几行访问：

➢访问DataFrame中某一列的某几行时，单独一列的DataFrame可以视为一个Series。

⚫ 对多列数据访问：

➢访问DataFrame多列数据可以将多个列索引名称视为一个列表，同时访问DataFrame多列数据中的多行数据和访问单列数据的多行数据方法基本相同。

⚫ 对某几行访问：

➢如果只是需要访问DataFrame某几行数据的实现方式则和上述的访问多列多行相似，选择所有列，使用”:”代替即可。

➢head和tail也可以得到多行数据，但是用这两种方法得到的数据都是从开始或者末尾获取的连续数据。默认参数为访问5行，只要在方法后方的”()”中填入访问行数即可实现目标行数的查看。

⚫ 查看访问DataFrame中的数据——loc，iloc 访问方式

➢loc方法是针对DataFrame索引名称的切片方法，如果传入的不是索引名称，那么切片操作将无法执行。利用loc方法，能够实现所有单层索引切片操作。 DataFrame.loc[行索引名称或条件, 列索引名称]

➢iloc和loc区别是iloc接收的必须是行索引和列索引的位置。 DataFrame.iloc[行索引位置, 列索引位置]

➢使用loc方法和iloc实现多列切片，其原理的通俗解释就是将多列的列名或者位置作为一个列表或者数据传入。

➢使用loc，iloc方法可以取出DataFrame中的任意数据。

➢在loc使用的时候内部传入的行索引名称如果为一个区间，则前后均为闭区间；iloc方法使用时内部传入的行索引位置或列索引位置为区间时，则为前闭后开区间。

➢loc内部还可以传入表达式，结果会返回满足表达式的所有值。

➢loc更加灵活多变，代码的可读性更高，iloc的代码简洁，但可读性不高。具体在数据分析工作中使用哪一种方法，根据情况而定，大多数时候建议使用loc方法。

⚫ 更新修改DataFrame中的数据

➢更改DataFrame中的数据，原理是将这部分数据提取出来，重新赋值为新的数据。

➢需要注意的是，数据更改直接针对DataFrame 原数据更改，操作无法撤销，如果做出更改，需要对更改条件做确认或对数据进行备份。

⚫ 为DataFrame增添数据

➢DataFrame添加一列的方法非常简单，只需要新建一个列索引。并对该索引下的数据进行赋值操作即可。

➢新增的一列值是相同的则直接赋值一个常量即可。

⚫ 删除某列或某行数据

➢删除某列或某行数据需要用到pandas提供的方法 drop，drop方法的用法如下。

➢axis为0时表示删除行，axis为1时表示删除列。drop(labels, axis=0, level=None, inplace=False, errors=’raise’)

⚫ 常用参数如下所示。

参数名称说明lables接收string或array。代表删除的行或列的标签。无默认。axis接收0或1。代表操作的轴向。默认为0。levels接收int或者索引名。代表标签所在级别。默认为None。inplace接收boolean。代表操作是否对原数据生效。默认为False。

分析DataFrame数据

⚫ 数值型特征的描述性统计——NumPy中的描述性统计函数

➢数值型数据的描述性统计主要包括了计算数值型数据的完整情况、最小值、均值、中位数、最大值、四分位数、极差、标准差、方差、协方差和变异系数等。

➢pandas库基于NumPy，自然也可以用这些函数对数据框进行描述性统计。

⚫ 数值型特征的描述性统计—— pandas描述性统计方法

➢pandas还提供了更加便利的方法来计算均值，如detail[‘amounts’].mean()。

➢pandas还提供了一个方法叫作describe，能够一次性得出数据框所有数值型特征的非空值数目、均值、四分位数、标准差。

⚫ 类别型特征的描述性统计

➢描述类别型特征的分布状况，可以使用频数统计表。pandas库中实现频数统计的方法为 value_counts。

➢pandas提供了categories类，可以使用astype方法将目标特征的数据类型转换为category类别。

➢describe方法除了支持传统数值型以外，还能够支持对category类型的数据进行描述性统计，四个统计量分别为列非空元素的数目，类别的数目，数目最多的类别，数目最多类别的数目。

datetime

⚫ 转换字符串时间为标准时间

➢在多数情况下，对时间类型数据进行分析的前提就是将原本为字符串的时间转换为标准时间类型。

➢pandas继承了NumPy库和datetime库的时间相关模块，提供了6种时间相关的类。

类名称说明Timestamp最基础的时间类。表示某个时间点。在绝大多数的场景中的时间数据都是Timestamp形式的时间。Period表示单个时间跨度，或者某个时间段，例如某一天，某一小时等。Timedelta表示不同单位的时间，例如1天，1.5小时，3分钟，4秒等，而非具体的某个时间段。DatetimeIndex一组Timestamp构成的Index，可以用来作为Series或者 DataFrame的索引。PeriodtimeIndex一组 Period 构成的 Index ，可以用来作为 Series 或者DataFrame的索引。TimedeltaIndex一组Timedelta构成的Index，可以用来作为Series或者 DataFrame的索引。

转换字符串时间为标准时间

⚫ Timestamp

➢ 其中Timestamp作为时间类中最基础的，也是最为常用的。在多数情况下，时间相关的字符串都会转换成为Timestamp。

➢ pandas提供了to_datetime函数，能够实现这一目标。

➢ 值得注意的是，Timestamp类型时间是有限制的。

⚫ DatetimeIndex与PeriodIndex函数

➢ 除了将数据字原始DataFrame中直接转换为 Timestamp格式外，还可以将数据单独提取出来将其转换为DatetimeIndex或者PeriodIndex。

➢ 转换为PeriodIndex的时候需要注意，需要通过 freq参数指定时间间隔，常用的时间间隔有Y为年，M为月，D为日，H为小时，T为分钟，S为秒。两个函数可以用来转换数据还可以用来创建时间序列数据，其参数非常类似。

⚫ DatetimeIndex是用来指代一系列时间点的一种数据结构，而PeriodIndex则是用来指代一系列时间段的数据结构。

参数名称说明data接收array。表示DatetimeIndex的值。无默认。frep接收string。表示时间的间隔频率。无默认。start接收string。表示生成规则时间数据的起始点。无默认。periods表示需要生成的周期数目。无默认。end接收string。表示生成规则时间数据的终结点。无默认。tz接收timezone。表示数据的时区。默认为None。name接收int，string。默认为空。指定DatetimeIndex的名字。

提取时间序列数据信息

⚫ Timestamp类常用属性

➢ 在多数涉及时间相关的数据处理，统计分析的过程中，需要提取时间中的年份，月份等数据。使用对应的Timestamp类属性就能够实现这一目的。

➢ 结合Python列表推导式，可以实现对 DataFrame某一列时间信息数据的提取。

⚫ 在DatetimeIndex和PeriodIndex中提取信息

➢ 在DatetimeIndex和PeriodIndex中提取对应信息可以以类属性方式实现。

➢ 值得注意的是PeriodIndex相比于DatetimeIndex少了day_name属性，所以不能够用该属性提取星期名称数据。若想要提取信息名称可以通过提取weekday属性，而后将0-6 七个标签分别赋值为Monday至Sunday。

加减时间数据

⚫ Timedelta类

➢ Timedelta是时间相关的类中的一个异类，不仅能够使用正数，还能够使用负数表示单位时间，例如1秒，2分钟，3小时等。

➢ 使用Timedelta类，配合常规的时间相关类能够轻松实现时间的算术运算。

➢ 目前Timedelta函数中时间周期中没有年和月。

本次内容到此结束，感谢观看，如有不正之处，敬请斧正

码字不易，你的点赞就是给我最大的动力！！

Original: https://blog.csdn.net/weixin_63641028/article/details/124880351
Author: Coder Zhang
Title: Pandas读写数据与常用数据结构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676714/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python深度学习之TensorFlow

一元线性回归多元线性回归梯度下法分类问题人工神经网络 TensorFlow基础 import TensorFlow as tf 创建张量创建Tensor对象张量由Tensor类…

人工智能 2023年5月26日
0079
基于地图已知的机器人自主导航-NJUST

基于地图已知的机器人自主导航一、实验方法-基于地图已知全局路径规划 * 1.1RRT算法 1.3 Matlab与VS2013相结合 – 1.3.1在VS2013中对t…

人工智能 2023年6月22日
0088
tensorflow(8)–识别MNIST数据集

人工智能 2023年5月26日
0081
Geoda进行莫兰指数（Moran‘s I指数）相关

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0071
idea下servlet+jdbc的踩坑经历

一问题综述首先自己写了一个网站页面 <form action="add" method="post"> 名&#…

人工智能 2023年6月4日
0084
语音助手——QU——语义角色标注及其应用

这一章我们来讲一下语义角色标注（Semantic Role Labeling (SRL)）以及其在语音助手中的应用，主要分为4部分：什么是语义角色标注、为什么需要语义角色标注、如何…

人工智能 2023年6月10日
0093
Vue实现手机端界面的购物车案例

目录前期准备 Goods Counter 今天用Vue实现的一个手机端的购物车案例，着重阐述组件化思想的优势，将页面的内容分成各个模块进行书写，然后数据传输，父传子、子传父、兄弟…

人工智能 2023年7月31日
0090
分类和回归的区别及其在目标检测中的应用

🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题🍊往期回顾：目标检测系列——开山之作RCNN原理详解目标检测系列——Fast R-CNN原理详解目标检测系列——Faster …

人工智能 2023年6月17日
00117
NNDL 实验四线性分类基于Logistic回归的二分类任务、基于Softmax回归的多分类任务和基于Softmax回归完成鸢尾花分类任务

pytorch实现第3章线性分类 3.1 基于Logistic回归的二分类任务使用到的第三方库 import matplotlib.pyplot as plt from …

人工智能 2023年6月30日
0067
【Python数据分析与可视化】期末复习笔记整理（不挂科）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0093
知识付费系统源码（开源知识付费系统平台下载）

CruiseYoung提供的带有详细书签的电子书籍目录 http://blog.csdn.net/fksec/article/details/7888251 该资料是《Visual…

人工智能 2023年6月1日
0068
单细胞测序数据分析-seurat使用（自学整理版）

一、数据准备 10X单细胞转录组理论上有3个文件才能被读入R进行seurat分析，分别是barcodes.tsv 、 genes.tsv和matrix.mtx，文件barcodes…

人工智能 2023年6月19日
0090
ubuntu18.04深度学习环境配置

目录 * – 前言 – 1. ubuntu18.04安装 – 2. nvidia显卡驱动 – 3. 安装anaconda3 &#82…

人工智能 2023年7月22日
0070
Python学习之面向对象编程

面向对象编程 1.类和对象类与对象是面向编程的两个主要方面。一个类能够创建一种新的类型（Type），对象（Object）就是类的实例（Instance）。字段（Field）：属…

人工智能 2023年7月9日
0058
JUC包(java.util.concurrent)下的常用子类

文章目录前言一、对象锁juc.locks包二、原子类三、四个常用工具类 * 3.1 信号量 Semaphore 3.2 CountDownLatch 总结前言博主个人社…

人工智能 2023年7月29日
0090
PyTorch中的自动微分是如何实现的

自动微分在PyTorch中的实现介绍在深度学习中，自动微分（Automatic Differentiation）是一个非常重要的概念，用于计算复杂模型的导数。PyTorch是一…

人工智能 2024年1月5日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas读写数据与常用数据结构

读取CSV文件