【Pandas数据分析1】pandas数据结构

2023年7月7日下午12:34 • 人工智能 • 阅读 74

文章目录

一、pandas数据结构
*
1、Series对象
–
2、DataFrame对象
–

一、pandas数据结构

1、Series对象

pandas库中的一种数据结构，类似于一维数组，由一组数据以及与这组数据有关的标签（索引）组成。
Series对象可以存储整数、浮点数、字符串、python对象等多种数据类型的数据。

; 1.1 创建Series对象

pd.Series(data, index)

import pandas as pd

data = ['李光地', '张红云', '王鹏']
s = pd.Series(data=data, index=[1, 2, 3])
print(s)
print(type(s))

1    &#x674E;&#x5149;&#x5730;
2    &#x5F20;&#x7EA2;&#x4E91;
3     &#x738B;&#x9E4F;
dtype: object
<class 'pandas.core.series.series'>
</class>

注：也可手动修改索引（ 索引不一定为数字）。

import pandas as pd

data = ['李光地', '张红云', '王鹏']
index = ['哈', '嘿', 'nao']
s = pd.Series(data=data, index=index)
print(s)

哈      李光地
嘿      张红云
nao     王鹏
dtype: object

1.2 索引

1.2.1 位置索引

import pandas as pd

data = ['李光地', '张红云', '王鹏']
s = pd.Series(data=data)
print(s[0])

李光地

1.2.2 标签索引

import pandas as pd

data = [333, 4444, 55555]
index = ['张三', '李四', '王五']
s = pd.Series(data=data, index=index)
print(s['李四'])

获取多个标签索引值使用 [[标签索引1，标签索引2，…]]，如下所示：

import pandas as pd

data = [333, 4444, 55555]
index = ['张三', '李四', '王五']
s = pd.Series(data=data, index=index)

print(s[['张三', '王五']])

张三      333
王五    55555
dtype: int64

1.2.3 切片索引

import pandas as pd

data = ['李光地', '张红云', '王鹏']
s = pd.Series(data=data)
print(s[0:2:1])

0    李光地
1    张红云
dtype: object

也可以对 标签索引进行切片：

import pandas as pd

data = [333, 4444, 55555]
index = ['张三', '李四', '王五']
s = pd.Series(data=data, index=index)
print(s['张三':'王五':1])

张三      333
李四     4444
王五    55555
dtype: int64

注意：

对 位置索引进行切片：含头 不含尾。
对 标签索引进行切片：含头含尾。

1.2.4 获取Series的索引和值

import pandas as pd

data = [333, 4444, 55555]
index = ['张三', '李四', '王五']
s = pd.Series(data=data, index=index)
print(s.index)
print(list(s.index))
print(s.values)
print(type(s.values))

Index(['张三', '李四', '王五'], dtype='object')
['张三', '李四', '王五']
[  333  4444 55555]
<class 'numpy.ndarray'>

2、DataFrame对象

pandas库中的一种数据结构，类似于二维表，由行和列组成。
与Series对象一样，支持多种数据类型。

; 2.1 创建DataFrame对象

pd.DataFrame(data, index, columns, dtype)

2.1.1 列表方式

import pandas as pd

data = [['小太阳', 320.9, 100], ['鼠标', 150.3, 50], ['小刀', 1.5, 200]]
columns = ['名称', '单价', '数量']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print(type(df))

    名称     单价   数量
0  小太阳  320.9  100
1   鼠标  150.3   50
2   小刀    1.5  200
<class 'pandas.core.frame.DataFrame'>

2.1.2 字典方式

import pandas as pd

data = {
    '名称': ['小太阳', '鼠标', '小刀'],
    '单价': [320.9, 150.3, 1.5],
    '数量': [100, 50, 200]
}
df = pd.DataFrame(data=data)
print(df)

    名称     单价   数量
0  小太阳  320.9  100
1   鼠标  150.3   50
2   小刀    1.5  200

2.1.3 注意事项

当使用字典方式创建DataFrame对象时：

（1）如果列表（值）长度不一致，会报错 ValueError: All arrays must be of the same length

import pandas as pd

data = {
    '名称': ['小太阳', '鼠标', '小刀', '铅笔'],
    '单价': [320.9, 150.3, 1.5],
    '数量': [100, 50, 200]
}
df = pd.DataFrame(data=data)
print(df)

Traceback (most recent call last):
...

ValueError: All arrays must be of the same length

（2）如果值是单个数据，则会自动添加

import pandas as pd

data = {
    '名称': ['小太阳', '鼠标', '小刀'],
    '单价': [320.9, 150.3, 1.5],
    '数量': [100, 50, 200],
    '公司': '东门超市'
}
df = pd.DataFrame(data=data)
print(df)

    名称     单价   数量    公司
0  小太阳  320.9  100  东门超市
1   鼠标  150.3   50  东门超市
2   小刀    1.5  200  东门超市

2.2 DataFrame重要属性

序号属性描述1values查看所有元素的值2dtypes查看所有元素的类型3index查看所有行名、重命名行名4columns查看所有列名、重命名列名5T行列数据转换6head查看前N条数据，默认5条7tai查看后N条数据，默认5条8shape查看行数和列数：shape[0]表示行，shape[1]表示列9info查看索引、数据类型和内存信息

import pandas as pd

data = [['小太阳', 320.9, 100], ['鼠标', 150.3, 50], ['小刀', 1.5, 200]]
columns = ['名称', '单价', '数量']
df = pd.DataFrame(data=data, columns=columns)
print(df)

    名称     单价   数量
0  小太阳  320.9  100
1   鼠标  150.3   50
2   小刀    1.5  200

1、查看所有元素的值：

print(df.values)

[['小太阳' 320.9 100]
 ['鼠标' 150.3 50]
 ['小刀' 1.5 200]]

2、查看所有元素的类型：

print(df.dtypes)

名称     object
单价    float64
数量      int64
dtype: object

3、查看所有行名：

print(df.index)
print(list(df.index))

RangeIndex(start=0, stop=3, step=1)
[0, 1, 2]

4、查看所有列名：

print(df.columns)

Index(['名称', '单价', '数量'], dtype='object')

5、行列数据转换：

pd.set_option('display.unicode.east_asian_width', True)
new_df = df.T
print(new_df)

           0      1     2
名称  小太阳   鼠标  小刀
单价   320.9  150.3   1.5
数量     100     50   200

6、查看前N条数据：

print(df.head(1))

    名称     单价   数量
0  小太阳  320.9  100

7、查看后N条数据：

print(df.tail(1))

   名称   单价   数量
2  小刀  1.5  200

8、查看行数和列数：

print('行', df.shape[0], '列', df.shape[1])

行 3 列 3

9、查看索引、数据类型和内存信息：

print(df.info)

<bound method DataFrame.info of     名称     单价   数量
0  小太阳  320.9  100
1   鼠标  150.3   50
2   小刀    1.5  200>

2.3 DataFrame重要函数

序号函数描述1describe()查看每列的统计汇总信息，DataFrame类型2count()返回每一列的非空值的个数3sum()返回每一列的和，无法计算返回空值4max()返回每一列的最大值5min()返回每一列的最小值

import pandas as pd

data = [['小太阳', 320.9, 100], ['鼠标', 150.3, 50], ['小刀', 1.5, 200]]
columns = ['名称', '单价', '数量']
df = pd.DataFrame(data=data, columns=columns)
print(df)

print(df.describe())

print(df.count())

print(df.sum())

print(df.max())

print(df.min())

    名称     单价   数量
0  小太阳  320.9  100
1   鼠标  150.3   50
2   小刀    1.5  200

               单价          数量
count    3.000000    3.000000
mean   157.566667  116.666667
std    159.823945   76.376262
min      1.500000   50.000000
25%     75.900000   75.000000
50%    150.300000  100.000000
75%    235.600000  150.000000
max    320.900000  200.000000

名称    3
单价    3
数量    3
dtype: int64

名称    小太阳鼠标小刀
单价      472.7
数量        350
dtype: object

名称       鼠标
单价    320.9
数量      200
dtype: object

名称     小刀
单价    1.5
数量     50
dtype: object

Original: https://blog.csdn.net/m0_70885101/article/details/127181484
Author: LeoATLiang
Title: 【Pandas数据分析1】pandas数据结构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676257/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【强化学习探索01】Win10 下gym安装

好的，我可以帮你解答这个问题。首先，akshare是一个开源的数据获取库，可以方便地从各种数据源中获取数据。 gym_是一个用于开发和比较 _强化学习_算法的工具包，其中包含了许…

人工智能 2023年7月6日
0052
奇迹mu 架设过程中可能会出现的问题及解决办法

**通常我们在架设奇迹的时候，可能会遇见这种问题那种问题，很多用户都不知道该如何解决，今天我们就来系统的说明一下一些常见的问题，帮助遇见这些问题的用户理清一个架设的思路，更清楚的判…

人工智能 2023年6月27日
0092
CrossAttention KBQA

《An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combi…

人工智能 2023年6月17日
0099
时间约束的实体解析中记录对排序研究

时间约束的实体解析中记录对排序研究人工智能技术与咨询来源：《软件学报》，作者孙琛琛等摘要:实体解析是数据集成和数据清洗的重要组成部分,也是大数据分析与挖掘的必要预处理步骤…

人工智能 2023年6月11日
0062
贝叶斯线性回归是一种回归算法，它通过引入先验分布来对模型参数进行概率建模。它使用贝叶斯推断来估计参数的分布，从而提供了参数不确定性的估计

介绍贝叶斯线性回归是一种回归算法，它通过引入先验分布来对模型参数进行概率建模。与传统的线性回归不同，贝叶斯线性回归不仅提供了参数的点估计，还给出了参数的不确定性的估计。这种不确定…

人工智能 2023年12月31日
0030
DRR（数字重建放射影像）

目录 * – 一、定义 – 二、应用 – 三、算法原理 – 1、基本原理 – 2、投影算法 – 参考文献： …

人工智能 2023年6月18日
00156
【人工智能】UC Berkeley 2021春季 CS188 Project 6:Reinforcement Learning强化学习

Project 6:Reinforcement Learning Code Link Introduction * Article Intro Project Intro Tool…

人工智能 2023年6月25日
00106
BP神经网络python代码详细解答（来自原文）

翻译如下**         <font color="black" size=&…

人工智能 2023年6月15日
0077
SpringCloudAlibaba 微服务组件 Nacos 之配置中心源码深度解析

大家好，这篇文章跟大家聊下 SpringCloudAlibaba 中的微服务组件 Nacos。Nacos 既能做注册中心，又能做配置中心，这篇文章主要来聊下做配置中心时 clien…

人工智能 2023年6月28日
0080
手把手调参最新 YOLOv7 模型训练部分 – 最新版本（二）

手把手调参最新 YOLOv7 模型训练部分 – 最新版本（二）🚀 YOLO系列模型在目标检测领域有着十分重要的地位，随着版本不停的迭代，模型的性能在不断地提升，源码提…

人工智能 2023年7月29日
00188
DBSCAN聚类——Python实现

一、DBSCAN(Density-Baseed Spatial Clustering of Applications with Noise)聚类算法核心对象：若某个点的密度达到算…

人工智能 2023年6月2日
0096
配置tensorflow2.8可供远程连接的docker容器

配置tensorflow2.8可供远程连接的docker容器 1. 从docker hub上下载官方镜像 2. 运行镜像 3. 进入docker容器内部 * 3.1 查看Ubunt…

人工智能 2023年5月24日
0077
tensorflow2.0 基础知识点4 （基本数学——张量运算）

人工智能 2023年5月26日
0058
MATLAB粒子群算法求解带充电站(桩)的电动车辆路径规划EVRP问题代码实例

MATLAB粒子群算法求解带充电站（桩）的电动车辆路径规划EVRP问题代码实例问题实例描述：现有一个配送中心需要向20个客户点进行送货。每个客户点有不同货物需求量和卸货服务时间。…

人工智能 2023年6月10日
0068
【Python】界面设计——GUI编程之【PyQt5】

文章目录一. PyQt5基础 * (一) 窗口显示 (二) PyQt5程序结构分析 – 1. 导入需要的包和模块 2. 创建一个应用程序对象 3. 控件的操作 + 3…

人工智能 2023年7月30日
0055
K-Means聚类分析广告投放效果的改进（数据标准化、最佳K值的确定）

业务场景：甲公司投放广告的渠道很多，每个渠道的客户性质也可能不同，比如在优酷视频投广告和今日头条投放广告，效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工…

人工智能 2023年6月16日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30