【数据分析】认识Pandas：DataFrame和Series结构、属性

2023年7月6日下午12:39 • 人工智能 • 阅读 122

数据分析工具——Pandas

认识Pandas
*
Dataframe 结构
–
- DataFrame 构造方法
- dtype参数
Series 结构
–
- Series 构造方法
DataFrame和Series属性

认识Pandas

Pandas 是 Python 语言的一个扩展程序库，用于 数据挖掘和 数据分析，同时也提供 数据清洗功能。

pandas（panel data & data analysis），是基于 numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；

Pandas所有的操作都基于两种结构： DataFrame结构和 Series结构

Dataframe 结构

DataFrame 是 Pandas 中的一个 表格型 的数据结构，是一个二维的数组结构，类似 二维数组。包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)。

表格有三部分组成，表头（列索引）、行名称（行索引）、数据元素部分。

; DataFrame 构造方法

pandas.DataFrame( data, index, columns, dtype, copy)

data：数据(array-like 类型：可以是ndarray、series, map, lists, dict 等类型)。
index：行索引，如果不指定行索引—默认给一个0、1、2、3、… 这样的序号行索引。
columns：列索引，如果不指定列索引—默认给一个0、1、2、3、… 这样的序号列索引。
dtype：数据类型。
copy：拷贝数据，默认为 False。

方式 1：使用列表 逐个传入行索引、列索引和 数据元素
df = pd.DataFrame(

    data=[
        ['zs', 19, 1],
        ['ls', 20, 1],
        ['ww', 19, 2]
    ],
    index=['stu0', 'stu1', 'stu2'],
    columns=['name', 'age', 'group']

)
print('df:\n', df)
print('df_type:\n', type(df))
"""
df:
      name  age  group
stu0   zs   19      1
stu1   ls   20      1
stu2   ww   19      2
df_type:

"""

方式 2：借助字典
df = pd.DataFrame(

    data={
        'name': ['zs', 'ls', 'ww'],
        'age': [18, 19, 29],
        'group': [1, 1, 2]
    },
    index=['stu0', 'stu1', 'stu2'],
)
print('df:\n', df)
print('df_type:\n', type(df))
"""
df:
      name  age  group
stu0   zs   18      1
stu1   ls   19      1
stu2   ww   29      2
df:

"""

方式 3：由 ndarray 转化为 dataframe结构
import numpy
values = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])
print('values:\n', values)
print('values_type：', type(values))
"""
values:
 [[1 2 3 4]
 [5 6 7 8]]
values_type：

"""
df = pd.DataFrame(
    data=values,
    columns=['一','二','三','四'],
)
print('df:\n', df)
print('df_type:\n', type(df))
"""
df:
   一  二  三  四
0  1  2  3  4
1  5  6  7  8
df_type:

"""

注：关于参数元素缺失

df = pd.DataFrame(
    data=[
        ['zs', 19, 1],
        ['ls', 20, 1],
        ['ww', 19]
    ],
    index=['stu0', 'stu1', 'stu2'],
    columns=['name', 'age', 'group']
)
print('df:\n', df)
"""
df:
      name  age  group
stu0   zs   19    1.0
stu1   ls   20    1.0
stu2   ww   19    NaN
"""

dtype参数

data=[
    ['zs', 19, 1],
    ['ls', 20, 1],
    ['ww', 19, 2]
],
df = pd.DataFrame(
    data=data
    columns=['name', 'age', 'group'],
)
print('dtypes:\n', df.dtypes)
'''
dtypes:
 name     object
age       int64
group     int64
dtype: object
'''

df = pd.DataFrame(
    data=data
    columns=['name', 'age', 'group'],
    dtype="int32"
)
print('dtypes:\n', df.dtypes)
'''
df:
 name     object
age       int32
group     int32
dtype: object
'''

df = pd.DataFrame(
    data=data
    columns=['name', 'age', 'group'],
    dtype=numpy.

)
print('dtypes:\n', df.dtypes)
'''
df:
 name     object
age       int32
group     int32
dtype: object
'''

Series 结构

Series 类似表格中的一个列（column），类似于 一维数组，可以保存任何数据类型。Series 由索引（index）和列组成

DataFrame结构就是由多个Series结构组成的：


df = pd.DataFrame(
    data=[
        ['zs', 19, 1],
        ['ls', 20, 1],
        ['ww', 19, 2]
    ],
    index=['stu0', 'stu1', 'stu2'],
    columns=['name', 'age', 'group'],
)
print('name:\n', df["name"])
print("*"*20)
print('name_type:\n', type(df["name"]))
'''
name:
 stu0    zs
stu1    ls
stu2    ww
Name: name, dtype: object
********************
name_type:

'''

Series 构造方法

pandas.Series( data, index, dtype, name, copy)

Serise的参数与Dataframe的参数相似：

data：一组数据(array-like 类型)。
index：数据索引标签，不指定默认从 0 开始。可指定array-like 类型需和data长度相同。
dtype：数据类型，默认会自己判断。
name：设置名称（str 类型）， 相当于Dataframe结构指定多列名称的Columns 变为单列的name。
copy：拷贝数据，默认为 False。

df= pd.Series([1, 2, 3])
print("df:\n", df)
'''
df:
0    1
1    2
2    3
dtype: int64
'''

se = pd.Series(
    data={'zs': 17, 'ls': '18', 'ww': 18},

    index=['zs', 'ls', 'ww', 'jj'],

)
print('se:\n',se)
print('se_type:\n',type(se))
'''
se:
 zs     17
ls     18
ww     18
jj    NaN
dtype: object
se_type:

'''

DataFrame和Series属性

import pandas as pd

df = pd.DataFrame(
    data=[
        ['zs', 19, 1],
        ['ls', 20, 1],
        ['ww', 19, 2]
    ],
    index=['stu0', 'stu1', 'stu2'],
    columns=['name', 'age', 'group']
)
print('df:\n', df)
print('df_type:\n', type(df))

print('ndim:', df.ndim)
print('shape:', df.shape)
print('size:', df.size)

print('dtypes:\n', df.dtypes)

print('index:', df.index)
print('columns:', df.columns)
print('values:\n', df.values)
print('values_type:\n', type(df.values))

print("-"*80)

se = df['name']
print('se:\n', se)
print('se:\n', type(se))

print('ndim:', se.ndim)
print('shape:', se.shape)
print('size:', se.size)
print('name:', se.name)

print('dtype:', se.dtype)
print('dtypes:', se.dtypes)

print('index:',se.index)
print('values:',se.values)

Original: https://blog.csdn.net/weixin_45760274/article/details/123380834
Author: 胡桃の壶
Title: 【数据分析】认识Pandas：DataFrame和Series结构、属性

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/673958/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习之YOLOv5实践应用（3-1）人头检测模型

参考：基于yolov5训练人头检测模型 – 知乎一、数据集下载地址：链接：链接：https://pan.baidu.com/s/1xBph3IBXKnArVtM…

人工智能 2023年6月23日
00233
公司招了个五年经验的测试员，见识到了真正的测试天花板

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月5日
0065
DeepLabV1网络简析

原论文名称：Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs论文下…

人工智能 2023年6月24日
0085
python自带的idle以及pycharm使用

作者介绍： ♥️ 作者：小刘在C站♥️ 每天分享课堂笔记，一起努力，共赴美好生活！♥️ 夕阳下，是最美的绽放。目录一.python自带的idle 二.ipython ipyth…

人工智能 2023年7月4日
0068
基于Arduino IDE开发的LD3320语音识别模块

基于Arduino的LD3320语音识别模块设计详解文章目录 * – 基于Arduino的LD3320语音识别模块设计详解* 前言* 一、LD3320驱动编写* &#…

人工智能 2023年5月27日
0081
SIFT算法详解——图像特征提取与匹配

文章目录前言一、建立高斯差分金字塔 * 1、建立高斯金字塔 2、建立高斯差分金字塔 3、建塔过程中参数的设定及相关细节问题二、关键点(key points)位置确定 * 1、…

人工智能 2023年6月20日
0084
gazebo的安装

1.4 配置环境变量： echo “source /opt/ros/melodic/setup.bash” >> ~/.bashrc sourc…

人工智能 2023年6月2日
00115
深度学习(16):print(torch.cuda.is_available()) False的一个解决流程/思路

（1）查看torch版本，及其是否与cuda版本是否匹配：（2）查看cuda是否还存在以及cuda的版本（3）查看显卡驱动是否正常（4）安装显卡驱动–这一步可能不…

人工智能 2023年6月24日
0076
数据分析之Numpy取消numpy科学计数法【详解np.set_printoptions()】

numpy中默认是使用科学计数法来显示数据的，但是这种做法往往不利于我们观测数据，比如坐标数据等。那么如何取消numpy科学计数法呢，请往下看。 np.set_printoptio…

人工智能 2023年7月15日
0063
技术内幕 | StarRocks Community Champion、阿里云技术专家解读 Optimizer 实现

作者：范振（花名辰繁），阿里云计算平台-开源大数据-OLAP方向负责人，高级技术专家，StarRocks Community Champion 随着阿里云EMR StarRocks…

人工智能 2023年7月31日
0051
【python数据分析】数据的分组，遍历，统计

数据的分组，遍历，统计俗话说：”人与类聚，物以群分”，到这里我们将学习数据的分组以及分组后统计。Pandas的分组相对于Excel会更加简单和灵活。 1️…

人工智能 2023年6月11日
00101
机器学习实验七使用K-means 聚类算法实现图像压缩；利用PCA寻找人脸的低维表示

实验七：使用K-means 聚类算法实现图像压缩；利用PCA寻找人脸的低维表示一、实验目的 1.实现 K-means 聚类算法，并使用它来实现图像压缩。2.使用主成分分析（PC…

人工智能 2023年6月3日
0062
旅行场景下的推荐算法探索

今天给大家分享阿里巴巴集团高级算法温鸿所做的分享《旅行场景下的推荐算法探索.pdf》,关注推荐算法及其实践的伙伴们别错过啦！（到省时查报告小程序中搜索”推荐&#8221…

人工智能 2023年6月1日
0074
SPSS入门教程——方差齐性检验的方法有哪些

SPSS方差齐性检验，即检验样本数据的方差是否相同的一种方法。什么情况下需要进行方差齐性检验？在经典的线性回归模型中，方差齐性是进行回归的前提要素之一，因OLS(最小二乘法)回归式…

人工智能 2023年7月27日
0048
UCL葡萄酒（red white wine quality）数据集字段解释、数据导入实战

UCL葡萄酒（red white wine quality）数据集字段解释、数据导入实战目录 UCL葡萄酒（red white wine quality）数据集字段解释、数据导入…

人工智能 2023年6月19日
0097
开源风暴吞噬AI界？从Stable Diffusion的爆火说起

近日，文本生成图像模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资，估值达10亿美元，这家基于开源社区的”草根&#…

人工智能 2023年7月28日
0076