python DataFrame常用描述性统计分析方法

2023年7月6日下午10:08 • 人工智能 • 阅读 101

文章目录

python DataFrame常用描述性统计分析方法
*
sum() 求和
mean() 求平均值
max() 最大值 & min() 最小值
median() 中位数
mode() 众数
var() 方差
std() 标准差
quantile() 分位数

ʚʕ̯•͡˔•̯᷅ʔɞ 个人简介
🍹 欢迎各路大佬来到小啾主页指点☀️
✨ 博客主页：云雀编程小窝 🌹꧔ꦿ
🌹꧔ꦿ 点赞 + 关注 + 收藏✨

☀️ 感谢大家的支持：一起加油！共同进步！ 🍹

; sum() 求和

使用sum()方法对DataFrame对象求和。
其中set_option(‘display.unicode.east_asian_width’, True)可以使显示的DataFrame值与列名对齐。
sum有axis参数，默认为0，表示对列求和

设置为1表示对行求和。
也可以设置 skipna参数，改参数默认为True，表示不考虑缺失值，如果是False则表示考虑缺失值，当存在缺失值时，则对应的结果表示为Nan。
*（布尔类型的参数值，当传入为其它类型的值时，也解读为该值的布尔值）

这里对示例数据的行求和，然后生成一个新的列添加在数据中。

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
index = [1, 2, 3]
columns = ['语文', '数学', '英语']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")

df['总成绩'] = df.sum(axis=1, skipna=1)
print(df)

程序运行结果如下：

mean() 求平均值

这里对生成数据的每一列求平均值，然后作为一个新的行增加给原数据。

通过示例可以看到，当原数据中存在空值时，计算均值时分子和分母都不计入该数据。即mean()求的是非空数据的平均值。

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]
index = [1, 2, 3, 4]
columns = ['语文', '数学', '英语']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")
new = df.mean()

df = df.append(new, ignore_index=True)
print(df)

关于DataFrame的append()方法
DataFrame增添一行可以使用append()方法。设置参数，ignore_index=True可以忽略掉索引。
当在DataFrame后边追加的对象为Series时，必须把ignore_index设为True，或者除非Serise有name属性。
当追加多列时，设置ignore_index为True可以避免出现索引值重复的异常事件。
此外DataFrame的append()方法在未来的版本即将被取消。将由concat替代。

max() 最大值 & min() 最小值

import pandas as pd
data = [[110, 105, 99], [105, 88, 115], [109, 120, 130]]
index = [1, 2, 3]
columns = ['语文', '数学', '英语']
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("================================")
df_max = df.max()
print(df_max)
print("================================")
df_min = df.min()
print(df_min)

median() 中位数

import pandas as pd
data = [[110, 120, 110], [130, 130, 131], [115, 120, 130]]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("================================")
print(df.median())

mode() 众数

import pandas as pd
data = [[110, 120, 110], [130, 130, 130], [130, 120, 130]]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, columns=columns)
print(df)

print(df.mode())

print(df.mode(axis=1))

print(df['数学'].mode())

var() 方差

import pandas as pd
data = [[110, 113, 102, 105, 108], [118, 98, 119, 85, 118]]
index = ['小黑', '小白']
columns = ['物理1', '物理2', '物理3', '物理4', '物理5']
df = pd.DataFrame(data=data, index=index, columns=columns)
print(df)
print("========================================")
print(df.var(axis=1))

std() 标准差

import pandas as pd
data = [[110, 120, 110], [130, 130, 130], [130, 120, 130]]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("=============================")
print(df.std())

quantile() 分位数

以35%分位数为例

import pandas as pd

data = [120, 89, 98, 78, 65, 102, 112, 56, 79, 45]
columns = ['数学']
df = pd.DataFrame(data=data, columns=columns)
print(df)
print("============================")

x = df['数学'].quantile(0.35)

print(df[df['数学']  x])

关于其他数据类型，如Timestamp，也可以使用分位数quantile()方法。

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.DataFrame({'A': [1, 2],
                   'B': [pd.Timestamp('2019'),
                         pd.Timestamp('2020')],
                   'C': [pd.Timedelta('1 days'),
                         pd.Timedelta('2 days')]})
print(df)
print("==============================")
print(df.quantile(0.5, numeric_only=False))

Original: https://blog.csdn.net/weixin_48964486/article/details/123238672
Author: 侯小啾
Title: python DataFrame常用描述性统计分析方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674880/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

打怪升级（考验思路）

某同学最近迷上打怪升级的小游戏，该总共有n个关卡，每个关卡需要消耗的能量值为Wi，每个关下能获得Wj的能量。但是由于游戏限制，玩家必须连续的过关下，不可出现跳关的操作，不过允许…

人工智能 2023年6月29日
0051
k-均值聚类算法

1聚类 1.1聚类定义聚类是把数据对象集合按照相似性划分为多个子集的过程。每个子集是一个簇(cluster)，使得簇中的对象彼此相似，但与其他簇中的对象不相似。聚类是无监督学习，…

人工智能 2023年5月31日
0066
堪称经典，一个非常适合初学者的机器学习实战案例

大家好，今天我给大家介绍一个非常适合新手的机器学习实战案例。这是一个房价预测的案例，来源于 Kaggle 网站，是很多算法初学者的第一道竞赛题目。该案例有着解机器学习问题的完…

人工智能 2023年6月13日
00110
YOLOV7开源代码讲解–训练参数解释

目录训练参数说明： –weights: — cfg: –data: –hpy: –epoch: –batc…

人工智能 2023年6月22日
0075
neo4j和py2neo的安装与使用

目录 1.jdk安装与cmd输入乱码问题 2.安装neo4j 3.neo4j 打开空白页的问题 4.py2neo安装与使用 5.关于使用py2neo时报错：The old para…

人工智能 2023年6月1日
00139
以nba球员数据学习聚类算法

本内容所有代码都在我的github上，喜欢的朋友可以点个赞https://github.com/zxhjames/NBA_DataAnalysis [TencentCloudSDK…

人工智能 2023年6月2日
00125
学习笔记1——常用的注意力机制（即插即用）

在目标检测网络里加注意力机制已经是很常见的了，顾名思义，注意力机制是指在全局图像中获得重点关注的目标，常用的注意力机制有SE、CA、ECA、CBAM、GAM、NAM等。 1、SE模…

人工智能 2023年5月26日
0077
蓝桥杯2022年第十三届决赛真题-修路

题目描述这天，小明在修路。他需要修理两条平行的道路 A, B，两条路上面分别有 n 个和 m 个点需要维修，它们相对于道路起点的距离分别为 a1, a2, . . . , an…

人工智能 2023年6月29日
0065
Bert与GPT的区别

Bert与GPT的区别 1. 网络结构上的区别上图是Transformer的一个网络结构图，Bert的网络结构类似于Transformer的Encoder部分，而GPT类似于Tr…

人工智能 2023年5月28日
0059
OpenCV输出视频为MP4无法播放的问题

今天写了一段代码，打开一段视频，然后再使用CV::VideoWriter保存处理后视频，结果能够成功保存但是打不开。保存的代码如下： pVideoPro->SetOutput…

人工智能 2023年7月19日
0043
论文笔记 EMNLP 2021|Modeling Document-Level Context for Event Detection via Important Context Selection

文章目录 * – 1 简介 – + 1.1 创新 – 2 方法 – + 2.1 预测模型 + 2.2 上下文选择 + 2.3 训练 …

人工智能 2023年5月27日
0063
R语言矩阵matrix数据类型、生成示例matrix数据、为矩阵添加行名称和列名称、使用中括号[]索引matrix数据、矩阵matrix实战

以下是一个用 C 语言编写的矩阵_运算 _示例_代码，可以处理三 _行_四 _列_的 double 类型 _数据： `c #include Original: https://b…

人工智能 2023年6月11日
0080
（超详细）Ubuntu18.04下安装及卸载opencv+opencv_contrib

为了做毕设，我已经被这个东西折磨了很多天了，现在真的悟了。写下人生的第一篇博客，希望能够帮助大家。说明： 1.本教程适用c++和python环境 2.opencv和opencv_…

人工智能 2023年7月18日
00236
数字图像相关（Digital Image Correlation, DIC）中的非线性优化方法（FA-GN与IC-GN）

目录前言内容回顾一. 非线性优化数学模型二. 前向累加高斯-牛顿法——FA-GN（Forward Additive Gauss-Newton method）三. 逆合成高…

人工智能 2023年5月26日
0058
机器学习类型概述

从不同的视角来看待诸多机器学习算法，有不同的划分。 1、语料视角根据训练语料对人工参与类别划分或标签标识的需求程度，可将机器学习划分为四种类型: 监督学习、无监督学习、半监督…

人工智能 2023年6月16日
0068
使用Python，Opencv检测AprilTag

这篇博客将介绍AprilTags，这是一组基准标记，通常用于机器人技术、校准和3D计算机视觉项目。通常在执行实时检测时使用AprilTags（以及密切相关的ArUco标记）。 Ap…

人工智能 2023年7月19日
0039

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python DataFrame常用描述性统计分析方法

文章目录

; sum() 求和

mean() 求平均值

max() 最大值 & min() 最小值

median() 中位数

mode() 众数

var() 方差

std() 标准差

quantile() 分位数

大家都在看