Python学习笔记（8）Pandas统计分析1

2023年7月8日下午6:08 • 人工智能 • 阅读 55

1.1 文本文件读取与储存

pandas. read_csv (filepath_or_buffer, sep=’,’, header=’infer’, names=None, index_col=None, dtype=None, engine=None, nrows=None)

sep–分隔符，read_csv默认为”,”，read_table默认为制表符。

header–表示将某行数据作为列名，默认infer为自动识别

names–列名

index_col–索引列位置

DataFrame. to_csv (path_or_buf=None, sep=’,’, na_rep=”, columns=None, header=True, index=True,index_label=None,mode=’w’,encoding=None)

1.2 excel文件读取与储存

pandas. read_excel (io, sheetname=0, header=0, index_col=None, names=None, dtype=None)

dtype–接收字典

DataFrame. to_excel (excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)

2.1 查看访问DataFrame中的数据

使用字典访问：DataFrame[‘列名称’]

使用访问属性：DataFrame.列名称 #（不推荐）

访问这一列的前五个元素（含表头）：DataFrame[‘列名称’][:5]

访问多列的多行数据：DataFrame[‘列名称1’，’列名称2’][:5]

DataFrame[:][1:5]

DataFrame.head()前5行

DataFrame.tail()后5行

默认都是5，可在（）内添加访问行数

DataFrame.loc[：， ‘列名称’]

DataFrame.iloc[：，列索引]

DataFrame.loc[：， [‘列名称1’, ‘列名称2’]]

DataFrame.iloc[：， [1, 3]] #提取第一列和第三列

DataFrame.loc[2:6， [‘列名称1’, ‘列名称2’]] # #行名为2-6 列名为列名称1 列名称2的数据

loc函数传入的索引若为区间，则是闭区间

DataFrame.iloc[2:7, [1，3] ] #列位置为1 3 行位置为2-6

iloc函数传入的索引若为区间，则是前闭后开区间

DataFrame.loc[data_csv[“writing score”] == a,[‘列名称’]]

DataFrame.iloc[(data_csv[“writing score”] == a).values, [列索引]]

2.2 更改DataFrame中的数据

原理：提取出来，重新赋值，但是会更改原数据

DataFrame.loc[DataFrame[‘abc’]=100, ‘abc’] = ‘1’#将abc中等于100的值换位1

2.3 增添DataFrame中的数据

DataFrame[‘新增列名称’] = DataFrame[‘列名称1’]*DataFrame[‘列名称2’]

DataFrame[‘新增列名称’] = ‘新增列的值’

DataFrame.insert(列索引，列名称，数据， allow_duplicates=False)

最后一项参数为，是否允许列名重复

pd.append() 只能实现在最后增加一行，需要将原始的DataFrame拆分，再插入数据后将其合并。

&#x5F85;&#x63D2;&#x5165;&#x884C;&#x7D22;&#x5F15;
row_n = 1
&#x5F85;&#x63D2;&#x5165;&#x6570;&#x636E;&#xFF0C;&#x4EE5;&#x4E00;&#x7EF4;&#x5217;&#x8868;&#x4E3A;&#x4F8B;
d = [["*"] * 4]
&#x62C6;&#x5206;
DataFrame1 = [:row_n]
DataFrame2 = [row_n:]
&#x53C2;&#x6570;&#xFF1A;&#x6DFB;&#x52A0;&#x6570;&#x636E;&#xFF0C;&#x662F;&#x5426;&#x65E0;&#x89C6;&#x884C;&#x7D22;&#x5F15;
DataFrame = DataFrame1.append(d,ignore_index=True).append(DataFrame2,ignore_index=True)

def df_insert(df, n, arr, ignore_index=True):
"""
 DataFrame&#x4EFB;&#x610F;&#x4F4D;&#x7F6E;&#x6DFB;&#x52A0;&#x4E00;&#x884C;
 :param df: DataFrame
 :param n: &#x6DFB;&#x52A0;&#x884C;&#x53F7;&#x7D22;&#x5F15;
 :param arr: &#x6DFB;&#x52A0;&#x6570;&#x636E;
 :param ignore_index: &#x662F;&#x5426;&#x65E0;&#x89C6;&#x884C;&#x7D22;&#x5F15;&#xFF0C;&#x4E3A;True&#x5219;&#x91CD;&#x65B0;&#x4ECE;0&#x751F;&#x6210;df&#x7684;&#x884C;&#x53F7;
 :return: DataFrame
"""
 # &#x5982;&#x679C;&#x539F;df&#x5217;&#x540D;&#x88AB;&#x4FEE;&#x6539;&#xFF0C;&#x5219;&#x9700;&#x8981;&#x7ED9;&#x65B0;&#x63D2;&#x5165;&#x7684;&#x884C;&#x4E5F;&#x8D4B;&#x4E88;&#x5217;&#x540D;
 # arr = pd.DataFrame&#xFF08;np.array(arr).reshape((1, len(arr))&#xFF09;, columns=df.columns)
 # &#x5426;&#x5219;&#x76F4;&#x63A5;&#x63D2;&#x5165;&#x4E8C;&#x7EF4;&#x6570;&#x7EC4;&#x5373;&#x53EF;
 arr = [arr]
 df1 = df[:n]
 df2 = df[n:]
 df0 = df1.append(arr, ignore_index).append(df2, ignore_index)
 return df0

&#x5F85;&#x63D2;&#x5165;&#x884C;&#x7D22;&#x5F15;
row_n = 1
&#x5F85;&#x63D2;&#x5165;&#x6570;&#x636E;&#xFF0C;&#x4EE5;&#x4E00;&#x7EF4;&#x5217;&#x8868;&#x4E3A;&#x4F8B;
d = ["*"] * 4
&#x8C03;&#x7528;&#x65B9;&#x6CD5;
pd_arr = df_insert(pd_arr, row_n, d)

2.4 删除DataFrame中的数据

DataFrame.drop(labels, axis, inplace)

labels–删除行或者列的标签

axis–0为横轴 1为纵轴，默认为0

inplace–操作是否对原数据生效，默认为False

labels为列标签

labels为行索引，可用range函数

2.5 描述分析DataFrame

中位数median 极差ptp 标准差std 协方差cov

1)np.mean求某一列的均值

np.mean(DataFrame[‘列名称’])

2)pandas实现求某一列均值

DataFrame[‘列名称’].mean()

3)describe函数实现数值型特征的描述性统计

DataFrame[[‘列名称1’, ‘列名称2’]].discribe()

sem标准误差 skew样本偏差 quantile四分位数 mode众数 kurt样本峰值

对某一类频数出现前十名进行统计

DataFrame[‘列名称’].value_counts()[0: 10]

Original: https://blog.csdn.net/gm1_1/article/details/124151374
Author: 留校察看的阿车
Title: Python学习笔记（8）Pandas统计分析1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679024/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu20.04下安装 NVIDIADriver-460、CUDA-10.0、cuDNN、tensorflow、pytorch

Ubuntu下安装 NVIDIADriver、CUDA、cuDNN、tensorflow、pytorch 1、安装NVIDIA驱动首先，检测你的NVIDIA显卡型号和推荐的驱动程…

人工智能 2023年5月26日
0070
word2vector之Skip_Gram模型详解

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。 ✨word2vector系列展示✨一、CBOW1、朴素CBOW模型…

人工智能 2023年5月28日
0061
【零基础玩转BLDC系列】基于反电动势过零检测法的无刷直流电机控制原理

无刷直流电动机基本转动原理请参考《基于HALL传感器的无刷直流电机控制原理》，基本原理及基础知识本篇不再赘述。目录反电势过零检测法的原理反电势过零检测实现方法位置传感器的存…

人工智能 2023年6月23日
00104
【目标检测】雷达目标CFAR检测算法

目录一、概述 * 1、基本概念 2、基础知识二、CFAR检测算法 * 1、基本原理 2、几种典型的CFAR检测算法 – （1）CA(Cell Averaging)-…

人工智能 2023年6月17日
0068
1、缺失值处理：暴力删除、直接转换、简单插补法

在生成、采集、计算过程中被遗漏的数据信息，被称为缺失值；并不是表现为缺失状态的值就一定是缺失值，需要根据简单业务逻辑推断。在对缺失数据进行处理前，了解数据缺失的类型十分必要。完…

人工智能 2023年7月14日
0051
图神经网络学习(一)-GCN及其应用

内容提要：GCN背景简介+torch_geometric库安装+GCN处理Cora数据集 1.图神经网络 1.1 概念原有的卷积神经网络主要用来解决欧式空间中的数据（数据规整，…

人工智能 2023年7月21日
0046
Python读取.xlsx指定行列

本文以Python3.9.1读取data.xlsx中包含的西瓜数据集3.0数据为例，数据集如下：编号色泽根蒂敲声纹理脐部触感密度含糖率好瓜1青绿蜷缩浊响清晰凹陷硬滑0.6970….

人工智能 2023年7月14日
0065
[报错]RuntimeError: expected scalar type Double but found Float(torch)

RuntimeError: expected scalar type Double but found Float 在使用torch训练模型的时候，发现该问题。根据提示，是双精度和…

人工智能 2023年7月6日
0095
【超简单】利用Python去除图片水印，太神奇了叭，你还不会嘛？（附三种方法）

前言哈喽！我是栗子，今天忙里偷闲给大家更新一下文啦~ 所有文章完整的素材+源码都在👇文末自取哦! 大家是不是经常遇到一些电子版加了一些水印需要去掉才能用的或是需要加一些水印文字的…

人工智能 2023年7月19日
0050
永恒之黑漏洞复现

永痕之黑 1. 永恒之黑漏洞相关信息漏洞介绍 https://nvd.nist.gov/vuln/detail/CVE-2020-0796 漏洞影响版本：Windows 10 V…

人工智能 2023年6月30日
0065
机器学习强基计划1-1：图文详解感知机算法原理+Python实现

目录 0 写在前面 1 什么是线性模型？ 2 感知机概述 3 手推感知机原理 4 Python实现 * 4.1 创建感知机类 4.2 更新权重与偏置 4.3 判断误分类点 4.4 …

人工智能 2023年6月23日
0066
python opencv实现找到图像的轮廓，填充颜色

我想找到图片中的闭合圈，然后填充颜色所需要的cv函数： 1。OpenCV提供的findContours()方法可以通过计算图像梯度来判断出图像的边缘，然后将边缘的点封装成数组返回…

人工智能 2023年5月26日
0058
解决jenkins构建失败，空间不足问题

随着构建次数过多，之后jenkins构建会出现空间不足的问题，解决方式如下：目录 1.配置时，去除旧的构建任务 2.使用脚本，删除历史构建 3.清理磁盘空间 4.重新加载服务器节…

人工智能 2023年7月31日
0041
数据分析之T检验

1、定义： t检验，亦称student t检验（Student’s t test），主要用于样本含量较小（例如n < 30），总体标准差σ未知的正态分布。 t检验…

人工智能 2023年6月11日
0067
头歌平台-机器学习-4.朴素贝叶斯分类器

EduCoder：机器学习—朴素贝叶斯分类器第1关：条件概率 ; 第2关：贝叶斯公式第3关：朴素贝叶斯分类算法流程编程要求：根据提示，完成fit与predict函数，分别实现…

人工智能 2023年7月5日
0061
张量在神经网络算法中的角色是什么

引言在神经网络算法中，张量（tensor）起着非常重要的作用。它是表示多维数据的方式，可以存储和处理神经网络中的各种数据，并传递给下一层的神经元。本文将详细介绍张量在神经网络算法…

人工智能 2024年1月1日
0037

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30