数据分析之python数据计算方法汇总(math|numpy|pandas)

2023年7月15日下午11:38 • 人工智能 • 阅读 53

数据分析之python数据计算方法上篇(math|numpy)_Backup and share的博客-CSDN博客

本文重点介绍pandas，math和numpy参见上篇>

DataFrame将指定列创建为索引/还原索引

1-将表格型文件数据读取为DataFrame对象

2-将DataFrame对象写入文件

一、简介与创建

Pandas 是 python 的一个 数据分析包 ，属于PyData项目的一部分。主要数据结构是 Series （一维数据）与 DataFrame（二维数据）

Series是一种类似于一维数组的对象，包含一列数据及与其关联的一列数据标签，数据标签即为数据的序列。

DataFrame 是一个表格化的数据结构，它同时拥有行序号与列序号。

Series 构造方法：pandas.Series( data, index, name, dtype, copy)

DataFrame 构造方法：pandas.DataFrame( data, index, columns, dtype, copy)

创建一个 Series

import pandas as pd

s1 = pd.Series([1,3,5,7,6,8])

创建一个 Series，指定索引和列名

import pandas as pd

s2 = pd.Series([1,3,5,7,6,8], index=[‘a’, ‘b’, ‘c’ ,’d’, ‘e’, ‘f’], name=’col’)

创建一个 DataFrame

import pandas as pd

df1 = pd.DataFrame([[1, 2], [3, 4]])

df1

创建一个 DataFrame，指定列名

data=[[1,2,3,4,5],[6,7,8,9,0]]

df2 = pd.DataFrame (data, columns =[‘col1′,’col2′,’col3′,’col4′,’col5’])

df2

二、基础查询操作

df1.shape #获取行列数 (2, 2)

df1.info() #查看数据信息【列名，记录数，数据类型】

df1.describe() #查看数值数据的情况【计数，平均，标准差，最大，最小，分位数】

df1.head() #返回前5行

df1.head(n) #返回前n行

df1.tail() #返回后5行

df1.colname.value_counts() #查看数据中colname列对应值计数分布

三、索引与切片

Series切片

s1[:4] #显示0-3

s1[4:] #显示4-end

s1[4:6] #显示4-5

s1[:] #显示begin-end

s1 #显示begin-end

DataFrame创建行索引并指定列名

df1.index = [‘row1’, ‘row2’] #创建行索引

df1.columns = [‘col1’, ‘col2’] #列重命名

DataFrame获取行数据

标签索引方式：

df1[ df1.index == ‘row2’] # 获取索引等于row2的行

df1. loc[‘row1’] #获取行索引row1对应的行，返回series

df1.loc[[‘row1’, ‘row2’]] #获取两行数据，返回dataframe

位置索引方式：

df1[i:j] #获取位置索引[i,j)范围内的行

df1. iloc[i] #获取第i行数据，返回series

df1.iloc[[i, j]] #获取第i行,j行数据，返回dataframe

DataFrame获取列数据

df1[‘col1’] #选取col1列数据

df1.col1 #选取col1列数据

df1[[‘col1′,’col2’]] #获取多列数据

DataFrame获取多行多列数据

data = [[1,2,3,4,5], [11,22,33,44,55], [111,222,333,444,555], [1111,2222,3333,4444,5555]]

df4 = pd.DataFrame(data, index=[‘row1’, ‘row2’, ‘row3’, ‘row4’], columns=[‘col1’, ‘col2’, ‘col3’, ‘col4’, ‘col5’])

df4[‘col1’][‘row2’] #先列后行

df4[‘col1’][0:2] #获取col1的前两行

df4.loc[‘row1’, ‘col2’] #借助loc、iloc，先行后列

df4.loc[[‘row1′,’row3’],[‘col1′,’col3’]] # loc获取多行多列

df4.iloc[0, 1] #借助loc、iloc，先行后列

df4.iloc[1:3, 3:5] #iloc获取多行多列

注： df.loc[x, y] 是一个非常强大的数据选择函数，其中 x代表行，y代表列 ， 行和列都支持条件表达式 ，也支持类似列表那样的切片（如果要用位置索引，需要用 df.iloc[] ）

DataFrame将指定列创建为索引/还原索引

df5 = df4. set_index(‘col5’) #将col5设置为索引，并赋值给df5。 df4不变

df5

df4. set_index(‘col5’, inplace=True) #将col5设置为索引并在df4上生效

df4

df4_new = df4. reset_index() #还原索引，并赋值给df4_new。 df4不变

df4_new

四、排序、分组、合并

按索引排序

df4. sort_index() #对行索引进行字典排序，默认升序【Series同】

df4.sort_index(ascending=False) #对行索引进行字典排序，降序

df4.sort_index(axis=1, ascending=False) #对列索引进行字典排序，降序

axis=0 匹配DataFrame的行索引，默认

axis=1 匹配DataFrame的列索引

按值排序

df4. sort_values(by = ‘col1’, ascending=False) # 对列col1进行降序

df4.sort_values(by = [‘col1’, ‘col2’]) # 对列col1、col2进行升序排序

df4.sort_values(by = [‘col1’, ‘col2’], ascending = [True, False]) # 对列col1、col2分别升序和降序

groupby分组

df4.groupby(‘col4’).sum() #分组求和

df4.groupby(‘col4’).mean() #分组求均值

df4. groupby(‘col4’). apply(def1) #分组并应用def1函数处理

merge合并

pd.merge (df1, df2, on=’key’, how=’outer’) #merge合并DateFrame，默认做”inner”连接，还有left,right,outer(取并)

import numpy as np

import pandas as pd

data1 = np.arange(12).reshape(3,4)

data2 = np.arange(4).reshape(2,2)

df1 = pd.DataFrame(data1, columns=[‘col1’, ‘col2’, ‘col3’, ‘col4’])

df2 = pd.DataFrame(data2, columns=[‘col1’, ‘col2’])

pd.merge(df1, df2, on=’col1′) # col1内连接

pd.merge(df1, df2, on=’col1′, how=’left’) # col1左连接

pd.merge(df1, df2, left_on=’col3′, right_on=’col1′, how=’left’) # df1 col3左连接 df2 col1

concat合并

pd.concat([df1, df2], sort=True) #默认行合并，sort对列名称排序

pd.concat([df1, df2], axis=1) #列合并

pd.concat([df1, df2], axis=1, join=’inner’) #列合并,合并索引相同行，join参数默认outer

x = pd.concat([df1,df2,df3,df4,df5],axis=1) #合并多个数据集

append合并

df1. append(df2,sort=True) # pd.concat([df1, df2], sort=True)结果相同

join合并

df1. join (df2, on=’col1′, how=’left’) #右表的索引和左表的on字段关联

五、数值运算、数据清洗

基础统计

df1.count() #计数

df1. sum() #求和

df1.min() #最小值

df1.max() #最大值

df1. mean() #平均值

df1.median() #中位数

df1.quantile(q=0.9) #9分位

df1.std() #标准差

df1.var() #方差

累计统计

df1[‘col1_total’]=df1[‘col1’]. cumsum() #增加列，对col1累加

df1[‘col2_prod’]=df1[‘col2’].cumprod() #增加列col2_prod，对col2累积

数据清洗

df2.col1. drop_duplicates() #取出col1列，删除重复值

df2.col1.isnull() #是否缺失

df2.col1. dropna() #删除缺失值

df2.col1.fillna(0) #缺失值填充，ffill()前向填充，bfill()后向填充

df2.col1.astype(float) #类型转换

df3 = df2. drop([‘col3’, ‘col4’], axis=1) #去除无关列数据

df[‘just_date’] = df[‘dates’] .dt.date #时间只保留日期部分

data=data.replace(to_replace=’?’,value=np.nan) #将缺失值替换成NAN,(原始数据集缺失值用的是问号)

六、文件读写

1-将表格型文件数据读取为DataFrame对象

import pandas as pd

pd.read_csv(‘./data.txt’) #默认分隔符为逗号; #默认第一行为列名

pd.read_csv(‘./data.csv’, names=[‘col1’, ‘col2’]) #names指定列名

pd.read_table(‘./data.csv’, sep=’,’) #默认分隔符为制表符(“\t”);sep指定分隔符

pd.read_excel(‘./data.xlsx’, sheet_name=”sheet1″)

2-将DataFrame对象写入文件

df.to_csv(‘outfile.csv’)

df.to_excel(‘outfile.xlsx’, index=False) #index指定无索引

参考：
百度安全验证一文搞定Pandas中的数据合并_尤尔小屋的猫的博客-CSDN博客_pandas 合并 pandas报错：columns overlap but no suffix specified_兔帮大人的博客-CSDN博客 Pandas：数值计算基本方法 – 百度文库超全的 100 个 Pandas 函数汇总，建议收藏_Python小二的博客-CSDN博客

Original: https://blog.csdn.net/ISIS7Protessional/article/details/124755883
Author: Backup and share
Title: 数据分析之python数据计算方法汇总(math|numpy|pandas)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/695281/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

win10下pytorch转ncnn手把手教程

前言最近需要把pytorch转为onnx再转为ncnn，整体流程大概为：1、pytorch转为onnx；2、使用onnx-simplifier工具简化onnx模型；3、onnx转…

人工智能 2023年7月24日
0061
PCA及其实战学习

知识学习整体思想就是根据重要特征（为主）附加其他特征（为辅）生成新的维度的特征 ; 代码实战学习视频链接：b站传送门这里使用了来自视频教程的数据集：github传送门数据集下载…

人工智能 2023年7月7日
0071
河流概化技巧方法介绍

河流概化技巧方法介绍由于工作需要，博主大概在2020年的时候开始接触一些水模型（efdc、delft3D），令人头疼的就是概化河流耗时太久，于是，在经过三、四个工程的洗礼之后，逐…

人工智能 2023年6月26日
0041
R语言中三线表是什么？使用table1包绘制（生成）三线表实战

R语言中三线表是什么？使用table1包绘制（生成）三线表实战目录 R语言中三线表是什么？使用table1包绘制（生成）三线表实战 Original: https://blog….

人工智能 2023年6月19日
0073
什么是知识图谱？

目录前言 1.什么是知识图谱 2.知识图谱的通用表示方式 3.知识图谱的应用 3.1搜索 3.2问答 3.3辅助大数据分析 4.知识图谱的构建 4.1流程概述 4.2知识抽取 4…

人工智能 2023年5月31日
0071
目标检测回归损失函数总结

目标检测的预测框回归损失函数由Classificition Loss和Bounding Box Regeression Loss两部分构成，本文介绍Bounding Box Reg…

人工智能 2023年6月18日
00101
基于keras采用LSTM实现多标签文本分类（一）

多标签和多分类的区别 1.多标签即一条语句可能有多个类别划分。例如，这个酸菜鱼又酸又辣。属于酸和辣两个标签。在采用神经网络学习时，最后一层的激活函数应采用 sigmoid_激活函数…

人工智能 2023年6月30日
0083
比较pytorch与keras训练模型的不同并且在Pytorch中使用一维卷积神经网络对一维连续数据分类

卷积神经网络对于周期性的一维信号分类效果是比较好的，本人做电机故障检测，需要对不同故障的轴承振动信号进行分类。之前都是用keras搭建神经网络，确实很方便，使用fit（）函数训练…

人工智能 2023年7月21日
0081
SURF网格化特征点提取算法流程(一)

SURF网格化特征点提取算法流程（一）相关：SURF网格化特征点提取的算法流程(二)SURF网格化特征点提取的算法流程(三) SURF网格化算法主要包括下面三个阶段: 第一部分:…

人工智能 2023年7月19日
0065
python学习数据分析模块pandas

目录生成一维数组生成DataFrame 二维数据查看查看二维数据的索引、列名和数据查看数据的统计信息二维数据转置排序数据选择所有求和等于特定值的行数据修改对行求…

人工智能 2023年7月9日
0062
《机器学习-吴恩达》课程笔记week4

Motivations Non-linear hypotheses 在之前的线性拟合和逻辑拟合的基础上，当n的规模变得很大，计算问题的代价将会变得很大，并且此时问题会过于复杂，很可…

人工智能 2023年7月14日
0070
相机标定（六）—— 张正友标定法

相机标定一、相机标定的目的 * 1. 相机的成像过程 2. 相机标定的目的 3. 畸变与畸变矫正二、张正友标定法简介三、标定相机内外参 * 1. 求解内参和外参的积 2. 求…

人工智能 2023年5月26日
0065
OpenCV——计算图像均值和标准方差

图像的均值表示图像整体的亮暗程度，图像的均值越大图像整体越亮。标准方差表示图像中明暗变化的对比程度，标准差越大表示图像中明暗变化越明显。计算图像每个通道的均值 Scalar m…

人工智能 2023年7月20日
0084
No module named ‘cupy‘, cupy 安装出错

没有安装cupy modle 注意：安装cupy时要根据自己的cuda版本选择cupy 例如我电脑上是cuda11.3就输入 pip install cupy-cuda113 如果…

人工智能 2023年7月23日
0092
KNN算法详解并自主构建kd树及sklearn简单实现

k-近邻算法（KNN）一、简介 1、定义核心思想：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。（近朱者赤，…

人工智能 2023年7月2日
0052
超级简单基于nodejs电商管理系统的设计与实现.zip(论文+源码+ppt文档+视频录制)

相关资料下载地址：请点击下载》》》该商城平台整体上实现了商品管理模块、订单交易模块,购物车模块、商品列表股那里模块、用户模块模块。在这些功能模块独立运行和相互配合下形成了一个电商…

人工智能 2023年7月30日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析之python数据计算方法汇总(math|numpy|pandas)

一、简介与创建

创建一个 Series

创建一个 Series，指定索引和列名

创建一个 DataFrame

创建一个 DataFrame，指定列名

二、基础查询操作

三、索引与切片

Series切片

DataFrame创建行索引并指定列名

DataFrame获取行数据

DataFrame获取列数据

DataFrame获取多行多列数据

DataFrame将指定列创建为索引/还原索引

四、排序、分组、合并

按索引排序

按值排序

groupby分组

merge合并

concat合并

append合并

join合并

五、数值运算、数据清洗

基础统计

累计统计

数据清洗

六、文件读写

1-将表格型文件数据读取为DataFrame对象

2-将DataFrame对象写入文件

大家都在看