【pandas一篇就够了】

2023年7月7日下午8:51 • 人工智能 • 阅读 74

python系列之pandas

案例知识点
DataFrame的属性
pandas赋值操作
pandas排序操作
pandas运算
高级处理
pandas画图

案例知识点

import numpy as np
import pandas as pd
stock_change = np.random.normal(0, 1, (10, 5))## 创建ndarray数据
data = pd.DataFrame(stock_change)
data = pd.DataFrame({“a”: [], “b”: []}) # 新的一种创建方法
data.shape # 获取DataFrame的行数列数
stock_code = [“股票{}”.format(i+1) for i in range(data.shape[0])] # 生成股票行索引
date = pd.date_range(“2022-01-01”, periods=data.shape[1], freq=’B’) # 生成一个时间序列作为列索引, date_range(start, end, periods, freq)–(开始，结束，天数，递进单位-默认是1，B为略过周末)
print(pd.DataFrame(stock_change, index=stock_code, columns=date)) # 设置行索引、和列索引

DataFrame的属性

data.shape # 行列元组
data.index # 行索引列表
data.colums # 列索引列表
data.values # 值矩阵
data.T # 转置
data.head() # 看前几行，默认前5行，head(参数)，参数决定看几行
data.tail() # 看后几行，默认后5行，tail(参数)，参数决定看几行
data.index = [] # 改变DataFrame的索引
data.index[3] # 获取指定下标索引名称
data.reset_index() # drop参数，True为删除原来的索引，重新设置新的索引，False为相反。
data.set_index(keys=[], drop=True) # keys为索引列表，可以设置多个列为索引列，drop同上
data.set_index(“索引名”) # 第二种方法

“””pandas基本操作”””
data = pd.read_hdf(“”, key=””) # hdf5文件，可以在hadoop里使用
data.to_hdf(“”, key=””)
data = pd.read_csv(“”, usecols=[],) # 还包括read_json, read_excel等, usercols添加需要用到的列
data = pd.read_json(“”, orient=) # orient按什么方式读取文件 to_json也有这个参数
data.to_csv(“”, columns=[], index=False) # 还包括to_json, to_html等, coluns添加导入的列, index是否需要索引
data.drop([], axis=1) # 删除不必要的列
data[“列”][“行”] # 获取元素，规则是先列后行
data.loc[“行1″:”行2”, “列名”] # loc可以先行后列
data.iloc[:2, :5].head() # 取2行5列
data.columns.get_indexer([“列1”, “列2”]) # 获取列下标索引
data.index.get_indexer([“列1”, “列2”]) # 获取列下标索引
data.iloc[0] #取第一行的数据
data.loc[:,[‘A’]] #取’A’列所有行，多取几列格式为 data.loc[:,[‘A’,’B’]]
data.iloc[:,[0]] #取第0列所有行，多取几列格式为 data.iloc[:,[0,1]]
data.loc[[‘a’,’b’],[‘A’,’B’]] #提取index为’a’,’b’,列名为’A’,’B’中的数据
data.iloc[[0,1],[0,1]] #提取第0、1行，第0、1列中的数据
data.loc[:,:] #取A,B,C,D列的所有行
data.iloc[:,:] #取第0,1,2,3列的所有行
data.loc[data[‘A’]==0] #提取data数据(筛选条件: A列中数字为0所在的行数据)
data.iloc[‘a’] # 取索引为’a’的行

pandas赋值操作

data[“列名”] = 1
data.列名 = 1

pandas排序操作

data.sort_values(by=, ascending=) # by=”列索引名”, by=[“列1″,”列2”], ascending=False降序，True为升序
data.sort_index() # 默认按索引升序排序，也有by和ascending等参数
data[“列名”].sort_values() # series 也可以使用上面这两种方法

pandas运算

data[“列名”].add(10) # 加法运算, div是除法，
data[“列名”]+10 # 加法运算
data[“新列名”] = data[“列名”].sub(data[“列名”]) # 减法操作,两列数据相减生成一个新的列
data[“列名”]>2 # 逻辑运算，判断某列数据是否大于2
data[data[“列名”]>2] # 判断的结果作为筛选的依据
data[(data[“列名”]>2)&(data[‘列名2’]>15)] # 多个条件作为筛选依据, 逻辑运算符：|&><
data.query(“列名1>2 & 列名2>15”) # 多个条件作为筛选依据, 和上面一样的效果
data[data[“列名”].isin([23,24])] # 判断某列是否包括23和24的数据，并依据筛选
data.describe() # 统计运算，显示多少行，平均值，标准差，最大最小值，四分位数
data.sum() # 求和, axis按行或按列求和
data.mean() # 平均数
data.median() # 中位数
data.min() # 最小值， max()最大值
data.mode() # 众数，出现次数最大的数
data.abs() # 绝对数
data.prod() # 乘积
data.var() # 方差
data.std() # 标准差
data.idmax() # 最大值索引
data.idmin() # 最小值索引
data.cumsum() # 计算前几个数的和
data.cumax() # 计算前几个数的最大值
data.cummin() # 计算前几个数的最小值
data.cumprod() # 计算前几个数的乘积

data[[“列名”]] # 一个括号获取的是series，两个中括号就是一个DataFrame
data[[“列名1”, “列2”]].apply(lambda x: x.max()-x.min(), axis=0) # 按行求最大值-最小值，匿名函数，可以自己写函数。, apply(自已定义函数，axis)

高级处理

np.NaN # 是一个空值，type(np.NaN)的类型是float
pd.isnull(data) # 如果是缺失值，返回True
np.any(pd.isnull(data)) # 配合np使用
pd.notnull(data) # 和isnull相反
data.dropna() # 删除缺失值
data[“列名”].fillna(value=1, inplace=True) # 替换空值，inplace是否修原数据
data.fillna() # 也是一样的
data[“列名”].unique() # 获取某列去重数据
data.replace(to_replace=””, value=) # 替换前的值，替换后的值
pd.concat([data1, data2], axis=1) #按行或按列合并
pd.merge(data1, data2, on=[“列1”, “列2″],how=”inner/outer/left/right”) # merge合并的另一个函数，on指定键
data.astype(np.float) # 数据类型转换
pd.crosstab(data[“列1”], data[“列2”]) # 把列2里面数据，按列2标识分类统计个数。
data.pivot_table([“列2″], index=”列1”) # 列2按列1标识，计算机百分占比
data.groupby([“列1”])[“列2”].mean() # 分组聚合求平均值
data.groupby([“列1”, “列2”]).mean() # 多个列分组聚合

; pandas画图

data.plot() # pandas 画图，回车第一次是个对象，再一次就出图像了，如果需要一次性出来，需要导入matplotlib, plt.show()

Original: https://blog.csdn.net/Wzanzan/article/details/126322502
Author: Wzanzan
Title: 【pandas一篇就够了】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677056/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析之方差分析(ANOVA)

1、定义方差分析是检验多个总体的均值是否相等来判断分类型自变量对数值型因变量是否有影响。名字是方差分析，其实主要是比较总体的均值，在判断均值是否有差异时要借助方差。它的优点是…

人工智能 2023年7月18日
00140
数据分析day5之pandas

数据合并之join join:默认情况下他是把行索引相同的数据合并到一起数据合并之merge merge:按照指定的列把数据按照一定的方式合并到一起分组和聚合在pandas …

人工智能 2023年7月6日
0079
C# 11 预览版

此预览版中的新功能遵循 C# 11 的三个投资主题：开发人员生产力：我们添加了更多语言功能以提高您的工作效率。新的扩展特性： nameof required成员允许您编写需要c…

人工智能 2023年6月18日
0055
Precision（准确率）和Recall（召回率）介绍

为什么我们需要Precision(准确率)和Recall(召回率)？首先我们仅仅只看loss的话，会出现什么问题。举个例子：比如对于一个二分类的模型，我们通过训练得到最终los…

人工智能 2023年7月27日
0054
K-Means(K均值聚类)原理及代码实现

机器学习没有免费午餐定理和三大机器学习任务如何对模型进行评估K-Means(K均值聚类)原理及代码实现KNN(K最近邻算法)原理及代码实现KMeans和KNN的联合演习文章目录…

人工智能 2023年6月15日
00158
一文详解python中的数据库操作

python中的数据库操作 * – 一、数据库编程接口 – + 1. 连接对象 – 二、使用内置的SQLite – + 1.创建数据…

人工智能 2023年7月5日
0066
windows anaconda+cuda11.6+pytorch1.12.1踩坑记录

本人踩坑流程本人自身是之前就安装过anaconda的，所以我直接去安装cuda并下载了最新版本11.7，然后去下载pytorch的时候才发现最新的pytorch并不兼容cuda的…

人工智能 2023年7月21日
0051
Bert句嵌入模块sentence-transformers实战入门

环境：python 3.6>=，pytorch 1.6.0>=，transformers v4.6.0>=。不支持 python 2.7 transformers…

人工智能 2023年5月27日
0057
怎么合成音乐_Arduino 语音交互 TTS语音合成（一）

大家好。我是兔子。嵌入式工程师。 [En] Hello, everyone. I’m Rabbit. Embedded engineer. 专业角度带你玩转Arduin…

人工智能 2023年5月27日
0064
MacOS OpenCV 4.5.5 开发环境搭建图文教程Python+VSCODE（超详细）

文章目录 * – OpenCV概述 – 开发环境搭建 – + Python安装 + VSCODE安装 + OpenCV开发工具安装 OpenCV…

人工智能 2023年7月19日
0040
Python 斑点检测 SimpleBlobDetector

OpenCV 常用函数斑点检测 SimpleBlobDetector_create 定义斑点是指二维图像中和周围颜色有颜色差异和灰度差异的区域,因为斑点代表的是一个区域,所以其…

人工智能 2023年7月18日
0049
python处理dataframe数据_python dataframe操作大全数据预处理过程(dataframe、md5)

hive表的特征选择，不同表之间的join 训练数据、测试数据的分开保存使用pandas进行数据处理显示所有列：pd.set_option(‘display.max_…

人工智能 2023年7月9日
0078
K210开发板学习笔记（三）——STM32+K210+SD卡实现人脸识别（完整K210代码）

时间：2021年4月5日地点：在学校 (永不放弃)更新日记：2022年4月26日更新了串口通信部分的内容，本文写的略为粗糙，恐有不当之处，希望大家不吝赐教。人脸识别一、 Mai…

人工智能 2023年6月13日
0062
知识抽取实现方案——实体抽取

参考地址：知识抽取-实体及关系抽取 – 知乎目录摘要：实体抽取：标准实现流程（用机器学习方法）编码方式深度学习方法评价指标实体链接摘要：知识抽取涉及…

人工智能 2023年6月1日
0078
Pandas（数据分析处理库）—讲解

本内容来自《跟&#…

人工智能 2023年6月19日
0070
Arduino从零开始(0)——介绍与点亮LED

0.前言 Arduino大致由两个要素构成。硬件，Arduino控制板，如Arduino Uno，Arduino Mega2560等这些；软件，Arduino IDE开发环境，通过…

人工智能 2023年6月28日
0076

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【pandas一篇就够了】

python系列之pandas

大家都在看