【Pandas】Pandas基础知识笔记

2023年7月7日下午3:27 • 人工智能 • 阅读 78

1.简介

Pandas是基于numpy写的，让numpy用起来更简单

如果类比列表和字典

numpy就是列表，pandas就是字典

pandas可以给不同的列和行，重新命名

2.学习

2.1 基本介绍

Series

序列

Series的表示为，索引在左边，值在右边

; DataFrame

表格型的数据结构，包括：行索引、列索引

可以指定索引的名称，如果不指定默认为0~N-1

DataFrame可以看成一列列的Series，可以通过 df[‘xxx’] 来访问某一个Series

创建DataFrame时，可以选择指定 index和columns

也可以利用字典来生成DataFrame，字典中的键表示Series的名字

字典方式生成DataFrame

DataFrame的属性和方法

df.dtype
df.index 和 df.columns
df.values
df.describe()
df.T
df.head(num)

df.sort_index(axis,ascending)

df.sort_values(by='xx')

2.2 用Pandas选择数据

1.基本：对列
df['xx']
df.xx

2.切片:对行
df[0:3]
df['xx1':'xx3']

3.标签筛选
df.loc[行筛选条件,列筛选条件]
例如：df.loc['r1':'r3',['c1','c2','c3']]

4.索引数字筛选
df.iloc[行筛选条件,列筛选条件]
例如：df.iloc[[1,3,5],1:3]

5.混合筛选
df.ix[,]

6.布尔筛选
df[df.A > 8]

2.3 用Pandas设置值

过程就是：1）选择数据。 2）赋值。
1.基本
df.iloc[2,2] = 666
df.loc['r2','c2'] = 666
df.B[df.A > 8] = 666

2.批处理
df['c3'] = np.nan

df['new col'] = pd.Serires([datas...],index)

2.4 用Pandas处理丢失数据

df.dropna(axis,how='any|all')

df.fillna(value='xxx')
df.isnull()
np.any(df.isnull()) == True

2.5 用Pandas导入导出数据

pandas可以读写的格式很多：csv、excel、json、html、pickle

官方说明：https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

data = pd.read_csv("xx.csv")
data.to_csv("xx.csv")

2.6 Pandas的concat合并操作

df1 df2 df3

1.concat
res = pd.concat([df1,df2,df3],axis,ignore_index,join='inner|outer',join_axes=[df1.index])

2.append
res = df1.append(df2,ignore_index)
res = df1.append([df2,df3],ignore_index)

s = pd.Series([1,2,3,4],index=['a','b','c','d'])
res = df1.append(s,ignore_index)

2.7 Pandas的merge合并操作

更加复杂的合并

1.merge：基于列名进行合并
res = pd.merge(df1,df2,on='xxx')

res = pd.merge(df1,df2,on=['key1','key2'],how='inner|outer|left|right')

res = pd.merge(df1,df2,indicator=True|'indicator_name')

pd.merge(df1,df2,left_index=True,right_index=True,how='outer|inner')

pd.merge(df1,df2,on,suffixes=['_x1','_x2'],how)

2.8 plot出图

1.Series
data = pd.Series(......)
data.plot()

2.DataFrame
同上

3.散点图
data.plot.scatter(x='xx',y='xx')

ax = data.plot.scatter(x='A',y='B',color='xx',label='Class1')
data.plot.scatter(x='A',y='C',color='xx',label='Class2',ax=ax)

4.其他
bar hist box kde area scatter hexbin

Pandas学习视频和本文章图片来源：https://mofanpy.com/tutorials/data-manipulation/np-pd/

Original: https://blog.csdn.net/qq_41340996/article/details/115312285
Author: KyrieLiu52
Title: 【Pandas】Pandas基础知识笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676533/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

行程编码（RLE）

行程长度编码（Run-Length Encoding，RLE）压缩算法是Windows系统中使用的一种图像文件压缩方法，基本思想是：将一扫描行中颜色值相同的相邻像素用两个字段表示，…

人工智能 2023年7月22日
0052
neo4j安装，jdk安装，环境变量配置

JDK安装：https://www.oracle.com/cn/java/technologies/javase-downloads.html Neo4j安装：https://ne…

人工智能 2023年6月1日
0075
看骰子的六个面需要多少次

看骰子的六个面需要多少次 – 潘登同学的概率论笔记来源前几天在刷视频的时候，发现了这样一道题 ; 解答简化为硬币问题一般做法假设两次就能看到硬币的正反面，那么出现的情况可…

人工智能 2023年6月26日
0084
stm32 mp3软件音频解码案例分析流程（一）

最近，我做了一个无人机的语音播放项目，在网上查看，大部分都是硬件解码。成本比较高，而且为了节约成本。 [En] Recently, I did a voice playback p…

人工智能 2023年5月27日
0066
数据可视化——词云图

本文目的：将爬取的评论数据进行分词，然后使用词云图进行可视化操作。使用到的工具：结巴中文分词、Wordcloud库首先介绍一下两个工具，其中结巴中文分词是一个专门将中文句子进行…

人工智能 2023年5月28日
0096
基于ESP32CAM的物联网相机系统⑧（用原生JavaWeb实现双摄像头WIFI图传）

第一篇：最简单DIY基于ESP32CAM的物联网相机系统①（用网页实现拍照图传）第二篇：最简单DIY基于ESP32CAM的物联网相机系统②（在JAVAWEB服务器实现图片查看器）第…

人工智能 2023年6月20日
0077
KG-BERT for Knowledge Graph Completion 笔记

Abstract 1、采用预训练的语言模型BERT来补全知识图谱 2、将知识图谱中的三元组视为文本序列，并提出新框架KG-BERT 3、方法：用三元组的实体描述和关系描述作为输入，…

人工智能 2023年5月28日
0070
Neo4j 实战篇（一）基于Py2Neo构建电影知识图谱

运行环境 windows11 JDK 8 anaconda3 python 3.9 Neo4j 3.5.32 python jupyter库 py2neo Visual Studi…

人工智能 2023年6月1日
0094
【硬十宝典】——1.1【基础知识】电源的分类

文章目录 1、AC/DC与DC/DC 2、线性电源与开关电源 3、普通电源与特种电源 4、隔离电源与非隔离电源 5、PWM 和PFM 6、电荷泵 7、正激与反激返回目录【…

人工智能 2023年6月30日
0065
多智能体强化学习之MAPPO理论解读

本文主要是结合文章Joint Optimization of Handover Control and Power Allocation Based on Multi-Agent …

人工智能 2023年7月26日
001.7K
模型评价 – 分类模型的常用评价指标

习题答案习题一答案一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档 D) 可独立构成计算机系统 2. 软件工程三要素是(…

人工智能 2023年7月2日
0091
【机器学习】朴素贝叶斯实现垃圾邮件过滤

朴素贝叶斯法概述朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集，首先基于特征条件独立假设学习输入输出的联合概率分布（朴素贝叶斯法这种通过学习得到模型…

人工智能 2023年7月28日
0047
怎么合成音乐_Arduino 语音交互 TTS语音合成（一）

大家好。我是兔子。嵌入式工程师。 [En] Hello, everyone. I’m Rabbit. Embedded engineer. 专业角度带你玩转Arduin…

人工智能 2023年5月27日
0073
知识工程作业2：知识工程相关领域介绍

自然语言处理知识工程是源于专家系统建造而形成的一个研究领域，目前已经成为一个跨学科的综合学科。其主要研究领域有软计算、自然语言处理、逻辑与推理等[1]。本文主要聚焦自然语言处理领…

人工智能 2023年5月28日
0090
【大数据分析与挖掘】KNN模型、朴素贝叶斯模型、SVM支持向量机模型学习笔记

目录 KNN模型 * 核心思想算法步骤度量方法朴素贝叶斯模型 * 优缺点核心假设公式 SVM支持向量机模型 * 核心思想 KNN模型 KNN模型为有监督的学习算法，中文名…

人工智能 2023年7月18日
0088
【NLP】kaggle临床患者病历评分比赛baseline

来源：投稿作者：William编辑：学姐 William 研究生毕业于美国TOP20大学现就职国内某互联网大厂赛题分析+baseline 1、赛题链接 https://www…

人工智能 2023年5月28日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31