【笔记】【深入浅出pandas】第一章

2023年7月7日上午7:00 • 人工智能 • 阅读 55

1.3 快速入门

（一）安装导入

终端安装，执行命令：

pip install pandas matplotlib

安装后，启动Jupyter Notebook，导入pandas

#导入，起别名pd
import pandas as pd

（二）准备数据集

数据集（dataset)，相当于excel表格
参考数据集可从https://www.gairuo.com/file/data/dataset/team.xlsx下载

（三）读取数据

读取数据到pandas里，变量名为df（DataFrame缩写，pandas二维数据基础结构）

df=pd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx')
#查看数据
df

output:

自动增加了索引（第一列）
从0开始自动隐藏了中间
只显示了前后5条底部有行列数（row column）

其他常用方式：

读取函数一般会赋值给一个变量 df, df = pd.read_()
输出函数是将变量自身进行操作并输出df.to_()

（四）查看数据

#括号内可以写想看的条数
df.head()#前5条
df.tail()#尾部5条
df.sample(5)#随机查看5条

（五）验证数据

#行列数
df.shape

#索引、数据类型、内存信息
df.info()

#数值类型汇总统计
df.describe()

#各字段类型
df.dtypes

#行列名
df.axes

#列名
df.columns

（六）建立索引

把 name 列变成索引

df.set_index("name",inplace=True) #建立索引并生效

inplace=True使设置的索引生效
没有修改原来的excel，处理的是df变量
OUT:

（七）数据选取

一、选择列
1、查看单列

#查看指定列Q1
df['Q1']
#如果符合变量名要求，可以使用
df.Q1

OUT:

返回的是Series类型的数据（即带索引的数列）

2、查看多列

#注意括号
df[['team','Q1']]

#使用df.loc[x,y]
df.loc[:,['team','Q1']]

df.loc[x,y]是数据选择函数，x是列，y是行，都可以采用条件表达式，可用切片
用自然索引需要用df.iloc[]

二、选择行

1、用制定索引选取

df[df.index=='Liver']

2、用自然索引，类似切片

#前三个
df[0:3]

#前十个每两个选一个
df[0:10:2]

#前十个
df.iloc[:10,:]

三、选择行列

同时指定行列范围

df.loc['Ben','Q1':'Q4']

df.loc['Eorge':'Alexander','team':'Q4']

四、条件选择

1、单一条件

df[df.Q1 > 90]
df[df.team == 'C']
df[df.index == 'Oscar']

2、组合条件

#and &
df[(df['Q1'] > 90) & (df['team'] == 'C')]

#多重筛选
df[df['team'] == 'C'].loc[df.Q1>90]

（八）排序

#升序
df.sort_values(by='Q1')

#降序
df.sort_values(by='Q1', ascending=False)

#team升序，Q1降序
df.sort_values(['team', 'Q1'], ascending=[True, False])

（九）分组聚合

类似SQL的groupby的数据透视功能：

1、分组后对应列相加

df.groupby('team').sum() # 按团队分组对应列相加

2、分组后求平均

df.groupby('team').mean() # 按团队分组对应列求平均

3、不同列不同计算

df.groupby('team').agg({'Q1': sum,
                        'Q2': 'count',
                        'Q3':'mean',
                        'Q4': max})

（十）数据转换

进行转置，按照轴对称翻转

df.groupby('team').sum().T

对聚合后的数据转置:

df.groupby('team').sum().stack()

out:

df.groupby('team').sum().unstack()

out:

（十一）增加列

#增加一个固定值的列
df['one'] = 1

#增加总成绩列，指定一些列相加增加一个新列
df['total'] = df.Q1 + df.Q2 + df.Q3 + df.Q4

#把计算的结果复制给新的列
df['total'] = df.loc[:,'Q1':'Q4'].apply(lambda x:sum(x), axis=1)
可以把所有为数字的列相加
df['total'] = df.sum(axis=1)
增加平均成绩列
df['avg'] = df.total/4

（十二）统计分析

df.mean() # 返回所有列的均值
df.mean(1) # 返回所有行的均值，下同
df.corr() # 返回列与列之间的相关系数
df.count() # 返回每一列中的非空值的个数
df.max() # 返回每一列的最大值
df.min() # 返回每一列的最小值
df.median() # 返回每一列的中位数
df.std() # 返回每一列的标准差
df.var() # 方差
s.mode() # 众数

（十三）绘图

使用matplotlib画图

df['Q1'].plot() # Q1 成绩的折线分布
df.loc['Ben','Q1':'Q4'].plot() # ben 四个季度的成绩变化
df.loc[ 'Ben','Q1':'Q4'].plot.bar() # 柱状图
df.loc[ 'Ben','Q1':'Q4'].plot.barh() # 横向柱状图
df.groupby('team').sum().T.plot() # 各 Team 四个季度总成绩趋势
df.groupby('team').count().Q1.plot.pie() # 各组人数对比

（十四）导出

导出文件在notebook文件的同一目录下

df.to_excel('team-done.xlsx') # 导出 excel
df.to_csv('team-done.csv') # 导出 csv

（十五）小结

Original: https://blog.csdn.net/qq_47809408/article/details/124515231
Author: ‘VeNus
Title: 【笔记】【深入浅出pandas】第一章

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675719/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python进行.tif格式数据波段组合；多波段tif数据波段分离

Python进行.tif格式数据波段组合;多波段tif数据波段分离 .tif格式数据波段组合多波段.tif数据波段分离阔别已久，我又来了；啊啊啊…… 读…

人工智能 2023年6月18日
0066
pytorch 写模型 tensor 常用的操作

某个维度上做扩张自身重复 tensor 定义数据类型避免模型训练出错增加一个1维度.unsqueeze(0) 删除一个1维度squeeze(0) tensor 拼接 cat …

人工智能 2023年7月23日
0087
基于yolov5的Android版本目标检测app开发（部署安卓手机）

基于yolov5的Android版本目标检测app开发（部署安卓手机） 0、项目开发需求（1）开发app部署到安卓手机（2）支持VOC数据集上所有的目标检测1、开发环境搭建wind…

人工智能 2023年6月17日
0076
SPARQL中常见的关键字含义(PREFIX,FILTER,OPTIONAL等)

SPARQL 是一种查询语言，作用于RDF型的数据库,与 SQL 比较相似。RDF的英语全称为Resource Description Framework，中文名称为资源描述框架。…

人工智能 2023年6月1日
0097
CM-BERT: Cross-Modal BERT for Text-Audio Sentiment Analysis–文献笔记和翻译

一篇来自 ACM MM2020年关于跨模态-bert模型的文献 ACM MM:ACM Multimedia Conference 领域顶级国际会议，全文的录取率极低，但Poster…

人工智能 2023年5月30日
0078
鞍山紫光智能机器人_中译语通“全球翻译机器人”研究院落地紫光海阔昆明紫光芯云产业园…

近日，昆明公司和中译语通正式达成合作，”全球翻译机器人”研究院落地紫光海阔昆明紫光芯云产业园，打造新一代的自然语言处理和语义大数据平台的信息产业集群，同时…

人工智能 2023年6月1日
0076
VMware导入vmdk格式的文件踩了一堆坑~~~

嗨喽! 大家好，我是”流水不争先，争得滔滔不绝”的翀，18双非本科生一枚，正在努力！欢迎大家来交流学习，一起学习数据分析，希望我们一起好好学习，天天向上，目…

人工智能 2023年6月19日
00285
机器学习—降维-特征选择6-6（局部线性嵌入法/流形降维）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0056
知识图谱学习（一） py2neo

文章目录一、python 与neo4j 数据库交互 * 1.创建图对象 2.创建数据对象 – Relationship query + 匹配所有节点匹配符合指定条件…

人工智能 2023年6月1日
0093
VSCode使用SSH免密登录远程主机

对于远程开发而言，目前最好的IDE是VSCode。可使用SSH时，不仅每次连接远程服务器都要属于一次密码，关键是每次打开一个新目录都要输入密码。过于繁琐的操作，直接影响心情。这里…

人工智能 2023年6月27日
0039
（八）学习笔记：动手深度学习（Softmax 回归 + 损失函数 + 图片分类数据集）

目录 1.softmax回归的理论部分 * 1.1 分类问题 1.2 网络架构 1.3 全连接层的参数开销 1.4 softmax运算 1.5 小批量样本的矢量化 1.6 损失函数…

人工智能 2023年6月17日
00125
当使用梯度下降时，确定学习率的选择非常重要。过大或者过小的学习率都可能导致模型性能下降

1. 问题介绍在机器学习中，使用梯度下降进行模型训练是一种常见的优化方法。学习率是梯度下降的一个重要超参数，它决定了每次更新模型参数时的步长。选择合适的学习率非常重要，过大或过小…

人工智能 2023年12月31日
0048
python之OCR文字识别

将图片翻译成文字一般被称为光学文字识别（Optical Character Recognition，OCR）。可以实现OCR 的底层库并不多，目前很多库都是使用共同的几个底层OCR…

人工智能 2023年6月16日
0069
数据可视化高阶技巧——以哈伯曼癌症生存数据为例

什么是数据可视化？ “一千个读者就有一千个哈姆雷特。”这句话套在数据分析也是一样的，不同的人他对于数据的理解也是不同的。数据可视化可以帮助我们以更简单的方…

人工智能 2023年7月18日
0064
闫啸的发明和发现20220901

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月13日
0076
机器人流程自动化评估体系全面助力垂直行业智能化转型

2022年初，国务院印发了《”十四五”数字经济发展规划》。规划提出，到2025年我国数字经济迈向全面扩展期，数字经济核心产业增加值占GDP比重达到10%。随…

人工智能 2023年6月4日
00125

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31