【Pandas】Python数据分析活用Pandas库学习笔记（一）

2023年7月7日下午12:50 • 人工智能 • 阅读 79

Python数据分析活用Pandas库学习笔记

引言
第1章 Pandas DataFrame 基础知识
第2章 Pandas数据结构
*
2.1 Serise
–
- 2.1.1 Serise的属性
- 2.1.2 Serise的方法
2.2 DataFrame
导出数据的方法

引言

Python数据分析活用Pandas库学习笔记，博客中涉及的数据文件，下载下面的连接
数据资料链接：https://www.ituring.com.cn/book/download/37deb472-af30-4444-b791-92f983fe00c9

第1章 Pandas DataFrame 基础知识

"""
2021.02.18
author:alian
"""
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv(r'D:\Python数据分析\Pandas\pandas_for_everyone-master\data\gapminder.tsv',sep='\t')

sub_df = df['country']

sub_set = df[['country','continent','year']]

row1_df = df.loc[0]
rowlast_df = df.tail(n=1)

row0_df = df.iloc[0]
row_df= df.iloc[-1]

group = df.groupby('year')['lifeExp'].mean()
print(group)
group.plot()
plt.show()

第2章 Pandas数据结构

"""
2021.02.18
author:alian
Pandas 数据结构
Series相当于python内置的列表；DataFrame相当于python内置的字典
"""
import pandas as pd
import matplotlib as plt
import random

s = pd.Series(['banada','42'])

scientists = pd.DataFrame({
    'Name':['RosalineFranklin','William Gosset'],
    'Occupation':['Chemist','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':[37,61]
})

scientists1 = pd.DataFrame(
    data={
    'Name':['RosalineFranklin','William Gosset'],
    'Occupation':['Chemist','Statistician'],
    'Born':['1920-07-25','1876-06-13'],
    'Died':['1958-04-16','1937-10-16'],
    'Age':[37,61]
},
index = ['RosalineFranklin','William Gosset'],
columns = ['Occupation','Born','Died','Age'])

row = scientists1.loc['William Gosset']

scientists = pd.read_csv(r'D:\Python数据分析\Pandas\pandas_for_everyone-master\data\scientists.csv')
ages = scientists['Age']

bool_index = [True,True,False,False,True,True,False,True]

born_datatime = pd.to_datetime(scientists['Born'],format='%Y-%m-%d')

random.seed(42)
random.shuffle(scientists['Age'])

scientists['Age'] = scientists['Age'].sample(len(scientists['Age']),random_state=24).reset_index(drop=True)

print(scientists['Age'])

scientists_dropped = scientists.drop(['Age'],axis=1)

2.1 Serise

2.1.1 Serise的属性

Serise属性说明loc使用索引标签取子集iloc使用索引号取子集dtype或dtypesSerise内容的类型TSerise的转置矩阵shape数据维度sizeSerise元素的数量values类似与ndarray的Serise

2.1.2 Serise的方法

Serise方法说明describe获取Serise 的基本统计量，包括数量、均值、最大值、最小值等append连接两个或多个Serisecorr计算与另一个Serise的相关系数cov计算与另一个Serise的协方差describe计算概括统计量*drop_duplicates返回一个不含重复项的Seriseequals判断两个Serise是否有相同元素get_values获取Serise的值，功能和values属性相同hist绘制直方图isin逐个检查Serise中的每个元素是否存在于参数指定的序列中min返回最小值max返回最大值mean返回平均数std返回标准差median返回中位数mode返回众数quantile返回指定位置的四分位数replace用指定值代替Serise中的值sample返回Serise的随机采样值sort_values对值进行排序to_frame把Serise转换为DataFrametranspose返回转置矩阵unique返回由唯一值组成的numpy.ndarray

2.2 DataFrame

获取DataFrame子集的一些方法

方法执行结果df[column_name]单列df[[column1,column2,…]]多列df.loc[row_label]使用行标签（行名）获取数列行df.loc[[label1,label2,…]]使用索引标签获取多行df.iloc[row_number]使用行号获取数据行df.iloc[[row1,row2,…]]使用行号获取多行df[bool]使用布尔值获取行df[[bool1,bool2,…]]使用布尔值获取多行df[start:stop:step]使用切片方法获取数据行

导出数据的方法

导出方法说明to_pickle把数据保存为二进制格式to_csv把数据保存为csv格式to_excel把数据保存为excel格式to_feather将数据储存二进制对象to_clipboard把数据保存到系统剪贴板，方便粘贴to_dense把稀疏对象转换为标准密集形式to_dict把数据转换为标准python字典to_gbq把数据转换为Goolgle BigQuery表to_hdf把数据保存为HDP格式to_msgpack把数据保存为类似JSON的便携二进制格式to_html把数据转换为HTML表to_json把数据转换成JSON字符串to_latex把数据转换成LaTex表格环境to_records把数据转换成记录数组to_string把标准输出以字符串形式显示DataFrameto_sparse把数据转换为SparceDataFrameto_aql把数据保存到SQL数据库to_stata把数据转换成Stata dta文件

Original: https://blog.csdn.net/qq_44703886/article/details/113843040
Author: 摇曳的树
Title: 【Pandas】Python数据分析活用Pandas库学习笔记（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676283/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于MATLAB的图片中文字的提取及识别

基于MATLAB的图片中文字的提取及识别一．引言随着计算机科学的飞速发展，以图像为主的多媒体信息迅速成为重要的信息传递媒介，在图像中，文字信息(如新闻标题等字幕) 包含了丰富的…

人工智能 2023年6月16日
00119
2022亚太C题详细思路

2022年亚太今日已经正式开赛，为了帮助大家更好的选题建模，这里首先对ABC三道题目进行浅要评析，以方便大家更好的择题。同时相关资料也会后续进行补充。预计明日公布各题统计选题人数以…

人工智能 2023年7月31日
0097
人工智能可能会过度干预人类，甚至深度介入人类情感

从实战中，建立更可靠的情感纽带关系，仍然是小冰框架所能提供的重点。李笛以汽车为例——前几年大家所看到的汽车里面的智能座舱的体验基本上是面向司机的，主要以向司机提供服务、帮助司机更好…

人工智能 2023年5月25日
00103
python数据处理—-数据对象常用的属性、方法

读取CSV文件为DataFrame对象使用read_csv()方法读取csv数据成为DataFrame对象： import pandas as pd data = pd.read…

人工智能 2023年7月16日
0075
安川控制器MP3300与C# 上位机通讯

第一步：打开模块定义构成开启控制器服务器端口本站端口：指的是服务器端口; 被呼叫站点IP地址：控制器做服务端设定为0 做客户端填对应的IP; 被呼叫站点：做服务端设定…

人工智能 2023年6月18日
00151
Seaborn绘制箱型图

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文介绍的是如何使用 seaborn 的 boxplot 方法来绘制箱型图，先看看部分图形的绘制效果： …

人工智能 2023年7月5日
00119
生成对抗网络（GAN）详解与实例

GAN介绍理解GAN的直观方法是从博弈论的角度来理解它。GAN由两个参与者组成，即一个生成器和一个判别器，它们都试图击败对方。生成备从分巾中狄取一些随机噪声，并试图从中生成一些类…

人工智能 2023年7月4日
0076
OpenCV-白平衡(完美反射算法)

作者：翟天保Steven版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处实现原理白平衡的意义在于，对在特定光源下拍摄时出现的偏色现象，通过加强对应的…

人工智能 2023年7月19日
0080
【项目实践】海康威视工业相机SDK开发小白版入门教程（VS2015+OpenCV4.5.1）

本文目录前言怎么查找资料？ * 数据手册例程项目开发 * VS版本与OpenCV版本选择 VS配置OpenCV VS添加MVS安装目录下的头文件和库 VS项目开发编程问题…

人工智能 2023年6月18日
00207
datawhale数据分析5——数据可视化数据建模及模型评估

Task05：数据建模及模型评估声明：本文主要参考DataWhale开源学习——动手学数据分析，GitHub地址：https://github.com/datawhalechin…

人工智能 2023年6月11日
00142
2021-12-26 K-means

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
00101
计算机视觉OpenCV-图像直方图

💥💥💥 欢迎来到本博客💥💥💥🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉python网页爬虫、机器学习、计算机视觉（OpenC…

人工智能 2023年7月28日
00108
ubuntu 安装 opencv 【亲测有效】

一：解压修改权限 chmod -R 777 路径二：修改安装源修改成阿里云的安装源三：输入命令更新安装源 apt-get update apt-get upgrade 四…

人工智能 2023年6月18日
00137
智能优化算法：北方苍鹰优化算法-附代码

智能优化算法：北方苍鹰优化算法文章目录智能优化算法：北方苍鹰优化算法 * 1.北方苍鹰优化算法简介 2.北方苍鹰优化算法基本原理 – 2.1灵感来源和北方苍鹰的行为…

人工智能 2023年6月15日
00122
C++学习笔记——opencv2模块（图像处理）

用于计算图像处理的opencv2，只不过这次用的不是python的版本，而是C++的版本。参考书籍：《视觉SLAM十四讲-从理论到实践》——高翔 CMakeLists.txt写法…

人工智能 2023年6月18日
00101
目标检测算法评价指标之mAP

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学…

人工智能 2023年7月12日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31