数据科学—使用Pandas进行操作数据

2023年8月17日上午3:35 • Python • 阅读 43

| 1.1 Pandas是什么？

Pandas是Python中最受欢迎的数据科学库之一。它使用起来很容易，它是基于 Numpy之上，并共享了许多功能和属性。

使用 Pandas，您可以从文件，转换和分析中读取和提取数据，计算统计数据和相关性！要开始使用 Pandas，我们需要首先导入:

import pandas as pd

Tips ：pd是用于导入 Pandas 的最常用名称。

Pandas 是来自术语”panel data”,数据集的计量术语包括在同一个人的多个时间段内的观察。

| 1.2 Series & DataFrames

Pandas的两个主要组成是 Series和 DataFrame。

一个 Series基本上是一个列，并且 DataFrame是由系列集合组成的多维表。

以下的 DataFrame由两个 Series，年龄和高度组成。

agesheights14165181802417642184

Tips ：事实上你可以将一个 Series 视为一维数组，而 DataFrame 是多维数组。

| 2.1 创建DataFrames

在使用真实数据之前，让我们首先手动创建DataFrame以探索其功能。创建DataFrame的最简单方法是使用字典:

For example:

data = {

    'ages': [14, 18, 24, 42],

    'heights': [165, 180, 176, 184]

Tips ：每个键都是一列，而值表示该列的数据的数组。现在，我们可以将此字典传递给DataFrame构造函数:

df = pd.DataFrame(data)

现在你可以运行以下这段代码去看看结果了。

DataFrame自动为每行创建一个数字索引。我们可以在创建DataFrame时指定自定义索引:

df = pd.DataFrame(data, index=['James', 'Bob', 'Amy', 'Dave'])

现在我们可以使用其索引和loc[]函数功能访问一行:

print(df.loc["Bob"])

Tips ：注意，loc使用方括号 [ ] 指定索引。

| 3.1 索引（indexing）

我们可以通过在方括号中指定其名称来选择单个列:

print(df["ages"])

结果是一个系列对象。如果我们要选择多个列，我们可以指定列名称列表：

print(df[["ages", "heights"]])

这次，结果是DataFrame，因为它包含多个列。

Tips ：当我们需要从数据集中仅选择列的一部分时，这是非常有用的。

| 3.2 切片（slicing）

Pandas使用 iloc函数基于其数字索引选择数据，类似于在python中的切片操作。

For example:

third row

print(df.iloc[2])

first 3 rows

print(df.iloc[:3])

rows 2 to 3

print(df.iloc[1:3])

Tips ：iloc按照与Python列表的切片相同的规则。

| 3.3 条件（Conditions）

你可以提供一个条件作为索引来选择满足给定条件的元素。

例如，让我们选择年龄大于18且高度小于180的所有数据行：

print(df[(df['ages'] > 18) & (df['heights'] > 180)])

Tips ：可以使用 &(and) 和 |(or)运算符组合条件 。

| 4.1 读数据（reading data）

数据以文件格式进行存储是相当普通的一件事情。最流行的文件格式之一是 CSV(comma-separated values)。 Pandas支持将数据从CSV文件中读取进入DataFrame。为了实现这个功能，我们可以使用 read_csv()函数:

df = pd.read_csv("csv_name")

Tips ： Pandas还支持从Json文件以及SQL数据库中读取。

| 4.11 head & tail

一旦我们开始在DataFrame中拥有数据，我们就可以开始探索它。我们可以使用DataFrame的 head()函数来获取第一行数据。

print(df.head())

默认情况下，它返回前5行。您可以指示它返回您想要作为参数的行数。例如，df.head(10)将返回前10行。

Tips ：同样，您还可以使用tail()函数返回尾部的行内容 。

| 4.12 info

info()函数用于获取有关数据集的基本信息，如行数、列，数据类型等:

df.info()

从结果中，我们可以看到我们的数据集包含30327行和9列，我们还可以看到pandas添加了一个自动生成的索引。我们还可以使用set_index()函数设置自己的索引列:

df.set_index("todays_date", inplace=True)

日期列是我们索引的不错选择，因为每个日期都有一行。

Tips ：inplace=True参数指定更改将应用于我们的dataframe，而无需将其分配给新的dataframe 。

| 4.13 drop

你可以使用drop()函数来删除你并不需要的数据。

df.drop('county', axis=1, inplace=True)

drop()可以用来删除行和列。
asix=1指定我们要删除列。
asix=0指定我们要删除行。

注意现在我们的数据集是比之前更干净了！！！

| 5.1 创建列（Creating Columns）

Pandas允许我们创建自己的列。例如，我们可以根据日期添加一个月份列:

df['month'] = pd.to_datetime(df['todays_date']).dt.month_name()

我们通过将todays_date列转换为Datetime并从中提取月份的名称来执行此操作，将该值分配给新的month列。

| 5.2 汇总统计（Summary Statistics）

现在我们已经清洗并设置好了我们的数据集，我们已经准备好调查一些统计数据！

describe()函数返回所有数字列的摘要统计信息:

print(df.describe())

此功能将显示数字列的主要统计信息，例如均值，最大值，最小值等。运行代码看看结果吧。

Tips ：我们也可以获得单列的摘要统计数据，例如：

print(df['icu_available_beds'].describe())

| 6.1 频率（Frequency）

由于我们有一个 month列，我们可以通过 value_counts()函数查看每月有多少条数据:

print(df['month'].value_counts())

Tips ：value_counts()返回的是值在数据集中出现的次数，也称为值的频率。

| 6.2 分组（Grouping）

现在我们可以计算数据洞察率力了!

例如，让我们确定每个月的总感染人数。

为此，我们需要按月份列对数据进行分组，然后计算每个月的案例栏的总和:

print(df.groupby('month')['hospitalized_covid_confirmed_patients'].sum())

group()函数用于按给定列对数据集进行分组，我们也可以计算全年总病例人数:

print(df['hospitalized_covid_confirmed_patients'].sum())

| 7.1 写在最后

本节给大家介绍了数据科学三剑客之一的pandas。涉及到了常见的属性和函数，并且介绍了常见的操作。后续我们会继续介绍matplotlib。希望大家还是动手做一做，有问题可以私信我，欢迎交流和提出您的宝贵意见。

你要偷偷学Python，然后惊艳所有人。

-END-

感谢大家的关注

你关心的，都在这里

Original: https://blog.csdn.net/Zesheng_Wang/article/details/123753250
Author: 此间过客~
Title: 数据科学—使用Pandas进行操作数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/751731/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

linux一切皆文件之Unix domain socket描述符（二）

一、知识准备 1、在linux中，一切皆为文件，所有不同种类的类型都被抽象成文件（比如：块设备，socket套接字，pipe队列）2、操作这些不同的类型就像操作文件一样，比如增删改…

Python 2023年6月10日
0056
python学习笔记29（利用pycharm在windows下出现闪退以及turtle 入门）

1.利用pycharm在windows下出现闪退昨天下午去图书馆抱回来三大本学习python的书籍，准备进修一下python程序设计，正好课本里面有关于图形化程序设计的章节，但是…

Python 2023年9月21日
0082
【Audio音频开发】音频基础知识及PCM技术详解

个人主页：董哥聊技术我是董哥，嵌入式领域新星创作者创作理念：专注分享高质量嵌入式文章，让大家读有所得！文章目录 * – 1、前言 – 2、概念 &#82…

Python 2023年11月6日
0044
(附源码)springboot校园疫情管理系统毕业设计 021506

3 校园疫情管理系统总体设计根据第二章中校园疫情管理系统的功能分析可知，校园疫情管理系统中整体功能模块图如图3.1所示，图3.1 校园疫情管理系统功能模块图 .3.1 数据库概…

Python 2023年8月2日
0042
python数据分析（Jupyter Notebook工具）之numpy库

数据分析是一门借助于计算机系统，针对海量、结构各异、不规则的数据进行高效处理，从中间提取对科学、技术、经济、社会有用的信息，并对人类的各种活动产生有益的指导作用。数据分析领域涉及…

Python 2023年8月25日
0049
操作系统学习笔记11 | 生磁盘的使用与管理

这部分是设备驱动的最后一部分——磁盘管理，相较于上一篇的键盘和显示器要更复杂，但大致过程基本相同。磁盘管理共有4层抽象，我们将从此学习、掌握设备驱动的一般研究理念和设计方法。这部分…

Python 2023年10月22日
0033
[ 红队知识库 ] 常见防火墙(WAF)拦截页面

🍬 博主介绍 👨‍🎓 博主介绍：大家好，我是 _PowerShell ，很高兴认识大家~✨主攻领域：【渗透领域】【数据通信】【通讯安全】【web安全】【面试分析】🎉点赞➕评论➕…

Python 2023年9月26日
0044
python中os模块

os（operating system）模块是python中操作文件系统的模块，它是Python程序与操作系统进行交互的接口 1、os.chdir（path）修改当前工作目录(一般…

Python 2023年8月1日
0048
python股票量化指标_第三篇用Pandas计算股票指标

关键词 Pandas Sqlite3 GitHub 当前只计算某只股票最多一年的指标，常见的5天，10天，20天和一年的指标。读数据库从数据库中读取某只股票的K线数据，上一篇有…

Python 2023年8月19日
0050
Python flaks-sse 库的简单测试

介绍服务器推送事件： Server-Sent Events, SSE 特点仅从服务器向客户端实现单向实时通信。实现简单，基于HTTP协议。浏览器端有断线重连功能。支持用户…

Python 2023年8月11日
0045
如何结合整洁架构和MVP模式提升前端开发体验（二） – 代码实现篇

上一篇文章介绍了整体架构，接下来说说怎么按照上图的分层结构实现下面的增删改查的功能。代码结构 vue userManage └── List ├── api.ts ├── Edi…

Python 2023年10月22日
0042
基于yolov5框架实现人流统计（目标检测算法、目标追踪算法以及越界识别功能）+手机获取统计人数

主要实现的AI算法有：目标检测、目标追踪主要实现AI算法功能：越界识别功能（主要是获取统计人流量）平台：基于Aidlux平台基础库安装：（1）lap安装：先sudo ap…

Python 2023年9月26日
0052
pytest接口自动化测试框架 | 用python代码测试接口

视频来源：B站《冒死上传！pytest接口自动化测试框架（基础理论到项目实战及二次开发）教学视频【软件测试】》一边学习一边整理老师的课程内容及试验笔记，并与大家分享，侵权即删，谢…

Python 2023年9月11日
0045
2022了你还不会『低代码』？数据科学也能玩转Low-Code啦！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月28日
0045
day01_matploylib

/** **date : 2021-11-10 **author : wang **course name : 机器学习-数据科学库（HM） **period : 1 ( day0…

Python 2023年9月2日
0076
深度学习中用到的numpy数组格式转换命令汇总

numpy格式转换相关命令 1.a表示输入的数组; 2.axis用于指定需要删除的维度，但是指定的维度必须为单维度，否则将会报错; 3.axis的取值可为None 或 …

Python 2023年8月28日
0051

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据科学—使用Pandas进行操作数据

大家都在看