Python自动化办公：pandas入门教程

2023年7月7日上午4:14 • 人工智能 • 阅读 75

在后台回复【阅读书籍】

即可获取python相关电子书~

Hi，我是山月。

今天给大家带来一个强大的朋友：pandas。如果你有许多数据分析任务的话，那你一定不能错过它。

由于它的内容比较多，因此会分成几部分来讲解，今天只来讲解下入门教程，有兴趣的话可以多加关注哦~

官网：https://pandas.pydata.org/

如果需要 pdf版官方文档的话，可以在后台回复【 pandas文档】来获取哦~

安装：pip install pandas

导入pandas：

import pandas as pd # 一般命名为pd

查看 pandas 版本：

import pandas as pd
pd_version = pd.__version__  # 查看版本
print(pd_version)   # 1.1.5

DataFrame和Series

DataFrame和Series是pandas非常基础也是非常重要的两个概念。

1、DataFrame

要将数据存储在表中，需要创建一个 DataFrame，它的数据是一个值为列表的字典。

字典的键用作列标题，每个列表中的值将用作 DataFrame 的列。

DataFrame 是一种二维数据结构，可以在列中存储不同类型的数据（包括字符、整数、浮点值、分类数据等）。

如：

import pandas as pd # 一般命名为pd

df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

print(df)

'''
                       Name  Age     Sex
0   Braund, Mr. Owen Harris   22    male
1  Allen, Mr. William Henry   35    male
2  Bonnell, Miss. Elizabeth   58  female

'''

2、Series

DataFrame 中的每一列都是一个Series。因此Pandas里选择DataFrame 的单列时，结果是Series。

如果你想要选择单列，可以在方括号 [] 里添加要选择列的列标签。

print(df["Age"])

'''
0    22
1    35
2    58
Name: Age, dtype: int64
'''

如果想从头开始创建Series：

import pandas as pd # 一般命名为pd

ages = pd.Series([22, 35, 58], name="Age")
print(ages)

'''
0    22
1    35
2    58
Name: Age, dtype: int64
'''

Series没有列标签，因为它只是 DataFrame 的一列，但Series有行标签。

3、使用 DataFrame 或 Series

pandas 提供了很多功能，每个功能都是可以应用于 DataFrame 或 Series 的方法（由于方法是函数，所以不要忘记使用括号）。

其中max() 方法可以求出一列数据里的最大值。

比如在 DataFrame 上求出最大年龄：

import pandas as pd # 一般命名为pd

df = pd.DataFrame(
    {
        "Name": [
            "Braund, Mr. Owen Harris",
            "Allen, Mr. William Henry",
            "Bonnell, Miss. Elizabeth",
        ],
        "Age": [22, 35, 58],
        "Sex": ["male", "male", "female"],
    }
)

print(df["Age"].max())      # 58

在Series上求出最大年龄：

import pandas as pd # 一般命名为pd

ages = pd.Series([22, 35, 58], name="Age")
print(ages.max())   #58

读取和写入表格数据

1、读取

pandas 提供了 read_csv() 函数来将存储为 csv 文件的数据读取到 pandas DataFrame 中。

pandas 支持许多不同的文件格式或开箱即用的数据源（csv、excel、sql、json、parquet 等），每一个都带有前缀 read_*。

如：

titanic = pd.read_csv("titanic.csv")
titanic = pd.read_excel("titanic.xlsx", sheet_name="passengers")

要查看 DataFrame 的前 N 行，可以使用 head() 方法，并将所需的行数（如 2）作为参数：

titanic.head(2)

可以通过请求dtypes 属性来检查 pandas 如何解释每列的数据类型：

titanic.dtypes

数据类型有整数（int64）、浮点数（float64）和字符串（object）。

2、存储

to_* 方法可以用于存储数据。

to_excel() 方法将数据存储为 excel 文件：

titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False) #index=False 行索引标签不会保存在电子表格中

方法 info() 提供 DataFrame 的技术信息，可以让我们更详细地解释输出：

titanic.info()

3、实例

`go
import pandas as pd # 一般命名为pd

df = pd.DataFrame(
    {
        “Name”: [
            “Braund, Mr. Owen Harris”,
            “Allen, Mr. William Henry”,
            “Bonnell, Miss. Elizabeth”,
        ],
        “Age”: [22, 35, 58],
        “Sex”: [“male”, “male”, “female”],
    }
)

df.to_excel(“titanic.xlsx”, sheet_name=”passengers”, index=False) #保存成excel

titanic = pd.read_excel(“titanic.xlsx”, sheet_name=”passengers”) # 读取excel
print(titanic.head(2)) #查看表格前两行数据
print(‘——-‘)
print(titanic.dtypes) #查看每列的数据类型
print(‘——-‘)
print(titanic.info()) #查看DataFrame 的技术信息

”’
                       Name  Age   Sex
0   Braund, Mr. Owen Harris   22  male
1  Allen, Mr. William Henry   35  male

RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
#   Column  Non-Null Count  Dtype

Original: https://blog.csdn.net/qq_45464895/article/details/123836334
Author: 是山月呀
Title: Python自动化办公：pandas入门教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675455/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SPSS新手教程—两步聚类之结果解读

在《详解SPSS两步聚类之参数设置》一文中，我们已经了解了两步聚类的优点、分析原理，以及参数设置的技巧。在本节中，会对IBM SPSS Statistics聚类后的结果进行解读，…

人工智能 2023年5月31日
0094
实现企业混合云架构两大关键能力

混合云的实现涉及异构系统的连接与整合，与具体业务场景相关，技术实现都需要比较高的复杂度。构建混合云的核心思想就是保证混合云产品拥有连接一切 IT 设备和无缝结合的能力。实现数据层…

人工智能 2023年6月27日
0076
Yolov5的配置+训练（超级详细！！！）

我本来说只是单纯的记录一下第一次跑代码的流程的，结果看到了这么多大家都收藏和点赞，我决定再稍微改改他的排版，希望更多地朋友能在CV方向迅速上手！一、NVIDIA驱动安装与更新首先查…

人工智能 2023年6月17日
0096
多媒体技术

1.根据CCITT定义，多媒体有哪几种类型? 1). 感觉媒体：直接作用于人的感官，使人直接产生感觉。2). 表示媒体：是为了加工、处理和传输感觉媒体而人为构造出来的一种媒体，…

人工智能 2023年6月27日
0062
CNN人脸识别项目（dlib+opencv）

CNN人脸识别获取数据集读取数据集数据预处理建立模型进行预训练对图片进行人脸进行检测并进行可视化总结思路：一个CNN人脸识别项目首先必不可少的是数据集，获取的方式有网…

人工智能 2023年5月23日
0066
【Python模块学习】pandas模块简介

pandas模块学习一、背景概述 Pandas (Python Data Analysis Library) 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。…

人工智能 2023年7月16日
0074
vue项目实现文字转换成语音播放功能

一、Web Speech API Web Speech API 使您能够将语音数据合并到 Web 应用程序中。 Web Speech API 有两个部分：SpeechSynthes…

人工智能 2023年5月27日
0095
论文翻译解读：Anytime Bottom-Up Rule Learning for Knowledge Graph Completion【AnyBURL】

随时自底向上的知识图谱完成规则学习简要信息序号属性值1模型名称AnyBURL2所属领域知识图谱3研究内容链接预测4核心内容基于规则的链接预测5GitHub源码AnyBURL 6…

人工智能 2023年6月1日
0076
Python数据分析步骤案例（二）

做完数据提取和问题提出之后就要进行数据整理了，在本次数据整理的数据评估的工作主要做了数据的行列数，缺失值和数据重复的检查。在数据清洗方面删除了问题无关的数据列，添加解决问题所需要的…

人工智能 2023年7月7日
0063
【云原生】一篇打通微服务架构，nacos + gateway + Redis + MySQL + docker

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月31日
0062
运用R语言、Tushare对单支股票进行回归分析

目录一、数据描述（一）数据的获取（二）数据的预处理及分析二、初步回归分析（一）模型及变量（二）参数估计（三）假设检验 1. 回归显著性检验 2. 回归系数的显著性检验…

人工智能 2023年6月17日
0071
《深入浅出Embedding–原理解析与应用实践》第一章万物皆可嵌入–读书笔记

嵌入技术的应用：自然语言处理/传统的机器学习/搜索排序/推荐/知识图谱 Word Embedding Item Embedding Graph Embedding Categori…

人工智能 2023年6月1日
0086
加密流量分类任务的深度学习方法（一般框架总结）

凭借出色的自动特征学习能力，深度学习（DL）成为加密流量分类任务中的一种非常理想的方法，下面介绍目前大多数相关工作中应对加密流量分类任务的一般化框架。总体结构图如下所示： ; A …

人工智能 2023年6月19日
0080
paper—基于 GCN 的安卓恶意软件检测模型

目录摘要一、引言二、基础概念与相关工作 2.1 静态检测 2.2 动态检测 2.3 图卷积神经网络及函数调用图 2.3.1 函数调用图 2.3.2 图卷积神经网络及图嵌入三…

人工智能 2023年7月13日
0070
pytorch入门——构建神经网络

从 pytorch到nlp 第一章 pytorch 之构建神经网络文章目录从 pytorch到nlp * – 前言一、构建神经网络的具体流程二、代码及其解读 *…

人工智能 2023年7月21日
0066
Win10下1070&2060GPU使用Anaconda安装Tensorflow2.3记录

Win10下1070&2060GPU使用Anaconda安装Tensorflow2.3记录 0 引言 1 安装CUDA * 1.1下载完成点击安装 2 安装CUDNN 3 …

人工智能 2023年5月25日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31