pandas数据预处理（Series DataFrame）详解附带案例

2023年7月8日下午1:57 • 人工智能 • 阅读 63

文章目录

*
– pandas在pycharm的安装
– Pandas的数据结构：
– Series
– Series的创建
– Series的内容读取
– Series间的计算
– Series的常用函数、自定义函数
– DataFrame：
– DataFrame创建
– DataFrame内容读取
– DataFrame运算

Pandas简介：

一个用于统计分析常用Python模块，Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法。Pandas的基本功能：以字段为单位的数学运算，灵活处理缺失数据合并、连接等关系型运算

这里我们用pycharm进行学习

pandas在pycharm的安装

安装代码

pip insatall pandas

若下载缓慢，则加上清华源后缀

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple/

在代码的开头导入pandas即可使用，习惯上，导入pandas后会起一个别名pd

import pandas as pd

Pandas的数据结构：

Series(一维)：一维数组，与Python基本的数据结构List相近。
DataFrame(二维)：二维的表格型数据结构。可以将DataFrame理解为Series的容器

Series

Series是一种类似于一维数组的对象，它由一组数据以及一组与之相关的数据标签（即索引）组成，可以理解为带标签的列表List

Series的创建

import pandas as pd

a = pd.Series(['张三','李四','王五'],index = [1001,1002,1003])
print(a)

不使用索引，则默认，0开始

import pandas as pd

a = pd.Series(['张三','李四','王五'])
print(a)

字典创建

import pandas as pd

a = {'姓名':'张三','年龄':'18'}
s = pd.Series(a)
print(s)

Series的内容读取

1、使用index、values读取索引列表、值列表（注意：它们不是函数；可以转成list格式再使用）

import pandas as pd

a = pd.Series(['张三','李四','王五'],index = [1001,1002,1003])
print(list(a.index))
print(list(a.values))

2、2、索引取值，方法和列表或字典相似中括号内如果是标签名，则取对应的值，如果是数字下标，则取对应下标的值

import pandas as pd

a = {'姓名':'张三','年龄':'18'}
s = pd.Series(a)
print(s['姓名'])

3、若要按下标取值，和索引

Series间的计算

1、加减乘除运算，将对应位置的值计算，若数量不对等，则产生NaN，计算的结果是一个新的Series

import pandas as pd

a = pd.Series([1,2,3])
b = pd.Series([4,5,6])
print(a+b)

2、比较运算，满足条件的，结果为True，不满足的为False，然后组成一个新的Series（此时值已失去，仅剩标签）

import pandas as pd

a = pd.Series([1,2,3])
b = pd.Series([4,5,6])
print(a>=2)

Series的常用函数、自定义函数

1、求和、均值，最大最小值函数


a = pd.Series([1,2,3])
print(a.sum())
print(a.max())
print(a.min())
print(a.mean())

2、自定义函数apply，对每一个值执行相同的操作，相当于map的功能

import pandas as pd

a = pd.Series([1,2,3])

def func(x):
    return x*x
print(a.apply(func))

DataFrame：

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）
DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）

DataFrame创建

import pandas as pd

a = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'],index=[1,2])
print(a)

字典创建

import pandas as pd

b = {'姓名':['张1','张2','张3'],'年龄':[15,16,17],'成绩':[88,89,77]}
a = pd.DataFrame(b)
print(a)

列表字典创建

import pandas as pd

b =[{'姓名':'张三','年龄':16,'成绩':88},{'姓名':'张2','年龄':15,'成绩':87},{'姓名':'张1','年龄':18,'成绩':98}]
a = pd.DataFrame(b)
print(a)

DataFrame内容读取

通用方法：loc按索引取值，iloc按下标取值（少用）
格式：df.loc[ 行索引或范围, 列索引或范围 ]
其中，范围用列表来表示，且可以用冒号: 表示全范围
返回结果：
如果行和列都是范围，结果为dataframe
行和列其中一个是范围，结果为Series
行和列都是一个值，结果为单个元素

import pandas as pd

b =[{'姓名':'张三','年龄':16,'成绩':88},{'姓名':'张2','年龄':15,'成绩':87},{'姓名':'张1','年龄':18,'成绩':98}]
a = pd.DataFrame(b)
print('读取所有人的年龄','\n',a.loc[:,'年龄'])
print('读取第一行的所有列','\n',a.loc[1,:])
print('选取1-2行的姓名、成绩','\n',a.loc[[1,2],['姓名','成绩']])
print('读取第一行的姓名','\n',a.loc[1,'姓名'])

import pandas as pd

b =[{'姓名':'张三','年龄':16,'成绩':88},{'姓名':'张2','年龄':15,'成绩':87},{'姓名':'张1','年龄':18,'成绩':98}]
a = pd.DataFrame(b)
print('年龄大于等于15的列','\n',a.loc[a['年龄']>=16,['姓名','年龄']])

DataFrame运算

Dataframe的加减乘除运算，就是对应位置的Series进行计算

import pandas as pd

b = pd.DataFrame([[1,2,3],[4,5,6]])
c = pd.DataFrame([[1,2,3],[7,8,9]])
print(c+b)
print(b-c)

import pandas as pd

b = pd.DataFrame([[1,2,3],[4,5,6]])
print(b.sum(0))
print(b.sum(1))

DataFrame的常用函数：
自定义函数apply
示例：给df增加一个新的列d，它的值为abc列的值的和

import pandas as pd

b = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'])
def func(x):
    x['d'] = x['a']+x['b']+x['c']
    return x
print(b.apply(func,axis=1))

import pandas as pd

b = pd.DataFrame([[-1,-2,3],[4,-5,-6]],columns=['a','b','c'])
def func(x):
    x = abs(x)
    return x

print(b.apply(func,axis=1))
b[['b']] = b[['b']].apply(func,axis=0)
print(b)

索引对象：
索引对象可以理解为表的主键，DataFrame默认是没有索引对象的，且默认从0开始计数，可以使用set_index函数设置某个字段标签为索引对象

import pandas as pd

b = pd.DataFrame([[1,5,3],[2,5,6]],columns=['a','b','c'])
b = b.set_index('a')
print(b)

Original: https://blog.csdn.net/THREEFUCT/article/details/122315751
Author: 南师大蒜阿熏呀
Title: pandas数据预处理（Series DataFrame）详解附带案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678626/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

最新资讯｜2022年8月29日，IECEE发布电池认证CTL协议DSH1037A！

2022年8月29日，IECEE发布电池认证CTL协议DSH 1037A，涉及标准IEC 62133:2002 ，IEC 62133:2012，IEC 62133-1:2017，I…

人工智能 2023年6月4日
0071
使用pyradiomics提取影像组学特征【详细】

使用pyradiomics提取影像组学特征【详细】最近由于项目需求要使用pyradiomics提取影像组学特征，网上阅读了很多别人的博客，学到一些，然后去查看了pyradiomi…

人工智能 2023年7月4日
0052
CelebA数据集下载|HTTPSConnectionPool(host=‘drive.google.com‘, port=443)|RuntimeError:Dataset not found

CeleA是香港中文大学的开放数据，包含10177个名人身份的202599张图片，并且都做好了特征标记，这个数据集对人脸相关的训练来说是非常好用的数据集。但是它不像其他数据集一样…

人工智能 2023年6月15日
0099
神经网络的三种训练方法,神经网络训练全过程

matlab神经网络问题。 10 。参考一下吧P=[012345678910];T=[01234321234];net=newff([010],[51],{‘tans…

人工智能 2023年6月15日
0086
双重回归学习：轻量化DRN网络—《Towards Lightweight Super-Resolution with Dual Regression Learning》

首先声明一下，根据我本人的理解，文章中对出现的Dual Regression做了不同翻译，除了涉及损失的时候会翻译成对偶回归损失，其余部分均译为双重回归，因为文中的损失部分是对偶的…

人工智能 2023年6月18日
00107
终于有人把数据挖掘讲明白了

0 1 什么是数据挖掘数据挖掘（Data Mining）应该是一门大家都听说过，但又不太容易说清楚的课程。在数据科学领域，乃至在更大的计算机科学领域，数据挖掘就好比山东蓝翔，大家…

人工智能 2023年6月25日
0062
sqlserver字符串转日期_关于日期特征，你想知道操作都在这儿

来源：SAMshare 今日锦囊特征锦囊：关于日期特征，你想知道操作都在这儿～ ? Index 字符串转日期日期转字符串 13位的时间戳转日期格式str 13位的时间戳转da…

人工智能 2023年7月7日
0067
Pytorch实现卷积神经网络手写数字识别(MNIST)

本文使用pytorch完成一个非常经典的任务——手写数字识别。数据集为LeCun等人于90年代构建的手写数字集MNIST。本文的重点在于对数据的处理，因为torchvision库虽…

人工智能 2023年6月18日
0095
图像处理中常见的几种插值方法：最近邻插值、双线性插值、双三次插值（附Pytorch测试代码）

插值方法零、前言一、最近邻插值（Nearest Neighbor Interpolation） * 1.相关介绍 2.代码实现二、双线性插值（Bilinear Interpo…

人工智能 2023年7月25日
0074
LNMP架构概述及相关服务的搭建

目录一，LNMP架构的部署二，手工编译安装Nginx服务 1，关闭防火墙和安全机制 2，安装环境依赖包，并且创建程序用户 3，编译安装nginx 4，路径优化 5，启动，停止n…

人工智能 2023年5月30日
0057
YOLOV5训练自己的数据集（踩坑经验之谈）

导言很惭愧，来csdn已经三年多了，却一直都在”白嫖”各位大神的经验与总结。这几天也一直在csdn里学习YOLOv3与YOLOv5训练数据集的具体步骤，几…

人工智能 2023年7月9日
0068
python基于情感词典的情感分析

今天给大家分享的是通过情感词典来对文本进行情感分析最后计算出情感得分通过情感得分来判断正负调性主要步骤：数据准备本次情感词典采用的是BosonNLP的情感词典，来源于社交媒…

人工智能 2023年5月28日
00106
js基础笔记学习227练习3之1

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月29日
0053
如何创建一个Tensor对象

如何创建一个Tensor对象？在深度学习中，Tensor（张量）是一个多维数组，它是神经网络计算的基本数据结构。Tensor对象可以在Python中使用各种深度学习框架中创建，如…

人工智能 2024年1月1日
0044
无人驾驶感知篇之融合（十四）

之前说过根据融合算法，可以概括为随机类方法和人工智能两大类。随机类方法目前常见的有加权平均法、多贝叶斯估计法、卡尔曼滤波法、Dempster-Shafer（D-S）证据推理、产生式…

人工智能 2023年7月14日
0053
梯度下降与一元线性回归

梯度下降基本概念梯度下降法（gradient descent),又名最速下降法（steepest descent)是求解无约束最优化问题最常用的方法。它是一种迭代方法，每一…

人工智能 2023年6月17日
0095

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30