Python数据分析摘要（1）- DataFrame数据定位，筛选和修改

2023年8月7日上午6:41 • Python • 阅读 46

数据分析在社会和经济生活中扮演着越来越重要的角色。因此，我在接下的几篇blog中阐释比较常用的数据分析的代码，如有不妥，欢迎指正！
数据分析第一个常用的库是pandas。相比较numpy和matplotlib, 在产生相同效果的同时，pandas 体现出强大的API 功能，获取数据的途径更加便捷，所以备受推崇。
首先，我们来了解一下 pandas 中 DataFrame这个类的一些基本情况。DataFrame来源于R语言的data.frame类，因此自身功能多样。
其次，介绍一下DataFrame对象的数据定位和赋值方法。

常见注释符号说明：<> 里面是变量,args; op 代指operator，逻辑运算符。

一. DataFrame对象的数据定位
(1) 方法一： pandas.DataFrame().loc[]方法【基本逻辑：先index后column】index指的是行索引，column则为列。

首先建立一个DataFrame对象，

import pandas as pd
import numpy as np

df = pd.DataFrame([[1,2,3,4],[3,4,3,4],[5,6,7,8]], index= ['number','post','ID'], columns = ['a','b','c','d'])
print(df)

得到结果如下

        a  b  c  d
number  1  2  3  4
post    3  4  3  4
ID      5  6  7  8

应用一：利用loc[]方法，得到某一个tuple（tupel可以理解为行数据）
如：

print(df.loc['number'])

得到结果如下

应用二：获取某些index，把index写到一个list中；利用loc[[,]]方法，得到某些tuple

print(df.loc[['number', 'post']])

得到结果如下

        a  b  c  d
number  1  2  3  4
post    3  4  3  4

应用三：获取某些index，把index写到一个list中，同时利用切片方法；利用loc[:]切片方法，得到某些tuple

print(df.loc['number':'ID'])

得到结果如下

        a  b  c  d
number  1  2  3  4
post    3  4  3  4
ID      5  6  7  8

应用三拓展：类似应用三，利用loc[:, [,]]切片方法，得到某些满足index和column条件的tuple

print(df.loc['number':'ID',['a','c']])

得到结果如下

        a  c
number  1  3
post    3  3
ID      5  7

应用四：利用loc[df[] op] 对满足column条件的tuple进行筛选

print(df.loc[df['b']>2,['c','a']])

得到结果如下

      c  a
post  3  3
ID    7  5

应用四拓展：利用loc[lambda函数方程] 对满足column条件的tuple进行筛选，注意lambda后面的变量为DataFrame对象

print(df.loc[lambda x: x.a >3,:])

得到结果如下

    a  b  c  d
ID  5  6  7  8

(2) 方法二： pandas.DataFrame().iloc[]方法【基本逻辑：先index后column, 但iloc内部输入的是数值，而不是索引】
iloc[] 与 loc[] 的应用极其相似，以上四个应用方法完全对变量args的处理完全相同。

这里我只列举一个取前2行，第2列的例子：

print(df.iloc[:2,1])

得到结果如下

number    2
post      4

(3) 方法三： pandas.DataFrame()[]方法【基本逻辑: 根据列名（attribute）直接取满足列要求的tuple数据】

print(df[['a','c']])

得到结果如下

        a  c
number  1  3
post    3  3
ID      5  7

二. DataFrame对象的数据修改【基本逻辑: 先定位，再赋值】

下边举一个简单例子：把index为number的行数值转化为-1，同时对attribute（列名）为a的所有大于0的tuple（行数据）赋值为-2。

df.loc['number'] = -1
df.loc[df['a']>0] =-2
print(df)

得到结果如下

        a  b  c  d
number -1 -1 -1 -1
post   -2 -2 -2 -2
ID     -2 -2 -2 -2

三. DataFrame对象的apply方法应用【基本逻辑: 对每行/每列做函数运算】
方法参数：apply(func,
axis=0是对每列/axis=1是对每行,
raw=False默认为Series类型/raw=True是ndarray类型,
result_type=None, args=())

最后举个栗子帮助大家理解：
对每行元素做累加运算，最后得到一列。

代码如下：

print(df.apply(np.sum, axis = 1))

得到结果如下

number    10
post      14
ID        26

写在最后，今天的总结就到这里；如果觉得有帮助，请点个赞！

Original: https://blog.csdn.net/dylan_young/article/details/111391224
Author: Efred.D
Title: Python数据分析摘要（1）- DataFrame数据定位，筛选和修改

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739383/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

[瞎折腾] 在手机上跑django服务端让公网设备访问 ipv6

引入在PC端ipv6推进的速度十分缓慢，假设你的运营商支持ipv6，但要整一个能被访问的ipv6地址也是贼麻烦的，需要在路由器上配置很多东西。但是！但是！我是说但是手机端的i…

Python 2023年8月6日
0049
教你用python爬取美女照片，未成年不能学

又到每天Python小技巧分享的时候了，今天给大家分享的是怎么样去爬取清纯小姐姐照片（没有人会拒绝美女吧，小声说），这篇文章好像有点刺激，未成年的小伙伴就不要进来了。快来看看这些清…

Python 2023年5月24日
0076
移动端H5开发自适应技巧

移动端H5开发，必要要做到自适应各种分辨率的手机，下面由我为大家大致说一下，需要3步走第一：head标签中添加： "viewport" content=&qu…

Python 2023年6月10日
0053
《动手学机器人学》第三节：动手学数学基础，使用NumPy操作矩阵

本系列教程作者：小鱼公众号：鱼香ROSQQ交流群：139707339教学视频地址：小鱼的B站完整文档地址：鱼香ROS官网版权声明：如非允许禁止转载与商业用途。 ; 目录《动手学机…

Python 2023年8月30日
0074
python使用pytest框架设置用例在那个环境下执行，和用例执行的优先级

import pytest class TestCalc: @pytest.mark.ces # 这个是指定你想要让这条case在那个环境下运行，后边的这个ces可以随便写 @py…

Python 2023年9月10日
0030
python s append_pandas中如何使用合并append函数？

介绍了这么多关于pandas拼接的方法，那你知道如果想要拼接拼接一个或者多个，还可以追加serise到原来的dataframe里面如何操作吗？其实还是很简单的，使用append函数…

Python 2023年8月8日
0050
默默无名的西大研究生学习的第七天–pandas入门3

pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归纳或汇总统计的类别，这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值（如总和或平均…

Python 2023年8月9日
0028
初识Django

—.重点知识目标 1基本概念 1.1http协议HTTP 协议是接下来学习网站框架最重要的协议 HTTP (HyperText Transfor Protocol) 超文本传输协议…

Python 2023年8月4日
0036
python中pandas包

目录 1.Series 1.1Series的创建 1.2 Series的属性 2.DataFrame 2.1DataFrame的创建 2.2 DataFrame的属性 2.3 Da…

Python 2023年8月7日
0045
Pandas 模块-操纵数据(6)-DataFrame 使用自定义函数

目录 6. DataFrame 使用自定义函数 6.1 操作整个 DataFrame 的函数：.pipe() 6.1.1 .pipe() 语法 6.1.2 .pipe() 范例 6…

Python 2023年8月21日
0063
pygame一步步实现可视化的幸运大转盘（有趣、有料、好玩、全流程实现）

继续分享pygame有趣的技术知识，欢迎往下看。一、先搭个架子（一）黏贴背景图：实现代码如下： import pygame pygame.init() screen = py…

Python 2023年9月21日
0062
【自学Docker】Docker wait命令

Docker wait命令大纲 ; docker wait教程 docker wait 命令可以用于阻塞一个或多个 Docker容器直到容器停止，然后打印退出代码。 docke…

Python 2023年11月7日
0036
Django3.2.14Mysql数据库操作与主从架构搭建【亲测可用】

mysql安装：pip3 install mysqlclient如果安装出错，请到百度查询mysqlcilent wheel，找到mysqlclient.PyPI这个网站，然后根据…

Python 2023年8月3日
0053
ChatGPT面试阿里P6测试开发岗能过吗？

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年11月4日
0030
线性代数的相关计算(numpy)

线性代数是数学里一个很重要的分支，很多的非线性的问题都要近似的使用线性代数来处理，将一些常见的方法小结创建矩阵 M=np.mat("1 22 44 5;1 0 -3 6…

Python 2023年8月26日
0062
超强 Python 数据可视化库，一文全解析

今天给大家分享一篇可视化干货，介绍的是功能强大的开源 Python 绘图库Plotly ，教你如何用超简单的（甚至只要一行！）代码，绘制出更棒的图表。我之前一直守着 matplo…

Python 2023年5月24日
0061

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python数据分析摘要（1）- DataFrame数据定位，筛选和修改

大家都在看