python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

2023年6月11日下午2:50 • 人工智能 • 阅读 66

文章目录

*
– 一、准备工作
– 二、数据合并
–
+ 1、merge数据表连接
+ 2、添加数据
– 三、数据提取
–
+ 1、索引列
+ 2、loc函数（⭐）
+ 3、ix函数
+ 4、iloc函数
+ 5、排序
+ 6、特定标记
+ 7、分列
+ 8、提取字符生成新表
+ 9、isin条件提取

一、准备工作

导入库+创建数据表

import numpy as np
import pandas as pd

df1 = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range('20220102', periods=6),
  "city":['Beijing ', 'Hangzhou', 'Shanghai', 'Beijing', 'Shanghai', 'Shanghai'],
 "age":[31,27,25,27,29,28],
 "category":['100-B','100-B','110-A','110-C','210-C','130-F'],
  "price":[1000,np.nan,2300,5400,np.nan,3330]},
  columns =['id','date','city','category','age','price'])

col={'id':[1001,1002,1003,1004,1005,1006,1007,1008,1009],
    'gender':['F','M','F','F','M','M','M','F','F'],
    'name':['Jane','Wan','Summer','Flore','Wang','Chung','Dev','Linda','Lucy',],
    'salary':[3000,5500,3500,4600,4500,6000,3800,6500,3500]}

df2 = pd.DataFrame(col,
                columns =['id','gender','name','salary'])

二、数据合并

1、merge数据表连接

类似SQL中的join on，内连接、左连接、右连接、外连接


df_inner=pd.merge(df1,df2,how='inner')
df_left=pd.merge(df1,df2,how='left')
df_right=pd.merge(df1,df2,how='right')
df_outer=pd.merge(df1,df2,how='outer')

print(df_inner)
print(df_left)
print(df_right)
print(df_outer)

内连接结果：

python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

2、添加数据

1）append追加
两个表上下进行连接，不匹配的字段则将值设置为NaN

2）concat连接
一中简单纵向连接，可以用于不同行不同列，表之间或者列之间


df_concat = pd.concat([df1,df2], axis=0, join='outer', ignore_index=False,
            keys=None, levels=None, names=None, verify_integrity=False,
            sort=False, copy=True)

df_concat = pd.concat([df1.id,df2.name], axis=0, join='outer', ignore_index=False,
            keys=None, levels=None, names=None, verify_integrity=False,
            sort=False, copy=True)
print(df_concat)

df1的id字段与df2的name字段进行连接：

三、数据提取

1、索引列


df1.set_index('id')

df_inner.loc[5]

df_inner.iloc[0:3]

df_inner.reset_index()

2、loc函数（⭐）

利用切片原理，使用loc函数进行切片操作时只能使用行名或者列名，也就是索引（行名）和字符串（列名）。
1）索引操作

df_inner.loc[:4]
df_inner.loc[2:4]

2）索引+列名操作

df_inner.loc[2:4,'age':'name']
df_inner.loc[:5,"city":"salary"]

3）特殊索引名操作
索引是默认的01234，而不是date，但是这里仍然可以选取到数据，导致索引模糊不清因此这种方法不常用，常用的是明确的索引定位。

df_inner.loc['2022-01-02':]
df_inner.loc[:'2022-01-05']

4）特殊索引+列名操作

df_inner.loc['2022-01-02':,'age':'name']
df_inner.loc[:'2022-01-05',:]

5）自定义索引+自定义列名


df_inner.set_index('id',inplace=True)

df_inner.rename(columns={'city':'城市'},inplace=True)

提取id为1002-1005的’城市’列到’name’列信息：


df_inner.loc[1002:1005]
df_inner.loc[:,'城市':'name']

df_inner.loc[1002:1005,'城市':'name']

3、ix函数

1）ix出现问题：AttributeError: ‘DataFrame’ object has no attribute ‘ix’

2）解决思路：
s.ix[:3]返回的结果与s.loc[:3]一样，这是因为如果series的索引是整型的话，ix会首先去寻找索引中的标签3而不是去找位置3，因此造成了一些混乱

3）解决方法：pandas的1.0.0版本后，已经对该函数进行了升级和重构。
只需要将
column01 = dataset.ix[:, 'first']
改为
column01 = dataset.loc[:,'first']

也就是将ix函数名改为loc即可。

4、iloc函数

1）iloc函数则和loc函数相反，只能使用默认的数字索引，不能使用自定义的行列名字索引


df_inner.iloc[:4,:5]
df_inner.iloc[1:3,2:]

注意：冒号前后的数字不再是索引的标签名称，而是数据所在的位置.

2）按位置单独提取数据（间隔提取）

df_inner.iloc[[0,2,5],[4,5]]

5、排序


 df1.sort_index(ascending=False)

df2.sort_values(by='salary',ascending=False)

6、特定标记

相当于SQL中的CASE WHEN


df_inner['level'] = np.where(df_inner['salary'] > 3000,'high','low')
print(df_inner)


df_inner.loc[(df_inner['city'] == 'Shanghai') & (df_inner['salary'] >= 4000), 'level']=1
print(df_inner)

7、分列

将category字段的值依次进行分列，
并创建2个新列组成新表，
索引值为df_inner的id，
列名称分别为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.id, columns=['category','size'])

8、提取字符生成新表

提取前三个字符，并生成数据表

df3=pd.DataFrame(df_inner['name'].str[:3])
df3.set_index('name')
print(df3)

9、isin条件提取


df_inner['city'].isin(['Shanghai'])

df_inner.loc[df_inner['city'].isin(['Beijing','Shanghai'])]

Original: https://blog.csdn.net/Viewinfinitely/article/details/124759115
Author: Chung丶无际鹰
Title: python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600327/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux——监控GPU集群显存并自动运行python训练脚本

文章目录 * – 依赖包 – 主脚本程序 – + python命令脚本（示例） – 实验证明可行性可喜可贺，由于有时候模型的实验时…

人工智能 2023年6月30日
0071
Python数学计算工具5、Python求最最小公倍数

最小公倍数百度解析：两个或多个整数公有的倍数叫做它们的公倍数，其中除0以外最小的一个公倍数就叫做这几个整数的最小公倍数。整数a，b的最小公倍数记为[a，b]，同样的，a，b，c的…

人工智能 2023年6月26日
0072
手撕Resnet卷积神经网络-pytorch-详细注释版（可以直接替换自己数据集）-直接放置自己的数据集就能直接跑。跑的代码有问题的可以在评论区指出，看到了会回复。训练代码和预测代码均有。

[ ResNet 是深度学习领域中常用的卷积神经网络_模型，它在 _训练_大规模图像 _数据集_时表现出色，特别是在解决多标签图像分类 _问题_方面。 _PyTorch 是一个基…

人工智能 2023年5月31日
0061
python读取、写入txt文本内容

一、python 中打开文件， python中读写txt文件，首先得打开文件，即使用open()函数， lastpath1 = r’D:apache-jmeter-4.0insrc…

人工智能 2023年7月4日
0055
Windows系统下使用Mingw编译并运行opencv教程

文章目录 1. 下载 2. 安装 3. 编译 4. 测试编译环境：系统：Windows7企业版cmake版本：3.22.1Mingw版本：x86_64-5.4.0-release…

人工智能 2023年7月20日
0042
回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出

回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短期记忆神经网络)多输入单输出目录 * – 回归预测 | MATLAB实现PSO-LSTM(粒子群优化长短…

人工智能 2023年6月16日
0076
基于Attention_CNN_GRU的野生动物监测图像分类

大一的时候突发奇想选择了这样的一个方向，并查阅了相关文献，努力去完成这样的一个系统化的东西。但确实这方面做的人很少，也没有找到有关的进行学习，做的也是很是缓慢，同时也是运用到了Pa…

人工智能 2023年7月2日
0083
PyTorch学习笔记（5）–mnist数据集训练

from __future__ import print_function import os import struct import numpy as np import to…

人工智能 2023年7月14日
0042
微信公众号运营数据分析（二）：内容分析讲解

微信公众号运营是需要不断地优化你的公众号文章内容和标题的，也要懂得随时调整公众号写作方向，那么这些都是基于数据分析得出的结果。你以为统计一下阅读量、新关注人数，取消关注人数、总粉…

人工智能 2023年6月11日
0059
UE4 TCP协议连接服务器与客户端

B站教学链接：https://space.bilibili.com/449549424?spm_id_from=333.1007.0.0 一、TCP原理简介 TCP是传输控制协议（…

人工智能 2023年7月29日
0050
(conda + pip) 配置各版本 Pytorch 深度学习环境

目录 * – + 1. 前言 + 2. 配置镜像源 + 3. pytorch，torchvision，python 版本对应 + 4. 创建并进入虚拟环境 + 5. P…

人工智能 2023年6月17日
0069
整数规划Python

整数规划纯整数规划：所有决策变量都限定为整数混合整数规划：仅一部分变量限定为整数 0-1整数规划：决策变量仅限于0或1 1.整数规划问题与求解 import cvxpy as …

人工智能 2023年7月28日
0039
回归预测 | MATLAB实现SSA-BP多输入单输出回归预测

回归预测 | MATLAB实现SSA-BP多输入单输出回归预测目录 * – 回归预测 | MATLAB实现SSA-BP多输入单输出回归预测 – + 基本介…

人工智能 2023年6月17日
0064
数据仓库与数据挖掘实践期末复习总结

本篇内容为笔者数据仓库挖掘与实践的期末复习提纲范围，提纲标号为《数据仓库挖掘实践》的部分目录。数据仓库是一个面向主题的、稳定的、集成的、随时间变化的数据的集合。特征（4个）…

人工智能 2023年6月11日
0071
深度学习环境配置：Windows安装TensorFlow并在Jupyter notebook上使用

前言深度学习环境配置：Windows安装TensorFlow并在Jupyter notebook上使用安装Anaconda 官网下载地址：https://www.anacond…

人工智能 2023年5月25日
0081
pandas DataFrame.fillna()填充缺失函数的使用

Pandas中将如下类型定义为缺失值：NaN: ”, ‘#N/A’, ‘#N/A N/A’, ‘#NA&#8…

人工智能 2023年6月19日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30