python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

2023年7月7日下午6:26 • 人工智能 • 阅读 96

文章目录

*
– 一、准备工作
– 二、数据合并
–
+ 1、merge数据表连接
+ 2、添加数据
– 三、数据提取
–
+ 1、索引列
+ 2、loc函数（⭐）
+ 3、ix函数
+ 4、iloc函数
+ 5、排序
+ 6、特定标记
+ 7、分列
+ 8、提取字符生成新表
+ 9、isin条件提取

一、准备工作

导入库+创建数据表

import numpy as np
import pandas as pd

df1 = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006],
 "date":pd.date_range('20220102', periods=6),
  "city":['Beijing ', 'Hangzhou', 'Shanghai', 'Beijing', 'Shanghai', 'Shanghai'],
 "age":[31,27,25,27,29,28],
 "category":['100-B','100-B','110-A','110-C','210-C','130-F'],
  "price":[1000,np.nan,2300,5400,np.nan,3330]},
  columns =['id','date','city','category','age','price'])

col={'id':[1001,1002,1003,1004,1005,1006,1007,1008,1009],
    'gender':['F','M','F','F','M','M','M','F','F'],
    'name':['Jane','Wan','Summer','Flore','Wang','Chung','Dev','Linda','Lucy',],
    'salary':[3000,5500,3500,4600,4500,6000,3800,6500,3500]}

df2 = pd.DataFrame(col,
                columns =['id','gender','name','salary'])

二、数据合并

1、merge数据表连接

类似SQL中的join on，内连接、左连接、右连接、外连接


df_inner=pd.merge(df1,df2,how='inner')
df_left=pd.merge(df1,df2,how='left')
df_right=pd.merge(df1,df2,how='right')
df_outer=pd.merge(df1,df2,how='outer')

print(df_inner)
print(df_left)
print(df_right)
print(df_outer)

内连接结果：

python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

2、添加数据

1）append追加
两个表上下进行连接，不匹配的字段则将值设置为NaN

2）concat连接
一中简单纵向连接，可以用于不同行不同列，表之间或者列之间


df_concat = pd.concat([df1,df2], axis=0, join='outer', ignore_index=False,
            keys=None, levels=None, names=None, verify_integrity=False,
            sort=False, copy=True)

df_concat = pd.concat([df1.id,df2.name], axis=0, join='outer', ignore_index=False,
            keys=None, levels=None, names=None, verify_integrity=False,
            sort=False, copy=True)
print(df_concat)

df1的id字段与df2的name字段进行连接：

三、数据提取

1、索引列


df1.set_index('id')

df_inner.loc[5]

df_inner.iloc[0:3]

df_inner.reset_index()

2、loc函数（⭐）

利用切片原理，使用loc函数进行切片操作时只能使用行名或者列名，也就是索引（行名）和字符串（列名）。
1）索引操作

df_inner.loc[:4]
df_inner.loc[2:4]

2）索引+列名操作

df_inner.loc[2:4,'age':'name']
df_inner.loc[:5,"city":"salary"]

3）特殊索引名操作
索引是默认的01234，而不是date，但是这里仍然可以选取到数据，导致索引模糊不清因此这种方法不常用，常用的是明确的索引定位。

df_inner.loc['2022-01-02':]
df_inner.loc[:'2022-01-05']

4）特殊索引+列名操作

df_inner.loc['2022-01-02':,'age':'name']
df_inner.loc[:'2022-01-05',:]

5）自定义索引+自定义列名


df_inner.set_index('id',inplace=True)

df_inner.rename(columns={'city':'城市'},inplace=True)

提取id为1002-1005的’城市’列到’name’列信息：


df_inner.loc[1002:1005]
df_inner.loc[:,'城市':'name']

df_inner.loc[1002:1005,'城市':'name']

3、ix函数

1）ix出现问题：AttributeError: ‘DataFrame’ object has no attribute ‘ix’

2）解决思路：
s.ix[:3]返回的结果与s.loc[:3]一样，这是因为如果series的索引是整型的话，ix会首先去寻找索引中的标签3而不是去找位置3，因此造成了一些混乱

3）解决方法：pandas的1.0.0版本后，已经对该函数进行了升级和重构。
只需要将
column01 = dataset.ix[:, 'first']
改为
column01 = dataset.loc[:,'first']

也就是将ix函数名改为loc即可。

4、iloc函数

1）iloc函数则和loc函数相反，只能使用默认的数字索引，不能使用自定义的行列名字索引


df_inner.iloc[:4,:5]
df_inner.iloc[1:3,2:]

注意：冒号前后的数字不再是索引的标签名称，而是数据所在的位置.

2）按位置单独提取数据（间隔提取）

df_inner.iloc[[0,2,5],[4,5]]

5、排序


 df1.sort_index(ascending=False)

df2.sort_values(by='salary',ascending=False)

6、特定标记

相当于SQL中的CASE WHEN


df_inner['level'] = np.where(df_inner['salary'] > 3000,'high','low')
print(df_inner)


df_inner.loc[(df_inner['city'] == 'Shanghai') & (df_inner['salary'] >= 4000), 'level']=1
print(df_inner)

7、分列

将category字段的值依次进行分列，
并创建2个新列组成新表，
索引值为df_inner的id，
列名称分别为category和size

pd.DataFrame((x.split('-') for x in df_inner['category']),index=df_inner.id, columns=['category','size'])

8、提取字符生成新表

提取前三个字符，并生成数据表

df3=pd.DataFrame(df_inner['name'].str[:3])
df3.set_index('name')
print(df3)

9、isin条件提取


df_inner['city'].isin(['Shanghai'])

df_inner.loc[df_inner['city'].isin(['Beijing','Shanghai'])]

Original: https://blog.csdn.net/Viewinfinitely/article/details/124759115
Author: Chung丶无际鹰
Title: python数据分析之pandas数据预处理（数据合并与数据提取、loc、iloc、ix函数详解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676824/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【知识图谱学习】知识图谱搭建医疗问答系统

neo4j数据库 py_aho_corasick模块数据提取模块（从互联网获取数据）知识图谱数据库构建模块（将数据清洗构建知识图谱）节点匹配模块（匹配节点获取关系）问题匹配…

人工智能 2023年6月1日
00121
2022年竞赛打榜，神经网络还是干不过树模型？？

文 | QvQ 随着深度神经网络的不断发展，DNN在图像、文本和语音等类型的数据上都有了广泛的应用，然而对于同样非常常见的一种数据——表格数据，DNN却似乎并没有取得像它在其他领域…

人工智能 2023年6月19日
0066
微生物多样性数据分析（16S）

微生物多样性数据分析（16S） OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元（品系…

人工智能 2023年7月15日
00140
关于pyqt5弹出提示框

虽然有分类，但是实际操作是大同小异的(每一类都介绍两种方法) 这类的弹框一般是在整个软件关闭的时候提醒用户是否需要退出整个软件 (构建成函数的方法） def closeEvent(…

人工智能 2023年7月5日
0088
前方高能 | 如何优化企业“数据消费“策略

随着大数据时代的到来，企业的数据消费模式发生转变并不断升级。企业正在清晰地认识大数据的价值并加以利用，通过数据分析找出并满足消费者的需求，在这场数字变革中实现转型。因此，本文主要讨…

人工智能 2023年6月11日
0082
如何确定多少个簇？聚类算法中选择正确簇数量的三种方法

聚类是一种无监督机器学习方法，可以从数据本身中识别出相似的数据点。对于一些聚类算法，例如 K-means，需要事先知道有多少个聚类。如果错误地指定了簇的数量，则结果的效果就会变…

人工智能 2023年5月31日
00118
锚框(anchor box)/先验框(prior bounding box)概念以及yolov3中的使用

1.概念关于先验框，有的paper(如Faster RCNN)中称之为anchor(锚点)，有的paper(如SSD)称之为prior bounding box(先验框)，实际上…

人工智能 2023年7月27日
00100
论文解读：ProteinBERT: a universal deep-learning model of protein sequence and function

目录 1. 研究背景 2. 研究数据 * 2.1 预训练的蛋白质数据集 2.2 蛋白质基准数据集 3. 研究方法 * 3.1 序列和标注编码 3.2 蛋白质序列和注释的自我监督预训…

人工智能 2023年7月13日
0096
python 组合优化_python中的多周期投资组合优化

场景：我尝试在多个时期的场景中，使用不同的约束条件(权重、风险、风险规避…)进行多个投资组合优化。在我已经做了些什么：从cvxpy的例子中，我发现了如何在一个非线性二…

人工智能 2023年7月9日
0091
如何用算法预测世界杯？

预测2021欧洲世界杯世界杯预测结果预测的原理是什么？ * 周易算卦原理 – 算命可以解决的问题善易者不卜人工智能预测原理 – 预测模型：逻辑回归 …

人工智能 2023年5月31日
0097
线性回归-Ridge脊回归

线性回归 Linear Regression 假设model是 y ^ = f ( x ) = X β \hat{y} = f(x) = X\beta y ^=f (x )=X …

人工智能 2023年6月18日
00101
【Python量化】VaR在险价值的计算

此文章首发于微信公众号：Python for Finance 链接：https://mp.weixin.qq.com/s/uaDEnSzoalTaRmZ9GNvR0A 假设有一投资…

人工智能 2023年6月25日
0066
【强化学习】深入浅出强化学习–机器人找金币

定义和初始化首先自定义环境，自定义的环境将继承 gym.env环境。在初始化的时候，可以指定环境支持的渲染模式（例如 human, rgb_array, ansi)以及渲染环境的…

人工智能 2023年6月30日
0096
MaskRCNN使用tf-gpu环境搭建实战

在服务器上搭建环境，而服务器上的cuda版本很迷惑，想使用tensorflow-gpu必须要使用对应版本的cuda和cudnn，看了很多教程觉得最简单的就是在虚拟环境下装cuda和…

人工智能 2023年5月25日
00115
An overview of text-independent speaker recognition:From features to supervectors说话人识别综述

这是一篇写于2010年的说话人识别综述，既有传统模型的识别，又包括新兴起的深度神经网络模型，其中的识别流程和前沿问题直到今天依然适用。 1摘要这是自动说话人识别的概述，重点是与文…

人工智能 2023年5月25日
0088
Python数据分析系列5—DataFrame数据操作

1、索引对象index pandas的索引对象负责管理轴标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个I…

人工智能 2023年7月6日
00129

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31