学习笔记-Python-DataFrame常见操作总结

2023年8月7日上午4:40 • Python • 阅读 54

DataFrame的创建

1.1. 从已有数据集创建

1.1.1. 从excel文件中读取

import numpy as np
import pandas as pd

df1 = pd.read_excel('./data/messi club data.xls', header = 0)
df2 = pd.read_excel('./data/messi national team data.xls', header = 0)
display(df1.head())
display(df2.head())

如果第一行不是列名，而是数据元素，那么可以改成

df1 = pd.read_excel('./data/messi club data.xls', header = None)
df2 = pd.read_excel('./data/messi national team data.xls', header = None)
display(df1.head())
display(df2.head())

1.1.2. 从csv文件中读取

import pandas as pd

df = pd.read_csv('./data/taiwan_dataset.csv', header=0)
df.head()

1.2. 自己创建DataFrame

1.2.1. 基于字典dictionary创建

基于固定数据的方式创建：

data = {"age": [19, 17, 22, 27],
       "sex": ['male', 'female', 'male', 'male']}
df = pd.DataFrame(data)
df

值得注意的是，当每一列只有一个数据时，仍然需要加 [ ]，或者加”index=[0]”。

data = {"西甲总获胜场次": laliga_total_win_num,
        "西甲主场获胜场次": laliga_home_win_num,
        "西甲客场获胜场次": laliga_away_win_num,
        "西甲总进球场次": laliga_total_havegoals_num,
        "西甲主场进球场次": laliga_home_havegoals_num,
        "西甲客场进球场次": laliga_away_havegoals_num,
        "西甲主场进球数": laliga_home_goals,
        "西甲客场进球数": laliga_away_goals}
laliga_moredata = pd.DataFrame(data, index=[0])
laliga_moredata

基于随机生成的方式创建：

import numpy as np

data = {"a": np.random.rand(3),
       "b": np.random.rand(3),
       "c": np.random.rand(3)}
df = pd.DataFrame(data)
df

1.2.1. 基于数组array创建

基于固定数据的方式创建：

data = np.array([[1,2,3,4],
                [5,6,7,8],
                [9,10,11,12],
                [13,14,15,16]])
df = pd.DataFrame(data)
df

基于随机生成的方式创建：

data = np.random.rand(12).reshape(4,3)
df = pd.DataFrame(data)
df

查看DataFrame的基本信息

2.1. 查看行

import pandas as pd
import numpy as np

df = pd.read_csv("./data/California_housing_price.csv", header=0)
display(df.head())
display(df.head(8))
display(df.tail())
display(df.sample(8))

2.2. 查看行数、列数和列名

df.shape
df.columns

2.3. 查看缺失值

df.info()

这里可以看出，该dataframe的”total_bedrooms”一列有207个缺失值。

df[df.total_bedrooms.isnull()]

2.4. 查看每列的数值信息

df.describe()

如果还想查看其他百分位的数值信息的话，可以进行如下操作：

df.describe(percentiles=[0.2, 0.4, 0.75, 0.8])

此外还可以只统计离散变量的信息：

df.describe(include='O')

2.5. 查看离散变量的种类

df["ocean_proximity"].unique()

选择DataFrame的数据

3.1. 基本选择操作

3.1.1. 行选择

连续选择：

df[2:5]

间隔选择

df[2:10:2]

3.1.2. 列选择

单列选择

df['longitude']
df.longitude

多列选择：

df[['housing_median_age', 'population']]

3.2. loc和iloc

3.2.1. loc

dataframe.loc是基于index和column名称进行切片的。

3.2.1.1. 行选择

连续选择：

df.loc[2:5]

指定选择：

df.loc[[2,4,8]]

间隔选择：

df.loc[2:6:2]

3.2.1.2. 行和列同时选择

df.loc[2:6:2, "latitude":"total_bedrooms"]

df.loc[2:6:2, "latitude":"total_bedrooms":2]

3.2.2. iloc

iloc是基于index索引进行选择。

3.2.2.1. 行选择

df.iloc[2:5]

3.2.2.2. 行和列同时选择

df.iloc[2:5, 4:9]

df.iloc[:,2:9]

df.iloc[2:5,:]

df.iloc[2:8:2, 3:8:2]

更改DataFrame的数据

4.1. 更改列名

df1 = pd.read_excel("./data/concrete_data.xls", header=0)
df1.head()

我们可以看到这个数据集的列名比较乱，有许多空格和数学符号，因此需要处理一下。

df1.columns = ["cement", "blast_furnace", "fly_ash", "water", "superplasticizer",
              "coarse_aggregate", "fine_aggregate", "age", "concrete_compressive_strength"]
df1.head()

df1.columns = [c.split('(')[0].replace(' ', '') for c in df1.columns]
df1.head()

4.2. 更改索引

首先，自己创建一个dataframe。

from pandas import Series, DataFrame

df2 = DataFrame(np.arange(12).reshape(3, 4), index = ['aa', 'bb', 'cc'], columns=['a', 'b', 'c', 'd'])
df2

有两种常用的方式来更改索引。

df2.index = Series(['Aa', '233', 'okk'])
df2

df2.index = df2.index.map(str.upper)
df2

当dataframe的索引是乱序的时候（常常出现在对dataframe进行切片和筛选后），我们可以使用reset_index重新顺序排列索引。

df3 = DataFrame(np.arange(20).reshape(5, 4), index=[4,2,1,0,3]columns=['a', 'b', 'c', 'd'])
df3

df3 = df3.reset_index(drop=True)
df3

4.3. 更改单一值

首先展示一下数据集。


df.loc[1,"housing_median_age"] = 23
df.iloc[2,5] = 500
df.head()

4.3. 更改多值

4.3.1. 更改一行中的某几个值

df.iloc[0:1, 6:10] = [200, 7.7777, 345678.0, "INLAND"]
df.head()

4.3.2. 更改某几行的某几个值

更改第一行和第三行的第一列、第四列、第七列和最后一列。

df.iloc[0:4:2, 0::3] = [[-100, 900, 222, "ISLAND"], [-200, 1000, 233, "INLAND"]]
df.head()

筛选DataFrame的数据

5.1. 单一条件筛选

df[df["median_income"]>6]

df[df["ocean_proximity"] == "ISLAND"]

5.2. 多条件筛选

df[(df["median_income"]>6)&(df["housing_median_age"]<30)]

6.DataFrame的方法

6.1. df.to_datetime()

首先导入数据：

import numpy as np
import pandas as pd

df1 = pd.read_excel('./data/messi club data.xls', header = 0)
df2 = pd.read_excel('./data/messi national team data.xls', header = 0)
display(df1.head())
display(df2.head())

然后修改一下列名，把中文变为英文。

df1 = df1.drop("Unnamed: 0", axis=1)
df2 = df2.drop("Unnamed: 0", axis=1)
df1.columns = ["date", "event", "home_team", "score", "guest_team", "line", "time", "goals", "assists", "card_num"]
df2.columns = ["date", "event", "home_team", "score", "guest_team", "line", "time", "goals", "assists", "card_num"]
display(df1.head())
display(df2.head())

接下来，我们处理第一列的日期。这里有两种方法，一个是用自带的p d . t o _ d a t e t i m e ( ) pd.to_datetime()p d .t o _d a t e t i m e ()方法，另一种是自己定义一个函数。首先来看自带的方法。

df1['date'] = pd.to_datetime(df1['date'], format='%d-%m-%Y')
df2['date'] = pd.to_datetime(df2['date'], format='%d-%m-%Y')
df1['year'] = df1['date'].dt.year
df1['month'] = df1['date'].dt.month
df1['day'] = df1['date'].dt.day
df2['year'] = df2['date'].dt.year
df2['month'] = df2['date'].dt.month
df2['day'] = df2['date'].dt.day
display(df1.head())
display(df2.head())

format后面跟的是现在dataframe里日期的模式，它会调整为”年-月-日”的形式。下面是自定义函数分割时间。

def DateSplit(df, col):
    year, month, day = [], [], []
    data = df.loc[:, col].values
    df = df.drop([col], axis=1)

    for i in range(data.shape[0]):
        year.append(int(data[i][6:]))
        month.append(int(data[i][3:5]))
        day.append(int(data[i][0:2]))
    date = pd.DataFrame({'year': year, 'month': month, 'day': day})
    result = pd.concat([date, df], axis=1)
    return result
df1 = DateSplit(df1, col="date")
df2 = DateSplit(df2, col="date")
display(df1.head())
display(df2.head())

6.2. df.pivot_table()

比如，我想统计梅西俱乐部各项赛事的自然年数据，那么我就可以用pivot_table来进行处理。当然，到达这个目的，还可以用循环加内置判断的方式，但是代码会很长且运行速度不及内置的方法。

table = df1.pivot_table(values='goals', index=['event'], columns=['year'], aggfunc=np.sum, fill_value=0)
table

待更新…

Original: https://blog.csdn.net/qq_41411175/article/details/112790931
Author: Maru
Title: 学习笔记-Python-DataFrame常见操作总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739183/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mysql构建url给scrapy_Python Scrapy – 从mysql填充start_urls

我试图使用spider.py从MYSQL表中使用SELECT填充start_url.当我运行”scrapy runspider spider.py”时,我没…

Python 2023年10月6日
0039
Pytest（11）allure报告

前言 allure是一个report框架,支持java的Junit/testng等框架,当然也可以支持python的pytest框架，也可以集成到Jenkins上展示高大上的报告界…

Python 2023年9月14日
0068
python使用API接口来下载gitlab代码库

python使用API接口来下载gitlab代码库原创 anzhilengye2022-08-04 10:50:09博主文章分类：Python ©著作权文章标签 git dja…

Python 2023年5月24日
0068
后台管理系统—-day16

目录优惠券管理 * 1. 优惠券设计 – 1.1 优惠券的概念 1.2 优惠券表设计 2. 优惠券添加 – 2.1 优惠券添加接口 2.2 优惠券添加页面…

Python 2023年8月4日
0044
大数据Kudu（二）：Kudu架构

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月26日
0054
面向小白的Python可视化教程

Original: https://www.cnblogs.com/123456feng/p/16144998.htmlAuthor: 蚂蚁ailingTitle: 面向小白的Py…

Python 2023年11月3日
0042
.NET使用StackTrace获取方法调用信息

前言在日常工作中，偶尔需要调查一些诡异的问题，而业务代码经过长时间的演化，很可能已经变得错综复杂，流程、分支众多，如果能在关键方法的日志里添加上调用者的信息，将对定位问题非常有帮…

Python 2023年10月23日
0062
NewStarCTF week 3 web wp

** BabySSTI_One ** 这样能解析应该是python的flask ssti 这里一开始试了直接引号拼接但是发现都不能成功后面想了想尝试十六进制编码大概是这么个写法{…

Python 2023年8月12日
0044
jupyter notebook创建/删除虚拟环境

1、创建虚拟环境（以py_learn为例）： conda create -n py_learn python=版本号创建一个叫做py_learn 的虚拟环境,python版本为3…

Python 2023年9月8日
0050
day02-djangoURL路由配置

1.创建项目在项目目录创建项目结构并启动 PS E:\Pycharm project> django-admin startproject mydemo PS E:\Pyc…

Python 2023年8月6日
0065
Scrapy + Matplotlib 获取 Ajax 加载球员场均数据并存入数据库数据分析

前言 Scrapy 是一个基于 python 开发的爬虫框架，用于抓取 web 站点并从页面中提取结构化的数据，提供很多爬虫组件、基类，可扩展性强，通过其可以将爬虫中重复冗杂的逻辑…

Python 2023年9月1日
0056
.Net执行SQL/存储过程之易用轻量工具

支持.Net/.Net Core/.Net Framework，可以部署在Docker, Windows, Linux, Mac。由于该工具近来被广东省数个公司2B项目采用，且表…

Python 2023年10月11日
0037
彻底弄懂Javascript模块导入导出

笔者开始学习Javascript的时候，对模块不太懂，不知道怎么导入模块，导出模块，就胡乱一通试比如 import xx from ‘test.js’ 不起作用，就加个括号 im…

Python 2023年10月11日
0061
python测试开发django-169.过滤器django-filter 入门使用

前言在管理后台查询的时候，经常有需要查询包含某个内容，按时间段查询，或者商品价格大于多少，小于多少各种查询条件。django-filter 过滤器专门解决这种查询的问题。环境准…

Python 2023年8月4日
0066
Python图像处理【1】图像与视频处理基础

图像与视频处理基础 * – 0. 前言 – 1. 在 3D 空间中显示 RGB 图像颜色通道 – + 1.1 图像表示 + 1.2 在 3D 空…

Python 2023年10月9日
0039
[Qt基础内容-08] Qt中MVC的M（Model）

Qt中MVC的M（Model）简单介绍 Qt有自己的MVC框架，分别是model(模型)、view(视图)、delegate(委托)，这篇文章，简单的介绍以下Qt中有关model(…

Python 2023年10月22日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31