Python库使用笔记—Dataframe

2023年7月6日下午5:15 • 人工智能 • 阅读 90

一、Dataframe的读取和保存

1.1 Dataframe导出csv


xlsx_file.to_csv('F:/XXX/XXX.csv', encoding="utf-8-sig",header=True)

1.2 Pandas读取xlsx


xlsx_file = pd.read_excel(xlsx_file_name, sheet_name='Sheet1')

1.3 Dataframe的创建

dataframe可以通过读取csv或者xlsx等方式创建，同时也可以通过数组创建

import pandas as pd

data_list = [[6,10,3],[1,5,4],[1,2,4],[1,15,24],[1,0,2],[3,7,9],[2,8,5]]

df = pd.DataFrame(data_list,columns=['A','B','C'])

df.index = ['G','H','I','J','K','L','M']

print(df)

二、Dataframe的操作

2.1 获取Dataframe和行数和列数

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(24).reshape(6,4), columns=['A', 'B', 'C', 'D'])
row_nums = df.shape[0]
col_nums = df.columns.size
print(row_nums)
print(col_nums)

2.2 Dataframe删除行、列

import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(24).reshape(6,4), columns=['A', 'B', 'C', 'D'])
print(df)

df1 = df.drop(axis=0, index = 1, inplace=False)
print(df1)

df2 = df.drop(axis=0, index = [1,2,4], inplace=False)
print(df2)

df3 = df.drop(axis=1, columns = ['A','D'], inplace=False)
print(df3)

注意删除多行的时候要确保index存在，一种非常隐蔽的错误是：

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])

new_df = pd.concat([df1,df2], ignore_index=False)

print(new_df)

df3 = new_df.drop(axis=0, index = 3, inplace=False)

2.3 Dataframe的排序

dataframe的排序有通过行列的名称进行排序，也有同行的数值或者列的数值进行排序。对于数值排序，采用sort_values函数。

import pandas as pd

data_list = [[6,10,3],[1,5,4],[1,2,4],[1,15,24],[1,0,36],[3,7,9],[2,8,5]]
df = pd.DataFrame(data_list,columns=['A','B','C'])
df.index = ['G','H','I','J','K','L','M']

df.sort_values(by='A',axis=0,ascending=False,inplace=True)
print(df)

df = pd.DataFrame(data_list,columns=['A','B','C'])
df.index = ['G','H','I','J','K','L','M']

df_data_order = df.sort_values(by=['A','B'],ascending=[True,True])
print(df_data_order)

很多时候，对于一些默认行号的dataframe，排序之后会把把行号打乱。这个时候可以通过reset_index函数重置索引。

import pandas as pd
data = [['a','3'],['b','1'],['c','2']]
df = pd.DataFrame(data)
df = df.sort_values(by = 1,axis = 0,ascending = False)

print(df)

df = df.reset_index(drop=True)
print(df)

2.4 Dataframe的拼接

Dataframe的拼接有几个函数：merge、concat等函数

import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])

new_df = pd.concat([df1,df2], ignore_index=True)
print(new_df)

new_df = pd.concat([df1,df2], ignore_index=False)
print(new_df)

2.5 Dataframe数据筛选

import pandas as pd

data_list = [['拖动',10,3],[1,5,4],['拖动',2,4],[1,15,24],['滑动',0,2],[3,7,9],[2,8,5]]

df = pd.DataFrame(data_list,columns=['A','B','C'])
print(df)

df1 = df[~(df['A']=='拖动')]

df1 = df1.reset_index(drop=True)
print(df)

df1 = df[(df['A'].isin(['拖动','滑动']) == True)]
df1 = df1.reset_index(drop=True)
print(df1)

df = pd.DataFrame(data_list,columns=['A','B','C'])
df = df[['A','B']]
print(df)

对dataframe的字符串筛选也可以通过Dataframe的contain函数，这种方式可以允许子串的搜索，同时contain函数也支持正则表达式。

import pandas as pd

data_list = [['拖动',10,3],[1,5,4],['拖动',2,4],[1,15,24],['滑动',0,2],[3,7,9],[2,8,5]]

df = pd.DataFrame(data_list,columns=['A','B','C'])
print(df)

df=df[(df['A'].str.contains('动') == True)]

df = df.reset_index(drop=True)
print(df)

df = pd.DataFrame(data_list,columns=['A','B','C'])
parttern = r'.*?'
df=df[(df['A'].str.contains(parttern) == True)]
print(df)

2.6 Dataframe NaN处理

axis: default 0指行,1为列

how: {‘any’, ‘all’}, default ‘any’指带缺失值的所有行; ‘all’指清除全是缺失值的

thresh: int,保留含有int个非空值的行

subset: 对特定的列进行缺失值删除处理

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': [np.nan, 1, 2], 'B': [10, np.nan, 10], 'C': [10, 25, 15]})
print(df)

df = df.dropna(axis=0, how='any')
print(df)

Original: https://blog.csdn.net/log_zhan/article/details/126424177
Author: log_zhan
Title: Python库使用笔记—Dataframe

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674409/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Ubuntu16.04 安装 OPENCV详细教程避坑

1.首先大家需要下载一个Opencv压缩包，选择source版本。下载官网：Releases – OpenCV 本教程内采用的opencv-4.5.4这个版本 2.如果…

人工智能 2023年5月26日
00100
基于springboot二手交易平台

开发工具：IDEA 服务器：Tomcat9.0， jdk1.8 项目构建：maven 数据库：mysql5.7 系统分前后台，非前后端分离前端技术：vue.js+elementU…

人工智能 2023年6月26日
0064
pandas进阶–Series的apply方法

apply方法介绍方法形式为apply(func, convert_dtype=True, args=(), **kwargs)，返回Series或Dataframe，对Seri…

人工智能 2023年6月11日
0073
Python ark-nlp文本分类，命名实体识别，关系抽取，文本匹配，预训练模型，机器学习，深度学习，ERNIE，NEZHA

本文参考了大佬的文档https://github.com/xiangking/ark-nlp#ark-nlp 一、ark-nlp简介 ark-nlp集成了机器学习和深度学习的多个模…

人工智能 2023年5月27日
0094
什么是卷积神经网络（CNN）和循环神经网络（RNN），它们在什么场景下使用

什么是卷积神经网络（CNN）和循环神经网络（RNN）？卷积神经网络（Convolutional Neural Network，CNN）和循环神经网络（Recurrent Neur…

人工智能 2024年1月3日
0054
【PyTorch】torch.utils.data.Dataset 介绍与实战

训练模型一般都是先处理数据的输入问题和预处理问题。Pytorch提供了几个有用的工具：torch.utils.data.Dataset 类和 torch.utils.dat…

人工智能 2023年7月21日
0054
百度校招社招-知识图谱部门直推机会多多

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0070
李沐《动手学深度学习》d2l——安装和使用

今天想要跟着沐神学习一下循环神经网络，在跑代码的时候，d2l出现了问题，这里记录一下解决的过程，方便以后查阅。李沐《动手学深度学习》d2l——安装和使用安装d2l 解决 Imp…

人工智能 2023年6月23日
0079
Python提取多个CSV表的指定列，合成一个多列CSV表

Python提取多个CSV表的指定列合成一个多列CSV表最近，需要根据ENVI中ROI导出的csv表格，计算植被指数的相关性，共上百个表，需要把每个表的固定列数据整合到一个表上计…

人工智能 2023年7月7日
0072
Bert不完全手册5. BERT推理提速？训练提速!内存压缩！Albert

Albert是A Lite Bert的缩写，确实Albert通过词向量矩阵分解，以及transformer block的参数共享，大大降低了Bert的参数量级。在我读Albert论…

人工智能 2023年6月4日
00111
【深度学习】图像分类之KNN算法

文章目录前言一、CIFAR-10 数据集简介二、Nearest Neighbor Classifier（最近邻分类器） * L1距离（曼哈顿距离） L2距离（欧氏距离）三、…

人工智能 2023年6月30日
0090
虚拟变量怎么做回归_等级变量的检验怎么做？

今天，我们讲等级变量的假设检验。首先，回顾一下，什么叫等级变量。一般而言，等级变量属于分类变量的一种，与之相对的就是无序变量。大家生活中经常碰到的”满意程度&#822…

人工智能 2023年6月18日
0066
深度学习与计算机视觉教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)（CV通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/37 本文地址：https://www.showmeai.tech…

人工智能 2023年5月26日
00106
TensorBoard详解之安装使用和代码介绍

目录 * – 1.TensorBoard详解 – + 1.1 环境 + 1.2 安装 + 1.3 展示 + 1.4说明 – 2.使用 &#821…

人工智能 2023年7月28日
0072
手中无y，心中有y——聚类算法的正确建模方式

CDA数据分析师出品作者：CDA教研组编辑：JYD 聚类算法是属于无监督的机器学习方法；机器学习里把算法分为有监督和无监督的算法，所谓有监督，即我想研究的数据集有目标数据，白…

人工智能 2023年6月3日
00113
基于深度学习的工业品组件缺陷检测技术（一）

目录一、数据集缺点二、数据预处理 1.图片的旋转和缩放 2.图片的平移 3.高斯模糊 4.边缘检测 4.1 Sobel 4.2 Laplacian 4.3 Canny 4.4 …

人工智能 2023年7月13日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python库使用笔记—Dataframe

一、Dataframe的读取和保存

二、Dataframe的操作

大家都在看