python数据处理包——pandas

2023年7月7日上午11:38 • 人工智能 • 阅读 100

新建dataframe

示例：

import pandas as pd

data1 = pd.DataFrame()
a=[['1','2','3'], ['a','b','c']]

data=pd.DataFrame(a, columns=['aa','bb','cc'])

data格式（最左侧0，1为行索引号，最上方aa，bb，cc为列名）：

将数据转化为dataframe

dict与dataframe

dict变为dataframe：

df = pd.DataFrame(data)
df = pd.DataFrame.from_records(data)

df = pd.DataFrame.from_dict(data, orient='columns')

dataframe变为dict：

res = df.to_dict(orient='records')

其他 orient 形式：to_dict使用

list与dataframe

dataframe常用域

data.columns：获取所有列名；
data.iloc[‘列名’]：根据列名，获取某列数据；
data.iloc[i,j]：根据行列索引，获取指定位置数据；
data.values：以行为单位，返回dataframe所有数据；
data.value[i,j]：根据行列索引，获取指定位置数据。

遍历dataframe

dataframe.item()：按列遍历，返回列数据 series
dataframe.iterrows()：按行遍历，返回（行索引index，行数据series）的元组

import pandas as pd
a=[['1','2','3'], ['a','b','c']]

data=pd.DataFrame(a, columns=['aa','bb','cc'])
for i,row in data.iterrows():
    print(row)

输出：

aa    1
bb    2
cc    3
Name: 0, dtype: object
aa    a
bb    b
cc    c
Name: 1, dtype: object

dataframe排序

按索引排序：sort_index()


data.sort_index()
data.sort_index(ascending=False)
data.sort_index(axis=1,ascending=True,inplace=False,na_position='last')

data.sort_index().sort_index(axis=1,ascending=True,inplace=False,na_position='last')

按值排序: sort_values()


unsorted_df.sort_values(by=['col1','col2'])
unsorted_df.sort_values(by=2,axis=1)

dataframe去重

drop_duplicates() 默认：保留第一个重复值，不更改原数据
参数：
keep:

keep="first"：只保留第一个重复值
keep="last"：只保留最后一个重复值
keep="False"：重复值一个不保留

inplace:

True：在原数据上替换，返回None
False：不在原数据上替换，返回去重后的新dataframe

pandas读取保存文件

保存文件

DataFrame.to_csv函数，主要参数：

import pandas as pd
df.to_csv(path_or_buf="filename.csv" ,
          sep=',',
          columns=None,
          header=True,
          index=True)

sep：通常是保存csv文件所用的分隔符，会将同一行不同列数据按sep指定的符号分隔开。
header：默认为True，保存列索引（列名），即上图最上方的列名，保存的文件会多出一行数据。
index：默认为True，保存行索引，即上图中的最左侧0，1，保存的文件中会多出一列数据，变为3列。

读取文件

DataFrame.read_csv函数，主要参数：

import pandas as pd
pd.read_csv(filename,
            header="infer",
            names=None,

            nrows=None,
            usecols=None,

            index_col=None,
            skiprows=None )

header：用来选择哪一行作为列索引。可以填一个整数，填0表示第1行作为列索引，填5表示第6行作为列索引。填None表示默认不选任何行做为列索引，而是自动生成一个从0开始的列索引。
names：当 header=None 是，可以通过设置这个参数来自定义列索引。

pandas.concat

功能：按照指定axis，合并两个DataFrame。

import pandas as pd
pd.concat([data_1, data_2], axis=0)
pd.concat([data_1, data_2], axis=1)

pandas.merge

功能：求两个DataFrame的交 / 并 / 补集，类似SQL中的内连接、外连接等操作。

import pandas as pd
dataframe_3 = pd.merge(dataframe_1, dataframe_2, how='inner')

参考链接：[Python3]pandas.merge用法详解

pandas将dataframe的多列合并为一列

pandas.Series.str.cat方法，不过cat方法只能处理str类型，所以应提前将非str列数据转化为str类型（.map(str)操作），再进行合并。

data['date'] = data["year"].map(str).str.cat([data["month"].map(str), data['day'].map(str)], sep='-')

参考链接：dataframe多列合并成一列

Original: https://blog.csdn.net/qq_45847624/article/details/119908587
Author: 冲上云霄！
Title: python数据处理包——pandas

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676159/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

DTMF信号检测分析（Matlab)

基于Matlab平台的DTMF信号检测 1.将录制好的一段按键音读入到Matlab平台； 2.设计带通滤波器，去噪处理（可选）； 3.将给个按键音对应的信号一次分割； 4.计算分割…

人工智能 2023年6月17日
0066
李宏毅机器学习学习打卡Task02-回归篇

一、回归定义与应用例子 1.回归定义 Regression 就是找到一个函数 function，通过输入特征 x，输出一个数值 Scalar。 2.回归应用例子 1.股市预测输入：…

人工智能 2023年6月17日
0065
【笔记】opencv阈值处理 threshold函数 cv2.THRESH_BINARY ,cv2.THRESH_TRUNC） cv2.adaptiveThreshold（）

像素是在模拟图像数字化时对连续空间进行离散化得到的。每个像素具有整数行（高）和列（宽）位置坐标，同时每个像素都具有整数灰度值或颜色值。 ; threshold函数返回的第一个参数…

人工智能 2023年6月22日
0092
opencv(11):训练自己的opencv级联分类器

一采集数据并制作正负样本数据集 1.1 录制视频 1.2 将单个视频截取为指定分辨率的图像 1.3 处理负样本视频 1.4 本次训练正负样本数量选择与图片重编号二利用matl…

人工智能 2023年7月28日
0054
【论文笔记】Recommendations as Treatments: Debiasing Learning and Evaluation

Recommendations as Treatments: Debiasing Learning and Evaluation Authors: Tobias Schnabel,…

人工智能 2023年6月6日
0082
pandas和spark的dataframe互转

pandas的dataframe转spark的dataframe from pyspark.sql import SparkSession 初&#x5…

人工智能 2023年6月2日
0067
《FFmpeg Basics》中文版-01-FFmpeg基本介绍

人工智能 2023年5月23日
0074
第四章 STM32+LD3320+SYN6288+DHT11实现语音获取温湿度数值（上）

前面三章，我们介绍了LD3320、SYN6288和DHT11温湿度传感器，并把代码资料一一分享给大家了，拿到代码后，我们就可以做一个简单的语音识别毕设了，即通过语音命令获取当前环境…

人工智能 2023年5月25日
0060
python 两个dataframe 相关性计算_根据列值计算两个pandas dataframe之间的值

编辑：让我复制整个数据集 df是门店销售/库存数据branch daqu store store_name style color size stocked sold in_sto…

人工智能 2023年7月8日
0076
关于相机位姿的可视化

–> 其中提到了相机位姿可视化的数学原理以及示例代码 Original: https://blog.csdn.net/Nismilesucc/article/details…

人工智能 2023年7月19日
0059
安装opencv时报错：Could not build wheels for opencv-python which use PEP 517 and cannot be installed direc

一、问题背景最近写一批程序，需要用到opencv里面的函数，但是导入cv2的时候，新电脑提示没有安装，所以首先安装opencv的库，直接pip install opencv-py…

人工智能 2023年6月18日
0093
二叉树的学习

目录一、二叉树的基本概念二、二叉树的性质（一）二叉树的性质（二）完全二叉树的常考性质三、二叉树的存储结构（一）二叉树的顺序存储（二）二叉树的链式存储结构四、二叉树的…

人工智能 2023年6月28日
0047
Facebook广告投放技巧

随着脸书广告的竞争越来越激烈，脸书广告越来越难获得高投资回报。这是一个潜在的问题，因为CPM每增加1%，ROI就会减少1%。在这种情况下，广告商可能需要修改他们的内容或整体营销策略…

人工智能 2023年6月28日
00101
lingo基础入门Day 7

糖果公司有三个加工厂，每天生产糖果7 、 4 、9吨，该公司要把糖果分别运送到四个地区的门市部，B1、B2、B3、B4销售，每天的销售量分别是3吨、4吨、5吨、6吨，现在已知从每个…

人工智能 2023年6月18日
0060
YOLOv5解析 | 第一篇：快速部署YOLOv5模型

大家好，我是『K同学啊』！拖了好久，终于要开始目标检测系列了。自己想过好几次，想尽快出几期目标检测算法的博客教程，但是一直苦于不知道如何写，才能让大家轻松、快速、高效的入门…

人工智能 2023年6月16日
0071
kaggle项目：基于随机森林模型的心脏病人预测分类

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月1日
0098

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30