Pandas简单操作

2023年7月7日上午9:56 • 人工智能 • 阅读 78

两种方式，一般用第一种就行了：

import pandas as pd 此种方式导入的话，是通过pd来调用pandas的自带方法

from pandas import * 此种方式导入的话，可以直接调用pandas的一些方法

import pandas as pd
import numpy as np

通过pd.read_csv()或pd.read_excel()来导入csv或xlsx文件，导入时默认将第一行的标题作为dataframe的标题。

table=pd.read_excel(‘435_1.xlsx’)#这一步可能需要10秒:DataFrame
table.head(3)#通过head()方法来查看表格的前几行，默认是前5行。数据最左侧的数字是这一行数据的索引（index），索引根据需要是可以更改的。

3.1 选择表格的哪几行

table[1:4]#选择表格的第2到第4条数据（1和4是左闭右开）
table[-3:-1] #选择的是表格的倒数第3和倒数第2个数据（如果要获取倒数第一个的话，可以采用table.tail(3)之类）

3.2选择表格的哪几列

可以通过指定列名，来获取想要的列的所有数据

cols=[‘CITE’,’PATN:PNO’]
table[cols].head(3)#这里table[cols]相当于另一个dataframe了，也可以通过head()方法来获取前五行
table_2 = table[cols][3:10] #还可以将这两列的4到10行的数据赋值给一个新的表格
table_2
a = [‘a’,’b’,’c’]

3.3 选择表格的某一单元格的数据

table.loc[2,’PATN:ISD’]#通过loc来定位单元格，这个方法一般用的不多，因为一般都是对一行数据进行操作，很少通过索引来定位一个元素。
table.iloc[2,3]#也可以用iloc方法，传入的值是行列索引的位置，用的更少
table.loc[0:3, [‘PATN:ISD’,’PATN:TTL’]]#还可以获取连续几行的哪几列数据

3.4 重点：选择某一列或多列满足何种条件的数据

table[‘PATN:ISD’]=pd.to_numeric(table[‘PATN:ISD’],errors=’ignore’)#pd.to_numeric()方法将发表日期列改为数值型，因为在下面需要和19800000进行大小比较
table_3=table[(table[‘PATN:ISD’]>19750000)&(table[‘PATN:ISD’]

table_4 = table[(table[‘PATN:ISD’] < 19800000) & (table[‘ASSG:NAM’].isnull())]
table_4.shape

table[table.isnull().any(axis=1)].shape #通过shape方法来查看获取的表格规格，这个结果说明任何一条数据都有空值，因为表格只有50001行

4.1.1 向表格增加一列空数据：dataframe.insert()

这里我想向表格增添一列’SCORES’，全部赋空值

table_5 = table[[‘CITE’, ‘PATN:PNO’]]
table_5.insert(2, ‘SCORES’, np.nan, True) #用insert方法在第二个位置后插入一列SCORES
table_5.shape

4.1.2 向表格增加一行数据

这里我新建了一条专利的数据，向这个表格添加这条数据

table_6=table.loc[0:2, [‘CITE’,’PATN:PNO’]]
table_6

方法一：创建一个Series，然后添加到表格里，默认添加到了表格末尾

s = pd.Series({‘CITE’:111, ‘PATN:PNO’:111})
table_6 = table_6.append(s, ignore_index=True)
table_6

table_6.shape[0]

方法二：用loc方法来赋值，索引选择表格的长度

table_6.loc[table_6.shape[0],:] = [222,222]
table_6

方法三：如果有两个列名一样的表格，就可以用concat方法合并两个表格

table_7 = table.loc[0:2, [‘CITE’, ‘PATN:PNO’]]
table_8 = table.loc[100:102, [‘CITE’, ‘PATN:PNO’]]
table_78 = pd.concat([table_7, table_8])

table_78 = pd.concat([table_7, table_8], ignore_index=True)

table_78

4.2.1 删除某一列或多列数据

table_9=table.loc[0:5, [‘CITE’,’PATN:PNO’,’INVT’]]
table_99=table_9.drop([‘CITE’,’PATN:PNO’],axis=1)#注意：这里使用drop后返回的是一个新的对象，原本的table_9没有变化
table_99

table_9

4.2.2 删除某一行或几行

table_9=table.loc[0:5, [‘CITE’,’PATN:PNO’,’INVT’,’PATN:ISD’]]
table_99=table_9.drop([0,2])#注意：这里使用drop后返回的是一个新的对象，原本的table_9没有变化
table_99

4.2.3 删除满足条件的所有数据(一般指某一列或某几列满足条件的所有数据项)

table_9=table.loc[0:5, [‘CITE’,’PATN:PNO’,’INVT’,’PATN:ISD’]]
table_99=table_9.drop(table_9[table_9[‘PATN:ISD’]>19790000].index)
table_99

4.3.1 修改某个单元格的数据

table_10=table.loc[0:5][[‘CITE’,’PATN:PNO’,’INVT’,’PATN:ISD’]]
table_10_copy=table_10.copy()#对原始单元格的数据进行修改，建议先创建副本，对副本进行修改数据的操作
table_10_copy

对某个单元格进行修改

table_10_copy.loc[2, ‘PATN:ISD’] = 100
table_10_copy

4.3.2 修改某一列满足条件的另外列的数据

这里将发表日期大于1979年的专利的发明人改为YUBOWEN

table_10 = table.loc[0:5][[‘CITE’, ‘PATN:PNO’, ‘INVT’, ‘PATN:ISD’]]
table_10_copy = table_10.copy() #对原始单元格的数据进行修改，建议先创建副本，对副本进行修改数据的操作
table_10_copy.loc[(table_10_copy[‘PATN:ISD’] > 19790000), ‘INVT’] = ‘YUBOWEN’
table_10_copy

4.3.3 难点：使用lambda函数进行较为复杂的操作

这里将所有发明人的名字改为小写，并且’~’间隔符改为’/’

table_10 = table.loc[0:5][[‘CITE’, ‘PATN:PNO’, ‘INVT’, ‘PATN:ISD’]]
table_10_copy = table_10.copy() #对原始单元格的数据进行修改，建议先创建副本，对副本进行修改数据的操作
table_10_copy

fuc = lambda x: x.lower().replace(‘~’, ‘/’)
table_10_copy[‘INVT’] = table_10_copy[‘INVT’].apply(fuc)
table_10_copy

table_10_copy.to_csv(‘table_10_copy.csv’,sep=’`’)
table_10_copy.to_excel(‘table_10_copy.xlsx’)

https://blog.csdn.net/weixin_29191669/article/details/112173535

https://blog.csdn.net/weixin_39945789/article/details/111045815

Original: https://blog.csdn.net/weixin_43736457/article/details/121500036
Author: weixin_43736457
Title: Pandas简单操作

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/675992/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

标签平滑(label smoothing)

在常见的多分类问题中，先经过softmax处理后进行交叉熵计算，原理很简单可以将计算loss理解为，为了使得网络对测试集预测的概率分布和其真实分布接近，常用的做法是使用one-ho…

人工智能 2023年5月27日
0089
（pytorch进阶之路）四种Position Embedding的原理及实现

文章目录 Transformer PE – sin-cos 1d VIT PE – trainable 1d Sw PE – trainable…

人工智能 2023年7月21日
00170
自回归滑动平均（ARMA）模型

目录一. 功率谱密度二.ARMA过程三.ARMA建模及应用一.功率谱密度功率谱反映被分析对象的能量随频率分布情况，如雷达信号处理中，回波信号的功率谱密度，谱峰宽度、高度和…

人工智能 2023年6月18日
00118
【mmdetection】mmdetection安装详细步骤

mmdetection是由商汤科技和香港中文大学开源了一个基于Pytorch实现的深度学习计算机视觉工具箱，涵盖了目标检测、实例分割、全景分割、模型蒸馏等计算机视觉任务，复现了最新…

人工智能 2023年6月17日
0098
一文了解SpringBoot

目录什么是SpringBoot？ SpringBoot的优点 SpringBoot项目搭建创建一个普通的maven项目修改pom.xml（检查引入的依赖是否正确）准备Spr…

人工智能 2023年6月29日
00103
（终章）[图像识别]13.OpenCV案例自定义训练集分类器物体检测

目录一、准备阶段二、图片处理三、生成描述文件四、生成.vec文件五、生成.xml自定义分类器文件六、识别检测一、准备阶段正样本集：正样本集为包含”识别…

人工智能 2023年6月18日
00155
R语言进行缺失值填充（Filling in missing values）：使用R原生方法、data.table、dplyr等方案

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0077
（生物信息学）R语言与统计学入门（十）—— 多因素Cox回归分析

## 近期将推出医学生R语言入门课;R语言与高级统计学付费专栏，感谢大家支持 ## 上次提到单因素cox回归分析：（生物信息学）R语言与统计学入门（九）—— 单因素cox回归分…

人工智能 2023年6月19日
00139
使用聚类算法（Kmeans）进行数据降维并作为分类算法逻辑回归（logistic Regression）的数据预处理步骤实战

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月3日
0086
深度学习神经网络入门案例详细解析-鸢尾花案例

神经网络设计过程案例：鸢尾花分类鸢尾花三种类别：三种: 狗尾巴杂草小腹肌收集花朵的特征值：四种花萼长花萼宽花瓣长花瓣宽以及：三种输出结果狗尾巴杂草小腹肌操作方…

人工智能 2023年6月16日
0086
【matlab深度学习工具箱】convolution2dLayer参数详解

2-D 卷积层 2-D 卷积层将滑动卷积滤波器应用于 2-D 输入。该层通过沿输入方向垂直和水平移动滤波器并计算权重和输入的点积，然后添加偏置项来卷积输入。 layer = con…

人工智能 2023年6月16日
00110
浅谈人工智能（AI）

文章目录人工智能 (AI) 一、人工智能简介 * 1.1.人工智能定义和发展历史 1.2.人工智能发展必备三要素 – 1.2.1.三要素 1.2.人工智能发展必备三要…

人工智能 2023年6月23日
00107
手把手教你：基于粒子群优化算法（PSO）优化卷积神经网络（CNN）的文本分类

系列文章手把手教你：人脸识别考勤系统文章目录系列文章项目简介一、粒子群算法（PSO）简介二、项目展示二、环境需求 * 环境安装实例三、重要功能模块介绍 * 1.数据…

人工智能 2023年7月14日
0084
姿态解算-陀螺仪+欧拉法

目录 1、基本原理 2、捷联矩阵 3、陀螺仪+欧拉角法姿态解算参考博士论文《多旋翼无人机的姿态与导航信息融合算法研究》张欣 1、基本原理姿态解算指的是求出导航坐标系（一般选择…

人工智能 2023年6月16日
0082
ubuntu16.04安装pyaudio失败解决办法

把几个错误报告放在第一位，让同志们搜索： [En] Put a few error reports first so that comrades can search for: e…

人工智能 2023年5月27日
00108
一文带你了解python opencv中霍夫变换(Hough transform)的常用操作

文章目录前言 * 霍夫直线变换 – cv2.HoughLines cv2.HoughLinesP skimage.transform.hough_line 霍夫直线检…

人工智能 2023年6月18日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31