1.Series和DataFrame

2023年8月18日上午9:04 • Python • 阅读 39

0.文件的导入和导出

① Excel

1.导入表格

df=pd.read_excel('1月.xlsx',sheet_name='莫寒')

不指定sheet则导入第一张

2.导入指定列

df1 = pd.read_excel('1月.xlsx', usecols=[0, 3])            #通过指定列索引号导入第0列、第3列

3.指定行列索引

df1=pd.read_excel('1月.xlsx',index_col=0)  #设置"买家会员名"为行索引

df2=pd.read_excel('1月.xlsx',header=1)     #设置第1行为列索引

header = None则指定为数字

1.Series对象

①创建

s = pd.Series(data,index=)

s2=pd.Series([88,60,75],index=['明日同学','高同学','七月流火'])

②访问

[]里面放索引名或列表

print(s1['明日同学'])        #通过一个标签索引获取索引值
print(s1[['明日同学','七月流火']])  #通过多个标签索引获取索引值

2.切片

s1[‘明日同学’:’七月流火’]

s1[1:4] 输出下标为1，2，3的

③两个属性

s1.index 获取索引

s1.values 获取值

2.DataFrame对象

①创建

1.二维列表创建

data = [[110,105,99],[105,88,115],[109,120,130],[112,115,140]]
name = ['明日','七月流火','高袁圆','二月二']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=name, columns=columns)

2.字典创建

df = pd.DataFrame({
    '语文':[110,105,99],
     '数学':[105,88,115],
     '英语':[109,120,130],
      '班级':'高一7班'
},index=[0,1,2])

键就是列名，只需指定行名index了

②重要属性和函数

④数据抽取

1.直接df[列名]

2.loc和iloc属性

前者列名行名，后者数字索引

第一个参数为行参数，第二个为列参数

print(df.loc[['明日','高袁圆']])
print(df.iloc[[0,2]])           #访问0和2行

同Series，[]里面放 行索引名或者行索引名列表

print(df.loc['明日':'二月二']) #从"明日"到"二月二"
print(df.loc[:'七月流火'])     #第1行到"七月流火"
print(df.iloc[0:4])            #第1行到第4行
print(df.iloc[1::])            #第2行到最后1行

注意，iloc[0:4]只有下标0，1，2，3的

print(df.iloc[1::,[0,2]])                      #第2行到最后一行的第1列和第3列
print(df.iloc[:,2])                           #所有行，第3列

两个参数也差不多

3.df.iat[,]选取某个坐标的数据

4.条件选取

print(df.loc[(df['语文'] > 109)])

》》
        语文  数学  英语
明日     110   105  99.0
二月二   112   115   NaN

⑤数据增删改

1.增

①通过a[“列名”]，loc函数直接赋值

②或者

df.insert(1,"物理",[90,87,63])

③增加多行数据

df_insert = pd.DataFrame({'语文':[100,123,138],'数学':[120,142,60],'英语':[99,139,99]},index = ['钱多多','童年','无名'])
df1 = df.append(df_insert)

2.删

以下是删除两列，行类似

df1.drop(['数学',"语文"],axis=1,inplace=True)

3.改

①改行标列标

直接赋值，或者用rename函数，以下修改行，修改列同理

df.index=list('1234')

df.rename({'明日':1,'七月流火':2,'高袁圆':3,'二月二':4},axis=0,inplace = True)

②改数据

通过loc，iloc直接赋值

df.loc[:,'语文']=[115,108,112,118]

⑥数据清洗

1.缺失值

df.info()

df.isnull()

df.notnull()

处理：

①删除有缺失值的行，（只要该行有缺失值，就删除）

df.dropna(inplace=True)

②只删除特定列空值的行

df = df.loc[df["宝贝总数量"].notnull()]

③填充空值

df=df["宝贝总数量"].fillna(0)    #此行错误，会出大问题
df["宝贝总数量"]=df["宝贝总数量"].fillna(0)

2.重复值

①检测该行是否与前面行完全相同，返回每行的布尔值

print(df.duplicated())

②删除重复行

print(df.drop_duplicates())
print(df.drop_duplicates(["宝贝标题"],keep="last"))  #keep=False表示去除所有重复行

3.异常值

p = df > 100
print(p)
df = df.loc[p["英语"]]
print(df)

》》
          语文  数学  英语
明日       110   105    99
七月流火   105    88   115
高袁圆     109   120   130
二月二     112   115   140
          语文   数学   英语
明日      True   True  False
七月流火  True  False   True
高袁圆    True   True   True
二月二    True   True   True
          语文  数学  英语
七月流火   105    88   115
高袁圆     109   120   130
二月二     112   115   140

Process finished with exit code 0

p = df.std()
print(p["英语"])

⑦索引设置

1.series重设索引

之前的df.index = 实际上是索引重命名

from pandas import Series
s1=Series([88,60,75],index=[1,2,3])
print(s1)
s1=s1.reindex([1,2])
print(s1)

》》
1    88
2    60
3    75
dtype: int64
1    88
2    60
dtype: int64

2.dataframe重设索引

import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
data = [[110,105,99],[105,88,115],[109,120,130]]
index=['mr001','mr003','mr005']
columns = ['语文','数学','英语']
df = pd.DataFrame(data=data, index=index,columns=columns)
print(df)
print(df.reindex(index=['mr001','mr002','mr003','mr004','mr005'],columns=['语文','物理','数学','英语']))

》》
       语文  数学  英语
mr001   110   105    99
mr003   105    88   115
mr005   109   120   130
        语文  物理   数学   英语
mr001  110.0   NaN  105.0   99.0
mr002    NaN   NaN    NaN    NaN
mr003  105.0   NaN   88.0  115.0
mr004    NaN   NaN    NaN    NaN
mr005  109.0   NaN  120.0  130.0

3.设置某列为行索引

df = df.set_index([“买家会员名”])

4.把不连续的索引重新设为连续

df=df.reset_index(drop = Ture)

⑧数据排序与排名

1.排序

df.sort_values(by=['图书名称','销量'],ascending=[True,True])

2.分组排序

df1=df.groupby(["类别"])["销量"].sum().reset_index()
df2=df1.sort_values(by='销量',ascending=False)

3.排名

顺序排名和平均值排名（1，2，3）（1，2.5，2.5）

df['顺序排名'] = df['销量'].rank(method="first", ascending=False)

Original: https://blog.csdn.net/weixin_44593786/article/details/121654168
Author: 路远8293
Title: 1.Series和DataFrame

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/752903/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于ServiceStage的微服务开发与部署（二）

2.3. 微服务接入CSE 步骤 1 打开”应用管理与运维平台”-“基础设施”-“微服务引擎（CSE）”，查…

Python 2023年10月9日
0038
ExcelToObject.NPOI 两行代码导出Excel报表、读取Excel数据

简介作为一个dotnet开发者，经常面对业务系统中大量报表导入导出，经常写了一堆的重复代码。最近发现一个操作excel的神器：ExcelToObject.NPOI，两行代码就能导…

Python 2023年10月12日
0045
Python字典查找数据的5个操作方法

上一篇文章写了关于字典操作方法的增删改，这篇主要讲解如何查找字典数据。查找数据写法一共有两种，一种能够是key值查找，另外一种是按照函数的写法进行数据查找。一、key值查找如果…

Python 2023年8月2日
00135
one-hot编码

one-hot编码什么是one-hot编码 one-hot编码，又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任…

Python 2023年10月7日
0065
尚硅谷python爬虫（五）-scrapy

一、scrapy简介 scray是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中二、scrapy项目的创…

Python 2023年10月2日
0038
Vu3.x如何给v-for循环出来的输入框绑定v-mode的值，以及实现父子组件传值、双向绑定

观前须知：本人演示使用的input是自己手敲的，如果使用的是element-ui等表单组建的input框请选择性参考，不保证我的方法对你们也完全有效。父组件代码：这里我的 Mi…

Python 2023年10月19日
0023
chatGPT与世界杯的故事：人工智能的双重面对

1. 引言（本文是 CSDN 的世界杯征文）在本文中，我们将借助chatGPT的智慧，一起探究世界杯与人工智能之间的关系，并展望人工智能在体育领域的应用。同时，我们也将思考人工智…

Python 2023年11月3日
0055
11┃音视频直播系统之 WebRTC 进行文本聊天并实时传输文件

学会文本聊天并传输文件一、RTCDataChannel WebRTC不但可以让你进行音视频通话，而且还可以用它传输普通的二进制数据，比如说可以利用它实现文本聊天、文件的传输等 W…

Python 2023年6月10日
0067
R语言进行模型交叉验证比较

我们建立模型后，需要对模型变量调整比较，得出最优模型，交叉验证为目前评价模型质量的一个比较流行的方法。我们今天使用BOOT包的cv.glm函数来交叉验证，得出最优模型，并和其他指标…

Python 2023年10月9日
0042
STK12与Python联合仿真（一）：环境搭建

环境搭建安装Python和Jupyter notebook 关键一步 STK配置 But 安装Python和Jupyter notebook 这个各大博主都有讲解，附上几个链接吧…

Python 2023年9月30日
00237
数据挖掘-模型怎么解决业务需求（五）

🤵‍♂️ 个人主页：@Lingxw_w的个人主页✍🏻作者简介：计算机科学与技术研究生在读🐋 希望大家多多支持，我们一起进步！😄如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂…

Python 2023年9月26日
0027
论文阅读 CVPR2022《Rethinking Semantic Segmentation：A Prototype View》

文中作者一直强调关于一张图片里的像素投射的embedding space的结构是缺乏关注的，这个思想在他去年的一项工作里就有涉及，他提出了一个insight的问题，如下图红字。 O…

Python 2023年9月30日
0054
4-8 Matplotlib库雷达图

Matplobilb库数据分析常用图 1. 雷达图 2. 使用 plt.polar 绘制雷达图 3. 使用子图绘制雷达图 3.1 使用 plt.subplot 绘制子图 3.2 使…

Python 2023年9月2日
0061
波动方程数值求解（一）

波动方程数值解是波动方程正演、逆时偏移和全波形反演的核心技术之一。本文采用二阶有限差分对波动方程进行了离散，进而实现了对波动方程的数值求解，模拟出其在介质中的传播过程。1、二维声波…

Python 2023年8月26日
0057
Python爬虫，利用scrapy来编写一个爬虫

本文将介绍我是如何在python爬虫里面一步一步踩坑，然后慢慢走出来的，期间碰到的所有问题我都会详细说明，让大家以后碰到这些问题时能够快速确定问题的来源，后面的代码只是贴出了核心代…

Python 2023年10月1日
0053
python 整合同类数据求分位值_【利用python进行数据分析】数据聚合与分组运算…

在将数据集准备好了之后，通常的任务是计算分组统计或生成透视表。 pandas提供了groupby功能，可以自然地对数据集进行切片、切块和摘要。在本章中，我们将会学到： 1根据一个…

Python 2023年8月22日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31