Pnadas学习day-01

2023年8月9日上午12:21 • Python • 阅读 55

Pandas学习day-01

import pandas as pd
import numpy as np

Pandas基本数据结构

pandas中有两种基本结构

Series

一维数组，与numpy中得array类似，与python中的基本数据结构List也相近。Series能保存不同的数据类型。

DataFrame

二维的表格型数据结构。

Pandas的Series类型

一维Series可以用一维列表初始化

s=pd.Series([1,3,5,np.nan,6,8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

s=pd.Series([1,3,5,np.nan,6,8],index=['a','b','c','d','e','f'])
s

a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

索引数据的行标签

s.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

s.values

array([ 1.,  3.,  5., nan,  6.,  8.])

s[0]

1.0

s[3]

nan

切片操作

s[2:5]

c    5.0
d    NaN
e    6.0
dtype: float64

s[::2]

a    1.0
c    5.0
e    6.0
dtype: float64

索引赋值

s.index.name='索引'
s

&#x7D22;&#x5F15;
a    1.0
b    3.0
c    5.0
d    NaN
e    6.0
f    8.0
dtype: float64

pandas的DataFrame类型

构造一个时间序列

date=pd.date_range('20180101',periods=6)
date

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

传入二维数组

df=pd.DataFrame(np.random.randn(6,4),index=date,columns=list('ABCD'))
df

ABCD2018-01-010.2763670.235869-0.8633730.7857982018-01-02-0.5858900.142942-0.504779-1.3700402018-01-03-0.607308-0.9835480.3108150.3384972018-01-040.025879-0.442640-0.8624321.2046142018-01-05-0.2781210.2727110.491046-0.1144472018-01-06-0.042118-0.761489-2.086405-0.566671

使用字典传入数据

df2=pd.DataFrame({'A':1,
                 'B':pd.Timestamp('20180101'),
                 'C':pd.Series(1,index=list(range(4)),dtype=float),
                 'D':np.array([3]*4,dtype=int),
                 'E':pd.Categorical(['test','train','test','train']),
                 'F':'abc'})
df2

ABCDEF012018-01-011.03testabc112018-01-011.03trainabc212018-01-011.03testabc312018-01-011.03trainabc

查看数据

head和tail查看头尾几行数据，默认为5。

df.head()

df.tail(3)

ABCD2018-01-040.025879-0.442640-0.8624321.2046142018-01-05-0.2781210.2727110.491046-0.1144472018-01-06-0.042118-0.761489-2.086405-0.566671

下标，列标，数据

下标使用index

df.index

DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
               '2018-01-05', '2018-01-06'],
              dtype='datetime64[ns]', freq='D')

列标使用columns属性查看

df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

数据值使用values查看

df.values

array([[ 0.27636662,  0.23586885, -0.86337336,  0.78579775],
       [-0.58588988,  0.14294223, -0.50477922, -1.37003977],
       [-0.60730841, -0.98354839,  0.31081542,  0.33849741],
       [ 0.02587881, -0.44264039, -0.86243218,  1.20461397],
       [-0.27812082,  0.27271064,  0.49104565, -0.11444685],
       [-0.04211835, -0.76148874, -2.0864052 , -0.56667069]])

Pandas读取数据及数据操作

df=pd.read_excel('豆瓣电影数据.xlsx')

行操作

df.iloc[0]

&#x540D;&#x5B57;                   &#x8096;&#x7533;&#x514B;&#x7684;&#x6551;&#x8D4E;
&#x6295;&#x7968;&#x4EBA;&#x6570;                 692795
&#x7C7B;&#x578B;                    &#x5267;&#x60C5;/&#x72AF;&#x7F6A;
&#x4EA7;&#x5730;                       &#x7F8E;&#x56FD;
&#x4E0A;&#x6620;&#x65F6;&#x95F4;    1994-09-10 00:00:00
&#x65F6;&#x957F;                      142
&#x5E74;&#x4EE3;                     1994
&#x8BC4;&#x5206;                      9.6
&#x9996;&#x6620;&#x5730;&#x70B9;                 &#x591A;&#x4F26;&#x591A;&#x7535;&#x5F71;&#x8282;
Name: 0, dtype: object

df.iloc[0:5]

名字投票人数类型产地上映时间时长年代评分首映地点0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节1控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国2美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利3阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映4霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港

iloc与loc的区别(loc左闭右闭的区间)

df.loc[0:5]

添加一行

dic={'名字':'复仇者联盟3',
     '投票人数':123456,
     '类型':'剧情/科幻',
     '产地':'美国',
    '上映时间':2018-5-4,
    '时长':142,
    '年代':2018,
    '评分':np.nan,
    '首映地点':'美国'}
s=pd.Series(dic)
s.name=38738
s

&#x540D;&#x5B57;      &#x590D;&#x4EC7;&#x8005;&#x8054;&#x76DF;3
&#x6295;&#x7968;&#x4EBA;&#x6570;    123456
&#x7C7B;&#x578B;       &#x5267;&#x60C5;/&#x79D1;&#x5E7B;
&#x4EA7;&#x5730;          &#x7F8E;&#x56FD;
&#x4E0A;&#x6620;&#x65F6;&#x95F4;      2009
&#x65F6;&#x957F;         142
&#x5E74;&#x4EE3;        2018
&#x8BC4;&#x5206;         NaN
&#x9996;&#x6620;&#x5730;&#x70B9;        &#x7F8E;&#x56FD;
Name: 38738, dtype: object

df=df.append(s)
df.tail(1)

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点38738NaN复仇者联盟3123456.0剧情/科幻美国20091422018NaN美国

删除一行

df = df.drop([38738])
df.tail(5)

名字投票人数类型产地上映时间时长年代评分首映地点38733神学院 S46.0Adult法国1905-06-05 00:00:005819838.6美国387341935年57.0喜剧/歌舞美国1935-03-15 00:00:009819357.6美国38735血溅画屏95.0剧情/悬疑/犯罪/武侠/古装中国大陆1905-06-08 00:00:009119867.1美国38736魔窟中的幻想51.0惊悚/恐怖/儿童中国大陆1905-06-08 00:00:007819868.0美国38737列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме…32.0剧情/战争苏联1905-05-30 00:00:009719776.6美国

列操作

df.columns

Index(['&#x540D;&#x5B57;', '&#x6295;&#x7968;&#x4EBA;&#x6570;', '&#x7C7B;&#x578B;', '&#x4EA7;&#x5730;', '&#x4E0A;&#x6620;&#x65F6;&#x95F4;', '&#x65F6;&#x957F;', '&#x5E74;&#x4EE3;', '&#x8BC4;&#x5206;', '&#x9996;&#x6620;&#x5730;&#x70B9;'], dtype='object')

df['名字'][:5]

0    &#x8096;&#x7533;&#x514B;&#x7684;&#x6551;&#x8D4E;
1      &#x63A7;&#x65B9;&#x8BC1;&#x4EBA;
2     &#x7F8E;&#x4E3D;&#x4EBA;&#x751F;
3      &#x963F;&#x7518;&#x6B63;&#x4F20;
4      &#x9738;&#x738B;&#x522B;&#x59EC;
Name: &#x540D;&#x5B57;, dtype: object

增加列

df['序号']=range(1,len(df)+1)
df.head()

名字投票人数类型产地上映时间时长年代评分首映地点序号0肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节11控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国22美丽人生327855.0剧情/喜剧/爱情意大利1997-12-20 00:00:0011619979.5意大利33阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映44霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港5

删除列

df = df.drop('序号',axis=1)
df[-5:]

通过标签选择数据

df.loc[[index],[colunm]] 通过标签选择数据

df.loc[1,'名字']

'&#x63A7;&#x65B9;&#x8BC1;&#x4EBA;'

df.loc[[1,3,5,7,9],['名字','评分']]

名字评分1控方证人9.53阿甘正传9.45泰坦尼克号9.47新世纪福音战士剧场版：Air/真心为你新世紀エヴァンゲリオン劇場版 Ai9.49这个杀手不太冷9.4

条件选择

选择产地为美国的电影

df[df['产地']=='美国'][:5]

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点00肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节11控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国33阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映55泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆66辛德勒的名单306904.0剧情/历史/战争美国1993-11-30 00:00:0019519939.4华盛顿首映

选择产地为美国的电影,并且评分大于9分

df[(df['产地']=='美国')&(df['评分']>9)][:5]

选择产地为美国或者中国大陆的电影,并且评分大于9分

df[((df.产地=='美国')|(df.产地=='中国大陆'))&(df.评分>9)][:5]

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点00肖申克的救赎692795.0剧情/犯罪美国1994-09-10 00:00:0014219949.6多伦多电影节11控方证人42995.0剧情/悬疑/犯罪美国1957-12-17 00:00:0011619579.5美国33阿甘正传580897.0剧情/爱情美国1994-06-23 00:00:0014219949.4洛杉矶首映44霸王别姬478523.0剧情/爱情/同性中国大陆1993-01-01 00:00:0017119939.4香港55泰坦尼克号157074.0剧情/爱情/灾难美国2012-04-10 00:00:0019420129.4中国大陆

缺失值及异常值处理方法

缺失值处理方法

方法说明
dropna 删除缺失值
fillna 填充缺失值
isnull 返回布尔值对象，判断缺失值
notnull isnull的否定式

判断缺失值

df[df['评分'].isnull()][:10]

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点38738NaN复仇者联盟3123456.0剧情/科幻美国20091422018NaN美国

填充缺失值

df['评分'].fillna(np.mean(df['评分']),inplace=True)
df[-5:]

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点3873438734.01935年57.0喜剧/歌舞美国1935-03-15 00:00:009819357.600000美国3873538735.0血溅画屏95.0剧情/悬疑/犯罪/武侠/古装中国大陆1905-06-08 00:00:009119867.100000美国3873638736.0魔窟中的幻想51.0惊悚/恐怖/儿童中国大陆1905-06-08 00:00:007819868.000000美国3873738737.0列宁格勒围困之星火战役 Блокада: Фильм 2: Ленинградский ме…32.0剧情/战争苏联1905-05-30 00:00:009719776.600000美国38738NaN复仇者联盟3123456.0剧情/科幻美国200914220186.935704美国

删除缺失值

df.dropna() 参数
how=’all’ 删除全为空值的行或者列
inplace=True 覆盖之前的数据
axis=0 选择行或者列

处理异常值

df[df.投票人数<0]

Unnamed: 0名字投票人数类型产地上映时间时长年代评分首映地点1977719777.0皇家大贼皇家大-80.0剧情/犯罪中国香港1985-05-31 00:00:006019856.3美国1978619786.0日本的垃圾去中国大陆にっぽんの”ゴミ” 大陆へ渡る～中国式リサイクル錬-80.0纪录片日本1905-06-26 00:00:006020047.9美国1979719797.0女教徒-118.0剧情法国1966-05-06 00:00:0013519667.8美国

数据保存

df.to_excel('moive_data.xlsx')

Original: https://blog.csdn.net/qq_38398516/article/details/121099248
Author: 抱紧我的糖果罐
Title: Pnadas学习day-01

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743491/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django REST Framework——6. 认证、权限、限流、过滤、排序及异常处理

身份认证是将传入的请求与一组标识凭据（例如发送该请求的用户或其签名的token）相关联的机制。然后，”权限”和”限流”可以使用这些凭…

Python 2023年8月6日
0081
人工智能实验1-波士顿房价预测

人工智能实验1-波士顿房价预测 1 实验内容 * 1.1 波士顿房价预测任务 1.2 线性回归模型 2 源代码 * 2.1 数据处理 – 2.1.1 读入数据 2.1….

Python 2023年9月16日
0093
在centos8使用Docker部署Django项目

引言在本文中将介绍在Docker中通过django + uwsgi + nginx部署方式部署Django项目，由于记录的是学习过程，使用的都是目前较高的版本。 python …

Python 2023年6月10日
0096
HJ33 整数与IP地址间的转换

整数和ip地址的转化，要注意其他进制转化为2进制时有2个字符的前缀题目描述原理：ip地址的每段可以看成是一个0-255的整数，把每段拆分成一个二进制形式组合起来，然后把这个二进…

Python 2023年6月12日
0072
python—获取元素 Xpath

python—获取元素 Xpath 原创夕陌2022-07-19 11:27:10©著作权文章标签绝对路径 firefox 元素定位文章分类 Python 后端…

Python 2023年5月25日
0081
Pandas-高级处理（七）：透视表（pivot_table）【以指定列作为行索引对另一指定列的值进行分组聚合操作】、交叉表（crosstab）【统计频率】

交叉表与透视表的作用交叉表：计算一列数据对于另外一列数据的分组个数透视表：指定某一列对另一列的关系一、透视表透视表是一种可以对数据动态排布并且分类汇总的表格格式。透视表：…

Python 2023年8月6日
0059
python dataframe筛选日期_使用Python的Dataframe取两列时间值相差一年的所有行方法…

在使用Python处理数据时，经常需要对数据筛选。这是在对时间筛选时，判断两列时间是否相差一年，如果是，则返回符合条件的所有列。 data原始数据： data[map(lambd…

Python 2023年8月8日
0072
【回答问题】ChatGPT上线了！比较流行的强化学习算法

强化学习是人工智能和机器学习领域的一个重要分支。它主要研究的是如何让计算机在有目的的学习过程中自动找到最优的行动策略。强化学习的基本过程是：环境与智能体之间不断进行交互，智能体根…

Python 2023年11月4日
0048
Pyhton GUI之tkinter组件学习.md

§ Label 描述：标签控件，可以显示文本和位图。语法： w = Label ( master, option, … ) master：框架的父容器 option：可选项，…

Python 2023年11月3日
0036
【Python数据分析-1】：Pandas的常用操作-Pandas的主要数据结构Series（一维数据）和DataFrame（二维数据）

大家好，这里是为代码封神的封神榜（有点吹牛皮了，哈哈）。还是新人初来乍到，希望大家多多指教。本系列呢，是为大家带来的是Python数据分析，希望大家能够喜欢，多多支持。安装Pa…

Python 2023年8月18日
0090
RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

目录论文链接数据集简介 * GTOT RGBT210 RGBT234 VOT2019/2020 LasHeR VTUAV 数据集属性详解数据集对比论文链接 GTOT：论文 …

Python 2023年10月9日
0043
Go语言学习——标准库fmt、内置函数

内置函数 内置函数 介绍 close &…

Python 2023年6月10日
0069
（超详细）Jupyter Notebook入门教程

Jupyter Notebook入门教程 0. 前言 Jupyter Notebook是一款创建和分享计算文档的网络应用程序。它提供了一种简单、流线型、以文档为中心的体验。由于它可…

Python 2023年8月1日
0054
使用Python连接Oracle数据库的基本操作

Python进行数据库连接基本操作这里我们采用的是使用Oracle数据库进行相关操作在连接数据库之间，应下载相应的工具包cx_Oracle，在你安装的Python文件夹中找到sc…

Python 2023年8月1日
0046
学习爬虫第一次(3.23)flask制作网页urllib访问web

import flaskapp=flask.Flask(name) 创建一个ｆｌａｓｋ对象 @app.route(“/”)def hello():retur…

Python 2023年8月10日
0048
网络爬虫之 scrapy框架入门的基本使用

首先我们想要使用scrapy框架。我们先创建一个scrapy框架的工程文件在pycharm编辑器中的终端输入：scrapy startproject （固定写法）自己在随便想个…

Python 2023年10月6日
0027

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31