python数据分析-pandas自学笔记

2023年7月8日下午3:36 • 人工智能 • 阅读 82

pandas常用数据类型

Series：一维，带标签的数组

DataFrame：二维，Series容器

1.创建Series

#使用列表生成一个Series
import pandas as pd
s = pd.Series([1, 2, 3, 4])
print(s)
'''
0    1
1    2
2    3
3    4
dtype: int64
'''

使用数组生成一个Series
import pandas as pd
import numpy as np
s  = pd.Series(np.arange(6))
print(s)
'''
0    0
1    1
2    2
3    3
4    4
5    5
dtype: int64
'''

使用列表生成序列，并且指定索引
import pandas as pd

s1 = pd.Series([1, 2, 3, 4], index=['A', 'B', 'C', 'D'])

s2 = pd.Series([1,2,3,4,5], index=list('ABCDE'))    #调用list方法将字符串转换成列表类型

print(s1)
print(s2)
'''
A    1
B    2
C    3
D    4
dtype: int64
A    1
B    2
C    3
D    4
E    5
dtype: int64
'''

使用一个字典生成Series，其中字典的键，就是索引
import pandas as pd
s = pd.Series({'name':'张三', 'age':20, 'tel':10086})
print(s)
'''
name       张三
age        20
tel     10086
dtype: object
'''

2.Series的切片和索引

import pandas as pd
s2 = pd.Series([1,2,3,4,5], index=list('ABCDE'))
print( s2['B'] )    #通过索引查找
print( s2[2] )      #通过位置查找
print( s2[s2>2] )       #通过条件查找
print( s2[:2] )     #连续位置查找
print( s2[ [1,3] ] )        #不连续位置查找
print( s2[ ['B','D'] ] )        #通过多个索引查找
'''
2
3
C    3
D    4
E    5
dtype: int64
A    1
B    2
dtype: int64
B    2
D    4
dtype: int64
B    2
D    4
dtype: int64
'''

当通过一个不存在的索引查找数据，会返回NaN

numpy中的空值：nan pandas中的空值：NaN

import pandas as pd
s = pd.Series({'name':'张三', 'age':20, 'tel':10086})
print(s.index)      #查看Series的索引
print(s.values)     #查看Series的值
print( len(s.values) )      #查看Series的长度
'''
Index(['name', 'age', 'tel'], dtype='object')
['张三' 20 10086]
3
'''

2.pandas读取外部数据

读取xxx文件，如果不指定路径就寻找当前目录

pandas.read_xxx(文件名)

3.DataFrame的创建

DataFrame对象既有行索引，又有列索引

行索引：标记不同行，叫index，axis=0

列索引：标记不同列，叫columns，axis=1

pandas.DataFrame( numpy.arange(个数).reshape(行数,列数), index=, columns=)

import numpy as np
import pandas as pd
d = pd.DataFrame( np.arange(12).reshape(3,4), index=list('ABC'), columns=list('DEFG'))
print(d)
'''
   D  E   F   G
A  0  1   2   3
B  4  5   6   7
C  8  9  10  11
'''

#将字典转化成DataFrame

import numpy as np
import pandas as pd

d1 = { 'name':['xiaoming','xiaohua'],
       'age':[20,21],
       'tel':[10086,10010] }
print( pd.DataFrame(d1) )
print('-------------------------------------')

d2 = [ {'name':'xiaohong','age':32, 'tel':10010},
       {'name':'xiangming','tel':10000},
       {'name':'xiaohua','age':22} ]
print( pd.DataFrame(d2) )

'''
       name  age    tel
0  xiaoming   20  10086
1   xiaohua   21  10010
   D  E   F   G
b  4  5   6   7
c  8  9  10  11
    gene expression         description
a  gene1      low:0  transposon element
c  gene3      mid:4     retrotransposon
a     [low, 0]
b     [mid, 3]
c     [mid, 4]
d    [high, 9]
'''

df1逻辑：1. df[‘description’].str.contains(‘transposon’)筛选出含有description字段中有transposon字符串的行，返回True否则返回False。2. df[df[‘description’].str.contains(‘transposon’)]输出df中为True的行列。3. 将筛选过后的行列赋给df1

8.pandas常用统计方法

datasourse.7z – 蓝奏云资源中的IMDB-Movie-Data.csv

import numpy as np
import pandas as pd
df = pd.read_csv(r'C:\Users\LG\Desktop\data source\100电影\IMDB-Movie-Data.csv')      #导入文件
#查看字段，字段行数，字段数据类型
print(df.info())
#获取电影平均评分
print(df['Rating'].mean())
#导演的人数
print(len(set(df['Director'].tolist())))         #set()是转化成集合以去重，tolist()是转化成列表
print(len(df['Director'].unique()))       #unique()返回去重后的一个列表
print(df['Director'].nunique())
#演员的人数
actors_list = df['Actors'].str.split(',')       #每个电影的演员表生成列表,各列表再组成一个Series
actors = [i for j in actors_list for i in j]     #一层循环遍历一部电影的演员列表，另一层循环遍历一个演员列表里的每个演员
actors_sum = len(set(actors))       #set()使列表转为集合以去重，len()计算长度
print(actors_sum)
print('--------------------------')
#电影时长的最大值
max_time = df['Runtime (Minutes)'].max()        #最大时长
max_time_index = df['Runtime (Minutes)'].argmax()       #最大时长对应的索引
#电影时长的最小值
min_time = df['Runtime (Minutes)'].min()        #最小时长
min_time_index = df['Runtime (Minutes)'].argmin()       #最小时长对应的索引
#电影时长的中值
median_time = df['Runtime (Minutes)'].median()

统计每个分类下有几部电影

思路：先将所有电影类别作为表头创建一个全为0的DataFrame，遍历每部电影，在该电影属于的类别下改值为1（一部电影可能属于多个类别）

import numpy as np
import pandas as pd
df = pd.read_csv(r'C:\Users\LG\Desktop\data source\100电影\IMDB-Movie-Data.csv')
#将分类名去重提取出形成一个列表
categories_list = df['Genre'].str.split(',').tolist()       #.tolist()方法将Series转化为一个大列表内套着多个小列表
categories = list( set( i for j in categories_list for i in j))
print(categories)
#构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(categories))),columns=categories)
#给每个电影出现分类的位置赋值为1
for i in range(df.shape[0]):
    #zeros_df.loc[0, ['Sci-fi', 'Musical']] = 1，避免了双重循环
    zeros_df.loc[i,categories_list[i]] = 1
#统计每个分类的电影的数量和
count = zeros_df.sum(axis=0)
#排序
count = count.sort_values()
print(count)

9.数据合并

join根据行索引，merge根据列索引

join

将行索引相同的数据合并到一起

DataFrame1.join(DataFrame2)

（以DataFrame1的索引为主，DataFrame2多余的行去掉、少的行数据显示为NaN）

merge

DataFrame1.merge(DataFrame2, on=’字段名’,how=’连接方式’)

连接方式：

inner（默认）——交集，指定字段中相同的数据为连接，连上该行其它数据（相当于mysql的inner join）

outer——并集

right——右边为准，NaN补全

left——左边为准，NaN补全

DataFrame1.merge(DataFrame2,left_on=’1的某字段’,right_on=’2的某字段’,how=’连接方式’)

10.分组聚合

要分组的Series或DataFrame.groupby(by=’字段名’)

datasourse.7z – 蓝奏云中的星巴克directory.csv

import pandas as pd
import numpy as np
df = pd.read_csv(r'C:\Users\LG\Desktop\data source\星巴克\directory.csv')
print(df.info())

grouped = df.groupby(by='Country')      #grouped里每一个元素是一个元组
#可迭代对象
for i,j in grouped:
    print(i)
    print('-'*100)
    print(j)
    print('*'*100)
#分组后限定筛选
print(df[df['Country']=='US'])
#调用聚合方法
grouped.count()     #同个城市的所有字段分别求和
print(grouped['Brand'].count())     #可以选定某个不缺失数据的字段，避免上面那种每个字段求和值都一样

#统计美国的星巴克数量和中国哪个多
country_count = grouped['Brand'].count()
print(country_count['US'])
print(country_count['CN'])
#中国每个省份星巴克的数量情况
china_data = df[df['Country'] == 'CN']
province = china_data.groupby(by='State/Province')['Brand'].count()
print(province)

Series外嵌套一个[ ]就能使其返回成DataFrame

#数据按照多个条件进行分组，返回带有两个索引的Series
group2 = df['Brand'].groupby(by=[df['Country'],df['State/Province']]).count()
print(group2)
#数据按照多个条件进行分组，返回DataFrame
group3 = df[['Brand']].groupby(by=[df['Country'],df['State/Province']]).count()

11.索引和复合索引

获取索引

df.index

指定索引

df.index = [‘x’,’y’]

重新指定索引

df.reindex( [‘a’,’b’,’c’] ) #有这些索引的行保留，没有的填充为NaN。df中其它行删掉

指定某一列作为索引

df.set_index(‘字段名’, drop=False) #False意味着不把表头删掉，留下一个索引为表头名的空行

返回index的唯一值（索引是可以重复的）

df.set_index(‘字段名’).index.unique()

通过双索引查找数据

DataFrame之loc查找（注意 :在loc里是闭合的）

对象名.loc[ [行标签1,行标签2], 列标签]

双索引下，不能直接按内索引查找

转换内外索引后再查找

对象名.swaplevel().loc[ [行标签2] ]

12.时间序列

datasourse.7z – 蓝奏云中的911.csv

生成一段时间范围

pandas.date_range(start= , end= , periods= , freq=频率 )

频率

把时间字符串转化为时间序列

df[‘时间字段名’]=pandas.to_datetime(df[‘时间字段名’],format= )

对于python无法格式化的可以通过format告诉python它的格式

13.重采样

重采样指将时间序列从从一个频率转化为另一个频率进行处理的过程。将高频率数据转化为低频率数据为降采样，低频率转化为高频率数据为升采样。

时间频率转化

DataFrame名.resample(‘频率’).聚合方法

聚合方法：.mean()、.count()等等

import numpy as np
import pandas as pd
df = pd.read_csv(r"C:\Users\LG\Desktop\data source\911\911.csv")
#统计不同月份电话次数的情况
df['timeStamp'] = pd.to_datetime(df['timeStamp'])
df.set_index('timeStamp',inplace=True)      #inplace=True意味着原地替换
count = df['title'].resample('M').count()
print(count)

Original: https://blog.csdn.net/m0_46224483/article/details/123949964
Author: ZoraAvo
Title: python数据分析-pandas自学笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678781/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python科研做图系列之雷达图

文章目录参考资料 * 重点参考知乎一步一步的讲解 matplotlib库画的复现一个 pyecharts的雷达图尝试在上面的基础上，把pyecharts 导出存为一般的png…

人工智能 2023年6月28日
00116
pandas DataFrame方法；dataframe 定义一个数值全为1的列；dataframe创建多列；如何拆分嵌套list存为dataframe；在数据集添加一个新的列

主题：记录pandas的常见建立dataframe方法一、pd.DataFrame()方法（创建1列的情景）（1）传入pd.DataFrame()的内容，是一个dict（字典）…

人工智能 2023年7月15日
0052
图神经网络学习(一)-GCN及其应用

内容提要：GCN背景简介+torch_geometric库安装+GCN处理Cora数据集 1.图神经网络 1.1 概念原有的卷积神经网络主要用来解决欧式空间中的数据（数据规整，…

人工智能 2023年6月16日
00127
数据预处理—5.box-cox变换及python实现

文章目录 * – + 1.box-cox变换是什么？ + 2.python实现 + * 2.1逆变换接上一篇：特征工程—4.为什么要趋近于正态分布?详解 1.box…

人工智能 2023年7月7日
0072
【数据集】目标检测常用数据集||权威数据–持续更新

一个性能优良，极度完美的数据集，具有较小偏差的大数据集，对于计算机视觉领域算法的研究是很重要的，具体非常重要的作用！在目标检测中，知名的数据集一个接着一个的被发布，被公开，被广大…

人工智能 2023年6月23日
0086
什么是 PKI？公钥基础设施的定义和指南

公钥基础设施 (PKI) 管理 Internet 通信中的身份和安全性，以保护人员、设备和数据。组织依靠 PKI 解决方案来验证和加密流经 Web 服务器、数字身份、连接设备和应…

人工智能 2023年6月28日
0061
R语言计算欧几里得距离（Euclidean Distance）实战：两个向量的欧几里得距离、dataframe两个数据列的欧几里得距离

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月28日
0060
数据挖掘中的大数据量分批增量训练

1、lightgbm 这个我好像代码在另一个电脑上，待更吧。。。星期一把代码完善一下。。。先简单介绍一下什么叫增量训练，就是他一下子吃不了那么多数据，内存会爆掉，但是需要读怎么办，…

人工智能 2023年7月17日
0057
Linux搭建深度学习平台tensorflow，并使用jupyter notebook远程访问服务器。

文章目录前言一、Tensorflow 二、screen命令运行jupyter notebook 前言本文介绍如何搭建深度学习平台，并在jupyter notebook上运行…

人工智能 2023年5月24日
0070
Google Earth Engine（GEE）——TensorFlow支持深度学习等高级机器学习方法（非免费项目）

TensorFlow是一个开源机器学习平台，支持深度学习等高级机器学习方法。本页面介绍了 Earth Engine 中的 TensorFlow 特定功能。尽管 TensorFlow…

人工智能 2023年5月26日
0098
基于TensorFlow2.3.0的垃圾分类Android APP设计

一、开发环境 Windows 10 Python 3.7.3 TensorFlow 2.3.0 Anaconda 4.12.0 CUDA 10.1 cuDNN 7.6.5 二、步骤…

人工智能 2023年7月1日
0077
Python 网络爬虫与数据采集（一）

Python 网络爬虫与数据采集第1章序章网络爬虫基础 * 1 爬虫基本概述 – 1.1 爬虫是什么 1.2 爬虫可以做什么 1.3 爬虫的分类 1.4 爬虫的基…

人工智能 2023年7月3日
00110
Android 13运行时权限变更一览

本文同步发表于我的微信公众号，扫一扫文章底部的二维码或在微信搜索郭霖即可关注，每个工作日都有文章更新。要不了多久，Android 13正式版就要发布了。其实就在几个月前，我…

人工智能 2023年5月30日
0098
Web服务器

Web服务器 1.Web服务器简介简单来说 Web服务器就是一个能够接收http请求并作出响应的java程序我们再二阶段编写的webServer项目其实就是我们手写的Web服务…

人工智能 2023年6月27日
0080
tf.squeeze()与tf.expand_dims()

tf.squeeze()与tf.expand_dims()在变换维度时经常使用，今天来做下总结记录。 tf.squeeze(a,-1)与tf.expand_dims(a,-1)这里…

人工智能 2023年5月25日
0057
毕业设计深度学习机器视觉车位识别车道线检测 – python opencv

0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求…

人工智能 2023年6月16日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31