pandas 案例积累（一）—— 基础应用

2023年7月7日下午6:52 • 人工智能 • 阅读 75

pandas 案例积累（一）—— 基础应用

使用list构造Series
使用dict构造Series
通过可迭代对象构造Series
通过一维数组构造Series
通过标量(常数)构造Series
Series转换成List
将Series转换成DataFrame
转换Series的数据类型
给Series添加新的元素
使用dict创建DataFrame
使用Series组成的字典创建DataFrame
使用字典组成的列表创建DataFrame
其他创建DataFrame的方法
生成指定范围的日期
生成一年的所有周一日期
生成一天的所有小时
用日期生成DataFrame
将日期作为DataFrame的索引
查看数据
条件选择
对列进行排序
分组聚合
表格转置翻转
统计分析

使用list构造Series

import pandas as pd
courses = ["数学", "语文", "英语", "计算机"]
data = pd.Series(data=courses)
print(data)

运行结果：

使用dict构造Series

import pandas as pd
grades = {"语文":80, "数学":90, "英语":90, "计算机":100}
data = pd.Series(data=grades)
print(data)

运行结果：

通过可迭代对象构造Series

import pandas as pd
data = range(5)
print(type(data))
ser_obj = pd.Series(data, index=['a', 'b', 'c', 'd', 'e'])
print(ser_obj)

运行结果：

通过一维数组构造Series

import numpy as np
import pandas as pd
x = np.arange(10, 60, 10)
y = pd.Series(x)
print(y)

运行结果：

通过标量(常数)构造Series

import pandas as pd
x = 22
y1 = pd.Series(x)
print(y1)
print("-分割-"*4)
y2 = pd.Series(x,index=list(range(5)))
print(y2)

运行结果：

Series转换成List

import pandas as pd
grades = {"语文":80, "数学":90, "英语":90, "计算机":100}
ser_obj = pd.Series(data=grades)
print(ser_obj.tolist())

运行结果：

将Series转换成DataFrame

import pandas as pd
grades = {"语文":80, "数学":90, "英语":90, "计算机":100}
ser_obj = pd.Series(data=grades)
df1 = pd.DataFrame(data=ser_obj, columns=["grade"])
df2 = ser_obj.reset_index()
df2.columns = ["index", "grade"]
print(df1)
print("-分割-"*4)
print(df2)

运行结果：

转换Series的数据类型

import pandas as pd
grades = {"语文":80, "数学":90, "英语":90, "计算机":100}
ser_obj = pd.Series(data=grades, dtype=int)

ser_obj1 = ser_obj.astype(float)

ser_obj2 = ser_obj.map(str)
print(ser_obj1)
print("-分割-"*4)
print(ser_obj2)

运行结果：

给Series添加新的元素

import pandas as pd
grades = {"语文":80, "数学":90, "英语":90, "计算机":100}
ser_obj = pd.Series(data=grades, dtype=int)
ser_obj = ser_obj.append(pd.Series({
    "物理":88,
    "化学":99
}))
print(ser_obj)

运行结果：

使用dict创建DataFrame

import pandas as pd
df = pd.DataFrame({
    "姓名":["小明", "小王", "小李"],
    "年龄":[23, 12, 24],
    "性别":["男", "男", "女"]
})
print(df)

df.set_index("姓名", inplace=True)
print("-分割-"*4)
print(df)

运行结果：

使用Series组成的字典创建DataFrame

d = {
    'x':pd.Series([1, 2, 3], index=['a', 'b', 'c'], dtype=float),
    'y':pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'], dtype=float)
}
df = pd.DataFrame(data=d)
print(df)
"""
     x    y
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  NaN  4.0
"""

使用字典组成的列表创建DataFrame

list_one = [
    {'x':1, 'y':2, 'z':3},
    {'x':4, 'y':5}
]
df = pd.DataFrame(data=list_one, index=['a', 'b'])
print(df)
"""
   x  y    z
a  1  2  3.0
b  4  5  NaN
"""

其他创建DataFrame的方法

df1 = pd.DataFrame.from_dict({'国家':['中国', '美国', '日本'], '人口':[13.97, 3, 2]})
print(df1)
"""
   国家     人口
0  中国  13.97
1  美国   3.00
2  日本   2.00
"""

df2 = pd.DataFrame.from_records([('中国', '美国', '日本'), (13.97, 3, 2)])
print(df2)
"""
       0   1   2
0     中国  美国  日本
1  13.97   3   2
"""

生成指定范围的日期

import pandas as pd
date_range1 = pd.date_range(start='2021-10-01', end='2021-10-06')
print(date_range1)
print("-分割-"*4)
date_range2 = pd.date_range(start='2021-10-01', periods=6)
print(date_range2)

运行结果：

生成一年的所有周一日期

import pandas as pd
date_range1 = pd.date_range(start='2021-01-01', end='2021-12-31', freq='W-MON')
date_range2 = pd.date_range(start='2021-01-01', periods=52, freq='W-MON')
print(date_range1)
print("-分割-"*4)
print(date_range2)

运行结果：

生成一天的所有小时

import pandas as pd
date_range1 = pd.date_range(start='2021-01-01', periods=24, freq='H')
date_range2 = pd.date_range(start='2021-01-01', end='2021-01-02', freq='H', closed='left')
print(date_range1)
print("-分割-"*4)
print(date_range2)

用日期生成DataFrame

import pandas as pd
date_range = pd.date_range(start='2021-10-01', periods=31)
df = pd.DataFrame(data=date_range, columns=['day'])

df['day_of_year'] = df['day'].dt.dayofyear
print(df)

将日期作为DataFrame的索引

import numpy as np
import pandas as pd
date_range = pd.date_range(start='2021-10-01', periods=5)
data = {
    'norm':np.random.normal(loc=0, scale=1, size=5),
    'uniform':np.random.uniform(low=0, high=1, size=5),

    'binomial':np.random.binomial(n=1, p=0.2, size=5)
}
df = pd.DataFrame(data=data, index=date_range)
print(df)

查看数据

import numpy as np
import pandas as pd
date_range = pd.date_range(start='2021-10-01', periods=500)
data = {
    'norm':np.random.normal(loc=0, scale=1, size=500),
    'uniform':np.random.uniform(low=0, high=1, size=500),
    'binomial':np.random.binomial(n=1, p=0.2, size=500)
}
df = pd.DataFrame(data=data, index=date_range)
print("查看前3行:\n", df.head(3), end='\n\n')
print("查看后2行:\n", df.tail(2), end='\n\n')
print("随机查看3行:\n", df.sample(3), end='\n\n')
print("查看数据类型、索引情况、行列数、字段类型、使用内存等:")
df.info()
print("\n查看数值型汇总统计:")
print(df.describe())
print("\n查看数据行和列名：\n", df.axes)
print("\n查看各字段类型：\n", df.dtypes)
print("\n查看列名：\n", df.columns)
print("\n查看指定列：\n", df['norm'])
print("\n查看指定的两列：\n", df[['norm', 'binomial']])
print("\n查看指定的两列(等价)：\n", df.loc[:, ['norm', 'binomial']])
print("\n查看指定行：\n", df[df.index == '2021-10-04'])
print("\n查看第2到5行（索引取值）:\n", df[1:4])
print("\n查看第2到5行（等价写法）:\n", df.iloc[1:4, :])
print("\n查看第2到10行（索引取值, 两行取一行）:\n", df[1:9:2])
print("\n查看指定行列数据：\n", df.loc['2021-10-04', 'uniform':'binomial'])
print("\n查看指定行列数据：\n", df.loc['2021-10-04':'2021-10-06', 'uniform':'binomial'])

`
查看前3行:
norm uniform binomial
2021-10-01 -0.781939 0.719271 0
2021-10-02 0.487875 0.292774 0
2021-10-03 -0.572962 0.055363 0

查看后2行:
norm uniform binomial
2023-02-11 0.62362 0.135654 0
2023-02-12 -0.35141 0.070681 0

随机查看3行:
norm uniform binomial
2022-11-24 -1.632031 0.153601 0
2023-01-19 -1.239771 0.812020 0
2022-02-12 -1.460656 0.196312 0

查看数据类型、索引情况、行列数、字段类型、使用内存等:

DatetimeIndex: 500 entries, 2021-10-01 to 2023-02-12
Freq: D
Data columns (total 3 columns):
# Column Non-Null Count Dtype

Original: https://blog.csdn.net/qq_37200100/article/details/125401557
Author: 属于我自己的光
Title: pandas 案例积累（一）—— 基础应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676862/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

mlp多层感知机预测（python）

可以对比我之前发布的文章1.BP神经网络预测（python）2.lstm时间序列预测+GRU（python）3. 数据集点击此处即可进行下载这篇文章用的数据和我之前发布的BP神经网…

人工智能 2023年6月13日
00110
神经网络 | Matlab实现数据集标注

=====================================================github：https://github.com/MichaelBeec…

人工智能 2023年7月9日
0089
如何学习才能精通opencv

在线教程 OpenCV Tutorialsopencv中文论坛数字图像处理英文第四版图像处理基础理论论述与软件实践方法相结合的第一本书，它集成了冈萨雷斯和伍兹所著的《数字图像处…

人工智能 2023年6月22日
0089
【个人记录】notebook不出运行结果以及tensorflow、The kernel appears to have died. It will restart automatically.等问题

所有遇到的问题：（1）notebook不出运行结果，换了个安装方法重新安装anconda后解决（2）但这个时候anconda3.0无法正常打开，只能通过这种方式打开（3）然…

人工智能 2023年5月26日
0080
SoftMax回归详解

文章目录 SoftMax 回归 * 推导 – 数据说明本质 + 与 Logistic 回归的关系（重点） * 关系求导的关系（重点）损失函数梯度下降法求参数 ω…

人工智能 2023年6月18日
0054
[3D检测系列-PointRCNN]复现PointRCNN代码，并实现PointRCNN3D目标检测可视化，包含预训练权重下载链接（从0开始以及各种报错的解决方法）

[3D检测系列-PointRCNN] 复现PointRCNN代码 1.下载代码 2.准备数据集 (1)使用官网提供的数据集格式 (2)使用软连接 3.检测结果 4.结果可视化 (1…

人工智能 2023年6月16日
0098
自动化运维？看看Python怎样完成自动任务调度

计划任务是几乎每个开发人员都会用到的功能，在服务器上可以用 Cron 作业来进行任务调度，它也是一种稳定的方式。但我们也可以完全程序化，全部使用 Python 来完成调度程序，而且…

人工智能 2023年6月28日
0073
【‘pip‘ 不是内部或外部命令，也不是可运行的程序或批处理文件】

目录一、【解决方法】（添加环境变量）二、【演示】（解决方法的详细版） 1、打开系统属性（高级）界面 2、编辑用户变量——添加pip的完整路径（1）点击环境变量（2）点击…

人工智能 2023年7月4日
00109
pandas基本使用（一）

相当于Excel中的一个Sheet表。创建方法典类型读取到DataFrame（dict to DataFrame）方法一：直接使用 pd.DataFrame(data=te…

人工智能 2023年7月7日
0076
服务器的CUDA是哪里来的？pytorch会自动安装CUDA吗？如何选择CUDA版本？nvcc –version的版本和nvidia-smi不一样是怎么回事？pytorch无法使用GPU怎么办？

目录前情提要：发出疑问答案在这里：前情提要：今天使用 conda install pytorch torchvision torchaudio cudatoolkit=1…

人工智能 2023年7月21日
0068
遥感图像中的小样本目标检测：Few-shot Object Detection on Remote SensingImages

论文下载：https://arxiv.org/pdf/2006.07826v2.pdf Abstract 在本文中，我们处理遥感图像上的目标检测问题。以前的方法已经发展了许多基于深…

人工智能 2023年6月15日
00130
四十七.模型和正态分布(BoxCox)

1.为什么数据要服从正态分布在深度学习和机器学习中，我们通常希望数据的分布为正态分布，因为在机器学习中，许多模型都是基于数据服从正态分布的假设（例如线性回归，它假设模型的残差服从…

人工智能 2023年7月14日
0062
Python3 网络通信网络聊天室文件传输

Python3 网络通信网络聊天室文件传输功能描述该项目将实现一个文字和文件传输的客户端和服务器程序通信应用程序。它将传输和接收视频文件。文本消息必须通过TCP与服务器通信…

人工智能 2023年6月6日
0090
Debian系列操作系统安装CUDA+CUDNN+TensorFlow+Pytorch深度学习环境

Debian系列操作系统安装CUDA+CUDNN+TensorFlow+Pytorch深度学习环境 1. 简介 2. 安装显卡驱动 3. 安装CUDA+CUDNN 环境 4. 安装…

人工智能 2023年5月23日
0071
python教程：15种字符串操作方法

字符串是字符的序列。字符串基本上就是一组单词。我几乎可以保证你在每个Python程序中都要用到字符串，所以请特别留心下面这部分的内容。下面告诉你如何在Python中使用字符串。…

人工智能 2023年7月3日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas 案例积累（一）—— 基础应用

pandas 案例积累（一）—— 基础应用

大家都在看