Pandas数据类型转换

2023年7月5日下午9:14 • 人工智能 • 阅读 58

Pandas数据类型转换

一、Pandas中的数据类型：

不管是 Series还是 DataFrame的每一列，都有对应的数据类型。在 Pandas中存在以下数据类型。

Pandas dtypePython 类型Numpy类型描述objectstr或者mixed（混合类型）string_, unicode_, mixed类型文本或者是混合的数值或非数值类型int64intint_, int8, int16, int32, int64, uint8, uint16, uint32, uint64整数类型float64floatfloat_, float16, float32, float64浮点类型boolboolbool_布尔类型datetime64NAdatetime日期和时间类型timedeltaNANA时间差categoryNANA有限的列表文本值（分类）

案例数据文件：

这里我们以一个 sales_data_types.csv文件为例。来讲解后面的知识点。读取代码如下：

import pandas as pd
import numpy as np

df = pd.read_csv("data/sales_data_types.csv")
df.head()

输出结果为：

数据类型相关操作：

1. 查看DataFrame所有列的类型：

通过 df.dtypes或者是 df.info，即可查看 df对象的类型。输入 df.dtypes输出结果如下：

Customer Number    float64
Customer Name       object
2016                object
2017                object
Percent Growth      object
Jan Units           object
Month                int64
Day                  int64
Year                 int64
Active              object
dtype: object

输入 df.info()输出结果如下：

<class 'pandas.core.frame.dataframe'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype

[lots more code here]

ValueError: could not convert string to float: '$15,000.00'
</module></ipython-input-45-999869d577b0>

这是因为在 2016这一列中，有 $和逗号，直接强制转换会抛出异常。这时候就需要使用自定义转换函数，把 $去掉，然后再转换。代码如下：

def convert_currency(val):
"""
    &#x8F6C;&#x6362;&#x5B57;&#x7B26;&#x4E32;&#x7C7B;&#x578B;&#x4E3A;&#x6D6E;&#x70B9;&#x7C7B;&#x578B;
     - &#x79FB;&#x9664; $&#x7B26;&#x53F7;
     - &#x79FB;&#x9664;&#x9017;&#x53F7;
     - &#x8F6C;&#x6362;&#x4E3A;&#x6D6E;&#x70B9;&#x7C7B;&#x578B;
"""
    new_val = val.replace(',','').replace('$', '')
    return float(new_val)

df['2016'].apply(convert_currency)

以上代码，也可以将 convert_currency函数使用 lambda表达式来替换。示例代码如下：

df['2016'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')

4. 使用 `np.where` 更换数据类型：

比如 df['Active']这列，我们可以认为只要值是 Y，那么就设置为 True，否则就设置为 False。代码如下：

np.where(df['Active']=='Y', True, False)

5. pandas工具类函数：

pd.to_numeric函数：

pd.to_numeric函数是用于将数据转换为数值类型，他的功能更加丰富一些，我们先来看下这个函数定义的参数：

pd.to_numeric(data, errors, downcast)

data：需要进行类型转换的数据。
errors：在发生转换错误时的处理方式。有 ignore、 raise、 coerce可选，默认类型为 raise，其中 coerce代表在发生转换异常的时候，会使用 NAN来代替。
downcast：期望转换的类型。有 integer、 signed、 unsigned、 float可选，默认值为None。如果为None，函数会自动判断需要转换的类型。这个参数设置后，不一定会按照设置的类型来转换，比如在转换的时候出现了NAN值，我们都知道NAN值是float类型，这时候如果你指定为 integer也没有任何效果。

示例代码如下：

pd.to_numeric(df['Jan Units'], errors='coerce', downcast="integer")

输出结果如下：

0    500.0
1    700.0
2    125.0
3     75.0
4      NaN
Name: Jan Units, dtype: float64

可以看到虽然我们设置了类型为 integer，但最终还是 float64，原因是在转换 Jan Units字段的时候，最后一个数据出现了 NAN。

如果不想让转换失败的值为 NAN，比如想用 0来填充。那么可以使用 fillna来实现。示例代码如下：

pd.to_numeric(df['Jan Units'], errors='coerce').fillna(0)

pd.to_datetime函数：

这个函数功能非常强大，可以将以下类型转换为 datetime类型：

int、floats时间戳类型。
时间格式的字符串类型。
np.array一维数组、列表或者元组。
Series、DataFrame或者字典类型。

下面分别来进行讲解。

int、floats时间戳类型。
必须指定 unit参数为 s，也就是秒。也可以指定为 ms，代表毫秒， ns为纳秒（1毫秒=10^6纳秒）。

&#x6574;&#x5F62;
pd.to_datetime(1642400714, unit="s")
&#x6D6E;&#x70B9;&#x7C7B;&#x578B;
pd.to_datetime(1642400714.3847, unit="s")
&#x6BEB;&#x79D2;
pd.to_datetime(1642400714111, unit="s")

时间格式的字符串类型。时间格式可以参考：https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

&#x5C06;&#x5B57;&#x7B26;&#x4E32;&#x6309;&#x7167;&#x6307;&#x5B9A;&#x683C;&#x5F0F;&#x8F6C;&#x6362;&#x4E3A;datetime&#x7C7B;&#x578B;
pd.to_datetime('20220101', format='%Y%m%d')

np.array一维数组、列表或者元组。

&#x6839;&#x636E;&#x539F;&#x59CB;&#x65F6;&#x95F4;&#x8F6C;&#x6362;
pd.to_datetime([1, 2, 3], unit='D',
              origin=pd.Timestamp('2022-01-01'))

输出结果为：

DatetimeIndex(['2022-01-02', '2022-01-03', '2022-01-04'], dtype='datetime64[ns]', freq=None)

或者直接将列表中的字符串转换为时间类型：

pd.to_datetime(['2018-10-26 12:00 -0530', '2018-10-26 12:00 -0500'])

输出结果为：

Index([2018-10-26 12:00:00-05:30, 2018-10-26 12:00:00-05:00], dtype='object')

Series或者DataFrame类型。

s = pd.Series(['3/11/2000', '3/12/2000', '3/13/2000'])
pd.to_datetime(s, infer_datetime_format=True)

其中 infer_datetime_format代表自动推测时间格式。
输出结果为：

0   2000-03-11
1   2000-03-12
2   2000-03-13
dtype: datetime64[ns]

综合在一起：

我们可以把转换数据类型的工作，在一开始读取文件的时候就指定好。示例代码如下：

def convert_percent(val):
"""
    &#x8F6C;&#x5316;%&#x7684;&#x5B57;&#x7B26;&#x4E32;&#x4E3A;&#x6D6E;&#x70B9;&#x7C7B;&#x578B;
    - &#x79FB;&#x9664; %
    - &#x9664;&#x4EE5;100
"""
    new_val = val.replace('%', '')
    return float(new_val) / 100

df_2 = pd.read_csv("data/sales_data_types.csv",
                   dtype={'Customer Number': 'int'},
                   converters={'2016': convert_currency,
                               '2017': convert_currency,
                               'Percent Growth': convert_percent,
                               'Jan Units': lambda x: pd.to_numeric(x, errors='coerce'),
                               'Active': lambda x: np.where(x == "Y", True, False)
                              })

Original: https://blog.csdn.net/qq_41404557/article/details/125898404
Author: Begin to change
Title: Pandas数据类型转换

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/672548/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV图像特征匹配

文章目录 * – Brute-Force暴力匹配 – 随机抽样一致算法 Brute-Force暴力匹配我们准备两张图像，我们想知道图像中有哪些关键点是比较…

人工智能 2023年7月19日
0046
机器学习——RBF神经网络

RBF神经网络本文部分资料与案例来源：《MATLAB神经网络43个案例分析》 RBF神经网络简述再介绍RBF神经网络之前我们先来看一下径向基函数（RBF），在百度百科上，RBF…

人工智能 2023年6月15日
0085
计算机视觉：图像检索

目录一、基于内容的图像检索 * 1.BOW模型 2.BOF模型 3.K-Means聚类算法 4.TF-IDF权重 5.倒排表 6.总结：图像检索流程二、视觉单词 * 1.创建词…

人工智能 2023年6月18日
00114
CNN的实现与可视化

CNN的实现我们已经实现了卷积层和池化层，现在来组合这些层，搭建进行手写数字识别的CNN。如下图所示，网络的构成是”Convolution – ReLU …

人工智能 2023年6月26日
0064
全面解析特斯拉自动驾驶体系

汽车革命的上半场是电动化，下半场是智能化，电动化只是改变了汽车的动力供给方式，并没有改变汽车的性质，而智能化才是这场革命的主菜，将对汽车带来颠覆性变化，汽车将由传统的机械体，变为…

人工智能 2023年5月28日
0063
当AI学会创作，是否应该感到担忧？

当AI学会创作，是否应该感到担忧？ * – 0. 前言 – 1. 人工智能与 AIGC – + 1.1 人工智能简介 + 1.2 人工智能与 A…

人工智能 2023年7月26日
0054
python-生成数据

文章目录 1 绘制简单折线图 * 1.1 绘制简单的折线图 1.2 修改图表 1.3 校正图形 1.4 使用内置样式 2 绘制散点图 * 2.1 使用scatter()绘制散点图并…

人工智能 2023年7月16日
0059
【下班神器】python写自动关机程序并打包成exe文件

文章目录前言实现效果实现步骤 * 💻 模块导入 💻 窗口设置 💻 创建一个文本标签 💻 创建一个文本标签和时间栏框 💻 设置该文件的字体样式和大小 💻 创建一个日期时间文本框…

人工智能 2023年7月3日
0055
PS案例合集1

目录一、制作邮票二、制作蓝花布三、制作古书四、电脑美容一、制作邮票效果图： 1.将背景图转为普通图层3.在该图层下方新建图层，填充黑色5.在两图层中间新建图层，填充白色…

人工智能 2023年6月20日
0070
遥感图像处理——非监督分类

上一篇：遥感图像处理——数据拉伸、主成分分析、裁剪要点：K-Means算法，IsoData算法，IsoData聚类，IsoData聚类非监督分类，最大似然法分类，主成分分析下的聚…

人工智能 2023年7月3日
0081
R语言机器学习mlr3：基础使用

获取更多R语言和生信知识，请关注公众号：医学和生信笔记。公众号后台回复 R语言，即可获得海量学习资料！目录 * – 创建任务 – 创建learner &#…

人工智能 2023年6月19日
0077
常见数据集格式+数据集标注

文章目录 * – 一、什么是目标检测？ – 二、常见数据集 – + 1.VOC数据集 + 2.COCO数据集 – 三、数据集标注 &…

人工智能 2023年6月25日
00110
使用python将图片改为灰度图或黑白图

使用python将图片改为灰度图或黑白图有三种方式，分别是是使用cv2库和PIL库来实现，详细过程如下所示。 1. 使用cv2库将图片改为灰度图在使用cv2进行读取原彩色图片时，…

人工智能 2023年6月18日
0083
智能家居项目开发: 设计模式（工厂模式）+ 线程池 + Socket (持续更新中)

智能家居项目开发一、智能家居功能细节拆分 * 控制区：外设区：面向对象类和对象的概念结构体新玩法二、工厂模式 * 1. 工厂模式的概念 2. 工厂模式的实现 3. 工厂模…

人工智能 2023年5月27日
0058
dataframe怎么按行求和_pandas.DataFrame对行和列求和及添加新行和列

导入模块： from pandas import DataFrame import pandas as pd import numpy as np 生成DataFrame数据 df…

人工智能 2023年7月7日
0065
2022-12-15 工作记录–React-用swiper实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）

React -用 swiper 实现多行交错、同速、跑马灯效果的弹幕式轮播（坑）激动的心呀呀呀！٩(๑>◡ 【 React-用 swiper实现多行交错、同速、跑马灯效果的…

人工智能 2023年7月31日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Pandas数据类型转换

一、Pandas中的数据类型：

案例数据文件：

数据类型相关操作：

1. 查看DataFrame所有列的类型：

4. 使用 np.where 更换数据类型：

5. pandas工具类函数：

pd.to_numeric函数：

pd.to_datetime函数：

综合在一起：

大家都在看

4. 使用 `np.where` 更换数据类型：