python: float64与float32转换、压缩比较与转换偏差

2023年8月16日上午3:26 • Python • 阅读 135

python原生类型中只有float,并没有float64和float32，但是在numpy中是有float64和32区分的。因此，互转是需要在特定的库下面进行，比如，numpy和dataframe之类。

结论：
1、互转的类型中，DataFrame和np.array是比较方便互转的。
2、大小差了一倍；
3、压缩时间也差了一倍（有时会到2倍）；
4、转换偏差存在，看情况而异；

一、转换与压缩

import pickle
import sys
import pandas as pd
import random
import gzip
import time as t
import numpy as np

df = pd.DataFrame([123456789.0])

df = df.astype('float32')

n =10000

_dict_f64 = {"open": [random.random() +10.0 for i in range(n)] ,
          "high":[random.random() +10.0 for i in range(n)] ,
          "low":[random.random() +10.0 for i in range(n)] ,
          "close":[random.random() +10.0 for i in range(n)] ,
}
np.array,list&#x7684;&#x60C5;&#x51B5;
open_f32      = np.array(_dict_f64["open"]).astype('float32')
open_f64_list = _dict_f64["open"]
open_f64_np   = np.array(open_f64_list)

print("np.array[32&#x548C;64] &#x4E0E; f64_list&#x6BD4;&#x8F83;&#xFF1A; ")
print(f"open_f64_list size : {sys.getsizeof(open_f64_list)}")
print(f"open_f64_np   size : {sys.getsizeof(open_f64_np)}")
print(f"open_f32_np   size : {sys.getsizeof(open_f32)}")

list &#x4E0D;&#x80FD;&#x76F4;&#x63A5;&#x8F6C;,np.array&#x53EF;&#x4EE5;f64&#x8F6C;f32

print("df_64&#x548C;df_32&#x8F6C;&#x6362;&#x4E0E;&#x5927;&#x5C0F;&#x6BD4;&#x8F83;&#xFF1A;")

df_f64 = pd.DataFrame(_dict_f64)
print(f"df_f64 size : {sys.getsizeof(df_f64)}")
df_f32 = df_f64.astype('float32')
print(f"df_f32 size : {sys.getsizeof(df_f32)}")

print(f"f64&#x548C;f32&#x7C7B;&#x578B;pickle&#x4E8C;&#x8FDB;&#x5236;&#x6587;&#x4EF6;&#x5927;&#x5C0F;&#x6BD4;&#x8F83;&#xFF1A;")
pk_f64 = pickle.dumps(df_f64)
pk_dict = pickle.dumps(_dict_f64)
pk_f32 = pickle.dumps(df_f32)

print(f"pk_f64 size      : {sys.getsizeof(pk_f64)}")
print(f"pk_f32 size      : {sys.getsizeof(pk_f32)}")
print(f"pk_f64_dict size : {sys.getsizeof(pk_dict)}")

## &#x53EF;&#x4EE5;&#x770B;&#x4E00;&#x4E0B;&#x5DEE;&#x5F02;

print("f64&#x548C;f32&#x7C7B;&#x578B;&#x4E8C;&#x8FDB;&#x5236;pickle&#x6587;&#x4EF6;&#x538B;&#x7F29;&#x65F6;&#x95F4;&#x5F00;&#x9500;&#x6BD4;&#x8F83;&#xFF1A;")
t0 = t.time()
gzip_f64 = gzip.compress(pk_f64)
print(f"pk_64 -> compress cost time : {t.time() -t0} seconds!")

t1 = t.time()

gzip_f32 = gzip.compress(pk_f32)

print(f"pk_32 -> compress cost time : {t.time() -t1} seconds!")

输出：

np.array[32&#x548C;64] &#x4E0E; f64_list&#x6BD4;&#x8F83;&#xFF1A;
open_f64_list size : 87616
open_f64_np   size : 80112
open_f32_np   size : 40112
df_64&#x548C;df_32&#x8F6C;&#x6362;&#x4E0E;&#x5927;&#x5C0F;&#x6BD4;&#x8F83;&#xFF1A;
df_f64 size : 320144
df_f32 size : 160144
f64&#x548C;f32&#x7C7B;&#x578B;pickle&#x4E8C;&#x8FDB;&#x5236;&#x6587;&#x4EF6;&#x5927;&#x5C0F;&#x6BD4;&#x8F83;&#xFF1A;
pk_f64 size      : 320725
pk_f32 size      : 160725
pk_f64_dict size : 360210
f64&#x548C;f32&#x7C7B;&#x578B;&#x4E8C;&#x8FDB;&#x5236;pickle&#x6587;&#x4EF6;&#x538B;&#x7F29;&#x65F6;&#x95F4;&#x5F00;&#x9500;&#x6BD4;&#x8F83;&#xFF1A;
pk_64 -> compress cost time : 0.02867913246154785 seconds!

pk_32 -> compress cost time : 0.009557962417602539 seconds!

二、floa64和np.float64

1、float64 list 与np.float64 array

a = np.array([1.0,2.0])
b = np.array([np.float64(1.0),np.float64(2.0)])
c = [1.0,2.0]

print(f" a: {sys.getsizeof(a)}")
print(f" b: {sys.getsizeof(b)}")
print(f" c: {sys.getsizeof(c)}")

输出：
a: 128
b: 128
c: 72
可见，np.float64要比单个原生的占用字节要大。

2、dict类型中比较


n =100000
k = 50000.0

_dict_f64_primitive = {"open": [random.random() +k for i in range(n)] ,
          "high":[random.random() +k for i in range(n)] ,
          "low":[random.random() +k for i in range(n)] ,
          "close":[random.random() +k for i in range(n)] ,
}
_dict_f64_np = {"open": np.array(_dict_f64_primitive["open"]) ,
          "high":np.array(_dict_f64_primitive["high"])  ,
          "low":np.array(_dict_f64_primitive["low"]) ,
          "close":np.array(_dict_f64_primitive["close"])  ,
}
_dict_f64_np2 = {"open": np.array([random.random() +k for i in range(n)] ) ,
          "high":np.array([random.random() +k for i in range(n)] )  ,
          "low":np.array([random.random() +k for i in range(n)] ) ,
          "close":np.array([random.random() +k for i in range(n)] )  ,
}
print(f"_dict_f64_primitive  size : {sys.getsizeof(_dict_f64_primitive)}")
print(f"_dict_f64_np         size : {sys.getsizeof(_dict_f64_np)}")
print(f"_dict_f64_np2        size : {sys.getsizeof(_dict_f64_np2)}\n")
t0 = t.time()
pk_primitive = pickle.dumps(_dict_f64_primitive)
t1 = t.time()
pk_np = pickle.dumps(_dict_f64_np)
t2 = t.time()
pk_np2 = pickle.dumps(_dict_f64_np2)
t3 = t.time()

gzip_primitive =  gzip.compress(pk_primitive)
t4  =t.time()
gzip_np =  gzip.compress(pk_np)
t5  =t.time()
gzip_np2 =  gzip.compress(pk_np2)
t6  =t.time()

print(f"pk_primitive  -> binary cost time :{t1-t0} seconds")
print(f"pk_np         -> binary cost time :{t2-t1} seconds")
print(f"pk_np2        -> binary cost time :{t3-t2} seconds\n")

print(f"pk_primitive  -> cpmpress cost time :{t4-t3} seconds")
print(f"pk_np         -> compress cost time :{t5-t4} seconds")
print(f"pk_np2        -> compress cost time :{t6-t5} seconds")

输出：

_dict_f64_primitive  size : 232
_dict_f64_np         size : 232
_dict_f64_np2        size : 232

pk_primitive  -> binary cost time :0.012560844421386719 seconds
pk_np         -> binary cost time :0.006933927536010742 seconds
pk_np2        -> binary cost time :0.0059435367584228516 seconds

pk_primitive  -> cpmpress cost time :3.5468034744262695 seconds
pk_np         -> compress cost time :2.197758674621582 seconds
pk_np2        -> compress cost time :2.230668783187866 seconds

但这三者占用空间又相同。但序列化和压缩用时有一定差异。感觉numpy要快一些。

三、转换的偏差

numbers = [12.345888888888888888888,123456789.0,123456789.978654412,123456782229.978,3309.07,7896.353,123456789.88]
for number in numbers:
    assert isinstance(number,float)
    f_64 = np.float64(number)
    f_32 = np.float32(number)
    f_32_64 = np.float64(f_32)

    error = f_64 - f_32_64

    print(f"f_64    : {type(f_64)}      value :{f_64} ")
    print(f"f_32    : {type(f_32)}      value :{f_32}  error : {error}" )
    print(f"f_32_64 : {type(f_32_64)}   value :{f_32} \n" )

输出：

f_64    : <class 'numpy.float64'>      value :12.345888888888888
f_32    : <class 'numpy.float32'>      value :12.3458890914917  error : -2.0260281097250754e-07
f_32_64 : <class 'numpy.float64'>   value :12.3458890914917

f_64    : <class 'numpy.float64'>      value :123456789.0
f_32    : <class 'numpy.float32'>      value :123456792.0  error : -3.0
f_32_64 : <class 'numpy.float64'>   value :123456792.0

f_64    : <class 'numpy.float64'>      value :123456789.97865441
f_32    : <class 'numpy.float32'>      value :123456792.0  error : -2.0213455855846405
f_32_64 : <class 'numpy.float64'>   value :123456792.0

f_64    : <class 'numpy.float64'>      value :123456782229.978
f_32    : <class 'numpy.float32'>      value :123456782336.0  error : -106.02200317382812
f_32_64 : <class 'numpy.float64'>   value :123456782336.0

f_64    : <class 'numpy.float64'>      value :3309.07
f_32    : <class 'numpy.float32'>      value :3309.070068359375  error : -6.835937483629095e-05
f_32_64 : <class 'numpy.float64'>   value :3309.070068359375

f_64    : <class 'numpy.float64'>      value :7896.353
f_32    : <class 'numpy.float32'>      value :7896.35302734375  error : -2.734374993451638e-05
f_32_64 : <class 'numpy.float64'>   value :7896.35302734375

f_64    : <class 'numpy.float64'>      value :123456789.88
f_32    : <class 'numpy.float32'>      value :123456792.0  error : -2.1200000047683716
f_32_64 : <class 'numpy.float64'>   value :123456792.0
</class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class></class>

比如：123456789.0 【f64】 ->【f32】这么简单转换却存在难以理解的偏差：

f_32 :

那么问题是：如何减少这种转换带来的偏差？目测了一下，如果数值在1000万以下的float,转换的误差总体上是0.-0.1之间。但这个不太成为数据库的考虑项。数据库层次还是需要保真，否则失去就是依赖；具体应用层次，那仁者见仁。

Original: https://blog.csdn.net/wowotuo/article/details/126763543
Author: songroom
Title: python: float64与float32转换、压缩比较与转换偏差

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/750773/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据采集实战（六）– 新浪新闻

概述新闻是我们了解外界的重要渠道，以前，我们一般通过报纸和电视来获取新闻，那时候，获取新闻不仅有一定的成本，效率还不高。而如今，获取新闻的途径太多太方便了，大量重复的新闻充斥着…

Python 2023年11月1日
0043
Scrapy 2.6 Spider Middleware 爬虫页中间件使用指南

在使用Scrapy进行数据采集时，了解和掌握Spider Middleware（爬虫页中间件）的使用是提升爬虫性能和稳定性的关键。本文详细讲解了Scrapy 2.6版本中Spid…

Python 2023年10月3日
0042
python3.7 TypeError: ‘builtin_function_or_method‘ object is not subscriptable

问题描述：安装 Scrapy 调试工具的时候，出现下面的错误 D:\pyFile\scrapy01>scrapy shell http://lab.scrapyd.cnTr…

Python 2023年10月3日
0037
双目相机基本原理

双目相机基本原理 * – + * 双目图像 * 视差 * 深度 * 深度与视差之间的关系 * 极平面 * 极线 * 极线约束 * 单应性矩阵双目图像如图所示，双目图…

Python 2023年10月27日
0079
Flask框架——Flask-Mail邮件

目录安装Flask-Mail 配置Flask-Mail 使用Flask-Mail 上篇文章我们学习了Flask框架——Flask-WTF表单：文件上传、验证码，这篇文章我们学习F…

Python 2023年8月15日
0060
从华为WeAutomate数字机器人论坛，看政企领域的“政务新智理”

从华为WeAutomate数字机器人论坛，看政企领域的”政务新智理” 从政务治理到”政务新智理”，华为WeAutomate在政务领域…

Python 2023年10月25日
0031
matplotlib知识点总结

1、什么是matplotlibmatplotlib是最流行的Python底层绘图库，主要做数据可视化图表，名字取于MATLAB,模仿MATLAB搭建。2、matplotlib基本要…

Python 2023年9月6日
0039
Java学习笔记

7/28日已更新，错误已修改~~~有错误的地方，欢迎大家留言！目录一、Java基础篇 1.接口和抽象类的区别 2.重载和重写的区别 3.==和equals的区别 4.异常处理机…

Python 2023年11月8日
0030
Linux学习笔记4——用户管理和组

一、Linux中的用户管理：任何使用Linux的系统资源的用户，必须使用一个合法的账号和密码，账号和密码一般都是向系统管理员申请。 root是Linux系统安装时默认创建的系统管…

Python 2023年6月12日
0057
Python数据分析常用的类库matlab

NumPy NumPy（Numerical Python）是Python科学计算的基础包，它可以提供以下功能。 ■ 快速高效的多维数组对象ndarray。 ■ 用于对数组执行元素级…

Python 2023年8月28日
0046
Django Web 项目在Linux环境的部署——笔记

环境介绍：系统：CentOS 8 64位工具：Nginx + uWSGI 语言：python 框架：Django 数据库：Mysql 本文记录下所有部署用到的软件均使用源码Ta…

Python 2023年8月5日
0049
Python数据挖掘数据预处理案例（以航空公司数据为例）

Python数据预处理一、内容： 1、数据清洗2、数据集成3、数据可视化二、实验数据根据航空公司系统内的客户基本信息、乘机信息以及积分信息等详细数据，依据末次飞行日期( LA…

Python 2023年9月30日
0062
python 数据类笔试题_数据分析岗Python笔试题

我整理了数据分析师岗的Python笔试题，主要涉及到用Python完成数据处理和分析的内容。自己做了一遍，供大家学习思考。一、数据处理题 1.将Excel工作簿 “T…

Python 2023年8月7日
0049
python采集天气数据并做数据可视化 (含完整源代码)

Original: https://www.cnblogs.com/Qqun261823976/p/16443382.htmlAuthor: python倩Title: pytho…

Python 2023年11月2日
0060
基于ServiceStage的微服务开发与部署（二）

2.3. 微服务接入CSE 步骤 1 打开”应用管理与运维平台”-“基础设施”-“微服务引擎（CSE）”，查…

Python 2023年9月29日
0026
4大类11种常见的时间序列预测方法总结和代码示例

本篇文章将总结时间序列预测方法，并将所有方法分类介绍并提供相应的python代码示例，以下是本文将要介绍的方法列表： 1、使用平滑技术进行时间序列预测指数平滑 Holt-Wint…

Python 2023年7月31日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python: float64与float32转换、压缩比较与转换偏差

大家都在看