文件流处理流式处理大数据处理

2023年8月22日下午4:10 • Python • 阅读 45

20210315

https://www.yuque.com/7125messi/wydusr/wweetn
42-(重要重要重要)加速pandas(Modin和pandarallel)
重点

https://zhuanlan.zhihu.com/p/65647604
下面我们对之前使用过的原始的pandas，pandarallel以及modin进行比较（默认使用全部cpu以进行充分的比较）
、

Modin，只需一行代码加速你的Pandas
https://blog.csdn.net/fengdu78/article/details/114684018

20210204

from pandas_streaming.df import StreamingDataFrame
 sdf = StreamingDataFrame.read_df(df,chunksize=10)
    i=0
    for chunk in tqdm(sdf):
        tb=dh.get_vector(chunk,gsxl,sxyxl)
        tb=dh.convert2vec(tb)
        #&#x8FD9;&#x91CC;&#x8FFD;&#x52A0;&#x7D22;&#x5F15;&#x6CA1;&#x6709;&#x7528;&#x7684; &#x6BCF;&#x4E2A;&#x5757;&#x90FD;&#x662F;&#x91CD;&#x65B0;&#x7D22;&#x5F15;
        if i==0:
           tb.to_csv('./data/vector_converted_successfully.csv',mode='a',index=False)
           i+=1
        else:
            tb.to_csv('./data/vector_converted_successfully.csv', mode='a', index=False, header=False)
            i+=1
    table_to_process = table_to_process[['company_a', 'company_b', 's']]
    table_to_process['index']=table_to_process.index
    table_to_process.to_csv('./data/all_company_data_to_process.csv',index=False)
&#x4EE5;&#x8FD9;&#x91CC;&#x4E3A;&#x51C6;

20210111

  for chunk in tqdm(sdf):
        tb=dh.get_vector(chunk,gsxl,sxyxl)
        tb=dh.convert2vec(tb)
        #这里追加索引没有用的 每个块都是重新索引
        # tb=pd.DataFrame(tb)
        tb.to_csv('./data/vector_converted_successfully.csv',mode='a',index=False,header=False)

pandas 分块处理的时候 每个块是分别索引

        tb.to_csv('./data/vector_converted_successfully.csv',mode='a',index=False,header=False)
追加的时候注意把header 置为false

https://www.it1352.com/1686246.html
numpy 追加的方式存储

任何读写的方式都可以查看是否有分块读取和追加的存储方式

https://www.cnblogs.com/roygood/p/10024472.html
Python中IO编程-StringIO和BytesIO

https://blog.51cto.com/14320361/2486142?source=dra
https://www.imooc.com/article/267887
python–文件流读写本身写入方式为a 就是追加的处理方式

Pandas 读取流式文件
https://blog.csdn.net/chuotangbang2061/article/details/101054436

用Pandas 处理大数据的3种超级方法
https://blog.csdn.net/blogtranslator/article/details/90714717

pandas_streaming: streaming API over pandas
https://github.com/sdpython/pandas_streaming

https://blog.csdn.net/weixin_42575020/article/details/96968788

df_orther.to_csv('其他.csv',mode='a', index=False,header=None)

pandas 也可以直接以追加的方式存储

df_=pd.read_csv(r"D:\code12temp\rongxiang\multilabelA\上下游匹配\产业匹配数据已处理好.csv", sep="\t", encoding="utf-8",chunksize=100)
for chunk in df_:
    #导出到已存在的h5文件中，这里需要指定key
    chunk.to_hdf(path_or_buf='./demo.h5',key='chunk_store',append=True)
    #创建于本地demo.h5进行IO连接的store对象

可以处理无限大的数据量
https://blog.csdn.net/kyle1314608/article/details/112391780
重点

利用dask替代pandas进行数据分析
　　dask相信很多朋友都有听说过，它的思想与上述的分块处理其实很接近，只不过更加简洁，且对系统资源的调度更加智能，从单机到集群，都可以轻松扩展伸缩。
　推荐使用conda install dask来安装dask相关组件，安装完成后，我们仅仅需要需要将import pandas as pd替换为import dask.dataframe as dd，其他的pandas主流API使用方式则完全兼容，帮助我们无缝地转换代码：

https://www.cnblogs.com/feffery/p/13906821.html
重点

Original: https://blog.csdn.net/kyle1314608/article/details/112390378
Author: weixin_ry5219775
Title: 文件流处理流式处理大数据处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/756798/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pre-commit用法

1 背景：当前的一些Python项目使用Make调用flake8工具来进行代码格式检查，即使检查出不符合规范的代码仍需要手动定位到指定文件进行格式化操作，且这些操作并不是强制执行…

Python 2023年8月5日
0050
python代码提取图片文字

步骤一：安装两个库需要安装pytesseract和PIL两个库，然后还要安装tesseract-ocr识别引擎问题一：安装两个库失败这个博主讲的很详细参考链接lpython3…

Python 2023年8月1日
0056
Pytorch 自定义激活函数前向与反向传播 sigmoid

文章目录 * – Sigmoid – + 公式 + 求导过程 + 优点： + 缺点： + 自定义Sigmoid + 与Torch定义的比较 + 可视化 im…

Python 2023年8月31日
0045
python飞机大战教学_python实现飞机大战

此文实例给亲们分享了python实现飞机大战的具体代码，供大家参考，具体内容如下实现的效果如下：主程序代码如下： import pygame from plane_sprite…

Python 2023年9月23日
0035
python从入门到实践经验分享——外星人小游戏转为exe

前言一、首先需要安装pyinstaller 二、使用步骤 1.以书中外星人侵略为例： 2.多个py文件转换为exe，首先要制作spec文件 3.我们进入pycharm修改制作的s…

Python 2023年9月24日
0048
如何用python制作动画电影_如何用pygam制作动画

对于动画，你需要一堆图像和一个计时器。在我将展示一些基于pygame精灵的代码片段。也许这并不完全符合这个问题，但它似乎是一个比手动绘制/blitting图像更好的解决方案。在 …

Python 2023年9月22日
0035
Pandas知识点-统计运算函数

Pandas知识点-统计运算函数统计运算非常常用。本文介绍Pandas中的统计运算函数，这些统计运算函数基本都可以见名知义，使用起来非常简单。本文使用的数据来源于网易财经，具体…

Python 2023年8月8日
0052
今天距离2022年除夕还有多少天?春节倒计时在Python小程序上就能提醒你啦~

🚀 作者：”程序员梨子”🚀 文章简介：本篇文章主要讲解本次利用Pillow库，实现化新年生成新年倒计时图片。🚀 文章源码获取：为了感谢每一个关注我的…

Python 2023年9月18日
0098
matplotlib学习笔记

快速安装 pip install matplotlib 折线图快速入门 import matplotlib.pyplot as plt import random x=range…

Python 2023年5月24日
0078
数据的合并和分组聚合

目录字符串离散化案例完整代码数据合并按照行索引合并join 按照列索引合并merge 内连接外连接，左连接，右连接分组聚合案例之groupby groupby案例一 g…

Python 2023年8月22日
0028
Anaconda||（踩坑无数，含泪总结！！！）Anaconda的卸载与安装（tensorflow+Keras+spyder+添加镜像源）

记：遥想当初的我（其实也就是一年前啦~），年少无知，由于做学校作业项目的需要，要求自行安装Anaconda，我就在网上找教程，东一篇西一篇，拼拼凑凑地安装完了。期间踩的坑不计其数，…

Python 2023年8月1日
0053
vue3+django+elementplus 前后端分离项目开发实例(上）：后端开发

声明一下，此次开发使用的是macOS系统，以下所有操作实例都是在macOS中进行一、后端开发（1）使用了python比较著名的一个web开发框架-Django框架，在接口设计中使用…

Python 2023年8月3日
0066
vscode run python file,报错 ERROR conda.cli.main_run:execute(33): Subprocess for ‘conda run [‘python‘,

stack overflow也有这个问题也没人解决我的步骤是这样的：首先vscode配置好python解释器![vscode run python file,报错 ERROR …

Python 2023年9月8日
0040
Chrome浏览器的跨域设置

做前后端分离的开发的时候，出于一些原因往往需要将浏览器设置成支持跨域的模式，而且chrome浏览器支持可跨域的设置，但是新版本的chrome浏览器提高了跨域设置的门槛，原来的方法不…

Python 2023年10月10日
0067
Numpy库中矩阵相关操作(矩阵创建，截取，求和，方差，最大值)

import numpy as np 1.# # 创建一维的narray对象arr1，内有元素1，2，3，4，5，6，7，8，9要求使用arange()函数: arr1= np.a…

Python 2023年8月25日
0055
自动下载视频、弹幕、评论软件【python制作】

Original: https://www.cnblogs.com/Qqun261823976/p/16636501.htmlAuthor: python倩Title: 自动下载视…

Python 2023年11月1日
0033

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文件流处理流式处理大数据处理

大家都在看