python dataframe纵向合并_Python Dataframe合并问题

2023年8月21日上午4:15 • Python • 阅读 47

用Pandas读取一个七百万条记录的微博爬虫文件，大小约1G。直接读入内存不足，于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样：

daysCount tweetsSum

userID

1294588034 5 305

2277435630 4 284

1985258823 6 265

1886370740 7 265

… … …

之后我尝试把这些dataframe合并，代码如下：

count_list=[]

for chunk in data:

…

count_list.append(count)

total_count = pd.concat(count_list, axis=0)

print(total_count.sort_value(by=[‘tweetsSum’],ascending=False))

结果发现汇总后的数据总是小于真正的数据量，不管是daysCount还是tweetsSum都是。而且调高chunksize，这两个值也会提高。

于是我猜想在concat的时候，遇到userID相同的，它只会取daysCount和tweetsSum的最大值，而不是值相加。

如果是这样的问题的话，那么该怎么合并dataframe，能让碰到userID相同的时候，让daysCount和tweetsSum相加呢？

Original: https://blog.csdn.net/weixin_30516835/article/details/114910623
Author: Mage Anti
Title: python dataframe纵向合并_Python Dataframe合并问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755404/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python学习笔记2（pygame深入研究，战机游戏）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月24日
0042
功能测试点大全

一、输入框测试字符型输入框：（1）字符型输入框：英文全半角、数字、空或者空格、特殊字符”~！@#￥%……&*？[]{}&#8221…

Python 2023年6月12日
0058
python中的pygame弹球游戏代码_python pygame实现挡板弹球游戏

学了一天pygame，用python和pygame写一个简单的挡板弹球游戏 GitHub： EasyBaffleBallGame –– coding:utf…

Python 2023年9月23日
0042
从西北工业大学被攻击说起，谈网络安全的最后一道防线—密码

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月24日
0038
opencv笔记

python中的sum函数.sum(axis=1) 当axis=0，就是将一个矩阵的每一列向量相加当axis=1，就是将一个矩阵的每一行向量相加例如： import numpy…

Python 2023年8月28日
0055
机器学习特征选择—使用遗传算法进行特征选择

目录 0、前言 1、遗传算法概念 2、基于DEAP库的python遗传算法特征选择 3、我的遗传算法特征选择代码及一些代码函数解析 4、完整代码 5、可能会遇到的错误 0、前言差…

Python 2023年9月27日
0060
Datawhale-Pandas中文教程[4]

分组模式及其对象分组操作应用非常广泛：依据性别分组，统计 _学生身高_的中位数依据季节分组，对每个季节的 _温度_进行组内标准化依据班级分组，筛选组内 _数学分数_的…

Python 2023年8月21日
0041
10个优秀的Python库，实用且有趣

为什么这么多人选择学习python?首先，python是一门全场景编程语言，对于初学编程的人而言，选择一门全场景编程语言是非常不错的选择;其次，python语言简单易学，对初学者十…

Python 2023年9月18日
0057
精选20个爆火的Python实战项目(含源码)，直接拿走不谢

今天给大家介绍20个非常实用的Python项目，帮助大家更好的学习Python。 ① 猜字游戏在这个游戏中，你必须一个字母一个字母的猜出秘密单词。如果你猜错了一个字母，你将丢掉…

Python 2023年10月11日
0049
Matplotlib下载和安装

Matplotlib下载和安装 Matplotlib 是 Python 的第三方绘图库，它非常类似于 MATLAB。在使用 Matplotlib 软件包之前，需要对其进行安装。本节…

Python 2023年9月1日
0065
复习的时间安排篇（参考）

考研全年具体流程准备阶段：大三上学期，搜集考研信息和资料，确定好报考的专业和学校基础阶段：3月-5月，开启第一轮复习，打基础知识框架，主要复习英语数学专业课提高阶段：6月-8月，…

Python 2023年6月11日
0068
scrapy mysql 连接池_爬虫框架scrapy篇四——数据入库（mongodb，mysql）

这篇将爬虫框架scrapy篇三中的第四步展开来讲，主要讲数据存入mongodb和mysql的不同方法 1、数据存入mongodb 链接MongoDB数据库有两种方法： 1、不需要在…

Python 2023年10月4日
0036
跟我学Python图像处理丨图像分类原理与案例

摘要：本篇文章将分享图像分类原理，并介绍基于KNN、朴素贝叶斯算法的图像分类案例。本文分享自华为云社区《[Python图像处理] 二十六.图像分类原理及基于KNN、朴素贝叶斯算法…

Python 2023年9月15日
0055
python pie函数_matplotlib 知识点11：绘制饼图（pie 函数精讲）

饼图英文学名为Sector Graph，又名Pie Graph。常用于统计学模块。画饼图用到的方法为：matplotlib.pyplot.pie( ) !/usr/bin/env…

Python 2023年9月2日
0050
ReactNative常用插件使用

项目版本介绍目前使用的项目node版本v14.17.5, npm版本6.14.14, reactNative项目使用的模板结合typescript语法的项目模板架构，安装的方式如…

Python 2023年11月8日
0039
python pyinstaller 打包多个py文件及图片的解决方法之一

多个py文件 若当前文件夹&#x4E0B…

Python 2023年9月21日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python dataframe纵向合并_Python Dataframe合并问题

大家都在看