利用 Python 读取数据合并对比同时写入Excel生成报告

2023年8月21日下午12:09 • Python • 阅读 56

文章目录

*
– 前言
– 1. 数据格式
– 2. 程序
–
+ 1. 生成随机名字
+ 2. 生成随机整数组
+ 3. 通过字典合并数据
+ 4. 通过 Pandas 的 merge 合并数据
+ 5. 将 Pandas 的 DataFrame 数据写入 Excel 生成报告
+ 6. 随机生成数据并测试
+ 7. 完整代码
– 3. 程序结果
–
+ 1. Terminal 输出
+ 2. Excel 内容
– 4. 总结

前言

学习工作中经常需要对比数据，比如上一版本代码和目前代码跑的数据精度或者时间性能对比。如下程序就给出了两种方法，推荐第二种，同时方便生成数据报告，也可以方便利用 Python 将数据直接写进 Excel 中，生成报告。具体代码可以去我的GitHub下载。

1. 数据格式

id name height
0 ubhyms 207
1 HXZXey 176
2 WqSpPM 192
3 MKWzzI 188
4 kGGQXy 182
5 weFUul 156
6 vdORms 174

id name weight
0 CnVBzn 171
1 xGZqvG 121
2 HNYven 222
3 FLCyed 112
4 ObOfpY 148
5 NlvyTc 234
6 OrxPhQ 158
7 ORoavJ 212

2. 程序

1. 生成随机名字

def generate_name(number, max_length_of_name):
  names = []
  ascii_letters = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
  for i in range(number):
    name = ''
    for j in range(max_length_of_name):
      name = name + random.choice(ascii_letters)
    names.append(name)
  return names

2. 生成随机整数组


def generate_number(quantity, min_number, max_number):
  datas = []
  for i in range(quantity):
    datas.append(random.randint(min_number, max_number))
  return datas

3. 通过字典合并数据

def merge_data_by_map(data1, data2, head1, head2, data1_same_id, data2_same_id):
  datas = []
  dict_map = {}
  for i in range(len(data1)) :
    data = []
    for j in range(len(data1[i])):
      if j != data1_same_id :
        data.append(data1[i][j])
    dict_map[str(data1[i][data1_same_id])] = data

  for i in range(len(data2)):
    data = data2[i].copy()
    key = data[data2_same_id]
    if dict_map.get( key ) is not None:
      val = dict_map[key]
      for j in range(len(val)) :
        data.append(val[j])
      datas.append(data)
  return datas

4. 通过 Pandas 的 merge 合并数据

def merge_data_by_pandas(data1, data2, head1, head2, data1_same_id, data2_same_id):
  df1 = pd.DataFrame(data1, columns=head1)
  df2 = pd.DataFrame(data2, columns=head2)

  key = head1[data1_same_id]
  df3 = pd.merge(df1, df2, how='inner', on=key)
  return df3

5. 将 Pandas 的 DataFrame 数据写入 Excel 生成报告


def write_excel(file_name, datas):
  workbook = xlsxwriter.Workbook(file_name)
  style = workbook.add_format({
      "fg_color": "yellow",
      "bold": 1,
      "align": "center",
      "valign": "vcenter",
      "font_color": "red"
    })
  style_cen = workbook.add_format({
      "align": "center",
      "valign": "vcenter",
  })

  sheetname = "data"
  worksheet = workbook.add_worksheet(sheetname)

  row, col = len(datas), datas.shape[1]

  head = [column for column in datas]
  worksheet.write_row('A1', head, style)
  worksheet.freeze_panes(1, 1)

  for i in range(row):
    for j in range(col):
      worksheet.write(i+1, j, datas.iloc[[i], [j]].values[0][0], style_cen)

  worksheet.set_column(0, col, 16)
  workbook.close()

注：此处可以参考我之前的一篇博客：
Python利用xlsxwriter读写Excel文件(持续补充)

6. 随机生成数据并测试

def test_of_merge_data():
  Number = 1000
  names = generate_name(Number, 6)
  height = generate_number(Number, 150, 210)
  weight = generate_number(Number, 80, 250)

  Number_of_data1 = 100
  Number_of_data2 = 80
  data1 = []
  for i in range(Number_of_data1):
    id = random.randint(0, Number-1)
    data = [names[id], height[id]]
    data1.append(data)

  data2 = []
  for i in range(Number_of_data2):
    id = random.randint(0, Number-1)
    data = [names[id], weight[id]]
    data2.append(data)

  datas = merge_data_by_map(data1, data2, ["name", "height"], ["name", "weight"], 0, 0)
  print("datas")
  print(datas)

  df = merge_data_by_pandas(data1, data2, ["name", "height"], ["name", "weight"], 0, 0)
  print("df")
  print(df)

  write_excel("data.xlsx", df)

7. 完整代码

import os
import re
import random
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import xlrd
import xlwt
import xlsxwriter

from matplotlib.font_manager import FontProperties

def generate_name(number, max_length_of_name):
  names = []
  ascii_letters = 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
  for i in range(number):
    name = ''
    for j in range(max_length_of_name):
      name = name + random.choice(ascii_letters)
    names.append(name)
  return names

def generate_number(quantity, min_number, max_number):
  datas = []
  for i in range(quantity):
    datas.append(random.randint(min_number, max_number))
  return datas

def merge_data_by_map(data1, data2, head1, head2, data1_same_id, data2_same_id):
  datas = []
  dict_map = {}
  for i in range(len(data1)) :
    data = []
    for j in range(len(data1[i])):
      if j != data1_same_id :
        data.append(data1[i][j])
    dict_map[str(data1[i][data1_same_id])] = data

  for i in range(len(data2)):
    data = data2[i].copy()
    key = data[data2_same_id]
    if dict_map.get( key ) is not None:
      val = dict_map[key]
      for j in range(len(val)) :
        data.append(val[j])
      datas.append(data)
  return datas

def merge_data_by_pandas(data1, data2, head1, head2, data1_same_id, data2_same_id):
  df1 = pd.DataFrame(data1, columns=head1)
  df2 = pd.DataFrame(data2, columns=head2)

  key = head1[data1_same_id]
  df3 = pd.merge(df1, df2, how='inner', on=key)
  return df3

def write_excel(file_name, datas):
  workbook = xlsxwriter.Workbook(file_name)
  style = workbook.add_format({
      "fg_color": "yellow",
      "bold": 1,
      "align": "center",
      "valign": "vcenter",
      "font_color": "red"
    })
  style_cen = workbook.add_format({
      "align": "center",
      "valign": "vcenter",
  })

  sheetname = "data"
  worksheet = workbook.add_worksheet(sheetname)

  row, col = len(datas), datas.shape[1]

  head = [column for column in datas]
  worksheet.write_row('A1', head, style)
  worksheet.freeze_panes(1, 1)

  for i in range(row):
    for j in range(col):
      worksheet.write(i+1, j, datas.iloc[[i], [j]].values[0][0], style_cen)

  worksheet.set_column(0, col, 16)
  workbook.close()

def test_of_merge_data():
  Number = 1000
  names = generate_name(Number, 6)
  height = generate_number(Number, 150, 210)
  weight = generate_number(Number, 80, 250)

  Number_of_data1 = 100
  Number_of_data2 = 80
  data1 = []
  for i in range(Number_of_data1):
    id = random.randint(0, Number-1)
    data = [names[id], height[id]]
    data1.append(data)

  data2 = []
  for i in range(Number_of_data2):
    id = random.randint(0, Number-1)
    data = [names[id], weight[id]]
    data2.append(data)

  datas = merge_data_by_map(data1, data2, ["name", "height"], ["name", "weight"], 0, 0)
  print("datas")
  print(datas)

  df = merge_data_by_pandas(data1, data2, ["name", "height"], ["name", "weight"], 0, 0)
  print("df")
  print(df)

  write_excel("data.xlsx", df)

if __name__ == "__main__":
  test_of_merge_data()

3. 程序结果

1. Terminal 输出

; 2. Excel 内容

4. 总结

最好是用第二种方法，其 merge 函数有更多选择方式，具体可以参考：
Pandas 官方文档

这样可以直接将数据传递给 write_excel 函数，将 DataFrame 数据直接写进 Excel 生成报告。

Original: https://blog.csdn.net/guihunkun/article/details/120167436
Author: guihunkun
Title: 利用 Python 读取数据合并对比同时写入Excel生成报告

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/755708/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习之利用线性回归预测波士顿房价和可视化分析影响房价因素实战（python实现附源码超详细）

数据集和源码请点赞关注收藏后评论区留下QQ邮箱或者私信线性回归是利用最小二乘函数对一个或多个因变量之间关系进行建模的一种回归分析，这种函数是一个或多个称为回归系数的模型参数的线性…

Python 2023年8月31日
0063
Android 13 新特性及适配指南

Android 13（API 33）于 2022年8月15日 正式发布…

Python 2023年10月17日
0059
数据导入与预处理-课程总结-01~03章

数据导入与预处理-课程总结-01~03章第1章数据预处理概述 * 1.1 基本概念 – 1.1.1 大数据项目开发流程 1.1.2 什么是数据预处理 1.1.3 数…

Python 2023年8月27日
0095
C++：C++编译过程：看完还不懂C++编译过程来捶我

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月4日
0041
一文读懂Apache Geode缓存中间件

读写吞吐量由并发主存储器数据结构和高度优化的分发基础结构提供。应用程序可以通过同步或异步复制在内存中动态复制数据，以实现高读取吞吐量，或者跨多个系统成员对数据进行分区，以实现高读…

Python 2023年10月20日
0039
系统学习Python——单元测试unittest：测试断言

分类目录：《系统学习Python》总目录相关文章：· 单元测试unittest：框架结构· 单元测试unittest：测试固件· 单元测试unittest：编写测试用例· 单元测试…

Python 2023年9月10日
0037
python中的pd是什么意思_python pd.crosstab在处理时间序列文本数据的用处

在优矿上的-量化分析师的Python日记中看到一个函数很不错–pd.crosstab 。因为我们平时取到的多股数据可能如以下所示；取两股为例： Sec1， Sec2 …

Python 2023年8月17日
0047
加班熬夜整理出来的100道Python基础题，学到就是赚到！超级详细

这不每天晚上下班了无聊，就给大家整理出来了一百道Python必刷题，基本上都做的出来的话，基础彻底没问题了~ 大致涉及到的知识点有：基础语法变量类型运算符条件判断循环字…

Python 2023年9月17日
0072
Python+Pytest+Jenkins+allure发送+钉钉机器人通知

1.Jenkins基础配置信息 1.1Jenkins基本信息：概述：Jenkins设置钉钉机器人通知，网上版本很多，代码也比较繁琐，细节方面也没说特别说明，会导致不少人走弯路，经…

Python 2023年9月12日
0064
python入侵电脑教程_Python外星人入侵问题求助?python网站入侵视频教程

我用Python做了一个樱花树，360说有活动感染病毒正在入侵你的电脑，怎么回事。你的exe应用没有安全证书，360就会报错的，我也遇到过。没关系。网上下载的应用都是有安全证书的…

Python 2023年9月24日
0064
BugKu：Simple_SSTI（SSTI模板注入）

目录 1.Simple_SSTI_1 2.Simple_SSTI_2 1.Simple_SSTI_1 点击链接进入，题目说： You need pass in a paramete…

Python 2023年8月10日
0082
用python和scrapy实现基本爬虫功能

一、安装pip install Scrapy安装后，只要在命令终端输入 scrapy，提示类似以下结果，代表已经安装成功。二、新建项目(scrapy startproject)在…

Python 2023年10月5日
0048
python基础：try…except…的详细用法

我们把可能发生错误的语句放在try模块里，用except来处理异常。except可以处理一个专门的异常，也可以处理一组圆括号中的异常，如果except后没有指定异常，则默认处理所有…

Python 2023年5月24日
0070
数字图像处理总结（冈萨雷斯版）

数字图像处理前六章知识点总结第一章：绪论第二章：数字图像基础第三章：灰度变换与空间滤波第四章：频率域滤波第五章：图像恢复与重建第六章：彩色图像处理第一章：绪论 1.数…

Python 2023年9月7日
0065
python 一个figure上显示多个子图像

文章目录一、matplotlib.pyplot add_subplot方式添加子图二、matplotlib.pyplot api 方式添加子图 * 1.规则布局 1.不规则布局…

Python 2023年8月30日
0043
Flask——migrate实现数据库迁移

migrate实现数据库迁移的指令如下: 指令代码说明初始化python 文件名.py db init这个命令会创建migrations文件夹，所有迁移文件都放在里面创建迁移脚本p…

Python 2023年8月10日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31