这个定时任务，从3min优化到200ms。老板，我尽力了！

2023年7月11日下午8:32 • 技术杂谈 • 阅读 61

近期，数据中心系统负荷大，mysql服务器的CPU动辄高达90%以上。代码和数据表存在很大优化空间。

这里分享一个定时任务批量处理数据的优化过程。

先介绍定时任务

先介绍下面2张数据表
字段数据量

platform_order

平台交易订单表

包括主键自增 id、客户id、客户名称（冗余字段）、 服务商id（levy_id）、服务商名称（levy_name，冗余字段）、

付款方式、付款状态、收款人、收款人收款账号（卡号/支付宝/微信）、项目id、付款金额、渠道商、销售代表、

创建时间、最近更新时间、付款完成时间，等等。

550w，每天增量3w

宽表，有多达54个字段。

levy_info

服务商信息表
字段包括服务商id（levy_id）、服务商名称（levy_name），等若干字段50条，基础信息表，很少新增

项目程序里有一个定时任务，每间隔5分钟，定期为platform_order的冗余字段levy_name赋值。也就是，根据levy表里的信息来更新platform_order表。

最原始的程序实现

我相信这是绝大多数程序员的实现方式。

【第一步】求count： select count(1) from platform_order where levy_name is null

【第二步】分页从数据表获取 levy_name is null 的记录，例如每页1000条，放到List集合里。

【第三步】遍历List集合里的元素，根据记录的levy_id去查levy_info表，得到levy_name，执行SQL： update platform_order set levy_name =#{levy_name} where id =#{id}

这个定时任务启动后，不停刷日志，耗时≈3min

改进后的程序实现

【第一步】求count：SQL同上

【第二步】如果count>0，则执行一条update语句： update platform_order a join levy_info b on a.levy_id =b.levy_id set a.levy_name =b.levy_name where a.levy_name is null

这个实现方式，java着实少了许多行代码，不过，数据库倒是出现慢sql了。 count耗时≈2s + update语句耗时10~12s = 整个job耗时≈15s 。

洪荒之力，优化到200ms以内

【第一步】

不再是傻瓜式地一个 levy_name is null 条件了。而是再加一个 id >#{maxId} 条件。 maxId 值从哪里来？每次定时任务执行完后将最大记录id缓存起来。当然，服务启动后第一次是没有缓存的，就让maxId=0。

再者，执行的sql不是简单的count，而是select levy_id,min (id)as minId，max (id)as maxId from platform_order where id >#{maxId}and levy_name is null group by levy_id

【第二步】

上面的分组查询得到一个List集合，遍历集合元素，同样根据levy_id查levy_info表得到levy_info记录。

然后，如果你跟得上我的节奏，你应该能猜到，执行这样一个SQL：

update platform_order set levy_name=#{levy_name} where levy_id=#{levy_id} and id between #{minId} and #{maxId} and levy_name is null

View Code

顺便说一嘴，根据levy_id获取levy_info记录，我使用了缓存，缓存24h，豪横吧~

【第三步】

缓存最大id —> maxId

经过这个性能优化之后，job的耗时在100ms~200ms之间，这个耗时足可以令伙伴们尖叫！

related MySql团队开发规范

11）单表字段数不要太多，建议最多不要大于50个。过度的宽表对性能也是很大的影响。
12）MySQL在处理大表时，性能就开始明显降低，所以建议单表物理大小限制在16GB，表中数据行数控制在2000W内。
业内的规则是超过2000W性能开始明显降低。但是这个值是灵活的，你可以根据实际情况进行测试来判断，比如阿里的标准就是500W，百度的确是2000W。实际上是否宽表，单行数据所占用的空间都有起到作用的。
13）如果数据量或数据增长在前期规划时就较大，那么在设计评审时就应加入分表策略，后续会有专门的文章来分析数据拆分的做法：垂直拆分（垂直分库和垂直分表）、水平拆分（分库分表和库内分表）。

Original: https://www.cnblogs.com/buguge/p/16812025.html
Author: buguge
Title: 这个定时任务，从3min优化到200ms。老板，我尽力了！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686225/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Mac安装Dart SDK

★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★★ ➤微信公众号：个人独立开发者➤博主域名：https://www.zengqiang.org➤Git…

技术杂谈 2023年6月1日
0096
汽车螺丝扭力标准

汽车螺丝扭力标准如下： 1、支座与车身螺栓(13MM)–25Nm； 2、支座与车身螺栓(18MM)–40Nm+90度/50Nm； 3、支座与发动机支座螺栓(…

技术杂谈 2023年5月31日
00109
Java通用树结构数据管理

1、前言树结构是一种较为常见的数据结构，如功能权限树、企业的组织结构图、行政区划结构图、家族谱、信令消息树等，都表现为树型数据结构。树结构数据的共性是树节点之间都有相互…

技术杂谈 2023年6月21日
0080
基于Cesium的数字地球三维可视化2

业务合作可联系我们： www.freethtech.com 饮水思源，不忘初心。要面包，也要有诗和远方。 posted on2022-05-08 15:39 3D入魔阅读(38…

技术杂谈 2023年5月31日
0083
设计模式-模板方法模式

简述提取算法中不变的部分封装成方法，变化的部分延迟到子类。延迟到子类这个说法在学习设计模式的时候经常出现，实际就是利用多态在子类中重写方法，使得实行时根据实例的类型调用不…

技术杂谈 2023年7月11日
0052
很详细的FFT（快速傅里叶变换）概念与实现

FFT 首先要说明一个误区，很多人认为FFT只是用来处理多项式乘的，其实FFT是用来实现多项式的系数表示法和点值表示法的快速转换的，所以FFT的用处远不止多项式乘。 FFT的前置知…

技术杂谈 2023年6月21日
0072
华为交换机如何配置SSH远程登录，一分钟秒学会

从事网络运维工作的小伙伴们都知道，在交换机正式上线时，必须完成配置SSH远程登录，这样做目的是为了日后，维护方便，不需要每次登录设备都要跑到机房，这样既不现实，又费事。远程登录方…

技术杂谈 2023年6月21日
0073
完整的WindowsServer服务器系统初始化配置、安全策略加固和基线检查脚本等保2.0适用

转载自：https://www.bilibili.com/read/cv14326780?spm_id_from=333.999.0.0 0x00 前言简述最近单位在做等保测评，…

技术杂谈 2023年5月31日
0086
JZ049从根节点到叶子节点的数字之和

title: 从根节点到叶子节点的数字之和 📃 题目描述题目链接：从根节点到叶子节点的数字之和、相同题目 🔔 解题思路方法一：递归回溯，主要判断好：当前结点传什么值进来，我传…

技术杂谈 2023年7月24日
0074
条件期望：ConditionalExpectation举例详解之入门之入门之草履虫都说听懂了

我知道有很多人理解不了 “条件期望” (Conditional Expectation) 这个东西，有的时候没看清把随机变量看成事件，把 (\sigma)-…

技术杂谈 2023年7月23日
0055
2022.24 判断职业方向好坏的两个方面

如何判断一个职业方向好不好？可以从下面 2 个方向来判断： 1、天花板高度：你这个职业方向最厉害的那批人能够到达的高度，这通常是你将来最好情况下能达到的上限。然后尝试把这份工作的从…

技术杂谈 2023年5月30日
0075
我理解的用户体验

用户体验是什么？用起来很爽快。这就是用户体验。用户体验是一系列的心理学，美学，经验总结而成的一门艺术。专用名称是UED User Experience Design(用户体验…

技术杂谈 2023年6月21日
0095
数据处理不等式：Data Processing Inequality

我是在差分隐私下看到的，新解决方案的可用性肯定小于原有解决方案的可用性，也就是说信息的后续处理只会降低所拥有的信息量。那么如果这么说的话为什么还要做特征工程呢，这是因为该不等式有…

技术杂谈 2023年5月31日
0063
看了同事写的代码，我竟然开始默默的模仿了。。。

事情是这样的，目前我正在参与 XXXX 项目的搭建，需要与第三方对接接口。在对方的接口中存在几个异步通知，为了接口的安全性，需要对接口的参数进行验签处理。为了方便大家对异步通知返…

技术杂谈 2023年7月11日
0063
阿里云高防回源IP的限制

高防回源IP 只能回到非阿里云的IP 高防所在阿里云账号下的SLB或者ECS IP *以及非阿里云账号下的SLB IP 一共三种情况。 posted on2022-05-17 15…

技术杂谈 2023年5月31日
0088
Azure产品目录

Loading 计算 Linux 虚拟机：为 Ubuntu、Red Hat 等预配虚拟机 Windows 虚拟机为 SQL Server、SharePoint 等预配虚拟机应用…

技术杂谈 2023年5月30日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

这个定时任务，从3min优化到200ms。老板，我尽力了！

大家都在看