alpakka-kafka(7)-kafka应用案例，消费模式

2023年5月28日下午10:44 • 大数据 • 阅读 83

上篇描述的kafka案例是个库存管理平台。是一个公共服务平台，为其它软件模块或第三方软件提供库存状态管理服务。当然，平台管理的目标必须是共享的，即库存是作为公共资源开放的。这个库存管理平台是一个Kafka消费端独立运行的软件。kafka的生产方即平台的服务对象通过kafka生产端producer从四面八方同时、集中将消息写入kafka。库存管理平台在kafka消费端不间断监控kafka里新的未读过的消息并及时读取，解析消息获取发布者对库存管理的指令，然后按指令更新库存状态。

设计这个库存管理平台最主要的目的先是为了保证库存状态的时效性、准确性，然后才是库存更新的效率。由于库存更新指令的产生是在一个高并发、异类系统、分布式环境里，上篇已经提到多线程环境下更新共享数据会产生的问题。不过通过kafka把并发产生的指令转换成队列然后按顺序单线程逐句执行就能解决主要问题了。现在，平台的数据来源变成kafka消费端口上的一个数据流了，数据的读取和消费自然也变成了逐条的。kafka提供了某种游标机制来记录数据读取的最新位置，防止数据消费过程中的遗漏、重复。记录当前读取位置offset的方式就是所谓数据消费模式代表数据消费不同程度的安全/效率比例，安全系数越高，流量越低。具体读取位置offset可以存放在kafka内部，或者保存在某种数据库表里。简单来讲，数据消费模式分三种：至多一次at-most-once，至少一次at-least-once，只此一次exactly-once。

从由kafka中读出指令到成功完成执行指令整个消息消费过程可能经历多个步骤。每个步骤都可能有失败的可能，从而中断过程影响数据消费结果。保存offset即offset-commit的时间点代表了三种消费模式的特性：

1、至多一次at-most-once：读出数据立即commit-offset，然后才开始消费数据。无论消费过程中发生异常与否，下次都会从新的位置开始读取，过去不再。如果一条数据在消费过程中发生事故中断了过程，那这条数据就没有发生应有的作用，就等于遗失了。

2、至少一次at-least-once：读出数据、消费数据、然后才commit-offset。如果消费过程出现问题中断，那么offset就得不到保存，下次再读取时还是从原先位置重新开始。所以，一条数据有可能被多次读取，造成重复消费的效果。

3、只此一次exactly-once：把保存offse和消费过程放到同一个事务transaction里。这种模式需要数据库事物处理支持，也就是说offset-commit和数据处理都必须在同一种提供事物处理支持的数据库环境里进行。offset-commit只会在确保消费过程成功完成后才进行。

at-most-once和at-least-once都使用kafka内部commit机制保存offset。at-least-once可以利用kafka的自动commit机制实现offset保存，只要通过kafka配置就可以了。下面是这个配置的示范：

ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG = “true” 代表开启auto-commit模式。ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG设置了auto-commit之间的毫秒时间间隔。在这个间隔内如果中断消费过程，那么在这个间隔内读取所有数据的offset都未能commit，但其中有些数据已经完成消费了。重启读取就会从这个间隔开始时的offset从头读取，那么之前消费的数据就会再次消费，等于重复消费了。auto-commit间隔设置的越短，重复消费的数据就越少，不过kafka需要更密集的进行commit-offset，运行效率就越低。反之，重复消费的数据量就越大，消费计算精确度越低，但运行效率就会提高。

在alpakka-kafka里用一个普通的Source就可以实现at-least-once消费模式了：

run这个plainSource形成的akka-stream就实现了一个完整kafka-reader功能：

offset-commit在这个reader-stream里是不可控的，是kafka按预先设置自动进行的。

plainSource是一个独立的stream，代表单个reader。为了充分利用平台的硬件资源，首先考虑的是同时运行多个stream，如下：

这样可以同时运行numReaders条stream。不过，现在设计方案又返回了多线程环境，好像又要面临多并发所产生的一系列问题了。我们来分析分析：首先，前面描述的库存更新多线程竞争问题主要是针对同一门店，同一商品，同时更新库存状态引发的。以上设计中每条stream，即每个reader，如果属于同一个reader-group（group-id相同）的话，应共同分别负责所有partition中的部分partition，是不会共享partition的。那么，写入每个partition的数据是否交叉重复就很关键了。实际上，在上游消息发布阶段决定了消息应该写入的具体partition，如下：

ProducerRecord[K,V] 的key设定为shopId，具体目标partition由kafka的默认指派算法根据key的值产生，保证同一key值一定会指派给同一个partition。虽然在门店数量>partition数量的情况下每个partition可以包含多个shopId, 但各partition所包含的shopId不会交叉重复。所以，以上多reader同时运行的设计中，只要属于同一个reader-group，shopId就不会相同，就不会产生线程竞争问题。

那么，在同一个reader的消费过程中是否能使用多线程方式呢？上面的例子中使用了mapAsync(parallelism=1)，这个代表了stream里的一个阶段。这个阶段容许收到上游数据后以parallelism个future来并行处理，同时可以保证流出下游的数据遵守上游流入数据的顺序。但是，在同一阶段用多线程方式计算方式在遇到同门店、同商品库存更新时同样会产生多线程竞争问题，所以只能取parallelism=1。不过，可以考虑把数据处理过程分割成几个阶段，因为每个阶段流入流出的数据是同循序的，所以可以容许多个阶段在在各自的线程里运算。如：

可以用asyn.mapAsync来分割异线程域async-boundary以实现多线程运算效果。

下面的完整例子里把异常处理和重启也考虑了进去：

下面是几个消费模式的测试示范代码：

Original: https://www.cnblogs.com/tiger-xc/p/15141005.html
Author: 雪川大虫
Title: alpakka-kafka(7)-kafka应用案例，消费模式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/533983/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

重磅！DIY的Prometheus主备方案，全网唯一。生产未上，测试先行。

写在开篇关于prometheus的高可用方案，经过笔者不断的研究、对比、和搜索，发现不管是官方、还是各大搜索引擎搜索出来的方案，都不符合笔者的需求。因此，笔者自己设计了一套pro…

大数据 2023年5月27日
0073
docker报错“net/http: TLS handshake timeout”

sudo xed /etc/docker/daemon.json 添加上 registry-mirrors 修改保存后重启 Docker sudo service docker r…

大数据 2023年5月29日
0082
从零开始打造流程图、拓扑图项目【Nuxt.js + Element + Vuex】

一、通过云开发平台快速创建初始化应用 // 注意在后面&#x…

大数据 2023年5月27日
0080
实现开窗count distinct 历史累计截止日期去重统计

大数据 2023年11月13日
0037
【Vegas原创】docker安装TOMCAT，并运行本地代码

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

大数据 2023年5月29日
0074
40+倍提升，详解 JuiceFS 元数据备份恢复性能优化之路

JuiceFS 支持多种元数据存储引擎，且各引擎内部的数据管理格式各有不同。为了便于管理，JuiceFS 自 0.15.2 版本提供了 dump 命令允许将所有元数据以统一格式写入…

大数据 2023年6月3日
00110
基于Redis中 zset数据类型实现各类排行榜日榜、周榜（RedisTemplate操作）

大数据 2023年11月15日
0046
SqlLite数据库操作

SqlLite数据库 1.作用 2.使用规则嵌入式数据库：安卓、windows、linux、IOS等；这里是动态数据类型，会根据输入的值自动判断并存储。 1.null 空值 2…

大数据 2023年11月10日
0040
linux操作系统配置静态IP大全

一、ubuntu14.04/16.04 用ifconfig -a查看有哪些网卡编辑配置文件sudo vim /etc/network/interfaces auto loifac…

大数据 2023年5月26日
0064
可控文本生成技术

介绍 Prabhumoye 等人[1]对可控的文本生成技术进行了综述，神经控制文本生成是一个重要的研究领域，因其应用的广泛性而备受关注。这篇论文中提供了一个新的模式的流水线生成过…

大数据 2023年5月28日
0077
4.运动 transition：时间属性运动形式延迟时间 – HTML5&CSS3.0基础部分-xyphf

4.运动 transition：时间属性运动形式延迟时间 – HTML5&CSS3.0基础部分-xyphf 原创 mb60aa6722a0e942022-…

大数据 2023年5月24日
0083
谷歌官方推荐的安卓数据库框架 Room 使用详解（一）

Room 框架是 Android 官方推出一款数据库操作框架，里面封装了对于 Sqlite 的操作，可以快速、便捷的完成相关操作。今天我们就来了解并学习下这块库的使用和原理。我们…

大数据 2023年11月11日
0062
【无标题】杭电信工—-安卓大作业模拟设计与实现手机微信APP

模拟设计与实现手机微信APP或QQ APP系统，具体要求： 1）登陆界面使用SharedPreference记住密码和账号。 2）主界面包含顶部选项菜单、底部导航菜单 3）使…

大数据 2023年11月10日
0044
jvm工具

jvm工具知识，经验是基础，数据是依据，工具是运营知识处理数据的手段数据：运行日志、异常堆栈、GC日志、线程快照、堆转存储快照 JPS：虚拟机进程状况工具 jvm proces…

大数据 2023年5月28日
0078
VMware安装Rocky Linux服务器系统并执行优化

镜像下载、域名解析、时间同步请点击阿里云开源镜像站前言由于CentOS7 2024年即将停止维护，我准备将服务器重心从CentOS改为Rocky Linux，这篇文章分享一下R…

大数据 2023年5月27日
00115
Sqlite 数据库 BUG 记录

目录使用 SQLite_编程的快速介绍……………………………

大数据 2023年11月12日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

alpakka-kafka(7)-kafka应用案例，消费模式

大家都在看