kafka学习

2023年6月16日上午6:00 • 数据库 • 阅读 67

Kafka概述

Kafka是分布式(点对点模式)(发布-订阅模式)消息系统,由Scala 写成, 它主要用于处理流式数据。本质是基于消息队列缓存数据.

Kafka对消息保存时根据Topic进行归类，发送消息者称为Producer，消息接受者称为Consumer，此外kafka集群有多个kafka实例组成，每个实例(server)称为broker。组件依赖于 zookeeper集群保存一些meta 信息

为什么要用kafka,为什么要用消息队列

1）解耦：
2）冗余：
3）扩展性：
4）灵活性 & 峰值处理能力：
5）可恢复性：
6）顺序保证：
7）缓冲：
8）异步通信：

kafka构架

1）Producer ：消息生产者，就是向kafka broker发消息的客户端；
2）Consumer ：消息消费者，向kafka broker取消息的客户端；
3）Topic ：可以理解为一个队列（就是同一个业务的数据放在一个topic下）；
4） Consumer Group （CG）：这是kafka用来实现一个topic消息的广播（发给所有的consumer）和单播（发给任意一个consumer）的手段。一个topic可以有多个CG。topic的消息会复制（不是真的复制，是概念上的）到所有的CG，但每个partion只会把消息发给该CG中的一个consumer。如果需要实现广播，只要每个consumer有一个独立的CG就可以了。要实现单播只要所有的consumer在同一个CG。用CG还可以将consumer进行自由的分组而不需要多次发送消息到不同的topic；
5）Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic；
6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）。kafka只保证按一个partition中的顺序将消息发给consumer，不保证一个topic的整体（多个partition间）的顺序；
7）Offset：偏移量。

kafka分区

消息发送时都被发送到一个topic，其本质就是一个目录，而topic是由一些Partition Logs(分区日志)组成原因: (1) 方便在集群中扩展  (2)提高并发 因为可以以partition来进行读写分区有多副本机制  可以通过选举leader来提高容

kafka中的broker 是干什么的

broker 是消息的代理，Producers往Brokers里面的指定Topic中写消息，Consumers从Brokers里面拉取指定Topic的消息，然后进行业务处理，broker在中间起到一个代理保存消息的中转站。

为什么Kafka不支持读写分离？

(1)数据一致性问题。数据从主节点转到从节点必然会有一个延时的时间窗口，这个时间 窗口会导致主从节点之间的数据不一致。某一时刻，在主节点和从节点中 A 数据的值都为 X， 之后将主节点中 A 的值修改为 Y，那么在这个变更通知到从节点之前，应用读取从节点中的 A 数据的值并不为最新的 Y，由此便产生了数据不一致的问题。

(2)延时问题。类似 Redis 这种组件，数据从写入主节点到同步至从节点中的过程需要经 历网络→主节点内存→网络→从节点内存这几个阶段，整个过程会耗费一定的时间。而在 Kafka 中，主从同步会比 Redis 更加耗时，它需要经历网络→主节点内存→主节点磁盘→网络→从节 点内存→从节点磁盘这几个阶段。对延时敏感的应用而言，主写从读的功能并不太适用

kafka中consumer group 是什么概念

是Kafka实现单播和广播两种消息模型的手段。同一个topic的数据，会广播给不同的group；同一个group中的worker，只有一个worker能拿到这个数据。换句话说，对于同一个topic，每个group都可以拿到同样的所有数据，但是数据进入group后只能被其中的一个worker消费。group内的worker可以使用多线程或多进程来实现，也可以将进程分散在多台机器上，worker的数量通常不超过partition的数量，且二者最好保持整数倍关系，因为Kafka在设计时假定了一个partition只能被一个worker消费（同一group内）。

kafka命令行操作

修改配置文件
#broker的全局唯一编号，不能重复
broker.id=1
#处理网络请求的线程数量
num.network.threads=3
#用来处理磁盘IO的线程数量
num.io.threads=8
#发送套接字的缓冲区大小
socket.send.buffer.bytes=102400
#接收套接字的缓冲区大小
socket.receive.buffer.bytes=102400
#请求套接字的缓冲区大小
socket.request.max.bytes=104857600
#kafka运行日志存放的路径
log.dirs=/opt/module/kafka/logs
#topic在当前broker上的分区个数
num.partitions=1
#用来恢复和清理data下数据的线程数量
num.recovery.threads.per.data.dir=1
#segment文件保留的最长时间，超时将被删除
log.retention.hours=168
#配置连接Zookeeper集群地址
zookeeper.connect=hadoop101:2181,hadoop102:2181,hadoop103:2181

分别在hadoop102和hadoop103上修改配置文件/opt/module/kafka/config/server.properties中的broker.id=2、broker.id=3

启动集群kafka-server-start.sh -daemon server.properties  所有节点都要

关闭集群kafka-server-stop.sh stop

查看当前服务器中的所有topic kafka-topics.sh --zookeeper cc1:2181 --list
创建topic    kafka-topics.sh --zookeeper cc1:2181 \
--create --replication-factor 3 --partitions 1 --topic first
删除topic  kafka-topics.sh --zookeeper hadoop101:2181 \
--delete --topic first
消费消息 kafka-console-consumer.sh \
--bootstrap-server cc1:9092 --from-beginning --topic first

kafka存储策略

无论消息是否被消费，kafka都会保留所有消息。有两种策略可以删除旧数据：
1）基于时间：log.retention.hours=168
2）基于大小：log.retention.bytes=1073741824

kafka follower如何与leader同步数据写流程

1）producer先从zookeeper的 "/brokers/.../state"节点找到该partition的leader
2）producer将消息发送给该leader
3）leader将消息写入本地log
4）followers从leader pull消息，写入本地log后向leader发送ACK
5）leader收到所有ISR中的replication的ACK后向producer发送ACK
注：leader会维护一个与其一定程度保持同步的Replica列表，该列表称为ISR(in-sync Replica)。所说的"一定程度"是指可以忍受的滞后范围，这个范围可以通过参数replica.lag.time.max.ms(默认10秒)进行配置。与leader副本同步滞后过多的副本（不包括leader）副本，组成OSR(Out-Sync Relipcas)。在正常情况下，所有的follower副本都应该与leader副本保持一定程度的同步。

flume和kafka集成

1）配置flume(flume-kafka.conf)
define
a1.sources = r1
a1.sinks = k1
a1.channels = c1

source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F  /opt/module/datas/flume.log
a1.sources.r1.shell = /bin/bash -c

sink
a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
a1.sinks.k1.kafka.bootstrap.servers = hadoop101:9092,hadoop102:9092,hadoop103:9092
a1.sinks.k1.kafka.topic = second
a1.sinks.k1.kafka.flumeBatchSize = 20
a1.sinks.k1.kafka.producer.acks = -1

channel
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

bind
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
2） 启动kafkaIDEA消费者
3） 进入flume根目录下，启动flume
$ bin/flume-ng agent -c conf/ -n a1 -f jobs/flume-kafka.conf
4） 向 /opt/module/datas/flume.log里追加数据，查看kafka消费者消费情况
$ echo hello > /opt/module/datas/flume.log

kafka中的 zookeeper 起到什么作用，可以不用zookeeper么

zookeeper 是一个分布式的协调组件，早期版本的kafka用zk做meta信息存储，consumer的消费状态，group的管理以及 offset的值。考虑到zk本身的一些因素以及整个架构较大概率存在单点问题，新版本中逐渐弱化了zookeeper的作用。新的consumer使用了kafka内部的group coordination协议，也减少了对zookeeper的依赖，

但是broker依然依赖于ZK，zookeeper 在kafka中还用来选举controller 和 检测broker是否存活等等。

Original: https://www.cnblogs.com/cheng9999/p/11877758.html
Author: cheng_blog
Title: kafka学习

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/620622/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

通过Python收集MySQL MHA 部署及运行状态信息的功能实现

一. 背景介绍当集团的MySQL数据库实例数达到2000+、MHA集群规模数百个时，对MHA的及时、高效管理是DBA必须面对的一个挑战。MHA 集群节点信息和运行状态是管…

数据库 2023年6月16日
00105
python 2分法查找实例

直接上代码（内含注释）直接上代码（内含注释） 1 find_list = [2, 5, 7, 8, 12, 23, 27, 31, 33, 42, 44, 45, 47, 50]…

数据库 2023年6月11日
0058
多线程

public class 多线程 { static boolean flag = true; static class t1 implements Runnable{ @Overr…

数据库 2023年6月16日
0086
Mysql_视图

视图是指计算机数据库中的视图，是一个虚拟表，其内容由查询定义。同真实的表一样，视图包含一系列带有名称的列和行数据。但是，视图并不在数据库中以存储的数据值集形式存在。行和列数据来自由…

数据库 2023年6月11日
0075
入门Python，看完这篇就行了！

转载请注明出处❤️ 作者：测试蔡坨坨原文链接：caituotuo.top/3bbc3146.html 你好，我是测试蔡坨坨。众所周知，Python语法简洁、功能强大，通过简单的…

数据库 2023年6月11日
0086
git 清除账号密码缓存

配置用户名和邮箱： git config –global user.name “username”git config –globa…

数据库 2023年6月11日
0079
SQL语句实战学习

参考：https://zhuanlan.zhihu.com/p/38354000再次感谢作者的整理！！ 1.数据已提前准备好了，已知有如下4张表：学生表：student 成绩表：s…

数据库 2023年6月16日
0075
MySQL金额数字转为大写中文

MySQL版本：5.7.34-log通过创建函数的方法，目前可以实现整数金额的转换，网上暂未找到MySQL版本的故自己参照其他数据库版本的改编了一下，仅供参考！！！使用方法：se…

数据库 2023年5月24日
0063
分库分表真的适合你的系统吗？聊聊分库分表和NewSQL如何选择

曾几何时，”并发高就分库，数据大就分表”已经成了处理 MySQL 数据增长问题的圣经。面试官爱问，博主爱写，考生爱背诵，似乎形成了一个闭环。 [En] I…

数据库 2023年5月24日
00101
SpringMvc(二)- 请求处理参数和响应数据处理

1、请求处理参数 1.1 请求参数 @RequestParam 1.1.1 不使用 @RequestParam 注解请求参数处理，不使用参数注解：1.如果请求参数名和请求处理…

数据库 2023年6月16日
0071
（面试）大型网站应用之海量数据、高并发解决方案

面试时会遇到这样的提问，就记录下来，加深印象；以后工作中也可以用到。海量数据的解决方案：网站访问数据的特点大多数呈现为”二八定律”：80%的业务访问集中…

数据库 2023年6月11日
0046
CentOS7.2解决vsftpd启动失败，code=exited,status=2问题的几个方法参考

【问题说明】重启vsftpd服务失败：[root@data ~]# systemctl restart vsftpdJob for vsftpd.service failed. S…

数据库 2023年6月14日
00321
实时流计算—数据采集工具Flume

Flume最早是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。 Flume特性 1.提供上下文路由特征 2.Flume的管道是基于事务，保证…

数据库 2023年6月6日
00256
新买的百度云服务器随便玩玩之部署简单页面

新买的百度云服务器随便玩玩之部署简单页面 1.vscode 连接百度云服务器 vscode下载拓展 2.在远程资源管理器中添加新的远程资源管理 3.输入云服务器公网ip地址；输入密…

数据库 2023年6月16日
00102
Docker Maven构建缓存spring boot依赖包

背景每次通过 docker build ‘xxx’ 的时候，总是会去maven镜像下载一大堆Jar包，平均每次build都要在3分钟左右，效率非常低下，于…

数据库 2023年6月6日
0086
Mysql 一主一从

1. 主从原理 1.1 主从介绍所谓 mysql 主从就是建立两个完全一样的数据库，其中一个为主要使用的数据库，另一个为次要的数据库，一般在企业中，存放比较重要的数据的数据库服务…

数据库 2023年6月14日
0070

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30