Kafka学习(四) 日志

2023年6月12日上午2:08 • Python • 阅读 94

日志

这里所说的日志是用来记录生产者向主题发送消息而产生的日志，但日志中记录的并不是消息而是record，因为Kafka并不是将原始消息直接写入日志的，而是把消息和其他元数据封装在一个record里写入日志，我们把这个record叫做消息集合。

这些日志信息放在配置文件的log.dirs指定的目录中

我们可以看到日志是按主题的分区来创建目录的（Test-0、Test-1、Test-2），每个目录里都有相同的文件类型，这里说类型而不是文件名。

日志文件

.log 是具体的日志文件，而日志文件时分段的，起始都是从0开始，在满足条件的时候进行截断。日志文件名称就是该日志段文件中保存的第一条日志的位移数值。

索引文件

.index：是位移索引文件，是用来帮助Kafka来快速定位记录在哪个物理文件

.timeindex：是时间索引文件，是用来帮助Kafka通过时间戳来查找对应记录的位移信息。

它俩都属于稀疏索引，也就是说它们不会保存每一条记录的的索引而且一个范围或者说是N个记录的索引区间，如下图：

无论是位移索引文件还是时间戳索引文件都是这种形式，通过这种形式可以进行二分查找从而提高定位记录的速度。

索引文件有两种打开模式：只读和读写，除了当前日志的索引文件外其他的也就是以前的索引文件都是只读的。而且索引文件和日志文件是对应的，日志文件进行切割的时候索引文件也要进行切割，索引文件切割的时候要进行文件裁剪，因为新的索引文件大小预先分配为10M（读写模式的文件），而进行切割的时候要进行裁剪来还原为真实大小，所以只有当前读写模式的索引文件是10M，只读默认的历史索引文件大小都是真实大小。

用下面的命令就可以打开日志或者索引文件

kafka-run-class.sh kafka.tools.DumpLogSegments --files ./Test-0/00000000000000000000.index

我这里使用线上Kafka来查看一下，索引文件和日志文件的关系。

从上图可以很明显的看出它是怎么记录的，左侧是日志文件，右侧是索引文件。

索引文件中保存数据格式如下：相对位移|物理文件位置

上图黄色部分的索引文件offset也就是相对偏移是10350，物理文件位置是8284，顺着黄色箭头就可以看到日志文件中的位置。

如果要想找offset为10365的记录，那么通过索引文件找到小于10365的最大索引项就是 offset: 10350 position: 8284，然后就从日志文件中的position的8284开始进行顺序查找，直到找到10365的记录。

对于时间索引文件来说就是保存的是时间戳与位移的关系，通过给定的时间戳来查找不大于该时间戳的最大位移，然后Kafka拿着位移去日志文件中查找。

leader-epoch-checkpoint是leader-epoch的检查点文件，该文件与Leader epoch有关。

日志保留策略

Kafka会定期清理日志，清理的单位是日志段。它有2种策略：

基于时间：默认会清除7天之前的日字段包括索引文件。方法是比较当前时间戳和该日志段第一条消息的时间戳的差值。
基于大小：默认不会对大小进行限制

日志清理是一个异步过程， 日志清理策略对当前使用的日字段不生效，Kafka不会清理当前使用的日志段。

日志compaction

这个需要说明，它不是日志压缩，而是基于消息key的去重，而且这种去重只是保留位移最大的一个。也就是说这种机制必须启用消息的key，没有key的消息无法进行去重。

怎么理解呢？比如用户邮箱的修改，用户的ID是位移的，邮箱可以修改多次，比如该用户短时间内反复修改了邮箱，那么就会产生多条消息，其实真正有用的就是最后一次修改中的邮箱地址，前面的都没用，所以就可以启用这个功能，当出现KEY重复的消息时采用什么策略，这种机制在Kafka的__consumer_offsets这个保存消费者消费偏移量的主题中就用到了。

日志相关参数

Original: https://www.cnblogs.com/yinging/p/16512772.html
Author: 诗意般的代码
Title: Kafka学习(四) 日志

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/602595/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

.net 温故知新：【9】.NET日志记录 ILogger使用和原理

日志日志作为我们程序记录的”黑匣子”不论什么系统都应该使用到的，比如我们经常使用的log4net就是第三方日志记录提供程序。.NET 支持使用各种内置和第…

Python 2023年10月15日
0044
用python表白女神_Python表白？别傻了，女神是拿来撩的！

原标题：Python表白？别傻了，女神是拿来撩的！作者：法纳斯特 (本文来自作者投稿) 自古真情留不住，唯有套路得人心。刷抖音的小伙伴，也许会有点印象。利用Python的py…

Python 2023年9月24日
0059
Java 编码那些事（二）

建议先阅读：Java 编码那些事（一）现在说说编码在 Java中的实际运用。在使用 tomcat的时候，绝大部分同学都会遇到乱码的问题，查查文档， google一下解决方案啥的，…

Python 2023年10月16日
0047
Pandas数据显示不全？快来了解这些设置技巧！ ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：http://www.showmeai.tech/tutorials/40📘 本文地址：http://www.showmea…

Python 2023年10月26日
0048
人到中年，做管理真的需要懂的管理必备知识

课堂三点要求：认真听讲，记笔记 * – 讲义电子版会给补充，不要急于找资料 – 跟着课堂节奏积极参与课堂互动，远程依然有温度 * – 课堂提…

Python 2023年6月3日
0073
pip install pyqt5时报错：Preparing wheel metadata … error

问题描述背景：在服务器上用conda搭建TensorFlow训练环境在安装pyqt5时遇到了这个问题： ; 解决尝试是不是代码源出问题？ pip install pyqt5 …

Python 2023年9月9日
00205
python scrapy框架原理_python Scrapy框架原理解析

Python 爬虫包含两个重要的部分：正则表达式和Scrapy框架的运用，正则表达式对于所有语言都是通用的，网络上可以找到各种资源。如下是手绘Scrapy框架原理图，帮助理解 …

Python 2023年10月5日
0056
手把手教你：铁路异物侵入的目标检测系统

系列文章手把手教你：图像识别的垃圾分类系统手把手教你：人脸识别考勤系统手把手教你：基于粒子群优化算法（PSO）优化卷积神经网络（CNN）的文本分类 @ 系列文章一、项目简介…

Python 2023年6月10日
0064
用百度指数上网的新体验

最近，百度指数开启了我上网冲浪的新姿势… 百度指数（官方的说明）：反应了互联网用户对键词搜索关注程度及持续变化情况。以网民在百度的搜索量为数据基础，以关键词为统计对…

Python 2023年6月3日
0091
数据清洗工具flashtext，效率直接提升了几十倍数

在平常的一些的小规模的数据的过滤、清洗过程中使用最多的就是正则表达式，但是随着数据规模的增大，正则表达式就显得有些心有余力不足了。【阅读全文】正则表达式在一个 10k 的词库中…

Python 2023年11月2日
0059
Wireshark 实验

实验一 ipconfig 实作一实作二 ping 实作一实作二 tracert 实作一实作二 ARP 实作一实作二实作三 DHCP 实作一 netstat 实作一实作二…

Python 2023年10月8日
0051
matplotlib知识点总结

1、什么是matplotlibmatplotlib是最流行的Python底层绘图库，主要做数据可视化图表，名字取于MATLAB,模仿MATLAB搭建。2、matplotlib基本要…

Python 2023年9月6日
0048
微光互联 TX800-U 扫码器无法输出中文到光标的问题

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位🧡 Python实战微信订餐小程序 🧡 进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯…

Python 2023年8月15日
0068
图卷积神经网络(GCN)综述与实现（PyTorch版)

图卷积神经网络(GCN)综述与实现（PyTorch版) 本文的实验环境为 PyTorch = 1.11.0 + cu113，PyG = 2.0.4，相关依赖库…

Python 2023年8月1日
00114
第四章 ndarray的索引、切片和遍历

NumPy入门教程第一章 NumPy 介绍第二章 ndarray的创建及其属性第三章 ndarray的基本操作第四章 ndarray的索引、切片和遍历第五章 ndarray的重塑…

Python 2023年8月23日
0055
Python新手必备的15个字符串方法，你学废了吗？

兄弟们Python都学的怎么样了？字符串学会了么？字符串是Python最基本的数据类型，遍布所有Python程序，你要你在用用Python，就都会使用到它。所以总结了15个最重…

Python 2023年5月24日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31