Kafka 学习主干道

Created2026-03-22|Updated2026-03-23

|Word Count:434|Reading Time:1mins|Post Views:

Kafka 学习主干道

核心抽象

Kafka 是一个持久化的分布式日志系统，所有设计围绕一个核心约束展开：

消息是不可变的、有序的、可重放的日志，消费者通过 offset 自主控制读取位置

从这个约束出发，可以推导出它的所有设计决策：

抽象	一句话
Topic / Partition	日志的逻辑分组与物理分片，分片是并发和扩展的基本单位
Offset	消费者在分区日志中的位置指针，由消费者自己管理
Consumer Group	一组消费者共同消费一个 topic，每个分区只被组内一个消费者消费
Replication / ISR	分区副本机制，ISR 决定谁有资格成为 leader
Producer Acks	生产者对”写入成功”的定义，决定可靠性与延迟的取舍
Log Segment	分区在磁盘上的物理存储单元，append-only，支持顺序写

主干道节点

#	文件	一句话	状态
1	01-core-concepts.md	Topic / Partition / Offset / Consumer Group 的关系与设计动机	✅ 已完成
2	02-log-and-pull.md	日志抽象（只追加、全局定序）与 Pull 模式的设计动机	✅ 已完成
3	03-replication.md	Replica、ISR、Leader Election、acks 与数据可靠性取舍	✅ 已完成
4	04-producer.md	幂等写入、事务、LSO、Exactly-Once 语义	✅ 已完成
5	05-consumer.md	Consumer Group、Rebalance、Offset 管理、消费语义	⬜ 未开始
6	06-kraft.md	KRaft 模式：为什么去掉 ZooKeeper，元数据如何管理	⬜ 未开始
7	07-engineering.md	Kafka 在数据管道、事件驱动、训练数据流中的定位与取舍	⬜ 未开始

节点依赖

01-core-concepts
    ├── 02-storage-design
    ├── 03-replication
    ├── 04-producer
    └── 05-consumer
              └── 06-kraft (可并行)
                      └── 07-engineering

kafka distributed-systems messaging

Related Articles

01 · Core Concepts

01 · Core Concepts 目标：理解 Kafka 的四个核心抽象及其关系，能画出消息从 produce 到 consume 的完整路径核心概念TopicTopic 是逻辑概念，是消息的命名分类单位（如 order-events、user-clicks）。Topic 本身不存储数据，真正存储数据的是 partition。 PartitionPartition 是物理存储单元。每个 partition 在磁盘上是一个目录，目录下包含多个 segment 文件（.log、.index、.timeindex）。Kafka 按大小或时间把数据切割成多个 segment，避免单个文件无限增长。 Partition 解决两个问题：并行度：多个 partition 分布在不同 broker 上，读写可以同时进行，吞吐量线性扩展。消费端同理，N 个 partition 最多支持 N 个消费者并行消费。水平扩展：partition 是 Kafka 的最小分布单元，不同 partition 可以在不同 broker 上，单个 topic 的数据量不受单台机器限制。注意：pa...

02 · 日志抽象与 Push vs Pull

02 · 日志抽象与 Push vs Pull 目标：理解 Kafka 的存储基础——日志抽象，以及消费模型选择 Pull 的设计动机核心概念一、什么是日志日志是最简单的存储抽象：只追加、全局有序、按时间排列的记录序列。每条记录追加到末尾，每条记录被分配一个唯一的单调递增序号。这个序号定义了一种”时间”概念——序号小的记录比序号大的旧。关键性质：这种”时间”与物理时钟无关。在分布式系统里，不同机器的物理时钟不同步，即使同步了，同一毫秒内发生的两件事也无法用物理时间判断先后。日志序号解决的是全局定序问题——整个系统里所有事件有一个统一的、无歧义的顺序。这是 Kafka 能作为”事件的单一来源”的基础。注意区分两种”日志”：应用日志（log4j、syslog）：给人读的非结构化文本数据日志（Kafka partition）：给程序读的结构化序列，是这里讨论的概念二、只追加带来的三个好处1. 顺序写性能极高磁盘随机写慢，顺序写可以接近内存速度。日志只追加意味着所有写入都是顺序的，Kafka 因此能在普通机械硬盘上达到很高的吞吐量。 2. 消息不因消费而删除，...

04 · Producer：幂等写入、事务、Exactly-Once

04 · Producer：幂等写入、事务、Exactly-Once 目标：理解 Kafka Producer 如何从 at-least-once 走向 exactly-once，以及幂等和事务的实现机制核心概念一、问题来源：at-least-once 的重复写入Kafka 默认是 at-least-once：消息不会丢，但可能重复。重复的来源是网络不确定性： 12345Producer 发送消息→ Broker 写入成功→ 网络故障，Producer 没收到确认→ Producer 以为失败，重试→ Broker 收到重复消息，再次写入 Producer 无法区分”broker 没收到”和”broker 收到了但确认没回来”，即使 acks=all 也存在这个问题。二、幂等 Producer：解决单 Partition 的重复写入开启方式：enable.idempotence=true（Kafka 3.0 之后默认开启）实现机制：PID + Sequence Number 每个 Producer 启动时被分配唯一的 Producer ID（PID）每...

03 · Replication / ISR / Leader Election

03 · Replication / ISR / Leader Election 目标：理解 Kafka 如何通过副本机制保证数据不丢，以及 ISR、Leader Election、acks 的设计取舍核心概念一、为什么需要副本单台 broker 随时可能挂掉。如果 partition 只存在一台 broker 上，broker 挂了数据就永远丢了。解决方案是副本（Replica）：每个 partition 在多台 broker 上各存一份。副本数量由 replication factor 控制，比如 replication factor = 3，意味着这个 partition 在 3 台不同的 broker 上各有一份完整数据。二、Leader 和 Follower多个副本里，有且只有一个是 Leader，其余是 Follower。 Leader：负责所有读写请求。Producer 写给 Leader，Consumer 也从 Leader 读。 Follower：唯一职责是从 Leader 同步数据，保持冗余备份，不直接服务读写请求。...

Comments

Loading Database