技术干货总结：分布式系统常见同步机制

发布时间：2019-08-22 18:46:01 所属栏目：优化来源：IT技术分享

导读：副标题#e# 布式系统为保证数据高可用，需要为数据保存多个副本，随之而来的问题是如何在不同副本间同步数据?不同的同步机制有不同的效果和代价，本文尝试对常见分布式组件的同步机制做一个小结。常见机制有一些常用的同步机制，对它们也有许多评价的维度

副标题[/!--empirenews.page--]

布式系统为保证数据高可用，需要为数据保存多个副本，随之而来的问题是如何在不同副本间同步数据?不同的同步机制有不同的效果和代价，本文尝试对常见分布式组件的同步机制做一个小结。

技术干货总结：分布式系统常见同步机制

常见机制

有一些常用的同步机制，对它们也有许多评价的维度，先看看大神的经典总结：

上图给出了常用的同步方式(个人理解，请批评指正)：

同步方式分两类，异步的性能好但可能有数据丢失，同步的能保证不丢数据但性能较差。同种方式的算法也能有所提升(如 Paxos 对于 2PC)，但实现的难度又很高。实现上只能在这几点上进行权衡。

考虑同步算法时，需要考虑节点宕机、网络阻断等故障情形。下面，我们来看看一些分布式组件的数据同步机制，主要考虑数据写入请求如何被处理，期间可能会涉及如何读数据。

Redis

Redis 3.0 开始引入 Redis Cluster 支持集群模式，个人认为它的设计很漂亮，大家可以看看官方文档。

一些设计细节：

HASH_SLOT = CRC16(Key) mod 16384 
MEET 
WAIT

Kafka

Kafka 的分片粒度是 Partition，每个 Partition 可以有多个副本。副本同步设计参考官方文档

一些设计细节：

当前消费者只能从主节点读取数据，未来可能会改变
主从的粒度是 partition，每个 broker 对于某些 Partition 而言是主节点，对于另一些而言是从节点
Partition 创建时，Kafka 会尽量让 preferred replica 均匀分布在各个 broker
选主由一个 controller 跟 zookeeper 交互后“内定”，再通过 RPC 通知具体的主节点，此举能防止 partition 过多，同时选主导致 zk 过载。

ElasticSearch

ElasticSearch 对数据的存储需求和 Kafka 很类似，设计也很类似，详细可见官方文档。

ES 中有 master node 的概念，它实际的作用是对集群状态进行管理，跟数据的请求无关。为了上下文一致性，我们称它为管理节点，而称 primary shard 为“主节点”，称 replica shard 为从节点。ES 的设计：

一些设计细节：

Hadoop

Hadoop 使用的是链式复制，参考 Replication Pipelining

实现细节：

实现中优化了链式复制：block 拆分成多个 packet，节点 1 收到 packet, 写入本地的同时发往节点 2，等待节点 2 完成及本地完成后返回 ACK。节点 2 以此类推将 packet 写入本地及发往节点 3……

TiKV

（编辑：宣城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

如何优化网站使百度首	怎样建设外链能力保证
源于seo优化特征，优化	遵循搜索引擎优化的指