如下图所示,在网络中有两个节点分别为G1和G2,这两个节点上存储着同一数据的不同副本,现在数据是一致的,两个副本的值都为V0,A、B分别是运行在G1、G2上与数据交互的应用程序。
▲网络节点及数据分布图
?
在正常情况下,操作过程如下(如下图所示):
(1)A将V0更新,数据值为V1;
(2)G1发送消息m给G2,数据V0更新为V1;
(3)B读取到G2中的数据V1。
▲正常情况
?
如果发生网络分区故障,那么在操作的步骤(2)将发生错误:G1发送的消息不能传送到G2上。这样数据就处于不一致的状态,B读取到的就不是最新的数据,如图2-3所示。如果我们采用一些技术如阻塞、加锁、集中控制等来保证数据的一致,那么必然会影响到系统的可用性和分区容错性。
▲网络分区故障
?
CAP理论告诉我们如果系统具有较高的可用性和较小延迟,那么节点必须能够容忍网络分区,但这时候应用程序可能会得到不同的数据(B读取到的值为V1)。
有人可能会想,如果我们对步骤(2)的操作加一个同步消息,问题会不会解决呢(同时满足CAP理论三个特性)?答案是否定的。不加同步的情况下,G1到G2的更新是不可知的,也就是说,B读取到得数据可能是V1也可能是V2,但是服务是可用的。即同时满足了“A”和“P”,但是不保证“C”一定满足。加了同步消息之后,将能够保证B读取到数据V1。但是这个同步操作必定要消耗一定的时间,尤其是在网络规模较大的情况下,当节点规模成百上千的时候,不一定能保证此时的服务是可用的。这种情况下只能满足“C”和“P