技術社區 > 技術實踐｜技術實踐｜分布式時間鎖

技術實踐｜技術實踐｜分布式時間鎖

2023年06月13日

前言

K8s client-go中，源生自帶了一個leader庫，便于實現分布式時間鎖。

以K8s原生的controller-manager組件為例，當有三臺master機器時，默認會運行三個controller-manager實例，但只有一個在干活，另外兩個處于備用狀態。而這個功能的實現，就依賴于分布式時間鎖。

所有相關配置如下圖所示：

鎖的持有者，會每隔retryPeriod更新鎖的有效期，表示它一直在持有這把鎖。

特別說明下兩個參數：

一. leaseTimeout

舉個例子：現在有個房間，我要求當有人進入房間時，下一個人至少等待1小時才可進入房間。這時，我們可以將leaseTimeout設置為1小時，每當有人進入房間，則將房門上的時候改為當前時間。下一個人準備進入時，必須檢查房門上的時間距離當前時間超過leaseTimeout。
之所以要這樣設計，是因為在分布式情況下，只有程序活著的時候才可以要求它干什么，而一旦它異常了，它就失控了。而為了防止在它異常時，其它活著的程序可以正常接替它，所以就約定了leaseTimeout，一旦超過這個時間，則直接認定它異常，可以接管。

二. renewDeadline

上面的約定，無法防止腦裂。因為鎖持有者在leaseTimeout中未更新鎖，并不代表它已經掛了，它可能只是因為其它原因無法更新鎖，或者程序夯住了，之后它可能再恢復。而如果它在別人接替它后，原持有者再恢復運行，則會導致腦裂，為了防止這種情況發生，針對鎖持有者就設置了renewDeadline
如果鎖持有者如果無法在renewDeadline時間內完成鎖的更新，則要求鎖持有者強制釋放鎖，程序退出。
所以renewDeadline必須比leaseTimeout小