閱讀(32k) 書簽贊(0) 我要糾錯

（03）Redis集群技術(shù)及Codis實踐

2018-02-24 15:45 更新

原文出處：http://www.infoq.com/cn/articles/effective-ops-part-03
作者：蕭田國

前言

誠如開篇文章所言，高效運維包括管理的專業(yè)化和技術(shù)的專業(yè)化。前兩篇我們主要在說些管理相關(guān)的內(nèi)容，本篇說一下技術(shù)專業(yè)化。希望讀者朋友們能適應(yīng)這個轉(zhuǎn)換，謝謝。

互聯(lián)網(wǎng)早在幾年前就已進入Web 2.0時代，對后臺支撐能力的要求，提高了幾十倍甚至幾百倍。在這個演化過程中，緩存系統(tǒng)扮演了舉足輕重的角色。

運維進化到今天，已經(jīng)不是重復(fù)造輪子的時代。所以，我們在架構(gòu)優(yōu)化和自動化運維中，可以盡可能地選用優(yōu)秀的開源產(chǎn)品，而不是自己完全從頭再來（各種技術(shù)geek除外）。

本文主要討論Redis集群相關(guān)技術(shù)及新發(fā)展，關(guān)于Redis運維等內(nèi)容，以后另開主題討論。

本文重點推薦Codis——豌豆莢開源的Redis分布式中間件（該項目于4個月前在GitHub開源，目前star已超過2100）。其和Twemproxy相比，有諸多激動人心的新特性，并支持從Twemproxy無縫遷移至Codis。

本文主要目錄如下，對Redis比較了解的朋友，可跳過前兩部分，直接欣賞Codis相關(guān)內(nèi)容。

前言
1. Redis常見集群技術(shù)

好吧我們正式開始。

1. Redis常見集群技術(shù)

長期以來，Redis本身僅支持單實例，內(nèi)存一般最多10~20GB。這無法支撐大型線上業(yè)務(wù)系統(tǒng)的需求。而且也造成資源的利用率過低——畢竟現(xiàn)在服務(wù)器內(nèi)存動輒100~200GB。

為解決單機承載能力不足的問題，各大互聯(lián)網(wǎng)企業(yè)紛紛出手，“自助式”地實現(xiàn)了集群機制。在這些非官方集群解決方案中，物理上把數(shù)據(jù)“分片”（sharding）存儲在多個Redis實例，一般情況下，每一“片”是一個Redis實例。

包括官方近期推出的Redis Cluster，Redis集群有三種實現(xiàn)機制，分別介紹如下，希望對大家選型有所幫助。

1.1 客戶端分片

這種方案將分片工作放在業(yè)務(wù)程序端，程序代碼根據(jù)預(yù)先設(shè)置的路由規(guī)則，直接對多個Redis實例進行分布式訪問。這樣的好處是，不依賴于第三方分布式中間件，實現(xiàn)方法和代碼都自己掌控，可隨時調(diào)整，不用擔(dān)心踩到坑。

這實際上是一種靜態(tài)分片技術(shù)。Redis實例的增減，都得手工調(diào)整分片程序。基于此分片機制的開源產(chǎn)品，現(xiàn)在仍不多見。

這種分片機制的性能比代理式更好（少了一個中間分發(fā)環(huán)節(jié)）。但缺點是升級麻煩，對研發(fā)人員的個人依賴性強——需要有較強的程序開發(fā)能力做后盾。如果主力程序員離職，可能新的負責(zé)人，會選擇重寫一遍。

所以，這種方式下，可運維性較差。出現(xiàn)故障，定位和解決都得研發(fā)和運維配合著解決，故障時間變長。

這種方案，難以進行標(biāo)準(zhǔn)化運維，不太適合中小公司（除非有足夠的DevOPS）。

1.2 代理分片

這種方案，將分片工作交給專門的代理程序來做。代理程序接收到來自業(yè)務(wù)程序的數(shù)據(jù)請求，根據(jù)路由規(guī)則，將這些請求分發(fā)給正確的Redis實例并返回給業(yè)務(wù)程序。

這種機制下，一般會選用第三方代理程序（而不是自己研發(fā)），因為后端有多個Redis實例，所以這類程序又稱為分布式中間件。

這樣的好處是，業(yè)務(wù)程序不用關(guān)心后端Redis實例，運維起來也方便。雖然會因此帶來些性能損耗，但對于Redis這種內(nèi)存讀寫型應(yīng)用，相對而言是能容忍的。

這是我們推薦的集群實現(xiàn)方案。像基于該機制的開源產(chǎn)品Twemproxy，便是其中代表之一，應(yīng)用非常廣泛。

1.3 Redis Cluster

在這種機制下，沒有中心節(jié)點（和代理模式的重要不同之處）。所以，一切開心和不開心的事情，都將基于此而展開。

Redis Cluster將所有Key映射到16384個Slot中，集群中每個Redis實例負責(zé)一部分，業(yè)務(wù)程序通過集成的Redis Cluster客戶端進行操作?？蛻舳丝梢韵蛉我粚嵗l(fā)出請求，如果所需數(shù)據(jù)不在該實例中，則該實例引導(dǎo)客戶端自動去對應(yīng)實例讀寫數(shù)據(jù)。

Redis Cluster的成員管理（節(jié)點名稱、IP、端口、狀態(tài)、角色）等，都通過節(jié)點之間兩兩通訊，定期交換并更新。

由此可見，這是一種非?！爸亍钡姆桨?。已經(jīng)不是Redis單實例的“簡單、可依賴”了?？赡苓@也是延期多年之后，才近期發(fā)布的原因之一。

這令人想起一段歷史。因為Memcache不支持持久化，所以有人寫了一個Membase，后來改名叫Couchbase，說是支持Auto Rebalance，好幾年了，至今都沒多少家公司在使用。

這是個令人憂心忡忡的方案。為解決仲裁等集群管理的問題，Oracle RAC還會使用存儲設(shè)備的一塊空間。而Redis Cluster，是一種完全的去中心化……

本方案目前不推薦使用，從了解的情況來看，線上業(yè)務(wù)的實際應(yīng)用也并不多見。

2. Twemproxy及不足之處

Twemproxy是一種代理分片機制，由Twitter開源。Twemproxy作為代理，可接受來自多個程序的訪問，按照路由規(guī)則，轉(zhuǎn)發(fā)給后臺的各個Redis服務(wù)器，再原路返回。

這個方案順理成章地解決了單個Redis實例承載能力的問題。當(dāng)然，Twemproxy本身也是單點，需要用Keepalived做高可用方案。

我想很多人都應(yīng)該感謝Twemproxy，這么些年來，應(yīng)用范圍最廣、穩(wěn)定性最高、最久經(jīng)考驗的分布式中間件，應(yīng)該就是它了。只是，他還有諸多不方便之處。

Twemproxy最大的痛點在于，無法平滑地擴容/縮容。

這樣導(dǎo)致運維同學(xué)非常痛苦：業(yè)務(wù)量突增，需增加Redis服務(wù)器；業(yè)務(wù)量萎縮，需要減少Redis服務(wù)器。但對Twemproxy而言，基本上都很難操作（那是一種錐心的、糾結(jié)的痛……）。

或者說，Twemproxy更加像服務(wù)器端靜態(tài)sharding。有時為了規(guī)避業(yè)務(wù)量突增導(dǎo)致的擴容需求，甚至被迫新開一個基于Twemproxy的Redis集群。

Twemproxy另一個痛點是，運維不友好，甚至沒有控制面板。

Codis剛好擊中Twemproxy的這兩大痛點，并且提供諸多其他令人激賞的特性。

3. Codis實踐

Codis由豌豆莢于2014年11月開源，基于Go和C開發(fā)，是近期涌現(xiàn)的、國人開發(fā)的優(yōu)秀開源軟件之一?，F(xiàn)已廣泛用于豌豆莢的各種Redis業(yè)務(wù)場景（已得到豌豆莢@劉奇同學(xué)的確認，呵呵）。

從3個月的各種壓力測試來看，穩(wěn)定性符合高效運維的要求。性能更是改善很多，最初比Twemproxy慢20%；現(xiàn)在比Twemproxy快近100%（條件：多實例，一般Value長度）。

3.1 體系架構(gòu)

Codis引入了Group的概念，每個Group包括1個Redis Master及至少1個Redis Slave，這是和Twemproxy的區(qū)別之一。這樣做的好處是，如果當(dāng)前Master有問題，則運維人員可通過Dashboard“自助式”切換到Slave，而不需要小心翼翼地修改程序配置文件。

為支持?jǐn)?shù)據(jù)熱遷移（Auto Rebalance），出品方修改了Redis Server源碼，并稱之為Codis Server。

Codis采用預(yù)先分片（Pre-Sharding）機制，事先規(guī)定好了，分成1024個slots（也就是說，最多能支持后端1024個Codis Server），這些路由信息保存在ZooKeeper中。

ZooKeeper還維護Codis Server Group信息，并提供分布式鎖等服務(wù)。

3.2 性能對比測試

Codis目前仍被精益求精地改進中。其性能，從最初的比Twemproxy慢20%（雖然這對于內(nèi)存型應(yīng)用而言，并不明顯），到現(xiàn)在遠遠超過Twemproxy性能（一定條件下）。

我們進行了長達3個月的測試。測試基于redis-benchmark，分別針對Codis和Twemproxy，測試Value長度從16B~10MB時的性能和穩(wěn)定性，并進行多輪測試。

一共有4臺物理服務(wù)器參與測試，其中一臺分別部署codis和twemproxy，另外三臺分別部署codis server和redis server，以形成兩個集群。

從測試結(jié)果來看，就Set操作而言，在Value長度<888B時，Codis性能優(yōu)越優(yōu)于Twemproxy（這在一般業(yè)務(wù)的Value長度范圍之內(nèi)）。

就Get操作而言，Codis性能一直優(yōu)于Twemproxy。

以上內(nèi)容是否對您有幫助：

← （02）員工的四大誤區(qū)及解決之道

（04）運維 2.0：危機前的自我拯救 →

寫筆記

我要補充