閱讀(38k) 書簽贊(3) 我要糾錯(cuò)

Hadoop Failover

2022-02-28 09:25 更新

失敗類型

ApplicationMaster定時(shí)發(fā)送心跳信號(hào)到ResourceManager，通常一旦ApplicationMaster失敗，則認(rèn)為失敗，但也可以通過配置多次后才失敗
一旦ApplicationMaster失敗，ResourceManager會(huì)啟動(dòng)一個(gè)新的ApplicationMaster
新的ApplicationMaster負(fù)責(zé)恢復(fù)之前錯(cuò)誤的ApplicationMaster的狀態(tài)(yarn.app.mapreduce.am.job.recovery.enable=true)，這一步是通過將應(yīng)用運(yùn)行狀態(tài)保存到共享的存儲(chǔ)上來實(shí)現(xiàn)的，ResourceManager不會(huì)負(fù)責(zé)任務(wù)狀態(tài)的保存和恢復(fù)
Client也會(huì)定時(shí)向ApplicationMaster查詢進(jìn)度和狀態(tài)，一旦發(fā)現(xiàn)其失敗，則向ResouceManager詢問新的ApplicationMaster

NodeManager定時(shí)發(fā)送心跳到ResourceManager，如果超過一段時(shí)間沒有收到心跳消息，ResourceManager就會(huì)將其移除
任何運(yùn)行在該NodeManager上的任務(wù)和ApplicationMaster都會(huì)在其他NodeManager上進(jìn)行恢復(fù)
如果某個(gè)NodeManager失敗的次數(shù)太多，ApplicationMaster會(huì)將其加入黑名單（ResourceManager沒有），任務(wù)調(diào)度時(shí)不在其上運(yùn)行任務(wù)

可以看出，一般的錯(cuò)誤處理都是由當(dāng)前模塊的父模塊進(jìn)行監(jiān)控（心跳）和恢復(fù)。而最頂端的模塊則通過定時(shí)保存、同步狀態(tài)和zookeeper來?實(shí)現(xiàn)HA

以上內(nèi)容是否對(duì)您有幫助：

寫筆記

我要補(bǔ)充