故障排除和調(diào)試Apache HBase

2018-10-09 15:03 更新

一般準(zhǔn)則

始終從主日志開始(TODO:哪些行?)。通常情況下,它只是一遍又一遍地打印相同的行。如果沒有,那就有問題了。Google或search-hadoop.com應(yīng)針對(duì)您所看到的異常返回一些匹配。

Apache HBase中很少出現(xiàn)錯(cuò)誤,通常當(dāng)某些東西搞砸了,接下來可能會(huì)有數(shù)百個(gè)異常和來自各地的堆棧跟蹤。解決這類問題的最佳方法是將日志提升到所有開始的地方,例如,使用RegionServers的一個(gè)技巧是他們將在中止時(shí)打印一些度量值,所以對(duì)Dump進(jìn)行g(shù)repping應(yīng)該可以讓您繞過問題的開始。

RegionServer自殺是“正常的”,因?yàn)檫@是他們?cè)诔霈F(xiàn)問題時(shí)所做的事情。例如,如果ulimit和max transfer threads(兩個(gè)最重要的初始設(shè)置 )沒有改變,那么在某些時(shí)候DataNodes無法創(chuàng)建新的線程,從HBase的角度來看是好像HDFS已經(jīng)消失了。想想如果您的MySQL數(shù)據(jù)庫突然無法訪問本地文件系統(tǒng)上的文件會(huì)發(fā)生什么,這與HBase和HDFS相同。看到RegionServers提交seppuku的另一個(gè)常見原因是當(dāng)它們輸入比默認(rèn)ZooKeeper會(huì)話超時(shí)持續(xù)時(shí)間更長的垃圾收集暫停時(shí)。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)