了解HBase
HBase快速入門
1. 快速啟動HBase
Apache HBase配置
1. Apache HBase配置文件
2. HBase基礎(chǔ)條件
3. HBase運(yùn)行模式
4. 開始運(yùn)行HBase
5. HBase默認(rèn)配置
6. HBase配置示例
7. HBase重要配置
8. HBase動態(tài)配置
升級HBase
1. HBase版本號和兼容性
2. HBase回滾：版本恢復(fù)
3. HBase升級路徑
HBase Shell
1. 使用Apache HBase Shell
2. HBase shell 技巧
HBase數(shù)據(jù)模型
1. HBase概念視圖
2. HBase物理視圖
3. HBase命名空間
4. HBase表、行與列族
5. HBase數(shù)據(jù)模型操作
6. HBase版本
7. HBase排序順序、列元數(shù)據(jù)以及聯(lián)合查詢
HBase和Schema設(shè)計
1. HBase模式(Schema) 創(chuàng)建
2. HBase表格模式經(jīng)驗法則
Thumb的RegionServer大小規(guī)則
1. HBase列族數(shù)量
2. Rowkey（行鍵）設(shè)計
3. HBase版本數(shù)量
4. HBase支持的數(shù)據(jù)類型
5. HBase生存時間（TTL）
6. 保留已刪除的HBase單元格
7. HBase二級索引和備用查詢路徑
8. HBase限制因素
9. HBase模式（Schema）設(shè)計案例
10. HBase操作和性能配置選項
11. HBase特殊情況
HBase和MapReduce
1. HBase、MapReduce和CLASSPATH
2. MapReduce掃描緩存
3. 捆綁HBase MapReduce作業(yè)
4. HBase作為MapReduce作業(yè)數(shù)據(jù)源和數(shù)據(jù)接收器
5. 在批量導(dǎo)入時直接寫入HFiles
6. RowCounter示例
7. Map-Task分割
8. HBase MapReduce示例
Apache HBase安全
1. 為Web UI使用安全HTTP（HTTPS）
2. 將SPNEGO用于Web UI的Kerberos身份驗證
3. 客戶端安全訪問Apache HBase
4. 用戶訪問Apache HBase的簡單方法
5. 安全訪問HDFS和ZooKeeper
6. HBase數(shù)據(jù)安全
7. HBase安全配置示例
HBase架構(gòu)
1. HBase架構(gòu)概述
2. HBase目錄表
3. HBase客戶端
4. HBase客戶端請求過濾器
5. HBase架構(gòu)：Master
HBase架構(gòu)：RegionServer
1. RegionServer接口、進(jìn)程與協(xié)處理器
2. HBase塊緩存
3. RegionServer Offheap讀/寫路徑
4. RegionServer拆分實現(xiàn)
HBase使用Write Ahead Log（WAL）
1. HBase使用WAL的目的
2. HBase：WAL供應(yīng)方
3. HBase：MultiWAL支持
4. HBase：WAL拆分
5. HBase：WAL壓縮
6. WAL耐久性
7. HBase：禁用WAL
HBase區(qū)域
1. HBase區(qū)域數(shù)量
2. HBase區(qū)域服務(wù)器分配
3. HBase區(qū)域服務(wù)器位置
4. HBase區(qū)域拆分
5. HBase自定義拆分策略
6. HBase手動拆分區(qū)域
7. HBase在線區(qū)域合并
Store
1. MEMSTORE
2. Scans
3. HBase使用StoreFile（HFile）
4. 塊和KeyValue
HBase批量加載
1. HBase批量加載架構(gòu)
2. HDFS
HBase：Timeline-consistent高可用讀取
1. HBase時間軸一致性（Timeline Consistency）
2. HBase時間軸一致性的權(quán)衡取舍
3. HBase時間軸一致性：將寫入傳播到區(qū)域副本
4. HBase時間軸一致性：存儲文件TTL
5. HBase時間軸一致性：META表區(qū)域的區(qū)域復(fù)制
6. HBase時間軸一致性：內(nèi)存報告
7. HBase時間軸一致性：輔助副本故障切換
8. HBase時間軸一致性：配置屬性
9. HBase時間軸一致性：創(chuàng)建具有區(qū)域復(fù)制的表
10. HBase時間軸一致性：讀取API和用法
HBase：存儲中型對象（MOB）
1. HBase：為MOB配置列
2. HBase：配置MOB壓縮策略
3. HBase：配置MOB壓縮可合并閾值
4. HBase：測試MOB
5. HBase：配置MOB緩存
HBase：MOB優(yōu)化任務(wù)
HBase內(nèi)存壓縮
啟用HBase內(nèi)存壓縮
HBase備份與還原
1. HBase備份與還原策略
2. HBase備份與還原的首次配置
3. HBase備份和還原命令
4. HBase備份圖像管理
HBase同步復(fù)制
Apache HBase API
Apache HBase外部API
1. HBase：REST服務(wù)器
2. 將Java數(shù)據(jù)對象（JDO）與HBase一起使用
3. HBase與Scala一起使用
4. HBase與Jython一起使用
HBase：Thrift API和過濾器語言
1. HBase：常規(guī)過濾字符串語法
2. HBase：復(fù)合過濾器和運(yùn)算符
3. HBase：過濾器計算順序
4. HBase：過濾器比較運(yùn)算符
5. HBase比較器
6. HBase過濾器語言示例
7. HBase單個過濾器語法
HBase和Spark
1. HBase：基本Spark
2. Spark Streaming
3. 使用Spark將數(shù)據(jù)批量加載到HBase
4. SparkSQL / DataFrames
Apache HBase協(xié)處理器
1. Apache HBase協(xié)處理器概述
2. Apache HBase協(xié)處理器的類型
3. Apache HBase加載協(xié)處理器
4. HBase觀察者協(xié)處理器示例
5. HBase部署協(xié)處理器的準(zhǔn)則
6. HBase限制協(xié)處理器的使用
Apache HBase性能調(diào)整
1. HBase性能調(diào)整：操作系統(tǒng)
2. HBase性能調(diào)整：網(wǎng)絡(luò)
3. HBase性能調(diào)整：Java GC
4. HBase性能調(diào)整：配置
5. HBase性能調(diào)整：架構(gòu)設(shè)計
6. HBase性能調(diào)整：一般模式
7. HBase相關(guān)內(nèi)容
8. 從HBase讀取
9. 從HBase刪除
10. HDFS的工作方式
11. Amazon EC2
12. 配置HBase和MapReduce
故障排除和調(diào)試Apache HBase
1. 故障排除和調(diào)試HBase：日志
2. 故障排除和調(diào)試HBase：資源
3. 故障排除和調(diào)試HBase：工具
  1. 內(nèi)置工具
  2. 外部工具
4. 故障排除和調(diào)試HBase：客戶端
5. 故障排除和調(diào)試HBase：MapReduce
6. 故障排除和調(diào)試HBase：NameNode
7. 故障排除和調(diào)試HBase：網(wǎng)絡(luò)
8. 故障排除和調(diào)試HBase：RegionServer
9. 故障排除和調(diào)試HBase：Master
10. 故障排除和調(diào)試HBase：ZooKeeper
11. 故障排除和調(diào)試HBase：Amazon EC2
12. 故障排除和調(diào)試HBase：HBase和Hadoop版本問題
13. 故障排除和調(diào)試HBase：HBase和HDFS

閱讀(5.2k) 書簽贊(1) 我要糾錯

從HBase讀取

2018-09-27 15:31 更新

從HBase讀取

如果您遇到性能問題，郵件列表可以提供幫助。例如，這里有一個關(guān)于解決讀取時間問題的一個很好的通用線程：HBase隨機(jī)讀取延遲> 100ms

掃描緩存

例如，如果將HBase用作MapReduce作業(yè)的輸入源，請確保MapReduce作業(yè)的輸入掃描實例已經(jīng)將setCaching設(shè)置為大于默認(rèn)值（即1）的值。使用默認(rèn)值意味著map-task將為處理的每個記錄回調(diào)region-server。例如，將此值設(shè)置為500將一次傳輸500行到要處理的客戶端。緩存值很大是有成本/收益的，因為客戶端和RegionServer的內(nèi)存成本更高，因此更大并不總是更好。

在MapReduce作業(yè)中掃描緩存

MapReduce作業(yè)中的掃描設(shè)置值得特別注意。如果在客戶端返回到RegionServer以獲取下一組數(shù)據(jù)之前處理一批記錄需要更長時間，則可能會在Map任務(wù)中導(dǎo)致超時（例如，UnknownScannerException）。發(fā)生此問題的原因是每行發(fā)生重要的處理。如果快速處理行，請將緩存設(shè)置得更高。如果您更慢地處理行（例如，每行進(jìn)行大量轉(zhuǎn)換，寫入），則將緩存設(shè)置為更低。

超時也可能發(fā)生在非MapReduce用例中（即，執(zhí)行掃描的單線程HBase客戶端），但通常在MapReduce作業(yè)中執(zhí)行的處理往往會加劇此問題。

掃描屬性選擇

每當(dāng)使用掃描處理大量行（特別是用作MapReduce源）時，請注意選擇了哪些屬性。如果scan.addFamily調(diào)用，則指定ColumnFamily中的所有屬性將返回給客戶端。如果只處理少量可用屬性，則只應(yīng)在輸入掃描中指定那些屬性，因為屬性過度選擇對大型數(shù)據(jù)集而言是一個非常重要的性能損失。

避免掃描查找

當(dāng)使用scan.addColumn明確選擇列時，HBase將調(diào)度查找操作以在所選列之間進(jìn)行查找。當(dāng)行包含少量列且每列只有幾個版本時，這可能是效率低下。如果不查找至少超過5-10個列/版本或512-1024字節(jié)，則查找操作通常會比較慢。

為了機(jī)會性地向前看幾列/版本以查看在調(diào)度查找操作之前是否可以找到下一列/版本，可以在Scan對象上設(shè)置新屬性Scan.HINT_LOOKAHEAD。以下代碼指示RegionServer在調(diào)度查找之前嘗試以下兩次迭代：

Scan scan = new Scan();
scan.addColumn(...);
scan.setAttribute(Scan.HINT_LOOKAHEAD, Bytes.toBytes(2));
table.getScanner(scan);

關(guān)閉ResultScanners

這不僅僅是提高性能，而是避免性能問題。如果忘記關(guān)閉ResultScanners，可能會導(dǎo)致RegionServers出現(xiàn)問題。始終將ResultScanner處理包含在try/catch塊中。

Scan scan = new Scan();
// set attrs...
ResultScanner rs = table.getScanner(scan);
try {
  for (Result r = rs.next(); r != null; r = rs.next()) {
  // process result...
} finally {
  rs.close();  // always close the ResultScanner!
}
table.close();

塊緩存

可以通過該setCacheBlocks方法將掃描實例設(shè)置為使用RegionServer中的塊緩存。對于輸入掃描到MapReduce作業(yè)，這應(yīng)該是false。對于頻繁訪問的行，建議使用塊緩存。

通過在堆外移動塊緩存來緩存更多數(shù)據(jù)。請參閱堆外塊緩存。

行鍵的最佳加載

執(zhí)行只需要行鍵的表掃描（沒有族，限定符，值或時間戳）時，請使用setFilter向掃描儀添加帶有MUST_PASS_ALL運(yùn)算符的FilterList。篩選器列表應(yīng)包括FirstKeyOnlyFilter和KeyOnlyFilter。使用此篩選器組合將導(dǎo)致最壞的情況，即RegionServer從磁盤讀取單個值，并為單個行將最小的網(wǎng)絡(luò)流量發(fā)送到客戶端。

并發(fā)：監(jiān)控數(shù)據(jù)傳播

執(zhí)行大量并發(fā)讀取時，監(jiān)視目標(biāo)表的數(shù)據(jù)傳播。如果目標(biāo)表具有的區(qū)域太少，則可能從太少的節(jié)點(diǎn)提供讀取。

請參閱表創(chuàng)建：預(yù)創(chuàng)建區(qū)域以及HBase配置

Bloom過濾器

啟用Bloom過濾器可以節(jié)省您的磁盤空間，并有助于改善讀取延遲。

Bloom過濾器是在HBase-1200 Add bloomfilters中開發(fā)的。這里描述的Bloom過濾器實際上是HBase中的第二版。在0.19.x版本中，HBase根據(jù)歐盟委員會一個實驗室項目034819所做的工作提供了動態(tài)bloom選項。HBase bloom工作的核心后來被引入Hadoop以實現(xiàn)org.apache.hadoop.io.BloomMapFile。

Bloom StoreFile足跡

Bloom過濾器向StoreFile常規(guī)FileInfo數(shù)據(jù)結(jié)構(gòu)添加項，然后向StoreFile元數(shù)據(jù)部分添加兩個額外項。

BloomFilter在StoreFile``FileInfo數(shù)據(jù)結(jié)構(gòu)中：

FileInfo有一個BLOOM_FILTER_TYPE條目，它設(shè)置為NONE，ROW或ROWCOL.

StoreFile元數(shù)據(jù)中的BloomFilter條目：

BLOOM_FILTER_META保持Bloom Size，使用Hash函數(shù)等。它的大小很小，并且在StoreFile.Reader加載時緩存。

BLOOM_FILTER_DATA是實際的bloomfilter數(shù)據(jù)，按需獲得。如果已啟用（默認(rèn)情況下已啟用），存儲在LRU緩存中。

Bloom過濾器配置

io.storefile.bloom.enabled 全局關(guān)閉開關(guān)：

io.storefile.bloom.enabled在Configuration用作關(guān)閉l開關(guān)，防止出現(xiàn)問題；Default= true。

io.storefile.bloom.error.rate：

io.storefile.bloom.error.rate=平均誤報率。Default= 1％。

io.storefile.bloom.max.fold：

io.storefile.bloom.max.fold=保證最低折疊率，大多數(shù)人都不應(yīng)該管它。Default= 7，或者至少可以折疊到原始大小的1/128。=

Hedged讀取

Hedged讀取是HDFS的一項功能，在Hadoop 2.4.0中引入了HDFS-5776。通常，為每個讀取請求生成一個線程。但是，如果啟用了Hedged讀取，則客戶端會等待一段可配置的時間，如果讀取未返回，則客戶端會針對相同數(shù)據(jù)的不同塊副本生成第二個讀取請求。使用先返回的一個，并丟棄另一個讀取請求。

在啟用Hedged讀取的情況下運(yùn)行時要記住的其他問題包括：

它們可能導(dǎo)致網(wǎng)絡(luò)擁塞。見HBASE-17083
確保將線程池設(shè)置得足夠大，以便池上的阻塞不會成為瓶頸（再次參見HBASE-17083）

由于HBase RegionServer是HDFS客戶端，因此您可以在HBase中啟用Hedged讀取，方法是將以下屬性添加到R??egionServer的hbase-site.xml并調(diào)整值以適合您的環(huán)境。

Hedged讀取的配置

dfs.client.hedged.read.threadpool.size - 專用于服務(wù)Hedged讀取的線程數(shù)。如果將其設(shè)置為0（默認(rèn)值），則禁用Hedged讀取。
dfs.client.hedged.read.threshold.millis - 產(chǎn)生第二個讀取線程之前等待的毫秒數(shù)。

Hedged讀取配置示例：

<property>
  <name>dfs.client.hedged.read.threadpool.size</name>
  <value>20</value>  <!-- 20 threads -->
</property>
<property>
  <name>dfs.client.hedged.read.threshold.millis</name>
  <value>10</value>  <!-- 10 milliseconds -->
</property>

使用以下指標(biāo)調(diào)整群集上Hedged讀取的設(shè)置。

Hedged讀取的指標(biāo)：

hedgedReadOps - 已觸發(fā)Hedged讀取線程的次數(shù)。這可能表明讀取請求通常很慢，或者Hedged讀取的觸發(fā)太快。
hedgeReadOpsWin - Hedged讀取線程比原始線程快的次數(shù)。這可能表示給定的RegionServer在處理請求時遇到問題。

以上內(nèi)容是否對您有幫助：

← HBase相關(guān)內(nèi)容

從HBase刪除 →

寫筆記

我要補(bǔ)充