閱讀(8.4k) 書簽贊(0) 我要糾錯(cuò)

HBase模式案例：客戶/訂單

2018-03-26 13:39 更新

HBase案例：客戶/訂單

假設(shè) HBase 用于存儲(chǔ)客戶和訂單信息。有兩種核心記錄類型被攝?。嚎蛻粲涗涱愋秃陀唵斡涗涱愋?。

客戶記錄類型將包含您通常期望的所有內(nèi)容：

客戶編號(hào)
客戶名稱
地址（例如，城市，州，郵編）
電話號(hào)碼等

訂單記錄類型將包含如下內(nèi)容：

客戶編號(hào)
訂單編號(hào)
銷售日期
一系列用于裝運(yùn)位置和訂單項(xiàng)的嵌套對(duì)象

假設(shè)客戶編號(hào)和銷售訂單的組合唯一地標(biāo)識(shí)一個(gè)訂單，對(duì)于一個(gè)訂單（ORDER）表，這兩個(gè)屬性將組成 rowkey，特別是一個(gè)組合鍵，例如：

[customer number][order number]

但是，還有更多的設(shè)計(jì)決策需要：原始值是 rowkeys 的最佳選擇嗎？

Log Data 用例中的相同設(shè)計(jì)問題在這里面對(duì)我們?？蛻艟幪?hào)的密鑰空間是什么，以及格式是什么（例如，數(shù)字或是字母數(shù)字？）由于在HBase中使用固定長(zhǎng)度的密鑰以及可以在密鑰空間中支持合理分布的密鑰是有利的，因此會(huì)出現(xiàn)類似的選項(xiàng)：

帶有哈希的復(fù)合 Rowkey：

[客戶號(hào)碼的 MD5] = 16字節(jié)
[訂單號(hào)的 MD5] = 16字節(jié)

復(fù)合數(shù)字/哈希組合 Rowkey：

[代替客戶編號(hào)] = 8個(gè)字節(jié)
[訂單號(hào)的 MD5] = 16字節(jié)

單個(gè)表/多個(gè)表

傳統(tǒng)的設(shè)計(jì)方法會(huì)為有單獨(dú)的 CUSTOMER 和 SALES 表格。另一種選擇是將多個(gè)記錄類型打包到一個(gè)表中（例如，CUSTOMER ++）。

客戶記錄類型 Rowkey：

[customer-id]
[type] = 表示客戶記錄類型為'1'的類型

訂單記錄類型Rowkey：

[customer-id]
[type] = 指示訂單記錄類型為'2'的類型
[order]

這種特殊的 CUSTOMER ++ 方法的優(yōu)點(diǎn)是通過客戶 ID 來(lái)組織許多不同的記錄類型（例如，一次掃描就可以得到關(guān)于該客戶的所有信息）。缺點(diǎn)是掃描特定的記錄類型并不容易。

HBase訂單對(duì)象設(shè)計(jì)

現(xiàn)在我們需要解決如何建模 Order 對(duì)象。假設(shè)類結(jié)構(gòu)如下：

Order: Order 可以有多個(gè) ShippingLocations
LineItem: 一個(gè) ShippingLocation 可以有多個(gè) LineItems

存儲(chǔ)這些數(shù)據(jù)有多種選擇。

完全標(biāo)準(zhǔn)化

通過這種方法，ORDER，SHIPPING_LOCATION和LINE_ITEM 將會(huì)有單獨(dú)的表格。

上面描述了 ORDER 表的 rowkey：schema.casestudies.custorder

SHIPPING_LOCATION 的復(fù)合 rowkey 就像這樣：

[order-rowkey]
[shipping location number] （例如，第一地點(diǎn)，第二地點(diǎn)等）

LINE_ITEM 表的復(fù)合 rowkey 將如下所示：

[order-rowkey]
[shipping location number] （例如，第一地點(diǎn)，第二地點(diǎn)等）
[line item number] （例如，第一條線，第二條等）

這樣的標(biāo)準(zhǔn)化模型很可能是 RDBMS 的方法，但這不是 HBase 唯一的選擇。這種做法的缺點(diǎn)是要檢索任何訂單的信息，您需要：

獲取訂單的訂單表
在 SHIPPING_LOCATION 表上掃描該訂單以獲取 ShippingLocation 實(shí)例
掃描每個(gè) ShippingLocation 的 LINE_ITEM

這是一個(gè) RDBMS 無(wú)論如何都會(huì)在封面下做的事情，但由于 HBase 中沒有加入，所以您只是更加意識(shí)到這一點(diǎn)。

具有記錄類型的單個(gè)表

采用這種方法，將會(huì)存在一個(gè)包含單個(gè)表的ORDER

Order rowkey 如上所述：schema.casestudies.custorder

[order-rowkey]
[ORDER record type]

ShippingLocation 復(fù)合 rowkey 將如下所示：

[order-rowkey]
[SHIPPING record type]
[shipping location number] （例如，第一地點(diǎn)，第二地點(diǎn)等）

LineItem 復(fù)合 rowkey 將如下所示：

[order-rowkey]
[LINE record type]
[shipping location number] （例如，第一地點(diǎn)，第二地點(diǎn)等）
[line item number] （例如，第一條線，第二條等）

非規(guī)范化

具有記錄類型的單個(gè)表格的一種變體是對(duì)一些對(duì)象層次結(jié)構(gòu)進(jìn)行非規(guī)范化和扁平化，比如將 ShippingLocation 屬性折疊到每個(gè) LineItem 實(shí)例上。

LineItem 復(fù)合 rowkey 將如下所示：

[order-rowkey]
[LINE record type]
[line item number] （例如，第一條線，第二條等，必須注意的是，在整個(gè)訂單中都是唯一的）

LineItem 列將是這樣的：

項(xiàng)目編號(hào)（itemNumber）
數(shù)量（quantity）
價(jià)錢（price）
shipToLine1（從 ShippingLocation 非正規(guī)化）
shipToLine2（從 ShippingLocation 非正規(guī)化）
shipToCity（從 ShippingLocation 非正規(guī)化）
shipToState（從 ShippingLocation 非正規(guī)化）
shipToZip（從 ShippingLocation 非正規(guī)化）

這種方法的優(yōu)點(diǎn)包括不太復(fù)雜的對(duì)象層次結(jié)構(gòu)，但其中一個(gè)缺點(diǎn)是，如果這些信息發(fā)生變化，更新會(huì)變得更加復(fù)雜。

BLOB對(duì)象

通過這種方法，整個(gè) Order 對(duì)象圖都以某種方式處理為 BLOB。例如，上面描述了 ORDER 表的 rowkey：schema.casestudies.custorder，而一個(gè)名為“order”的列將包含一個(gè)可以反序列化的對(duì)象，該對(duì)象包含一個(gè)容器 Order，ShippingLocations 和 LineItems。

這里有很多選項(xiàng)：JSON，XML，Java 序列化，Avro，Hadoop Writable等等。所有這些都是相同方法的變體：將對(duì)象圖編碼為字節(jié)數(shù)組。應(yīng)該注意這種方法，以確保在對(duì)象模型發(fā)生更改時(shí)保持向后兼容性，使舊的持久結(jié)構(gòu)仍能從 HBase 中讀出。

優(yōu)點(diǎn)是能夠以最少的 I/O 來(lái)管理復(fù)雜的對(duì)象圖（例如，在本例中每個(gè) HBase Get 有 Order），但缺點(diǎn)包括前面提到的關(guān)于序列化的向后兼容性，序列化的語(yǔ)言依賴性（例如 Java 序列化只適用于 Java 客戶端），事實(shí)上你必須反序列化整個(gè)對(duì)象才能獲得 BLOB 中的任何信息，以及像 Hive 這樣的框架難以使用像這樣的自定義對(duì)象。

以上內(nèi)容是否對(duì)您有幫助：

← HBase模式案例：Steroids上的日志數(shù)據(jù)/時(shí)間序列上

HBase模式案例：“高/寬/中”架構(gòu)設(shè)計(jì)Smackdown →

寫筆記

我要補(bǔ)充