閱讀(2.8k) 書簽贊(0) 我要糾錯(cuò)

介紹SamzaContainer

2018-08-22 17:22 更新

SamzaContainer 負(fù)責(zé)管理一個(gè)或多個(gè) StreamTask 實(shí)例的啟動(dòng)，執(zhí)行和關(guān)閉。每個(gè) SamzaContainer 通常作為一個(gè)獨(dú)立的 Java 虛擬機(jī)運(yùn)行。Samza 工作可以由幾個(gè)可能運(yùn)行在不同機(jī)器上的 SamzaContainers 組成。

當(dāng) SamzaContainer 啟動(dòng)時(shí)，它執(zhí)行以下操作：

獲取消耗的每個(gè)輸入流分區(qū)的上次檢查點(diǎn)偏移量
為其消耗的每個(gè)輸入流分區(qū)創(chuàng)建一個(gè)“閱??讀器”線程
開始指標(biāo)報(bào)告員報(bào)告指標(biāo)
啟動(dòng)一個(gè)檢查點(diǎn)計(jì)時(shí)器，以便每隔一段時(shí)間保存任務(wù)的輸入流偏移量
啟動(dòng)窗口計(jì)時(shí)器以觸發(fā)您的任務(wù)窗口方法（如果已定義）
為每個(gè)輸入流分區(qū)實(shí)例化并初始化一次StreamTask
啟動(dòng)一個(gè)事件循環(huán)，從輸入流讀取器線程接收消息，并將它們提供給您的StreamTasks
在每個(gè)步驟中通知生命周期偵聽器

我們從中間開始，通過 StreamTask 的實(shí)例化。本文檔的以下部分涵蓋了其他步驟。

任務(wù)和分區(qū)

當(dāng)容器啟動(dòng)時(shí)，它會(huì)創(chuàng)建您編寫的任務(wù)類的實(shí)例。如果任務(wù)類實(shí)現(xiàn)了InitableTask接口，SamzaContainer 也將調(diào)用 init（）方法。

/** Implement this if you want a callback when your task starts up. */
public interface InitableTask {
  void init(Config config, TaskContext context);
}

默認(rèn)情況下，創(chuàng)建任務(wù)類的實(shí)例數(shù)取決于作業(yè)輸入流中的分區(qū)數(shù)。如果您的 Samza 作業(yè)有十個(gè)分區(qū)，您的任務(wù)類將有十個(gè)實(shí)例：每個(gè)分區(qū)一個(gè)。第一個(gè)任務(wù)實(shí)例將接收所有分區(qū)的消息，第二個(gè)實(shí)例將接收分區(qū)二的所有消息，依此類推。

1502850330231923

輸入流中的分區(qū)數(shù)由您所消費(fèi)的系統(tǒng)決定。例如，如果您的輸入系統(tǒng)是 Kafka，則可以在命令行中創(chuàng)建主題或在 Kafka 的服務(wù)器屬性文件中使用 num.partition 指定分區(qū)數(shù)。

如果 Samza 作業(yè)有多個(gè)輸入流，則 Samza 作業(yè)的任務(wù)實(shí)例數(shù)是所有輸入流中最大分區(qū)數(shù)。例如，如果 Samza 作業(yè)正在從 PageViewEvent（12個(gè)分區(qū)）和 ServiceMetricEvent（14個(gè)分區(qū)）讀取，則 Samza 作業(yè)將具有14個(gè)任務(wù)實(shí)例（編號(hào)為0到13）。任務(wù)實(shí)例12和13只接收來自 ServiceMetricEvent 的事件，因?yàn)闆]有相應(yīng)的 PageViewEvent 分區(qū)。

使用這種將輸入流分配給任務(wù)實(shí)例的默認(rèn)方法，Samza 正在以其分區(qū)作為鍵對(duì)輸入流上的分組操作進(jìn)行有效的執(zhí)行。通過實(shí)施新的SystemStreamPartitionGrouper和工廠以及配置作業(yè)以通過 job.systemstreampartition.grouper.factory 配置值使用它來實(shí)現(xiàn)對(duì)輸入流分區(qū)進(jìn)行分組的其他策略。

Samza 提供了上述討論的每個(gè)分區(qū)分片器以及 GroupBySystemStreamPartitionGrouper，它為每個(gè)輸入流分區(qū)提供一個(gè)單獨(dú)的任務(wù)類實(shí)例，有效地通過輸入流本身進(jìn)行分組。這提供了可以使用多少個(gè)容器來處理這些輸入流的最大可擴(kuò)展性，并且適用于不需要輸入流分組的非常高容量的作業(yè)。

考慮到上述 PageViewEvent 分區(qū)12路和 ServiceMetricEvent 分區(qū)方式的示例，GroupBySystemStreamPartitionGrouper 將創(chuàng)建12 + 14 = 26個(gè)任務(wù)實(shí)例，然后將分布在配置的容器數(shù)量上，如下所述。

請(qǐng)注意，一旦使用特定的 SystemStreamPartitionGrouper 啟動(dòng)作業(yè)，該作業(yè)正在使用狀態(tài)或檢查點(diǎn)，則不可能在后續(xù)作業(yè)啟動(dòng)時(shí)更改該分組，因?yàn)樵谛碌姆纸M方法中以前的檢查點(diǎn)和狀態(tài)信息可能不正確。

容器和資源分配

雖然任務(wù)實(shí)例的數(shù)量是固定的 - 由輸入分區(qū)的數(shù)量確定 - 您可以配置要用于作業(yè)的容器數(shù)量。如果使用YARN，容器數(shù)決定了哪些CPU和內(nèi)存資源分配給您的作業(yè)。

如果輸入流上的數(shù)據(jù)量很小，那么只能使用一個(gè) SamzaContainer 就足夠了。在這種情況下，Samza 仍會(huì)為每個(gè)輸入分區(qū)創(chuàng)建一個(gè)任務(wù)實(shí)例，但所有這些任務(wù)都在同一容器中運(yùn)行。另一方面，您可以創(chuàng)建與分區(qū)一樣多的容器，Samza 將為每個(gè)容器分配一個(gè)任務(wù)實(shí)例。

每個(gè) SamzaContainer 設(shè)計(jì)為使用一個(gè)CPU內(nèi)核，因此它使用單線程事件循環(huán)執(zhí)行。在 SamzaContainer 中創(chuàng)建自己的線程是不可取的。如果需要更多的并行性，請(qǐng)將您的工作配置為使用更多的容器。

您的作業(yè)中的任何狀態(tài)都屬于任務(wù)實(shí)例，而不是容器。這是 Samza 可擴(kuò)展性的關(guān)鍵設(shè)計(jì)決策：隨著您的工作資源需求的增長(zhǎng)和縮小，您可以簡(jiǎn)單地增加或減少容器數(shù)量，但是任務(wù)實(shí)例的數(shù)量保持不變。當(dāng)您向上或向下擴(kuò)展時(shí)，每個(gè)任務(wù)實(shí)例仍然保持相同的狀態(tài)。任務(wù)實(shí)例可能從一個(gè)容器移動(dòng)到另一個(gè)容器，并且由 Samza 管理的任何持久狀態(tài)將隨之移動(dòng)。這樣就可以使作業(yè)的處理語(yǔ)義保持不變，即使您更改了作業(yè)的并行性。

加入多個(gè)輸入流

如果您的工作有多個(gè)輸入流，Samza 提供了一個(gè)簡(jiǎn)單而強(qiáng)大的機(jī)制來加入來自不同流的數(shù)據(jù)：每個(gè)任務(wù)實(shí)例都從每個(gè)輸入流的一個(gè)分區(qū)接收消息。例如，假設(shè)您有兩個(gè)輸入流A和B，每個(gè)具有四個(gè)分區(qū)。Samza 創(chuàng)建四個(gè)任務(wù)實(shí)例來處理它們，并按如下所示分配分區(qū)：

任務(wù)實(shí)例	消耗流分區(qū)
0	流A分區(qū)0，流B分區(qū)0
1	流A分區(qū)1，流B分區(qū)1
2	流A分區(qū)2，流B分區(qū)2
3	流A分區(qū)3，流B分區(qū)3

因此，如果您希望不同流中的兩個(gè)事件由同一個(gè)任務(wù)實(shí)例處理，則需要確保將其發(fā)送到相同的分區(qū)號(hào)。您可以通過在發(fā)送消息時(shí)使用相同的分區(qū)鍵來實(shí)現(xiàn)此目的。狀態(tài)管理部分詳細(xì)討論了連接流。

所有這一切都有一個(gè)警告：Samza 目前假設(shè)一個(gè)流的分區(qū)計(jì)數(shù)永遠(yuǎn)不會(huì)改變。不支持分區(qū)拆分或重新分區(qū)。如果輸入流具有 N 個(gè)分區(qū)，則預(yù)計(jì)它始終具有并且將始終具有N個(gè)分區(qū)。如果要重新分區(qū)流，則可以編寫從流中讀取消息的作業(yè)，并將其寫入具有所需數(shù)量分區(qū)的新流。例如，您可以從 PageViewEvent 讀取消息，并將它們寫入 PageViewEventRepartition。

廣播流

0.10.0之后，Samza 支持廣播流。您可以通過附加哈希標(biāo)記以及分區(qū)號(hào)或分區(qū)號(hào)范圍來將某些流中的分區(qū)分配給所有任務(wù)。例如，您希望所有任務(wù)可以從稱為廣播流-1的流中消耗分區(qū)0和1，并從稱為廣播流-2的流中分配2。您現(xiàn)在可以配置：

task.broadcast.inputs=yourSystem.broadcast-stream-1#[0-1], yourSystem.broadcast-stream-2#2

如果使用 “[]”，則指定分區(qū)的范圍。

流 ?

以上內(nèi)容是否對(duì)您有幫助：

← Samza API概述

Samza 流 →

寫筆記

我要補(bǔ)充