在沒有聯(lián)網(wǎng)的情況下運行Samza

2018-08-21 18:39 更新

本教程將幫助您運行 Hello Samza,如果您無法連接到互聯(lián)網(wǎng)。

測試您的連接

Ping irc.wikimedia.org,有時公司的防火墻會阻止這項服務(wù)。

telnet irc.wikimedia.org 6667

你應(yīng)該看到這樣的東西:

Trying 208.80.152.178...
Connected to ekrem.wikimedia.org.
Escape character is '^]'.
NOTICE AUTH :*** Processing connection to irc.pmtpa.wikimedia.org
NOTICE AUTH :*** Looking up your hostname...
NOTICE AUTH :*** Checking Ident
NOTICE AUTH :*** Found your hostname

否則,您可能有連接問題。

使用本地數(shù)據(jù)運行 Hello Samza

我們提供了一個選擇, 以獲取維基百科提供的數(shù)據(jù),而不是運行:

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

你會運行:

bin/produce-wikipedia-raw-data.sh

該腳本將從本地文件讀取維基百科提供的數(shù)據(jù),并將其產(chǎn)生到 Kafka 代理。默認(rèn)情況下,它生成本地主機:9092作為 Kafka 代理,并使用 localhost:2181 作為 zookeeper。您可以覆蓋它們:

bin/produce-wikipedia-raw-data.sh -b yourKafkaBrokerAddress -z yourZookeeperAddress

現(xiàn)在您可以回到 Hello Samza中的 Generate Wikipedia Statistics 部分,并按照剩余的步驟進(jìn)行。

一點解釋

下述代碼的目標(biāo):

deploy/samza/bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia-feed.properties

要部署一個聽 Wi-Fi API 的 Samza 工作,可以實時獲取 Feed,并生成 Kafka 主題維基百科的源文件。本教程中的替代方法是在無限循環(huán)中閱讀本地維基百科 Feed,并將數(shù)據(jù)生成給 Kafka維基百科。后續(xù)工作,維基百科解析器正在從 Kafka 主題維基百科原始獲取數(shù)據(jù),所以只要我們在 Kafka 主題維基百科原始中有正確的數(shù)據(jù),就可以。所有 Samza 的工作由 Kafka 連接,不依賴于彼此。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號