Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計開發(fā)的。它運行在商用硬件上。與其他分布式系統(tǒng)不同,HDFS是高度容錯的,并且使用低成本硬件設(shè)計。
HDFS擁有大量的數(shù)據(jù)并提供更容易的訪問。為了存儲這樣巨大的數(shù)據(jù),文件存儲在多個機器。這些文件以冗余方式存儲,以在發(fā)生故障時避免系統(tǒng)可能的數(shù)據(jù)丟失。 HDFS還使應(yīng)用程序可用于并行處理。
下面給出了Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。
HDFS遵循主從架構(gòu),并具有以下元素。
namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商用硬件。它是一個可以在商用硬件上運行的軟件。具有namenode的系統(tǒng)充當主服務(wù)器,它執(zhí)行以下任務(wù):
datanode是具有GNU / Linux操作系統(tǒng)和datanode軟件的商用硬件。對于集群中的每個節(jié)點(商品硬件/系統(tǒng)),都會有一個datanode。這些節(jié)點管理其系統(tǒng)的數(shù)據(jù)存儲。
一般用戶數(shù)據(jù)存儲在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個或多個段和/或存儲在各個數(shù)據(jù)節(jié)點中。這些文件段稱為塊。換句話說,HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認塊大小為64MB,但可以根據(jù)需要更改HDFS配置來增加。
故障檢測和恢復(fù) :由于HDFS包括大量的商品硬件,組件的故障頻繁。因此,HDFS應(yīng)該具有快速和自動故障檢測和恢復(fù)的機制。
巨大的數(shù)據(jù)集 :HDFS應(yīng)該每個集群有數(shù)百個節(jié)點來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。
硬件數(shù)據(jù) :當在數(shù)據(jù)附近進行計算時,可以有效地完成所請求的任務(wù)。特別是在涉及巨大數(shù)據(jù)集的情況下,它減少了網(wǎng)絡(luò)流量并增加了吞吐量。
更多建議: