閱讀(14.8k) 書簽贊(0) 我要糾錯

Hadoop HDFS概述

2018-01-07 16:26 更新

Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計開發(fā)的。它運(yùn)行在商用硬件上。與其他分布式系統(tǒng)不同，HDFS是高度容錯的，并且使用低成本硬件設(shè)計。

HDFS擁有大量的數(shù)據(jù)并提供更容易的訪問。為了存儲這樣巨大的數(shù)據(jù)，文件存儲在多個機(jī)器。這些文件以冗余方式存儲，以在發(fā)生故障時避免系統(tǒng)可能的數(shù)據(jù)丟失。 HDFS還使應(yīng)用程序可用于并行處理。

HDFS的特點

它適用于在分布式存儲和處理。
Hadoop提供了一個與HDFS交互的命令接口。
namenode和datanode的內(nèi)置服務(wù)器幫助用戶輕松檢查集群的狀態(tài)。
流式訪問文件系統(tǒng)數(shù)據(jù)。
HDFS提供文件權(quán)限和身份驗證。

HDFS架構(gòu)

下面給出了Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。

HDFS遵循主從架構(gòu)，并具有以下元素。

Namenode

namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商用硬件。它是一個可以在商用硬件上運(yùn)行的軟件。具有namenode的系統(tǒng)充當(dāng)主服務(wù)器，它執(zhí)行以下任務(wù)：

管理文件系統(tǒng)命名空間。
調(diào)整客戶端對文件的訪問。
它還執(zhí)行文件系統(tǒng)操作，例如重命名，關(guān)閉和打開文件和目錄。

Datanode

datanode是具有GNU / Linux操作系統(tǒng)和datanode軟件的商用硬件。對于集群中的每個節(jié)點（商品硬件/系統(tǒng)），都會有一個datanode。這些節(jié)點管理其系統(tǒng)的數(shù)據(jù)存儲。

Datanodes根據(jù)客戶端請求對文件系統(tǒng)執(zhí)行讀寫操作。
它們還根據(jù)namenode的指令執(zhí)行諸如塊創(chuàng)建，刪除和復(fù)制的操作。

Block

一般用戶數(shù)據(jù)存儲在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個或多個段和/或存儲在各個數(shù)據(jù)節(jié)點中。這些文件段稱為塊。換句話說，HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認(rèn)塊大小為64MB，但可以根據(jù)需要更改HDFS配置來增加。

HDFS的目的

故障檢測和恢復(fù) ：由于HDFS包括大量的商品硬件，組件的故障頻繁。因此，HDFS應(yīng)該具有快速和自動故障檢測和恢復(fù)的機(jī)制。
巨大的數(shù)據(jù)集 ：HDFS應(yīng)該每個集群有數(shù)百個節(jié)點來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。
硬件數(shù)據(jù) ：當(dāng)在數(shù)據(jù)附近進(jìn)行計算時，可以有效地完成所請求的任務(wù)。特別是在涉及巨大數(shù)據(jù)集的情況下，它減少了網(wǎng)絡(luò)流量并增加了吞吐量。

以上內(nèi)容是否對您有幫助：

← Hadoop 環(huán)境設(shè)置

Hadoop HDFS操作 →

寫筆記

我要補(bǔ)充