Hadoop HDFS概述

2018-01-07 16:26 更新

Hadoop文件系統(tǒng)是使用分布式文件系統(tǒng)設(shè)計開發(fā)的。它運行在商用硬件上。與其他分布式系統(tǒng)不同,HDFS是高度容錯的,并且使用低成本硬件設(shè)計。

HDFS擁有大量的數(shù)據(jù)并提供更容易的訪問。為了存儲這樣巨大的數(shù)據(jù),文件存儲在多個機器。這些文件以冗余方式存儲,以在發(fā)生故障時避免系統(tǒng)可能的數(shù)據(jù)丟失。 HDFS還使應(yīng)用程序可用于并行處理。

HDFS的特點

  • 它適用于在分布式存儲和處理。
  • Hadoop提供了一個與HDFS交互的命令接口。
  • namenode和datanode的內(nèi)置服務(wù)器幫助用戶輕松檢查集群的狀態(tài)。
  • 流式訪問文件系統(tǒng)數(shù)據(jù)。
  • HDFS提供文件權(quán)限和身份驗證。

HDFS架構(gòu)

下面給出了Hadoop文件系統(tǒng)的體系結(jié)構(gòu)。

HDFS架構(gòu)

HDFS遵循主從架構(gòu),并具有以下元素。

Namenode

namenode是包含GNU / Linux操作系統(tǒng)和namenode軟件的商用硬件。它是一個可以在商用硬件上運行的軟件。具有namenode的系統(tǒng)充當主服務(wù)器,它執(zhí)行以下任務(wù):

  • 管理文件系統(tǒng)命名空間。
  • 調(diào)整客戶端對文件的訪問。
  • 它還執(zhí)行文件系統(tǒng)操作,例如重命名,關(guān)閉和打開文件和目錄。

Datanode

datanode是具有GNU / Linux操作系統(tǒng)和datanode軟件的商用硬件。對于集群中的每個節(jié)點(商品硬件/系統(tǒng)),都會有一個datanode。這些節(jié)點管理其系統(tǒng)的數(shù)據(jù)存儲。

  • Datanodes根據(jù)客戶端請求對文件系統(tǒng)執(zhí)行讀寫操作。
  • 它們還根據(jù)namenode的指令執(zhí)行諸如塊創(chuàng)建,刪除和復(fù)制的操作。

Block

一般用戶數(shù)據(jù)存儲在HDFS的文件中。文件系統(tǒng)中的文件將被分成一個或多個段和/或存儲在各個數(shù)據(jù)節(jié)點中。這些文件段稱為塊。換句話說,HDFS可以讀取或?qū)懭氲淖钚?shù)據(jù)量稱為塊。默認塊大小為64MB,但可以根據(jù)需要更改HDFS配置來增加。

HDFS的目的

  • 故障檢測和恢復(fù)由于HDFS包括大量的商品硬件,組件的故障頻繁。因此,HDFS應(yīng)該具有快速和自動故障檢測和恢復(fù)的機制。

  • 巨大的數(shù)據(jù)集HDFS應(yīng)該每個集群有數(shù)百個節(jié)點來管理具有巨大數(shù)據(jù)集的應(yīng)用程序。

  • 硬件數(shù)據(jù)當在數(shù)據(jù)附近進行計算時,可以有效地完成所請求的任務(wù)。特別是在涉及巨大數(shù)據(jù)集的情況下,它減少了網(wǎng)絡(luò)流量并增加了吞吐量。

以上內(nèi)容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號