閱讀(139.8k) 書簽贊(28) 我要糾錯

Hadoop 關(guān)于

2022-02-28 10:16 更新

主要記錄了Hadoop各個組件的基本原理，處理過程和關(guān)鍵的知識點等，包括HDFS、YARN、MapReduce等。

本教程內(nèi)容來源于 PennyWong

更新日期	更新內(nèi)容
2015-5-7	Hadoop文檔

鋪墊

人產(chǎn)生數(shù)據(jù)的速度越來越快，機器則更加快，數(shù)據(jù)的增長速度通常比算法更快，所以需要另外的一種處理數(shù)據(jù)的方法。
硬盤的容量增加了，但性能沒有跟上，解決辦法是把數(shù)據(jù)分到多塊硬盤，然后同時讀取。但帶來一些問題：

硬件問題：復(fù)制數(shù)據(jù)解決（RAID）

分析需要從不同的硬盤讀取數(shù)據(jù)：MapReduce

而Hadoop提供了

1.可靠的共享存儲（分布式存儲） 2.抽象的分析接口（分布式分析）

不能使用一臺機器進(jìn)行處理的數(shù)據(jù)

大數(shù)據(jù)的核心是樣本=總體

大量性(volume): 一般在大數(shù)據(jù)里，單個文件的級別至少為幾十，幾百GB以上
快速性(velocity): 反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上
多樣性(variety): 泛指數(shù)據(jù)類型及其來源的多樣化，進(jìn)一步可以把數(shù)據(jù)結(jié)構(gòu)歸納為結(jié)構(gòu)化(structured)，半結(jié)構(gòu)化(semi-structured)，和非結(jié)構(gòu)化(unstructured)
易變性: 伴隨數(shù)據(jù)快速性的特征，數(shù)據(jù)流還呈現(xiàn)一種波動的特征。不穩(wěn)定的數(shù)據(jù)流會隨著日，季節(jié)，特定事件的觸發(fā)出現(xiàn)周期性峰值
準(zhǔn)確性: 又稱為數(shù)據(jù)保證(data assurance)。不同方式，渠道收集到的數(shù)據(jù)在質(zhì)量上會有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低
復(fù)雜性: 體現(xiàn)在數(shù)據(jù)的管理和操作上。如何抽取，轉(zhuǎn)換，加載，連接，關(guān)聯(lián)以把握數(shù)據(jù)內(nèi)蘊的有用信息已經(jīng)變得越來越有挑戰(zhàn)性

1.數(shù)據(jù)分布在多臺機器

可靠性：每個數(shù)據(jù)塊都復(fù)制到多個節(jié)點

性能：多個節(jié)點同時處理數(shù)據(jù)

2.計算隨數(shù)據(jù)走

網(wǎng)絡(luò)IO速度 << 本地磁盤IO速度，大數(shù)據(jù)系統(tǒng)會盡量地將任務(wù)分配到離數(shù)據(jù)最近的機器上運行（程序運行時，將程序及其依賴包都復(fù)制到數(shù)據(jù)所在的機器運行）

代碼向數(shù)據(jù)遷移，避免大規(guī)模數(shù)據(jù)時，造成大量數(shù)據(jù)遷移的情況，盡量讓一段數(shù)據(jù)的計算發(fā)生在同一臺機器上

3.串行IO取代隨機IO

傳輸時間 << 尋道時間，一般數(shù)據(jù)寫入后不再修改

以上內(nèi)容是否對您有幫助：

寫筆記

我要補充