Hadoop 關(guān)于

2022-02-28 10:16 更新

主要記錄了Hadoop各個(gè)組件的基本原理,處理過程和關(guān)鍵的知識(shí)點(diǎn)等,包括HDFS、YARN、MapReduce等。

本教程內(nèi)容來源于 PennyWong

更新日期 更新內(nèi)容
2015-5-7 Hadoop文檔

鋪墊

  • 人產(chǎn)生數(shù)據(jù)的速度越來越快,機(jī)器則更加快,數(shù)據(jù)的增長速度通常比算法更快,所以需要另外的一種處理數(shù)據(jù)的方法。
  • 硬盤的容量增加了,但性能沒有跟上,解決辦法是把數(shù)據(jù)分到多塊硬盤,然后同時(shí)讀取。但帶來一些問題:

硬件問題:復(fù)制數(shù)據(jù)解決(RAID)

分析需要從不同的硬盤讀取數(shù)據(jù):MapReduce

而Hadoop提供了

1.可靠的共享存儲(chǔ)(分布式存儲(chǔ)) 2.抽象的分析接口(分布式分析)

大數(shù)據(jù)

概念

不能使用一臺(tái)機(jī)器進(jìn)行處理的數(shù)據(jù)

大數(shù)據(jù)的核心是樣本=總體

特性

  • 大量性(volume): 一般在大數(shù)據(jù)里,單個(gè)文件的級(jí)別至少為幾十,幾百GB以上
  • 快速性(velocity): 反映在數(shù)據(jù)的快速產(chǎn)生及數(shù)據(jù)變更的頻率上
  • 多樣性(variety): 泛指數(shù)據(jù)類型及其來源的多樣化,進(jìn)一步可以把數(shù)據(jù)結(jié)構(gòu)歸納為結(jié)構(gòu)化(structured),半結(jié)構(gòu)化(semi-structured),和非結(jié)構(gòu)化(unstructured)
  • 易變性: 伴隨數(shù)據(jù)快速性的特征,數(shù)據(jù)流還呈現(xiàn)一種波動(dòng)的特征。不穩(wěn)定的數(shù)據(jù)流會(huì)隨著日,季節(jié),特定事件的觸發(fā)出現(xiàn)周期性峰值
  • 準(zhǔn)確性: 又稱為數(shù)據(jù)保證(data assurance)。不同方式,渠道收集到的數(shù)據(jù)在質(zhì)量上會(huì)有很大差異。數(shù)據(jù)分析和輸出結(jié)果的錯(cuò)誤程度和可信度在很大程度上取決于收集到的數(shù)據(jù)質(zhì)量的高低
  • 復(fù)雜性: 體現(xiàn)在數(shù)據(jù)的管理和操作上。如何抽取,轉(zhuǎn)換,加載,連接,關(guān)聯(lián)以把握數(shù)據(jù)內(nèi)蘊(yùn)的有用信息已經(jīng)變得越來越有挑戰(zhàn)性

關(guān)鍵技術(shù)

1.數(shù)據(jù)分布在多臺(tái)機(jī)器

可靠性:每個(gè)數(shù)據(jù)塊都復(fù)制到多個(gè)節(jié)點(diǎn)

性能:多個(gè)節(jié)點(diǎn)同時(shí)處理數(shù)據(jù)

2.計(jì)算隨數(shù)據(jù)走

網(wǎng)絡(luò)IO速度 << 本地磁盤IO速度,大數(shù)據(jù)系統(tǒng)會(huì)盡量地將任務(wù)分配到離數(shù)據(jù)最近的機(jī)器上運(yùn)行(程序運(yùn)行時(shí),將程序及其依賴包都復(fù)制到數(shù)據(jù)所在的機(jī)器運(yùn)行)

代碼向數(shù)據(jù)遷移,避免大規(guī)模數(shù)據(jù)時(shí),造成大量數(shù)據(jù)遷移的情況,盡量讓一段數(shù)據(jù)的計(jì)算發(fā)生在同一臺(tái)機(jī)器上

3.串行IO取代隨機(jī)IO

傳輸時(shí)間 << 尋道時(shí)間,一般數(shù)據(jù)寫入后不再修改


以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)