Hadoop 大數(shù)據(jù)概述

2020-09-23 15:44 更新

由于新技術(shù),設(shè)備和通信手段(如社交網(wǎng)站)的出現(xiàn),人類生產(chǎn)的數(shù)據(jù)量每年都在快速增長(zhǎng)。我們從2003年開始生產(chǎn)的數(shù)據(jù)量是50億千兆字節(jié)。如果以磁盤的形式堆積數(shù)據(jù),它可能會(huì)填滿整個(gè)足球場(chǎng)。在2011年每?jī)商靹?chuàng)建一次,2013年每十分鐘創(chuàng)建一次。這個(gè)比率仍在增長(zhǎng)。雖然所有這些產(chǎn)生的信息是有意義的,并且在處理時(shí)可以是有用的,但它被忽略。

90%的世界數(shù)據(jù)是在過(guò)去的幾年中產(chǎn)生的。

什么是大數(shù)據(jù)?

大數(shù)據(jù)意味著真正的大數(shù)據(jù),它是大數(shù)據(jù)集的集合,不能使用傳統(tǒng)的計(jì)算技術(shù)來(lái)處理。大數(shù)據(jù)不僅僅是一個(gè)數(shù)據(jù),它已經(jīng)成為一個(gè)完整的主題,涉及各種工具,技術(shù)和框架。

大數(shù)據(jù)領(lǐng)域有什么?

大數(shù)據(jù)涉及由不同設(shè)備和應(yīng)用程序產(chǎn)生的數(shù)據(jù)。下面是大數(shù)據(jù)領(lǐng)域的一些領(lǐng)域。

  • 黑匣子數(shù)據(jù)它是直升機(jī),飛機(jī)和噴氣機(jī)等的組件。它捕捉飛行機(jī)組的聲音,麥克風(fēng)和耳機(jī)的錄音,以及飛機(jī)的性能信息。

  • 社會(huì)媒體數(shù)據(jù)Facebook和Twitter等社交媒體保存著全球數(shù)百萬(wàn)人發(fā)布的信息和觀點(diǎn)。

  • 證券交易所數(shù)據(jù)證券交易所數(shù)據(jù)保存關(guān)于由客戶在不同公司的份額上做出的“買入”和“賣出”決定的信息。

  • 電網(wǎng)數(shù)據(jù)電網(wǎng)數(shù)據(jù)保持特定節(jié)點(diǎn)相對(duì)于基站消耗的信息。

  • 運(yùn)輸數(shù)據(jù)運(yùn)輸數(shù)據(jù)包括車輛的型號(hào),容量,距離和可用性。

  • 搜索引擎數(shù)據(jù)搜索引擎從不同的數(shù)據(jù)庫(kù)檢索大量數(shù)據(jù)。

大數(shù)據(jù)

因此,大數(shù)據(jù)包括大量,高速度和可擴(kuò)展的數(shù)據(jù)。其中的數(shù)據(jù)將有三種類型。

  • 結(jié)構(gòu)化數(shù)據(jù) :關(guān)系數(shù)據(jù)。

  • 半結(jié)構(gòu)化數(shù)據(jù) :XML數(shù)據(jù)。

  • 非結(jié)構(gòu)化數(shù)據(jù)Word,PDF,文本,媒體日志

大數(shù)據(jù)的優(yōu)勢(shì)

大數(shù)據(jù)對(duì)我們的生活及其作為現(xiàn)代世界最重要的技術(shù)之一的重要性至關(guān)重要。跟隨是只有幾個(gè)好處,這是我們所有人都知道的:

  • 使用諸如Facebook的社交網(wǎng)絡(luò)中存儲(chǔ)的信息,營(yíng)銷機(jī)構(gòu)正在了解他們的活動(dòng),促銷和其他廣告媒體的響應(yīng)。

  • 使用社交媒體中的信息,如喜好和產(chǎn)品對(duì)消費(fèi)者的認(rèn)知,產(chǎn)品公司和零售組織正在計(jì)劃他們的生產(chǎn)。

  • 使用關(guān)于患者的以前的病史的數(shù)據(jù),醫(yī)院正在提供更好和快速的服務(wù)。

大數(shù)據(jù)技術(shù)

大數(shù)據(jù)技術(shù)在提供更準(zhǔn)確的分析方面很重要,這可能導(dǎo)致更具體的決策,從而提高業(yè)務(wù)效率,降低成本,降低業(yè)務(wù)風(fēng)險(xiǎn)。

為了利用大數(shù)據(jù)的力量,您需要一個(gè)可以實(shí)時(shí)管理和處理大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)架構(gòu),并可以保護(hù)數(shù)據(jù)隱私和安全性。

市場(chǎng)上有來(lái)自包括亞馬遜,IBM,微軟等不同供應(yīng)商的各種技術(shù)來(lái)處理大數(shù)據(jù)。在研究處理大數(shù)據(jù)的技術(shù)時(shí),我們看看以下兩類技術(shù):

操作大數(shù)據(jù)

這包括像MongoDB這樣的系統(tǒng),為實(shí)時(shí),交互式工作負(fù)載提供操作功能,其中主要捕獲和存儲(chǔ)數(shù)據(jù)。

NoSQL大數(shù)據(jù)系統(tǒng)旨在利用在過(guò)去十年中出現(xiàn)的新云計(jì)算架構(gòu),以允許大量計(jì)算廉價(jià)高效地運(yùn)行這使得操作的大數(shù)據(jù)工作負(fù)載更容易管理,更便宜,更快地實(shí)現(xiàn)。

一些NoSQL系統(tǒng)可以基于具有最少編碼的實(shí)時(shí)數(shù)據(jù)以及不需要數(shù)據(jù)科學(xué)家和附加基礎(chǔ)設(shè)施的模式和趨勢(shì)提供洞察。

分析大數(shù)據(jù)

這包括像大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)系統(tǒng)和MapReduce提供對(duì)于可能觸及的大部分或所有的數(shù)據(jù)的回顧性和復(fù)雜的分析的分析能力的系統(tǒng)。

MapReduce的提供分析數(shù)據(jù)的基礎(chǔ)上的MapReduce可從單個(gè)服務(wù)器可以按比例放大至數(shù)千高端和低端機(jī)即由SQL提供的功能,并且一個(gè)系統(tǒng)的互補(bǔ)的新方法。

這兩類技術(shù)是互補(bǔ)的,并經(jīng)常一起部署。

操作與分析系統(tǒng)

 操作分析
潛伏1 ms - 100 ms1 min - 100 min
并發(fā)1000 - 100,0001 - 10
訪問(wèn)模式Writes and ReadsReads
查詢SelectiveUnselective
數(shù)據(jù)范圍OperationalRetrospective
最終用戶CustomerData Scientist
技術(shù)NoSQLMapReduce,MPP Database

大數(shù)據(jù)挑戰(zhàn)

與大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:

  • Capturing data
  • Curation
  • Storage
  • Searching
  • Sharing
  • Transfer
  • Analysis
  • Presentation

為了滿足上述挑戰(zhàn),組織通常采取企業(yè)服務(wù)器的幫助。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)