由于新技術(shù),設(shè)備和通信手段(如社交網(wǎng)站)的出現(xiàn),人類生產(chǎn)的數(shù)據(jù)量每年都在快速增長(zhǎng)。我們從2003年開始生產(chǎn)的數(shù)據(jù)量是50億千兆字節(jié)。如果以磁盤的形式堆積數(shù)據(jù),它可能會(huì)填滿整個(gè)足球場(chǎng)。在2011年每?jī)商靹?chuàng)建一次,2013年每十分鐘創(chuàng)建一次。這個(gè)比率仍在增長(zhǎng)。雖然所有這些產(chǎn)生的信息是有意義的,并且在處理時(shí)可以是有用的,但它被忽略。
90%的世界數(shù)據(jù)是在過(guò)去的幾年中產(chǎn)生的。
大數(shù)據(jù)意味著真正的大數(shù)據(jù),它是大數(shù)據(jù)集的集合,不能使用傳統(tǒng)的計(jì)算技術(shù)來(lái)處理。大數(shù)據(jù)不僅僅是一個(gè)數(shù)據(jù),它已經(jīng)成為一個(gè)完整的主題,涉及各種工具,技術(shù)和框架。
大數(shù)據(jù)涉及由不同設(shè)備和應(yīng)用程序產(chǎn)生的數(shù)據(jù)。下面是大數(shù)據(jù)領(lǐng)域的一些領(lǐng)域。
黑匣子數(shù)據(jù) :它是直升機(jī),飛機(jī)和噴氣機(jī)等的組件。它捕捉飛行機(jī)組的聲音,麥克風(fēng)和耳機(jī)的錄音,以及飛機(jī)的性能信息。
社會(huì)媒體數(shù)據(jù) :Facebook和Twitter等社交媒體保存著全球數(shù)百萬(wàn)人發(fā)布的信息和觀點(diǎn)。
證券交易所數(shù)據(jù) :證券交易所數(shù)據(jù)保存關(guān)于由客戶在不同公司的份額上做出的“買入”和“賣出”決定的信息。
電網(wǎng)數(shù)據(jù) :電網(wǎng)數(shù)據(jù)保持特定節(jié)點(diǎn)相對(duì)于基站消耗的信息。
運(yùn)輸數(shù)據(jù) :運(yùn)輸數(shù)據(jù)包括車輛的型號(hào),容量,距離和可用性。
搜索引擎數(shù)據(jù) :搜索引擎從不同的數(shù)據(jù)庫(kù)檢索大量數(shù)據(jù)。
因此,大數(shù)據(jù)包括大量,高速度和可擴(kuò)展的數(shù)據(jù)。其中的數(shù)據(jù)將有三種類型。
結(jié)構(gòu)化數(shù)據(jù) :關(guān)系數(shù)據(jù)。
半結(jié)構(gòu)化數(shù)據(jù) :XML數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù) :Word,PDF,文本,媒體日志
大數(shù)據(jù)對(duì)我們的生活及其作為現(xiàn)代世界最重要的技術(shù)之一的重要性至關(guān)重要。跟隨是只有幾個(gè)好處,這是我們所有人都知道的:
使用諸如Facebook的社交網(wǎng)絡(luò)中存儲(chǔ)的信息,營(yíng)銷機(jī)構(gòu)正在了解他們的活動(dòng),促銷和其他廣告媒體的響應(yīng)。
使用社交媒體中的信息,如喜好和產(chǎn)品對(duì)消費(fèi)者的認(rèn)知,產(chǎn)品公司和零售組織正在計(jì)劃他們的生產(chǎn)。
使用關(guān)于患者的以前的病史的數(shù)據(jù),醫(yī)院正在提供更好和快速的服務(wù)。
大數(shù)據(jù)技術(shù)在提供更準(zhǔn)確的分析方面很重要,這可能導(dǎo)致更具體的決策,從而提高業(yè)務(wù)效率,降低成本,降低業(yè)務(wù)風(fēng)險(xiǎn)。
為了利用大數(shù)據(jù)的力量,您需要一個(gè)可以實(shí)時(shí)管理和處理大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)架構(gòu),并可以保護(hù)數(shù)據(jù)隱私和安全性。
市場(chǎng)上有來(lái)自包括亞馬遜,IBM,微軟等不同供應(yīng)商的各種技術(shù)來(lái)處理大數(shù)據(jù)。在研究處理大數(shù)據(jù)的技術(shù)時(shí),我們看看以下兩類技術(shù):
這包括像MongoDB這樣的系統(tǒng),為實(shí)時(shí),交互式工作負(fù)載提供操作功能,其中主要捕獲和存儲(chǔ)數(shù)據(jù)。
NoSQL大數(shù)據(jù)系統(tǒng)旨在利用在過(guò)去十年中出現(xiàn)的新云計(jì)算架構(gòu),以允許大量計(jì)算廉價(jià)高效地運(yùn)行。這使得操作的大數(shù)據(jù)工作負(fù)載更容易管理,更便宜,更快地實(shí)現(xiàn)。
一些NoSQL系統(tǒng)可以基于具有最少編碼的實(shí)時(shí)數(shù)據(jù)以及不需要數(shù)據(jù)科學(xué)家和附加基礎(chǔ)設(shè)施的模式和趨勢(shì)提供洞察。
這包括像大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)系統(tǒng)和MapReduce提供對(duì)于可能觸及的大部分或所有的數(shù)據(jù)的回顧性和復(fù)雜的分析的分析能力的系統(tǒng)。
MapReduce的提供分析數(shù)據(jù)的基礎(chǔ)上的MapReduce可從單個(gè)服務(wù)器可以按比例放大至數(shù)千高端和低端機(jī)即由SQL提供的功能,并且一個(gè)系統(tǒng)的互補(bǔ)的新方法。
這兩類技術(shù)是互補(bǔ)的,并經(jīng)常一起部署。
操作 | 分析 | |
---|---|---|
潛伏 | 1 ms - 100 ms | 1 min - 100 min |
并發(fā) | 1000 - 100,000 | 1 - 10 |
訪問(wèn)模式 | Writes and Reads | Reads |
查詢 | Selective | Unselective |
數(shù)據(jù)范圍 | Operational | Retrospective |
最終用戶 | Customer | Data Scientist |
技術(shù) | NoSQL | MapReduce,MPP Database |
與大數(shù)據(jù)相關(guān)的主要挑戰(zhàn)如下:
為了滿足上述挑戰(zhàn),組織通常采取企業(yè)服務(wù)器的幫助。
更多建議: