由于新技術,設備和通信手段(如社交網站)的出現,人類生產的數據量每年都在快速增長。我們從2003年開始生產的數據量是50億千兆字節(jié)。如果以磁盤的形式堆積數據,它可能會填滿整個足球場。在2011年每兩天創(chuàng)建一次,2013年每十分鐘創(chuàng)建一次。這個比率仍在增長。雖然所有這些產生的信息是有意義的,并且在處理時可以是有用的,但它被忽略。
90%的世界數據是在過去的幾年中產生的。
大數據意味著真正的大數據,它是大數據集的集合,不能使用傳統(tǒng)的計算技術來處理。大數據不僅僅是一個數據,它已經成為一個完整的主題,涉及各種工具,技術和框架。
大數據涉及由不同設備和應用程序產生的數據。下面是大數據領域的一些領域。
黑匣子數據 :它是直升機,飛機和噴氣機等的組件。它捕捉飛行機組的聲音,麥克風和耳機的錄音,以及飛機的性能信息。
社會媒體數據 :Facebook和Twitter等社交媒體保存著全球數百萬人發(fā)布的信息和觀點。
證券交易所數據 :證券交易所數據保存關于由客戶在不同公司的份額上做出的“買入”和“賣出”決定的信息。
電網數據 :電網數據保持特定節(jié)點相對于基站消耗的信息。
運輸數據 :運輸數據包括車輛的型號,容量,距離和可用性。
搜索引擎數據 :搜索引擎從不同的數據庫檢索大量數據。
因此,大數據包括大量,高速度和可擴展的數據。其中的數據將有三種類型。
結構化數據 :關系數據。
半結構化數據 :XML數據。
非結構化數據 :Word,PDF,文本,媒體日志
大數據對我們的生活及其作為現代世界最重要的技術之一的重要性至關重要。跟隨是只有幾個好處,這是我們所有人都知道的:
使用諸如Facebook的社交網絡中存儲的信息,營銷機構正在了解他們的活動,促銷和其他廣告媒體的響應。
使用社交媒體中的信息,如喜好和產品對消費者的認知,產品公司和零售組織正在計劃他們的生產。
使用關于患者的以前的病史的數據,醫(yī)院正在提供更好和快速的服務。
大數據技術在提供更準確的分析方面很重要,這可能導致更具體的決策,從而提高業(yè)務效率,降低成本,降低業(yè)務風險。
為了利用大數據的力量,您需要一個可以實時管理和處理大量結構化和非結構化數據的基礎架構,并可以保護數據隱私和安全性。
市場上有來自包括亞馬遜,IBM,微軟等不同供應商的各種技術來處理大數據。在研究處理大數據的技術時,我們看看以下兩類技術:
這包括像MongoDB這樣的系統(tǒng),為實時,交互式工作負載提供操作功能,其中主要捕獲和存儲數據。
NoSQL大數據系統(tǒng)旨在利用在過去十年中出現的新云計算架構,以允許大量計算廉價高效地運行。這使得操作的大數據工作負載更容易管理,更便宜,更快地實現。
一些NoSQL系統(tǒng)可以基于具有最少編碼的實時數據以及不需要數據科學家和附加基礎設施的模式和趨勢提供洞察。
這包括像大規(guī)模并行處理(MPP)數據庫系統(tǒng)和MapReduce提供對于可能觸及的大部分或所有的數據的回顧性和復雜的分析的分析能力的系統(tǒng)。
MapReduce的提供分析數據的基礎上的MapReduce可從單個服務器可以按比例放大至數千高端和低端機即由SQL提供的功能,并且一個系統(tǒng)的互補的新方法。
這兩類技術是互補的,并經常一起部署。
操作 | 分析 | |
---|---|---|
潛伏 | 1 ms - 100 ms | 1 min - 100 min |
并發(fā) | 1000 - 100,000 | 1 - 10 |
訪問模式 | Writes and Reads | Reads |
查詢 | Selective | Unselective |
數據范圍 | Operational | Retrospective |
最終用戶 | Customer | Data Scientist |
技術 | NoSQL | MapReduce,MPP Database |
與大數據相關的主要挑戰(zhàn)如下:
為了滿足上述挑戰(zhàn),組織通常采取企業(yè)服務器的幫助。
更多建議: