從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù),明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。
在萊尼的理論基礎(chǔ)上,IBM提出大數(shù)據(jù)的4V特征得到了業(yè)界的廣泛認(rèn)可:第一,數(shù)量,即數(shù)據(jù)巨大,從TB級別躍升到PB級別;第二,多樣性,即數(shù)據(jù)類型繁多,不僅包括傳統(tǒng)的格式化數(shù)據(jù),還包括來自互聯(lián)網(wǎng)的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;第三,速度,即處理速度快;第四,真實(shí)性,即追求高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)體量巨大
容量大是大數(shù)據(jù)的首要特征,隨著網(wǎng)絡(luò)的發(fā)展,迫切的需要足夠大的容量去統(tǒng)計(jì)分析以及預(yù)測大規(guī)模的數(shù)據(jù)。最開始的mp3時(shí)代僅僅只是mb級的存儲,但是已經(jīng)能滿足很多人的要求了。隨著信息技術(shù)的高度發(fā)展,存儲單位也慢慢的發(fā)生了演變。從大家耳熟能詳?shù)?**存儲到了tb存儲,乃至現(xiàn)在有了pb,eb等存儲。
數(shù)據(jù)速度快
大數(shù)據(jù)的數(shù)據(jù)產(chǎn)生、處理和分析的速度在持續(xù)加快。加速的原因是數(shù)據(jù)創(chuàng)建的實(shí)時(shí)性特點(diǎn),以及將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的需求。數(shù)據(jù)處理速度快,處理模式已經(jīng)開始從批處理轉(zhuǎn)向流處理。業(yè)界對大數(shù)據(jù)的處理能力有一個(gè)稱謂——“1秒定律”,也就是說,可以從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息。大數(shù)據(jù)的快速處理能力充分體現(xiàn)出它與傳統(tǒng)的數(shù)據(jù)處理技術(shù)的本質(zhì)區(qū)別。
數(shù)據(jù)類型繁多
大數(shù)據(jù)的數(shù)據(jù)類型繁多,傳統(tǒng)IT產(chǎn)業(yè)產(chǎn)生和處理的數(shù)據(jù)類型較為單一,大部分是結(jié)構(gòu)化數(shù)據(jù)。隨著傳感器、智能設(shè)備、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動計(jì)算、在線廣告等新的渠道和技術(shù)不斷涌現(xiàn),產(chǎn)生的數(shù)據(jù)類型無以計(jì)數(shù)。
現(xiàn)在的數(shù)據(jù)類型不再只是格式化數(shù)據(jù),更多的是半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),如XML、郵件、博客、即時(shí)消息、視頻、照片、點(diǎn)擊流、日志文件等。企業(yè)需要整合、存儲和分析來自復(fù)雜的傳統(tǒng)和非傳統(tǒng)信息源的數(shù)據(jù),包括企業(yè)內(nèi)部和外部的數(shù)據(jù)。因?yàn)榇髷?shù)據(jù)的來源非常廣泛,所以多樣性成為了大數(shù)據(jù)的另一大特點(diǎn)。在任何形式下,所獲取的來源都是可以使用的,目前為止應(yīng)用比較廣泛的有淘寶,網(wǎng)易云,頭條等等。這些平臺通過對用戶的數(shù)據(jù)進(jìn)行分析,從而對應(yīng)的推薦一些用戶比較喜歡的東西。
真實(shí)性
數(shù)據(jù)的重要性就在于對決策的支持,數(shù)據(jù)的規(guī)模并不能決定其能否為決策提供幫助,數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思路最重要的因素,是制定成功決策最堅(jiān)實(shí)的基礎(chǔ)。追求高數(shù)據(jù)質(zhì)量是一項(xiàng)重要的大數(shù)據(jù)要求和挑戰(zhàn),即使最優(yōu)秀的數(shù)據(jù)清理方法也無法消除某些數(shù)據(jù)固有的不可預(yù)測性。
在處理這些類型的數(shù)據(jù)時(shí),數(shù)據(jù)清理無法修正這種不確定性,然而,盡管存在不確定性,數(shù)據(jù)仍然包含寶貴的信息。我們必須承認(rèn)、接受大數(shù)據(jù)的不確定性,并確定如何充分利用這一點(diǎn)。
文章整合自:個(gè)人圖書館、百度服務(wù)商點(diǎn)亮工場、螞蚜網(wǎng)
審核編輯:鄢孟繁
-
格式化
+關(guān)注
關(guān)注
2文章
38瀏覽量
9101 -
智能設(shè)備
+關(guān)注
關(guān)注
5文章
1040瀏覽量
50337 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8854瀏覽量
137210
發(fā)布評論請先 登錄
相關(guān)推薦
評論