0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)的基本概念!大數(shù)據(jù)時代的新術(shù)語

數(shù)字化企業(yè) ? 來源:智造苑 ? 2023-10-11 11:41 ? 次閱讀

“大數(shù)據(jù)時代”的概念最早由世界著名的咨詢公司麥肯錫提出。麥肯錫說:“數(shù)據(jù)已滲透到今天的每個行業(yè)和業(yè)務(wù)功能領(lǐng)域,并已成為重要的生產(chǎn)要素”。

本文引自:《數(shù)據(jù)技術(shù)基礎(chǔ)》(作者:張潔、呂佑龍、張朋、汪俊亮)。

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,現(xiàn)有計算機擁有了在極短時間內(nèi)處理海量數(shù)據(jù)的能力,進而催生了一大批企業(yè)利用大量的數(shù)據(jù),將傳統(tǒng)的企業(yè)運營方式進行顛覆,使得企業(yè)實現(xiàn)了從靠人力決策到靠數(shù)據(jù)決策的轉(zhuǎn)變,這意味著更少的決策失誤和更大的利潤,而對于普通民眾而言則能享受到更好的服務(wù)質(zhì)量和辦事效率。 在以上過程中,大量的企業(yè)決策與服務(wù)提供需要依靠大數(shù)據(jù)技術(shù)支撐,并且大數(shù)據(jù)帶來的經(jīng)濟效益已經(jīng)大于開發(fā)成本,由此進入大數(shù)據(jù)時代。

內(nèi)涵與特征 1)大數(shù)據(jù)的內(nèi)涵

大數(shù)據(jù)的定義方法有很多種,如果仔細觀察,會發(fā)現(xiàn)不同領(lǐng)域?qū)<覍W(xué)者給出了不同的定義。通常所說的“大數(shù)據(jù)”往往指的是“大數(shù)據(jù)現(xiàn)象”。

(1)計算機科學(xué)與技術(shù):當(dāng)數(shù)據(jù)量、數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)處理的任務(wù)要求等超出了傳統(tǒng)數(shù)據(jù)存儲與計算能力時,稱之為大數(shù)據(jù)(現(xiàn)象)。可見,計算機科學(xué)與技術(shù)中是從存儲和計算能力視角理解大數(shù)據(jù)——大數(shù)據(jù)不僅是“數(shù)據(jù)存量”的問題,還與數(shù)據(jù)增量、復(fù)雜度和處理要求(如實時分析)有關(guān)。

(2)統(tǒng)計學(xué):當(dāng)能夠收集足夠的全部(總體中的絕大部分)個體的數(shù)據(jù),且計算能力足夠強,可以不用抽樣,直接在總體上就可以進行統(tǒng)計分析時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,統(tǒng)計學(xué)主要從所處理的問題和總體的規(guī)模之間的相對關(guān)系視角理解“大數(shù)據(jù)”。

(3)機器學(xué)習(xí):當(dāng)訓(xùn)練集足夠大,且計算能力足夠強,只需要通過對已有的實例進行簡單查詢即可達到“智能計算的效果”時,稱之為大數(shù)據(jù)(現(xiàn)象)??梢?,機器學(xué)習(xí)主要從“智能的實現(xiàn)方式”理解大數(shù)據(jù)-智能可以通過簡單的實例學(xué)習(xí)和機械學(xué)習(xí)的方式來實現(xiàn)。

(4)社會科學(xué)家:當(dāng)多數(shù)人的大部分社會行為可以被記錄下來時,稱之為大數(shù)據(jù)(現(xiàn)象)。可見,社會科學(xué)家眼里的大數(shù)據(jù)主要是從“數(shù)據(jù)規(guī)模與價值密度角度”談的,即數(shù)據(jù)規(guī)模過大導(dǎo)致的價值密度過低。

總之,術(shù)語大數(shù)據(jù)的內(nèi)涵已超出了數(shù)據(jù)本身,代表的是數(shù)據(jù)帶來的機遇與挑戰(zhàn),可以總結(jié)如下。

(1)機遇:原先無法(或不可能)找到的數(shù)據(jù),現(xiàn)在可能找到;原先無法實現(xiàn)的計算目的(如數(shù)據(jù)的實時分析),現(xiàn)在可以實現(xiàn)。

(2)挑戰(zhàn):原先一直認為正確或最佳的理念、理論、方法、技術(shù)和工具越來越凸現(xiàn)出其局限性,在大數(shù)據(jù)時代需要改變思考模式。

2)大數(shù)據(jù)的特征

通常,用4V來表示大數(shù)據(jù)的基本特征。但是,建議讀者結(jié)合上述對大數(shù)據(jù)的內(nèi)涵的討論,靈活理解大數(shù)據(jù)的特征。

(1)Volume(數(shù)據(jù)量大):數(shù)據(jù)量大是一個相對于計算和存儲能力的說法,就目前而言,當(dāng)數(shù)據(jù)量達到PB級以上,一般稱為“大”的數(shù)據(jù)。但是,應(yīng)該注意到,大數(shù)據(jù)的時間分布往往不均勻,近幾年所生成的數(shù)據(jù),相對占比最高。

(2)Variety(類型多):數(shù)據(jù)類型多是指大數(shù)據(jù)存在多種類型的數(shù)據(jù),不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。有統(tǒng)計顯示,在未來,非結(jié)構(gòu)化數(shù)據(jù)的占比將達到90%以上。非結(jié)構(gòu)化數(shù)據(jù)所包括的數(shù)據(jù)類型很多,例如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。數(shù)據(jù)類型的多樣性往往導(dǎo)致數(shù)據(jù)的異構(gòu)性,進而加大了數(shù)據(jù)處理的復(fù)雜性,對數(shù)據(jù)處理能力提出了更高要求。

(3)Value(價值密度低):在大數(shù)據(jù)中,價值密度的高低與數(shù)據(jù)總量的大小之間并不存在線性關(guān)系,有價值的數(shù)據(jù)往往被淹沒在海量無用數(shù)據(jù)之中,也就是人們常說的“我們淹沒在數(shù)據(jù)的海洋,卻又在忍受著知識的饑渴(We are drowning in a sea of data and thirsting for knowledge)”。例如,一段長達120min連續(xù)不間斷的監(jiān)控視頻中,有用數(shù)據(jù)可能僅有幾秒。因此,如何在海量數(shù)據(jù)中洞見有價值的數(shù)據(jù)成為數(shù)據(jù)科學(xué)的重要課題。

(4)Velocity(速度快):大數(shù)據(jù)中所說的“速度”包括兩種——增長速度和處理速度。一方面,大數(shù)據(jù)增長速度快。有統(tǒng)計顯示,2009—2020年期間的數(shù)字宇宙的年均增長率將達到41%,另一方面,對大數(shù)據(jù)處理的時間(計算速度)要求也越來越高,“大數(shù)據(jù)的實時分析”成為熱門話題

業(yè)務(wù)數(shù)據(jù)化

隨著互聯(lián)網(wǎng)的快速發(fā)展,企業(yè)逐漸面臨越來越多大數(shù)據(jù)時代的不確定性和挑戰(zhàn),很可能因為成本高居不下而逐漸失去份額,被競爭對手超越并最終出局。企業(yè)每天都會產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù),通過實現(xiàn)業(yè)務(wù)數(shù)據(jù)化可以幫助企業(yè)經(jīng)營者對尚未掌握的商業(yè)機遇進行理性評估判斷,實現(xiàn)業(yè)務(wù)增值,同時幫助企業(yè)提升內(nèi)部運營效率,降低成本。因此業(yè)務(wù)數(shù)據(jù)化是未來發(fā)展的一大趨勢。

1)設(shè)計目標(biāo)和原則

業(yè)務(wù)數(shù)據(jù)化的設(shè)計目標(biāo)是要從大量的、可能是雜亂無章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定的人或事物來說有價值、有異議的數(shù)據(jù)。設(shè)計原則包括簡約原則、綜觀原則、解釋原則以及智慧原則。

(1)簡約原則:簡化現(xiàn)有的數(shù)據(jù)集,使得一種小規(guī)模的數(shù)據(jù)就能夠產(chǎn)生同樣的分析效果。通過一些數(shù)據(jù)規(guī)約方法獲取可靠數(shù)據(jù),減少數(shù)據(jù)集規(guī)模,提高數(shù)據(jù)抽象程度,提升數(shù)據(jù)挖掘效率,使之在實際工作中,可以根據(jù)需要選用合適的處理方法,以達到操作上的簡單、簡潔、簡約和高效。

(2)綜觀原則:對認知對象進行綜合性的觀察、分析和探索,以求得解決問題的策略和戰(zhàn)略。它堅持整體的具體統(tǒng)一性,凸顯認知對象的具體實在性。

(3)解釋性原則:針對提取的數(shù)據(jù)究竟表達什么或意味什么,很大程度上,并不取決于數(shù)據(jù)信息自身所標(biāo)明的“客觀實在性”,而是取決于認知主體對數(shù)據(jù)進行解讀時的主觀評價,以此揭示數(shù)據(jù)的本質(zhì)。

(4)智慧原則:在對數(shù)據(jù)的處理挖掘過程中既要兼具數(shù)據(jù)處理能力,也要具備應(yīng)用算法和編寫代碼的經(jīng)驗。在大數(shù)據(jù)時代,不僅要關(guān)注數(shù)據(jù)的多樣性、差異性、精確性和實效性;還要深入挖掘各類數(shù)據(jù),并在此基礎(chǔ)上在不同的數(shù)據(jù)集成中分析不同的假設(shè)情境,建構(gòu)不同的可視化圖像,揭示數(shù)據(jù)集成的變化及其產(chǎn)生的效用。

2)數(shù)據(jù)線程

數(shù)據(jù)線程是指以價值鏈活動為脈絡(luò),以業(yè)務(wù)為中心,構(gòu)建的數(shù)據(jù)建模、關(guān)聯(lián)、因果、集成、演化等全主線流程。數(shù)據(jù)線程通過建立面向業(yè)務(wù)應(yīng)用的數(shù)據(jù)模型,實現(xiàn)各種信息化業(yè)務(wù)系統(tǒng)數(shù)據(jù)源的統(tǒng)一建模需求;針對設(shè)計、制造、運行、維護等生產(chǎn)環(huán)節(jié),發(fā)掘數(shù)據(jù)資源間的復(fù)雜關(guān)聯(lián)關(guān)系和因果關(guān)系;通過描述業(yè)務(wù)驅(qū)動的數(shù)據(jù)動態(tài)演化過程,提升對產(chǎn)品迭代、工藝更新、設(shè)備維護等業(yè)務(wù)決策問題的適應(yīng)能力。數(shù)據(jù)線程圍繞數(shù)據(jù)生成、匯聚、存儲、歸檔、分析、使用和銷毀等全過程,實現(xiàn)了產(chǎn)品研發(fā)設(shè)計、生產(chǎn)制造、經(jīng)營管理和銷售服務(wù)等全價值鏈活動中業(yè)務(wù)數(shù)據(jù)的有效組織,為業(yè)務(wù)數(shù)據(jù)化提供了良好的基礎(chǔ)。

3)業(yè)務(wù)數(shù)據(jù)系統(tǒng)

業(yè)務(wù)數(shù)據(jù)系統(tǒng)主要包括業(yè)務(wù)數(shù)據(jù)集成系統(tǒng)、業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)、業(yè)務(wù)數(shù)據(jù)分析系統(tǒng)、業(yè)務(wù)數(shù)據(jù)可視化系統(tǒng)等多個子系統(tǒng)。

(1)業(yè)務(wù)數(shù)據(jù)集成系統(tǒng):是面向業(yè)務(wù)的數(shù)據(jù)集成系統(tǒng)。隨著企業(yè)信息化建設(shè)的發(fā)展,企業(yè)建立了眾多的信息系統(tǒng),以幫助企業(yè)進行內(nèi)外部業(yè)務(wù)的管理。但是,企業(yè)各系統(tǒng)的數(shù)據(jù)是分布的、異構(gòu)的,為了共享這些業(yè)務(wù)數(shù)據(jù),需要一個業(yè)務(wù)數(shù)據(jù)集成系統(tǒng)來完成數(shù)據(jù)的共享與轉(zhuǎn)換。業(yè)務(wù)數(shù)據(jù)集成系統(tǒng)通過對具體的數(shù)據(jù)庫業(yè)務(wù)數(shù)據(jù)進行訪問,實現(xiàn)了基于變量的增量數(shù)據(jù)的獲取和發(fā)送,不僅解決了分布式環(huán)境下異構(gòu)數(shù)據(jù)的集成,還具有良好的擴展性及部署的簡單性。

(2)業(yè)務(wù)數(shù)據(jù)管理系統(tǒng):是業(yè)務(wù)數(shù)據(jù)系統(tǒng)的核心組成部分,主要完成對業(yè)務(wù)數(shù)據(jù)的操縱與管理功能,實現(xiàn)數(shù)據(jù)對象的創(chuàng)建、數(shù)據(jù)存儲數(shù)據(jù)的查詢、添加、修改與刪除操作和數(shù)據(jù)庫的用戶管理、權(quán)限管理等。業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)可以依據(jù)它所支持的數(shù)據(jù)庫模型來做分類,例如關(guān)系式、XML;或依據(jù)所支持的計算機類型來做分類,例如服務(wù)器群集、移動電話;或依據(jù)所用查詢語言來做分類,例如SQL、XQuery;或依據(jù)性能沖量重點來做分類,例如最大規(guī)模、最高運行速度。

(3)業(yè)務(wù)數(shù)據(jù)分析系統(tǒng):主要功能是從眾多外部系統(tǒng)中,采集相關(guān)的業(yè)務(wù)數(shù)據(jù),集中存儲到系統(tǒng)的數(shù)據(jù)庫中。系統(tǒng)內(nèi)部對所有的原始數(shù)據(jù)通過一系列處理轉(zhuǎn)換之后,存儲到數(shù)據(jù)倉庫的基礎(chǔ)庫中;然后,通過業(yè)務(wù)需要進行一系列的數(shù)據(jù)轉(zhuǎn)換到相應(yīng)的數(shù)據(jù)集市,供其他上層數(shù)據(jù)應(yīng)用組件進行專題分析或者展示,并將數(shù)據(jù)加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用。

(3)業(yè)務(wù)數(shù)據(jù)可視化系統(tǒng):將數(shù)據(jù)進行更清晰的展示,能夠準確而高效、精簡而全面地傳遞信息和知識??梢暬軐⒉豢梢姷臄?shù)據(jù)現(xiàn)象轉(zhuǎn)化為可見的圖形符號,能將錯綜復(fù)雜、看起來沒法解釋和關(guān)聯(lián)的數(shù)據(jù),建立起聯(lián)系和關(guān)聯(lián),發(fā)現(xiàn)規(guī)律和特征,獲得更有商業(yè)價值的洞見和價值。

4)智能制造業(yè)務(wù)數(shù)據(jù)

智能制造業(yè)務(wù)數(shù)據(jù)主要包括以下6個方面。

(1)從底層的設(shè)備控制系統(tǒng)中采集的數(shù)據(jù),包括設(shè)備的狀態(tài)數(shù)據(jù)、設(shè)備參數(shù)等,如數(shù)控系統(tǒng)、產(chǎn)線控制系統(tǒng)等。

(2)直接采集各類終端及傳感器的數(shù)據(jù),如溫度傳感器、振動傳感器、噪聲傳感器、手持終端等。

(3)從各類業(yè)務(wù)應(yīng)用信息系統(tǒng)中獲取數(shù)據(jù),如MES系統(tǒng)從PDM系統(tǒng)獲取BOM數(shù)據(jù),從ERP系統(tǒng)獲取訂單數(shù)據(jù)等。

(4)從各類業(yè)務(wù)運行過程中獲取的樣本數(shù)據(jù)集,是指以業(yè)務(wù)為中心,積累的歷史樣本數(shù)據(jù),可用于智能制造過程中模型的訓(xùn)練。

(5)指算法和模型數(shù)據(jù),是指機器學(xué)習(xí)、深度學(xué)習(xí)、強化學(xué)習(xí)等算法和已訓(xùn)練好的模型,用戶可以直接從業(yè)務(wù)數(shù)據(jù)系統(tǒng)中調(diào)用這些算法和模型數(shù)據(jù),用于制造大數(shù)據(jù)分析、預(yù)測、決策等。

(6)從互聯(lián)網(wǎng)獲取數(shù)據(jù),如獲取市場信息數(shù)據(jù)、環(huán)境數(shù)據(jù),上下游供應(yīng)商數(shù)據(jù)等。還包括來源于人類軌跡產(chǎn)生的數(shù)據(jù),包括在現(xiàn)代工業(yè)制造鏈中,從采購,生產(chǎn),物流與銷售市場的內(nèi)部流程等。通過行為軌跡數(shù)據(jù)與設(shè)備數(shù)據(jù)的結(jié)合,可以幫助我們實現(xiàn)客戶的分析和挖掘。

大數(shù)據(jù)時代的新理念

大數(shù)據(jù)時代的到來改變了人們的生活方式、思維模式和研究范式,也帶來了很多全新的理念。

(1)研究范式的新認識——從第三范式到第四范式:2007年,圖靈獎獲得者Jim Gray提出了科學(xué)研究的第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensive Scientific Discovery)。在他看來,人類科學(xué)研究活動已經(jīng)歷過3種不同范式的演變過程(原始社會的實驗科學(xué)范式、以模型和歸納為特征的理論科學(xué)范式和以模擬仿真為特征的計算科學(xué)范式),目前正在從計算科學(xué)范式轉(zhuǎn)向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式。第四范式,即數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式的主要特點是科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。

(2)數(shù)據(jù)重要性的新認識——從數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn):在大數(shù)據(jù)時代,數(shù)據(jù)不僅是一種資源,而更是一種重要的資產(chǎn)。因此,數(shù)據(jù)科學(xué)應(yīng)把數(shù)據(jù)當(dāng)作一種資產(chǎn)來管理,而不能僅僅當(dāng)作資源來對待。也就是說,與其他類型的資產(chǎn)相似,數(shù)據(jù)也具有財務(wù)價值,且需要作為獨立實體進行組織與管理。

(3)對方法論的新認識——從基于知識解決問題到基于數(shù)據(jù)解決問題:傳統(tǒng)方法論往往是基于知識的,即從大量實踐(數(shù)據(jù))中總結(jié)和提煉出一般性知識(定理、模式、模型、函數(shù)等)之后,用知識去解決(或解釋)問題。因此,傳統(tǒng)的問題解決思路是問題→知識→問題,即根據(jù)問題找知識,并用知識解決問題。然而,數(shù)據(jù)科學(xué)中興起了另一種方法論——問題→數(shù)據(jù)→問題,即根據(jù)問題找數(shù)據(jù),并直接用數(shù)據(jù)(不需要把數(shù)據(jù)轉(zhuǎn)換成知識的前提下)解決問題。

(4)對數(shù)據(jù)分析的新認識——從統(tǒng)計學(xué)到數(shù)據(jù)科學(xué):在傳統(tǒng)科學(xué)中,數(shù)據(jù)分析主要以數(shù)學(xué)和統(tǒng)計學(xué)為直接理論工具。但是,云計算等計算模式的出現(xiàn)以及大數(shù)據(jù)時代的到來,提升了人們對數(shù)據(jù)的獲取、存儲、計算與管理能力。在海量、動態(tài)、異構(gòu)的數(shù)據(jù)環(huán)境中,人們開始重視相關(guān)分析,而不僅僅是因果分析。人們更加關(guān)注的是數(shù)據(jù)計算的“效率”而不再盲目追求其精準度。

(5)對計算智能的新認識——從復(fù)雜算法到簡單算法:“只要擁有足夠多的數(shù)據(jù),我們可以變得更聰明”是大數(shù)據(jù)時代的一個新認識。因此,在大數(shù)據(jù)時代,原本復(fù)雜的智能問題變成簡單的數(shù)據(jù)問題——只要對大數(shù)據(jù)的進行簡單查詢就可以達到“基于復(fù)雜算法的智能計算的效果”。

(6)對數(shù)據(jù)管理重點的新認識——從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)業(yè)務(wù)化:在大數(shù)據(jù)時代,企業(yè)需要重視一個新的課題——數(shù)據(jù)業(yè)務(wù)化,即如何基于數(shù)據(jù)動態(tài)地定義、優(yōu)化和重組業(yè)務(wù)及其流程,進而提升業(yè)務(wù)的敏捷性,降低風(fēng)險和成本。

(7)對決策方式的新認識——從目標(biāo)驅(qū)動型決策到數(shù)據(jù)驅(qū)動型決策:傳統(tǒng)科學(xué)思維中,決策制定往往是目標(biāo)或模型驅(qū)動的——根據(jù)目標(biāo)(或模型)進行決策。在大數(shù)據(jù)時代出現(xiàn)了另一種思維模式,即數(shù)據(jù)驅(qū)動型決策,數(shù)據(jù)成為決策制定的主要觸發(fā)條件和重要依據(jù)。

(8)對產(chǎn)業(yè)競合關(guān)系的新認識——從以戰(zhàn)略為中心競合關(guān)系到以數(shù)據(jù)為中心競合關(guān)系:在大數(shù)據(jù)時代,企業(yè)之間的競合關(guān)系發(fā)生了變化,原本相互激烈競爭,甚至不愿合作的企業(yè),不得不開始合作,形成新的業(yè)態(tài)和產(chǎn)業(yè)鏈。

(9)對數(shù)據(jù)復(fù)雜性的新認識——從不接受到接受數(shù)據(jù)的復(fù)雜性:在傳統(tǒng)科學(xué)看來,數(shù)據(jù)需要徹底凈化和集成,計算目的是需要找出精確答案,其背后的哲學(xué)是“不接受數(shù)據(jù)的復(fù)雜性”。然而,大數(shù)據(jù)中更加強調(diào)的是數(shù)據(jù)的動態(tài)性、異構(gòu)性和跨域等復(fù)雜性——彈性計算、魯棒性、虛擬化和快速響應(yīng),開始把復(fù)雜性當(dāng)作數(shù)據(jù)的一個固有特征來對待,組織數(shù)據(jù)生態(tài)系統(tǒng)的管理目標(biāo)轉(zhuǎn)向?qū)⒔M織處于混沌邊緣狀態(tài)。

(10)對數(shù)據(jù)處理模式的新認識——從小眾參與到大眾協(xié)同:傳統(tǒng)科學(xué)中,數(shù)據(jù)的分析和挖掘都是基于專家經(jīng)驗,但在大數(shù)據(jù)時代,基于專家經(jīng)驗的創(chuàng)新工作成本和風(fēng)險越來越大,而基于專家-業(yè)余相結(jié)合(Pro-Am)的大規(guī)模協(xié)作日益受到重視,正成為解決數(shù)據(jù)規(guī)模與形式化之間矛盾的重要手段。

大數(shù)據(jù)時代的新術(shù)語

大數(shù)據(jù)時代的到來,為業(yè)務(wù)活動提出了一些新的任務(wù)和挑戰(zhàn),同時出現(xiàn)了很多全新術(shù)語。

(1)數(shù)據(jù)化(datafication):捕獲人們的生活與業(yè)務(wù)活動,并將其轉(zhuǎn)換為數(shù)據(jù)的過程。

(2)數(shù)據(jù)柔術(shù)(data jiu-jitsu):數(shù)據(jù)科學(xué)家將大數(shù)據(jù)轉(zhuǎn)換具有立即產(chǎn)生商業(yè)價值的數(shù)據(jù)產(chǎn)品(data product)的能力,如圖1所示。數(shù)據(jù)產(chǎn)品是指在零次數(shù)據(jù)或一次數(shù)據(jù)的基礎(chǔ)上,通過數(shù)據(jù)加工活動形成的二次或三次數(shù)據(jù),數(shù)據(jù)產(chǎn)品的特點包括:高層次性,其一般為二次數(shù)據(jù)或三次數(shù)據(jù);成品性,數(shù)據(jù)產(chǎn)品往往不需要(或不需要大量的)進一步處理即可直接應(yīng)用;商品性,數(shù)據(jù)產(chǎn)品可以直接用于銷售或交易;易于定價,相對于原始數(shù)據(jù),數(shù)據(jù)產(chǎn)品的定價更為容易。

de54c660-66ae-11ee-939d-92fbcf53809c.png ? ? 1數(shù)據(jù)柔術(shù)

(3)數(shù)據(jù)改寫(data munging):帶有一定的創(chuàng)造力和想象力的數(shù)據(jù)再加工行為,主要涉及數(shù)據(jù)的解析(parsing)、提煉(scraping)、格式化(formatting)和形式化(formalization)處理。與一般數(shù)據(jù)處理不同的是,數(shù)據(jù)再加工強調(diào)的是數(shù)據(jù)加工過程中的創(chuàng)造力和想象力。

(4)數(shù)據(jù)打磨(data wrangling):采用全手工或半自動化的方式,通過多次反復(fù)調(diào)整與優(yōu)化過程,即將原始數(shù)據(jù)轉(zhuǎn)換為一次數(shù)據(jù)(或二次數(shù)據(jù))的過程。其特殊性表現(xiàn)在不是完全自動化方式實現(xiàn),一般用手工或半自動化工具;不是一次即可完成,需要多次反復(fù)調(diào)整與優(yōu)化。

(5)數(shù)據(jù)分析式思維模式(data-analytic thinking):一種從數(shù)據(jù)視角分析問題,并基于數(shù)據(jù)來解決問題的思維模式。數(shù)據(jù)分析思維模式與傳統(tǒng)思維模式不同。前者,主要從數(shù)據(jù)入手,最終改變業(yè)務(wù);后者從業(yè)務(wù)或決策等要素入手,最終改變數(shù)據(jù)。從分析對象和目的看,數(shù)據(jù)分析可以分為3個不同層次,如圖2所示。

de687e80-66ae-11ee-939d-92fbcf53809c.png

2數(shù)據(jù)分析的層次

(6)描述性分析( descriptive analysis):采用數(shù)據(jù)統(tǒng)計中的描述統(tǒng)計量、數(shù)據(jù)可視化等方法描述數(shù)據(jù)的基本特征,如總和、均值、標(biāo)準差等。描述性分析可以實現(xiàn)從數(shù)據(jù)到信息的轉(zhuǎn)化。

(7)預(yù)測性分析(predictive analysis):通過因果分析、相關(guān)分析等方法,基于過去/當(dāng)前的數(shù)據(jù)得出潛在模式、共性規(guī)律或未來趨勢。預(yù)測性分析可以實現(xiàn)從信息到知識的轉(zhuǎn)化。

(8)規(guī)范性分析(normative analysis):不僅要利用當(dāng)前和過去的數(shù)據(jù),而且還會綜合考慮期望結(jié)果、所處環(huán)境、資源條件等更多影響因素,在對比分析所有可能方案的基礎(chǔ)上,提出可以直接用于決策的建議或方案。規(guī)范性分析可實現(xiàn)從知識到智慧的轉(zhuǎn)變。

(9)數(shù)據(jù)洞見(data insights):采用機器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計和數(shù)據(jù)可視化等方法從海量數(shù)據(jù)中找到人們并未發(fā)現(xiàn)的且有價值的信息的能力。數(shù)據(jù)科學(xué)強調(diào)的是數(shù)據(jù)洞見——發(fā)現(xiàn)數(shù)據(jù)背后的信息、知識和智慧以及找到“被淹沒在海量數(shù)據(jù)中的未知數(shù)據(jù)”。與數(shù)據(jù)挖掘不同的是,數(shù)據(jù)科學(xué)項目的成果可以直接用于決策支持。數(shù)據(jù)洞見力的高低主要取決于主體的數(shù)據(jù)意識、經(jīng)驗積累和分析處理能力。

(10)數(shù)據(jù)驅(qū)動(data-driven):是相對于決策驅(qū)動、目標(biāo)驅(qū)動、業(yè)務(wù)驅(qū)動和模型驅(qū)動的一種提法。數(shù)據(jù)驅(qū)動主要以數(shù)據(jù)為觸發(fā)器(出發(fā)點)、視角和依據(jù),進行觀測、控制、調(diào)整和整合其他要素——決策、目標(biāo)、業(yè)務(wù)和模型等,如圖3所示。數(shù)據(jù)驅(qū)動是大數(shù)據(jù)時代的一種重要思維模式,也是業(yè)務(wù)數(shù)據(jù)化之后實現(xiàn)數(shù)據(jù)業(yè)務(wù)化的關(guān)鍵所在。

de85f456-66ae-11ee-939d-92fbcf53809c.png

3常用的驅(qū)動方式

(11)數(shù)據(jù)密集型(data-intensive)應(yīng)用:是相對于計算密集型應(yīng)用、I/O密集型應(yīng)用的一種提法,如圖4所示。也就是說,數(shù)據(jù)密集型應(yīng)用中數(shù)據(jù)成為應(yīng)用系統(tǒng)研發(fā)的主要焦點和挑戰(zhàn)。通常,數(shù)據(jù)密集型應(yīng)用的計算比較容易,但數(shù)據(jù)具有顯著的復(fù)雜性(異構(gòu)、動態(tài)、跨域和海量等)和海量性。例如,當(dāng)對PB級復(fù)雜性數(shù)據(jù)進行簡單查詢時,計算不再是最主要的挑戰(zhàn),而最主要挑戰(zhàn)來自于數(shù)據(jù)本身的復(fù)雜性。

de9c58ae-66ae-11ee-939d-92fbcf53809c.png

4計算密集型應(yīng)用與數(shù)據(jù)密集型應(yīng)用的區(qū)別

(12)數(shù)據(jù)空間(data space):主體的數(shù)據(jù)空間——與主體相關(guān)的數(shù)據(jù)及其關(guān)系的集合。主體相關(guān)性和可控性是數(shù)據(jù)空間中數(shù)據(jù)項的基本屬性。

(13)關(guān)聯(lián)數(shù)據(jù)(linked data):一種數(shù)據(jù)發(fā)布和關(guān)聯(lián)的方法。其中,數(shù)據(jù)發(fā)布是指采用資源描述框架(resource definition framework,RDF)和超文本傳輸協(xié)議(hypertext transfer protocol,HTTP)技術(shù)在Web上發(fā)布結(jié)構(gòu)化信息;數(shù)據(jù)關(guān)聯(lián)是指采用RDF鏈接技術(shù)在不同數(shù)據(jù)源中的數(shù)據(jù)之間建立計算機可理解的互連關(guān)系。2006年, Tim Berners Lee首次提出了關(guān)聯(lián)數(shù)據(jù)的理念,目的在于不同資源之間建立計算機可理解的關(guān)聯(lián)信息,最終形成全球性大數(shù)據(jù)空間。Tim Berners Lee進一步明確提出了關(guān)聯(lián)數(shù)據(jù)技術(shù)中的數(shù)據(jù)發(fā)布和數(shù)據(jù)關(guān)聯(lián)的4項原則:采用統(tǒng)一資源標(biāo)識符(uniform resource identifier, URI)技術(shù)統(tǒng)一標(biāo)識事物;通過HTTP URI訪問URI標(biāo)識;當(dāng)URI被訪問時,采用RDF和SPARQL(Simple Protocol and RDF Query Language)標(biāo)準,提供有用信息;提供信息時,也提供指向其他事物的URI,以便發(fā)現(xiàn)更多事物。

除了上述概念之外,還有數(shù)據(jù)消減(data reduction)、數(shù)據(jù)新聞(data journalism)、數(shù)據(jù)的開放獲取(open access)、數(shù)據(jù)質(zhì)量、特征提取等傳統(tǒng)概念也重新備受關(guān)注。

deaba5b6-66ae-11ee-939d-92fbcf53809c.png

大數(shù)據(jù)生命周期管理

在大數(shù)據(jù)平臺下,預(yù)處理的數(shù)據(jù)量非常大,而處理后的有效數(shù)據(jù)量往往比較小,因此,數(shù)據(jù)的生命周期管理顯得非常重要。數(shù)據(jù)生命周期管理(data life-cycle management,DLM)是一種基于策略的方法,用于管理信息系統(tǒng)的數(shù)據(jù)在整個生命周期內(nèi)的流動:從創(chuàng)建和初始存儲,到它過時被刪除。(圖5)

dec5e552-66ae-11ee-939d-92fbcf53809c.png

5大數(shù)據(jù)生命周期管理概述圖

DLM產(chǎn)品將涉及的過程自動化,通常根據(jù)指定的策略將數(shù)據(jù)組織成各個不同的層,并基于那些關(guān)鍵條件自動地將數(shù)據(jù)從一個層移動到另一個層。作為一項規(guī)則,較新的數(shù)據(jù)和那些很可能被更加頻繁訪問的數(shù)據(jù),應(yīng)該存儲在更快的,并且更昂貴的存儲媒介上,而那些不是很重要的數(shù)據(jù)則存儲在比較便宜的,稍微慢些的媒介上。數(shù)據(jù)生命周期管理的總體原則在數(shù)據(jù)的整個生命周期中,不同階段的數(shù)據(jù)其性能、可用性、保存等要求也不一樣。通常情況下,在其生命周期初期,數(shù)據(jù)的使用頻率較高,需要使用高速存儲,確保數(shù)據(jù)的高可用性。隨著時間的推移,數(shù)據(jù)重要性會逐漸降低,使用頻率會隨之下降,應(yīng)將數(shù)據(jù)進行不同級別的存儲,為其提供適當(dāng)?shù)目捎眯?、存儲空間,以降低管理成本和資源開銷。最終大部分數(shù)據(jù)將不再會被使用,可以將數(shù)據(jù)清理后歸檔保存,以備臨時需要時使用。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    6713

    瀏覽量

    88303
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8805

    瀏覽量

    136991

原文標(biāo)題:數(shù)據(jù)的基本概念!

文章出處:【微信號:數(shù)字化企業(yè),微信公眾號:數(shù)字化企業(yè)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    socket的基本概念和原理

    的通信。它是一個抽象的概念,用于表示網(wǎng)絡(luò)中的一個通信實體。在計算機網(wǎng)絡(luò)中,Socket允許應(yīng)用程序通過網(wǎng)絡(luò)發(fā)送和接收數(shù)據(jù)。Socket的概念最早由UNIX操作系統(tǒng)引入,后來被廣泛應(yīng)用于各種操作系統(tǒng)和編程語言中。 2. Socke
    的頭像 發(fā)表于 08-16 10:51 ?455次閱讀

    探秘IO分布式模塊設(shè)計:讓大數(shù)據(jù)處理更高效

    隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)、云計算、人工智能等技術(shù)逐漸成為時代的主流。在這個數(shù)據(jù)爆炸的時代,如何高效地處理海量數(shù)據(jù)成為企業(yè)面臨的重大挑戰(zhàn)。
    的頭像 發(fā)表于 07-26 13:54 ?450次閱讀
    探秘IO分布式模塊設(shè)計:讓<b class='flag-5'>大數(shù)據(jù)</b>處理更高效

    八路數(shù)據(jù)分配器的基本概念及工作原理

    八路數(shù)據(jù)分配器是一種常見的電子設(shè)備,用于將一個輸入信號分配到多個輸出端。在本文中,我們將詳細介紹八路數(shù)據(jù)分配器的基本概念、工作原理、應(yīng)用場景以及設(shè)計方法。 一、八路數(shù)據(jù)分配器的
    的頭像 發(fā)表于 07-10 10:40 ?492次閱讀

    循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念

    循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念、循環(huán)機制、長短時記憶網(wǎng)絡(luò)(LSTM)、門控循環(huán)單元(GRU)等方面進行介紹。 循環(huán)神經(jīng)網(wǎng)絡(luò)的基本概念 循環(huán)神經(jīng)網(wǎng)絡(luò)是一種時間序列模型,其基本思想是將序列數(shù)據(jù)中的每個元素(例如,單詞、時間點等)作為輸入,通
    的頭像 發(fā)表于 07-04 14:31 ?369次閱讀

    串口通信的基本概念

    串口通信(Serial Communications)的基本概念可以歸納為以下幾個方面:
    的頭像 發(fā)表于 06-12 09:28 ?380次閱讀
    串口通信的<b class='flag-5'>基本概念</b>

    分布式存儲與計算:大數(shù)據(jù)時代的解決方案

    分布式存儲和計算技術(shù)應(yīng)運而生,并迅速成為處理大數(shù)據(jù)的首選方案。本文將深入探討分布式存儲和計算的概念、優(yōu)勢及其在各個領(lǐng)域的應(yīng)用情況。 1.分布式存儲和計算的概念與優(yōu)勢 分布式存儲系統(tǒng)將數(shù)據(jù)
    的頭像 發(fā)表于 03-07 14:42 ?565次閱讀

    淺析大數(shù)據(jù)時代下的數(shù)據(jù)中心運維管理

    淺析大數(shù)據(jù)時代下的數(shù)據(jù)中心運維管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數(shù)據(jù)中心運維管理的角度,聯(lián)系現(xiàn)實情況,對運維管理進行研究,期望通過本項目的研究,
    的頭像 發(fā)表于 02-22 14:40 ?245次閱讀
    淺析<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>時代</b>下的<b class='flag-5'>數(shù)據(jù)</b>中心運維管理

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重要作用。本文將詳細介紹大數(shù)據(jù)技術(shù)的
    的頭像 發(fā)表于 01-31 11:07 ?2343次閱讀

    GPU:大數(shù)據(jù)時代的強力引擎

    現(xiàn)如今,我們正身處于數(shù)據(jù)爆炸的時代,大規(guī)模的數(shù)據(jù)正在重新定義著科技和商業(yè)的規(guī)則。GPU(GraphicsProcessingUnit,圖形處理單元)技術(shù)已經(jīng)成為科技創(chuàng)新的關(guān)鍵利器,極大地提高了系統(tǒng)
    的頭像 發(fā)表于 01-04 08:27 ?608次閱讀
    GPU:<b class='flag-5'>大數(shù)據(jù)</b><b class='flag-5'>時代</b>的強力引擎

    接地裝置的基本概念

    接地裝置的基本概念
    的頭像 發(fā)表于 12-05 15:49 ?452次閱讀
    接地裝置的<b class='flag-5'>基本概念</b>

    ros的基本概念是什么

    基本概念: ROS是一個用于在不同進程間匿名的發(fā)布、訂閱、傳遞信息的中間件。 ROS2系統(tǒng)的核心部分是ROS網(wǎng)絡(luò)(ROS Graph)。 ROS網(wǎng)絡(luò)是指在ROS系統(tǒng)中不同的節(jié)點間相互通信的連接
    的頭像 發(fā)表于 11-27 11:21 ?1568次閱讀

    MMU相關(guān)的基本概念

    1-MMU相關(guān)的基本概念 (1)虛擬地址相關(guān)基本概念 ? 虛擬內(nèi)存(Virtual Memory,VM):為每個進程提供了一致的、連續(xù)的、私有的內(nèi)存空間,簡化了內(nèi)存管理。將主存看成是一個存儲在磁盤
    的頭像 發(fā)表于 11-26 16:11 ?557次閱讀

    C語言的基本概念和編程技術(shù)

    電子發(fā)燒友網(wǎng)站提供《C語言的基本概念和編程技術(shù).pdf》資料免費下載
    發(fā)表于 11-20 10:18 ?0次下載
    C語言的<b class='flag-5'>基本概念</b>和編程技術(shù)

    OFDM的基本原理和PAPR的基本概念

    電子發(fā)燒友網(wǎng)站提供《OFDM的基本原理和PAPR的基本概念.pdf》資料免費下載
    發(fā)表于 10-25 09:57 ?0次下載
    OFDM的基本原理和PAPR的<b class='flag-5'>基本概念</b>

    天線的幾個基本概念

    電子發(fā)燒友網(wǎng)站提供《天線的幾個基本概念.ppt》資料免費下載
    發(fā)表于 10-07 16:17 ?1次下載
    天線的幾個<b class='flag-5'>基本概念</b>