Ramesh Dontha 曾在 DataConomy 上連發(fā)兩篇文章,扼要而全面地介紹了關(guān)于大數(shù)據(jù)的 75 個(gè)核心術(shù)語(yǔ),這不僅是大數(shù)據(jù)初學(xué)者很好的入門資料,對(duì)于高階從業(yè)人員也可以起到查漏補(bǔ)缺的作用。本文為上篇(25 個(gè)術(shù)語(yǔ))。
如果你剛接觸大數(shù)據(jù),你可能會(huì)覺(jué)得這個(gè)領(lǐng)域很難以理解,無(wú)從下手。不過(guò),你可以從下面這份包含了 25 個(gè)大數(shù)據(jù)術(shù)語(yǔ)的清單入手,那么我們開(kāi)始吧。
算法(Algorithm):
算法可以理解成一種數(shù)學(xué)公式或用于進(jìn)行數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)過(guò)程。那么,“算法”又是何以與大數(shù)據(jù)扯上關(guān)系的呢?要知道,盡管算法這個(gè)詞是一個(gè)統(tǒng)稱,但是在這個(gè)流行大數(shù)據(jù)分析的時(shí)代,算法也經(jīng)常被提及且變得越發(fā)流行。
分析(Analytics):
讓我們?cè)囅胍粋€(gè)很可能發(fā)生的情況,你的信用卡公司給你發(fā)了封記錄著你全年卡內(nèi)資金轉(zhuǎn)賬情況的郵件,如果這個(gè)時(shí)候你拿著這張單子,開(kāi)始認(rèn)真研究你在食品、衣物、娛樂(lè)等方面消費(fèi)情況的百分比會(huì)怎樣?你正在進(jìn)行分析工作,你在從你原始的數(shù)據(jù)(這些數(shù)據(jù)可以幫助你為來(lái)年自己的消費(fèi)情況作出決定)中挖掘有用的信息。
那么,如果你以類似的方法在推特和臉書(shū)上對(duì)整個(gè)城市人們發(fā)的帖子進(jìn)行處理會(huì)如何呢?在這種情況下,我們就可以稱之為大數(shù)據(jù)分析。所謂大數(shù)據(jù)分析,就是對(duì)大量數(shù)據(jù)進(jìn)行推理并從中道出有用的信息。以下有三種不同類型的分析方法,現(xiàn)在我們來(lái)對(duì)它們分別進(jìn)行梳理。
描述性分析法(Descriptive Analytics):
如果你只說(shuō)出自己去年信用卡消費(fèi)情況為:食品方面 25%、衣物方面 35%、娛樂(lè)方面 20%、剩下 20% 為雜項(xiàng)開(kāi)支,那么這種分析方法被稱為描述性分析法。當(dāng)然,你也可以找出更多細(xì)節(jié)。
預(yù)測(cè)性分析法(Predictive Analytics):
如果你對(duì)過(guò)去 5 年信用卡消費(fèi)的歷史進(jìn)行了分析,發(fā)現(xiàn)每年的消費(fèi)情況基本上呈現(xiàn)一個(gè)連續(xù)變化的趨勢(shì),那么在這種情況下你就可以高概率預(yù)測(cè)出:來(lái)年的消費(fèi)狀態(tài)應(yīng)該和以往是類似的。這不是說(shuō)我們?cè)陬A(yù)測(cè)未來(lái),而是應(yīng)該理解為,我們?cè)凇坝酶怕暑A(yù)測(cè)”可能發(fā)生什么事情。在大數(shù)據(jù)的預(yù)測(cè)分析中,數(shù)據(jù)科學(xué)家可能會(huì)使用先進(jìn)的技術(shù),如機(jī)器學(xué)習(xí),和先進(jìn)的統(tǒng)計(jì)學(xué)處理方法(這部分后面我們會(huì)談到)來(lái)預(yù)測(cè)天氣情況、經(jīng)濟(jì)變化等等。
規(guī)范性分析(Prescriptive Analytics):
這里我們還是用信用卡轉(zhuǎn)賬的例子來(lái)理解。假如你想找出自己的哪類消費(fèi)(如食品、娛樂(lè)、衣物等等)可以對(duì)整體消費(fèi)產(chǎn)生巨大影響,那么基于預(yù)測(cè)性分析(Predictive Analytics)的規(guī)范性分析法通過(guò)引入“動(dòng)態(tài)指標(biāo)(action)”(如減少食品或衣物或娛樂(lè))以及對(duì)由此產(chǎn)生的結(jié)果進(jìn)行分析來(lái)規(guī)定一個(gè)可以降低你整體開(kāi)銷的最佳消費(fèi)項(xiàng)。你可以將它延伸到大數(shù)據(jù)領(lǐng)域,并想象一個(gè)負(fù)責(zé)人是如何通過(guò)觀察他面前多種動(dòng)態(tài)指標(biāo)的影響,進(jìn)而作出所謂由“數(shù)據(jù)驅(qū)動(dòng)”的決策的。
批處理(Batch processing):
盡管批量數(shù)據(jù)處理從大型機(jī)(mainframe)時(shí)代就已經(jīng)存在了,但是在處理大量數(shù)據(jù)的大數(shù)據(jù)時(shí)代面前,批處理獲得了更重要的意義。批量數(shù)據(jù)處理是一種處理大量數(shù)據(jù)(如在一段時(shí)間內(nèi)收集到的一堆交易數(shù)據(jù))的有效方法。分布式計(jì)算(Hadoop),后面會(huì)討論,就是一種專門處理批量數(shù)據(jù)的方法。
Cassandra:
是一個(gè)很流行的開(kāi)源數(shù)據(jù)管理系統(tǒng),由 Apache Software Foundation 開(kāi)發(fā)并運(yùn)營(yíng)。Apache 掌握了很多大數(shù)據(jù)處理技術(shù),Cassandra 就是他們專門設(shè)計(jì)用于在分布式服務(wù)器之間處理大量數(shù)據(jù)的系統(tǒng)。
云計(jì)算(Cloud computing):
雖然云計(jì)算這個(gè)詞現(xiàn)在已經(jīng)家喻戶曉,這里大可不必贅述,但是為了全篇內(nèi)容完整性的考慮,筆者還是在這里加入了云計(jì)算詞條。本質(zhì)上講,軟件或數(shù)據(jù)在遠(yuǎn)程服務(wù)器上進(jìn)行處理,并且這些資源可以在網(wǎng)絡(luò)上任何地方被訪問(wèn),那么它就可被稱為云計(jì)算。
集群計(jì)算(Cluster computing):
這是一個(gè)來(lái)描述使用多個(gè)服務(wù)器豐富資源的一個(gè)集群(cluster)的計(jì)算的形象化術(shù)語(yǔ)。更技術(shù)層面的理解是,在集群處理的語(yǔ)境下,我們可能會(huì)討論節(jié)點(diǎn)(node)、集群管理層(cluster management layer)、負(fù)載平衡(load balancing)和并行處理(parallel processing)等等。
暗數(shù)據(jù)(Dark data):
這是一個(gè)生造詞,在筆者看來(lái),它是用來(lái)嚇唬人,讓高級(jí)管理聽(tīng)上去晦澀難懂的。基本而言,所謂暗數(shù)據(jù)指的是,那些公司積累和處理的實(shí)際上完全用不到的所有數(shù)據(jù),從這個(gè)意義上來(lái)說(shuō)我們稱它們?yōu)椤鞍怠钡臄?shù)據(jù),它們有可能根本不會(huì)被分析。這些數(shù)據(jù)可以是社交網(wǎng)絡(luò)中的信息,電話中心的記錄,會(huì)議記錄等等。很多估計(jì)認(rèn)為所有公司的數(shù)據(jù)中有 60% 到 90% 不等可能是暗數(shù)據(jù),但實(shí)際上沒(méi)人知道。
數(shù)據(jù)湖(Data lake):
當(dāng)筆者第一次聽(tīng)到這個(gè)詞時(shí),真的以為這是個(gè)愚人節(jié)笑話。但是它真的是一個(gè)術(shù)語(yǔ)。所以一個(gè)數(shù)據(jù)湖(data lake)即一個(gè)以大量原始格式保存了公司級(jí)別的數(shù)據(jù)知識(shí)庫(kù)。這里我們介紹一下數(shù)據(jù)倉(cāng)庫(kù)(Data warehouse)。數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)與這里提到的數(shù)據(jù)湖類似的概念,但不同的是,它保存的是經(jīng)過(guò)清理和并且其它資源整合后的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)經(jīng)常被用于通用數(shù)據(jù)(但不一定如此)。一般認(rèn)為,一個(gè)數(shù)據(jù)湖可以讓人更方便地接觸到那些你真正需要的數(shù)據(jù),此外,你也可以更方便地處理、有效地使用它們。
數(shù)據(jù)挖掘(Data mining):
數(shù)據(jù)挖掘關(guān)乎如下過(guò)程,從一大群數(shù)據(jù)中以復(fù)雜的模式識(shí)別技巧找出有意義的模式,并且得到相關(guān)洞見(jiàn)。它與前文所述的“分析”息息相關(guān),在數(shù)據(jù)挖掘中,你將會(huì)先對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)這些得到的結(jié)果進(jìn)行分析。為了得到有意義的模式(pattern),數(shù)據(jù)挖掘人員會(huì)使用到統(tǒng)計(jì)學(xué)(一種經(jīng)典的舊方法)、機(jī)器學(xué)習(xí)算法和人工智能。
數(shù)據(jù)科學(xué)家:
數(shù)據(jù)科學(xué)家是時(shí)下非常性感的一門行業(yè)。它指那些可以通過(guò)提取原始數(shù)據(jù)(這就是我們前面所謂的數(shù)據(jù)湖)進(jìn)而理解、處理并得出洞見(jiàn)的這樣一批人。部分?jǐn)?shù)據(jù)科學(xué)家必備的技能可以說(shuō)只有超人才有:分析能力、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、創(chuàng)造力、講故事能力以及理解商業(yè)背景的能力。難怪這幫人工資很高。
分布式文件系統(tǒng)(Distributed File System):
大數(shù)據(jù)數(shù)量太大,不能存儲(chǔ)在一個(gè)單獨(dú)的系統(tǒng)中,分布式文件系統(tǒng)是一個(gè)能夠把大量數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)設(shè)備上的文件系統(tǒng),它能夠減少存儲(chǔ)大量數(shù)據(jù)的成本和復(fù)雜度。
ETL:
ETL 代表提取、轉(zhuǎn)換和加載。它指的是這一個(gè)過(guò)程:“提取”原始數(shù)據(jù),通過(guò)清洗/豐富的手段,把數(shù)據(jù)“轉(zhuǎn)換”為“適合使用”的形式,并且將其“加載”到合適的庫(kù)中供系統(tǒng)使用。即使 ETL 源自數(shù)據(jù)倉(cāng)庫(kù),但是這個(gè)過(guò)程在獲取數(shù)據(jù)的時(shí)候也在被使用,例如,在大數(shù)據(jù)系統(tǒng)中從外部源獲得數(shù)據(jù)。
Hadoop:
當(dāng)人們思考大數(shù)據(jù)的時(shí)候,他們會(huì)立即想到 Hadoop。Hadoop 是一個(gè)開(kāi)源軟件架構(gòu)(logo 是一頭可愛(ài)的大象),它由 Hadoop 分布式文件系統(tǒng)(HDFS)構(gòu)成,它允許使用分布式硬件對(duì)大數(shù)據(jù)進(jìn)行存儲(chǔ)、抽象和分析。如果你真的想讓某人對(duì)這個(gè)東西印象深刻,你可以跟他說(shuō) YARN(Yet Another Resource Scheduler),顧名思義,就是另一個(gè)資源調(diào)度器。我確實(shí)被提出這些名字的人深深震撼了。提出 Hadoop 的 Apache 基金會(huì),還負(fù)責(zé) Pig、Hive 以及 Spark(這都是一些軟件的名字)。你沒(méi)有被這些名字驚艷到嗎?
內(nèi)存計(jì)算(In-memory computing):
通常認(rèn)為,任何不涉及到 I/O 訪問(wèn)的計(jì)算都會(huì)更快一些。內(nèi)存計(jì)算就是這樣的技術(shù),它把所有的工作數(shù)據(jù)集都移動(dòng)到集群的集體內(nèi)存中,避免了在計(jì)算過(guò)程中向磁盤(pán)寫(xiě)入中間結(jié)果。Apache Spark 就是一個(gè)內(nèi)存計(jì)算的系統(tǒng),它相對(duì) Mapreduce 這類 I/O 綁定的系統(tǒng)具有很大的優(yōu)勢(shì)。
最新的流行語(yǔ)就是物聯(lián)網(wǎng)(IoT)。IoT 是嵌入式對(duì)象中(如傳感器、可穿戴設(shè)備、車、冰箱等等)的計(jì)算設(shè)備通過(guò)英特網(wǎng)的互聯(lián),它們能夠收發(fā)數(shù)據(jù)。物聯(lián)網(wǎng)生成了海量的數(shù)據(jù),帶來(lái)了很多大數(shù)據(jù)分析的機(jī)遇。
機(jī)器學(xué)習(xí)(Machine Learning):
機(jī)器學(xué)習(xí)是基于喂入的數(shù)據(jù)去設(shè)計(jì)能夠?qū)W習(xí)、調(diào)整和提升的系統(tǒng)的一種方法。使用設(shè)定的預(yù)測(cè)和統(tǒng)計(jì)算法,它們持續(xù)地逼近“正確的”行為和想法,隨著更多的數(shù)據(jù)被輸入到系統(tǒng),它們能夠進(jìn)一步提升。
MapReduce:
MapReduce 可能有點(diǎn)難以理解,我試著解釋一下吧。MapReduceMapReduce 是一個(gè)編程模型,最好的理解就是要注意到 Map 和 Reduce 是兩個(gè)不同的過(guò)程。在 MapReduce 中,程序模型首先將大數(shù)據(jù)集分割成一些小塊(這些小塊拿技術(shù)術(shù)語(yǔ)來(lái)講叫做“元組”,但是我描述的時(shí)候會(huì)盡量避免晦澀的技術(shù)術(shù)語(yǔ))。
然后這些小塊會(huì)被分發(fā)給不同位置上的不同計(jì)算機(jī)(也就是說(shuō)之前描述過(guò)的集群),這在 Map 過(guò)程是必須的。然后模型會(huì)收集每個(gè)計(jì)算結(jié)果,并且將它們“reduce”成一個(gè)部分。MapReduce 的數(shù)據(jù)處理模型和 Hadoop 分布式文件系統(tǒng)是分不開(kāi)的。
非關(guān)系型數(shù)據(jù)庫(kù)(NoSQL):
這個(gè)詞聽(tīng)起來(lái)幾乎就是“SQL,結(jié)構(gòu)化查詢語(yǔ)言”的反義詞,SQL 是傳統(tǒng)的關(guān)系型數(shù)據(jù)管理系統(tǒng)(RDBMS)必需的,但是 NOSQL 實(shí)際上指的是“不止 SQL”。NoSQL 實(shí)際上指的是那些被設(shè)計(jì)來(lái)處理沒(méi)有結(jié)構(gòu)(或者沒(méi)有“schema”,綱要)的大量數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)。NoSQL 適合大數(shù)據(jù)系統(tǒng),因?yàn)榇笠?guī)模的非結(jié)構(gòu)化數(shù)據(jù)庫(kù)需要 NoSQL 的這種靈活性和分布式優(yōu)先的特點(diǎn)。
R 語(yǔ)言:
這還有人能給一個(gè)編程語(yǔ)言起一個(gè)更加糟糕的名字嗎?R 語(yǔ)言就是這樣的語(yǔ)言。不過(guò),R 語(yǔ)言是一個(gè)在統(tǒng)計(jì)工作中工作得很好的語(yǔ)言。如果你不知道 R 語(yǔ)言,別說(shuō)你是數(shù)據(jù)科學(xué)家。因?yàn)?R 語(yǔ)言是數(shù)據(jù)科學(xué)中最流行的編程語(yǔ)言之一。
Spark(Apache Spark):
Apache Spark 是一個(gè)快速的內(nèi)存數(shù)據(jù)處理引擎,它能夠有效地執(zhí)行那些需要迭代訪問(wèn)數(shù)據(jù)庫(kù)的流處理、機(jī)器學(xué)習(xí)以及 SQL 負(fù)載。Spark 通常會(huì)比我們前面討論過(guò)的 MapReduce 快好多。
流處理(Stream processing):
流處理被設(shè)計(jì)來(lái)用于持續(xù)地進(jìn)行流數(shù)據(jù)的處理。與流分析技術(shù)(指的是能夠持續(xù)地計(jì)算數(shù)值和統(tǒng)計(jì)分析的能力)結(jié)合起來(lái),流處理方法特別能夠針對(duì)大規(guī)模數(shù)據(jù)的實(shí)時(shí)處理。
結(jié)構(gòu)化 vs 非結(jié)構(gòu)化數(shù)據(jù)(Structured v Unstructured Data):
這是大數(shù)據(jù)中的對(duì)比之一。結(jié)構(gòu)化數(shù)據(jù)基本上是那些能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的任何數(shù)據(jù),以這種方式組織的數(shù)據(jù)可以與其他數(shù)據(jù)通過(guò)表格來(lái)關(guān)聯(lián)。非結(jié)構(gòu)化數(shù)據(jù)是指任何不能夠被放在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù),例如郵件信息、社交媒體上的狀態(tài),以及人類語(yǔ)音等等。
編輯:jq
-
云計(jì)算
+關(guān)注
關(guān)注
39文章
7704瀏覽量
137119 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2901文章
44084瀏覽量
370294 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
內(nèi)存計(jì)算
+關(guān)注
關(guān)注
1文章
15瀏覽量
12143
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論