0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

AWS數(shù)據(jù)湖怎么脫穎而出的

汽車玩家 ? 來源:大數(shù)據(jù)在線 ? 作者:大數(shù)據(jù)在線 ? 2020-04-12 19:34 ? 次閱讀

數(shù)據(jù)湖,是一個并不新穎卻越來越被用戶看重的名詞。

從2010年P(guān)entaho公司的創(chuàng)始人兼首席技術(shù)官詹姆斯·狄克遜(James Dixon)首次提出數(shù)據(jù)湖的概念開始,數(shù)據(jù)湖十年發(fā)展之路可謂是兜兜轉(zhuǎn)轉(zhuǎn)、起起伏伏。在這期間,既有開源廠商們提出的各種營銷理念,也有傳統(tǒng)存儲廠商打造的各類解決方案,更有業(yè)界對于數(shù)據(jù)湖帶來的數(shù)據(jù)沼澤、數(shù)據(jù)價值探索等問題的深入思考。

時至如今,數(shù)據(jù)湖雖然經(jīng)歷了各種各樣的“挫折”,但是數(shù)據(jù)湖在數(shù)字化時代給用戶帶來的價值已經(jīng)愈發(fā)清晰。而率先幫助用戶走出數(shù)據(jù)湖價值落地之路的,不是開源廠商,也不是傳統(tǒng)存儲廠商,恰恰是以AWS為代表的云服務(wù)提供商們。

這背后有何緣由?這一切還得從數(shù)據(jù)湖的本質(zhì)談起。

數(shù)據(jù)湖的價值凸顯

維基百科對于數(shù)據(jù)湖的定義是:“Data Lake是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。它按原樣存儲數(shù)據(jù),而無需事先對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。一個數(shù)據(jù)湖可以存儲結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及二進(jìn)制數(shù)據(jù)等?!?/p>

數(shù)據(jù)湖最大的價值在于可以幫助用戶梳理清楚從數(shù)據(jù)存儲、數(shù)據(jù)匯聚到數(shù)據(jù)挖掘這些過程。比如,相比于數(shù)據(jù)倉庫對于數(shù)據(jù)協(xié)作有規(guī)則限制,數(shù)據(jù)湖對于數(shù)據(jù)寫入沒有限制,可以更容易的收集數(shù)據(jù);數(shù)據(jù)湖可以匯聚來自各種數(shù)據(jù)源的數(shù)據(jù),并進(jìn)行數(shù)據(jù)拉通,從而消除數(shù)據(jù)孤島的問題;而數(shù)據(jù)湖中存放著最原始的數(shù)據(jù)則更加有利于數(shù)據(jù)價值的挖掘。

千萬不要小看數(shù)據(jù)湖所能完成的這些數(shù)據(jù)處理過程。這些都是用戶們在數(shù)字化時代發(fā)揮數(shù)據(jù)價值所必不可少的基礎(chǔ)。時至今日,數(shù)據(jù)其實已經(jīng)成為數(shù)字化時代的一種最為重要的生產(chǎn)資料,數(shù)據(jù)正在加速重塑企業(yè)與組織的生產(chǎn)、經(jīng)營、銷售、服務(wù)等流程,就如AWS首席云計算企業(yè)戰(zhàn)略顧問張俠所指出的:“在當(dāng)今企業(yè)中,數(shù)據(jù)流就是企業(yè)的血液流,企業(yè)的數(shù)字化轉(zhuǎn)型很重要的一個方向就是把數(shù)字化的資產(chǎn)好好利用起來?!?/p>

數(shù)據(jù)湖成為大勢所趨

與此同時,數(shù)據(jù)湖在過去十年并不缺乏產(chǎn)品與解決方案,為何數(shù)據(jù)湖失敗的案例依然不少,為何又是以AWS為代表的云服務(wù)提供商們率先走在數(shù)據(jù)湖解決方案落地的最前沿?

事實上,作為很早推動數(shù)據(jù)湖服務(wù)的公司,AWS的數(shù)據(jù)湖解決方案成功并不是偶然。首先,Amazon作為全球最大的互聯(lián)網(wǎng)公司之一,其數(shù)據(jù)規(guī)模、數(shù)據(jù)復(fù)雜度、數(shù)據(jù)處理難度、數(shù)據(jù)價值挖掘在業(yè)界無出其右,由于背靠Amazon,AWS數(shù)據(jù)湖解決方案天然就得到了不斷的歷練,比如Amazon內(nèi)部一個數(shù)據(jù)湖部署--Galaxy,就存儲了超過50PB的數(shù)據(jù)量,每天進(jìn)行著多達(dá)60萬的數(shù)據(jù)分析任務(wù)。

其次,AWS數(shù)據(jù)湖在產(chǎn)品技術(shù)層面進(jìn)行了持續(xù)的提升與完善,其產(chǎn)品組合的成熟度和豐富程度走在了業(yè)界的前列。舉個例子,大部分?jǐn)?shù)據(jù)湖解決方案都是基于開源Hadoop的,但之前Hadoop集群的計算和存儲緊耦合架構(gòu),使得數(shù)據(jù)湖架構(gòu)的擴(kuò)展成本高、效率低;而AWS在構(gòu)建數(shù)據(jù)湖解決方案時候,很重要的一個選擇就是讓計算與存儲分離,在存儲上采用S3對象存儲服務(wù),從而讓數(shù)據(jù)湖解決方案可以更好地應(yīng)用在用戶業(yè)務(wù)領(lǐng)域。

另外,AWS作為云計算市場的龍頭,其公有云的環(huán)境也有利于數(shù)據(jù)湖解決方案的部署,在過去十年中為多個不同行業(yè)、不同規(guī)模的用戶提供相關(guān)的數(shù)據(jù)湖服務(wù),積累了豐富的用戶實踐經(jīng)驗。

在產(chǎn)品、解決方案以及用戶實踐上的領(lǐng)先其實就是AWS在數(shù)據(jù)湖領(lǐng)域脫穎而出的秘訣所在。

十年之后,AWS描繪出數(shù)據(jù)湖全景圖

從十年前的概念到如今被越來越多行業(yè)用戶所認(rèn)同和采用,數(shù)據(jù)湖如今不再只是一個名詞,它更代表著一種進(jìn)化,它是過去十年數(shù)字化驅(qū)動下,用戶在數(shù)據(jù)層面的需求、技術(shù)、產(chǎn)品不斷進(jìn)化的一個縮影。

過去十年移動化、社交化帶來了數(shù)據(jù)指數(shù)級增長、數(shù)據(jù)來源廣泛化、數(shù)據(jù)類型多元化,而像5G物聯(lián)網(wǎng)、邊緣計算的興起,只會加劇數(shù)據(jù)應(yīng)用的趨勢,并且會讓現(xiàn)代數(shù)據(jù)應(yīng)用的復(fù)雜性進(jìn)一步提升,這恰恰反映出用戶過去十年對數(shù)據(jù)應(yīng)用的需求不斷驅(qū)動著數(shù)據(jù)湖走向落地。

在技術(shù)層面來看,云計算、大數(shù)據(jù)以及人工智能具備天然融合在一起的屬性,云計算無疑是過去十年對整個IT產(chǎn)業(yè)界帶來最大變革的技術(shù),它的彈性、靈活為數(shù)據(jù)湖帶來了堅實的基礎(chǔ);而人工智能在過去幾年取得突破性的發(fā)展,使之成為驅(qū)動數(shù)據(jù)湖發(fā)展的最大驅(qū)動力之一。

而過去十年也是數(shù)據(jù)湖產(chǎn)品與解決方案不斷走向成熟的十年。像AWS這樣的供應(yīng)商已經(jīng)逐步打造出非常全面與完善的數(shù)據(jù)湖解決方案,可以涵蓋從數(shù)據(jù)收集、匯聚到分析、應(yīng)用、可視化等方方面面?!皵?shù)據(jù)湖從2014年進(jìn)入了發(fā)展的第二個階段。以AWS為例,圍繞數(shù)據(jù)湖相關(guān)的技術(shù)、產(chǎn)品已經(jīng)基本成熟?!睆垈b如是說。

根據(jù)介紹,AWS數(shù)據(jù)湖平臺包括了數(shù)據(jù)倉庫、大數(shù)據(jù)處理、交互查詢、運營分析、數(shù)據(jù)交換、可視化、實時分析、推薦、預(yù)測分析。事實上,AWS這種全面的數(shù)據(jù)湖生態(tài)完整覆蓋了數(shù)據(jù)湖的數(shù)據(jù)收集、存儲、分析、應(yīng)用四個階段,并且這些產(chǎn)品、工具以及服務(wù)彼此之間并不是孤立的,互相配合可以達(dá)到更加出色效果,快速、便捷地幫助用戶構(gòu)建起數(shù)據(jù)湖相關(guān)應(yīng)用。

AWS擁有涵蓋全面的數(shù)據(jù)分析組件

在AWS 數(shù)據(jù)湖平臺中有很多非常出色的組件,可以幫助用戶解決數(shù)據(jù)湖中典型的挑戰(zhàn)。比如,Amazon EMR大數(shù)據(jù)處理組件,可以在AWS上輕松運行Spark、Hadoop、Hive等大數(shù)據(jù)分析。EMR解決了開源生態(tài)集群部署與維護(hù)升級繁雜的痛點,這對于用戶快速應(yīng)用數(shù)據(jù)湖開源產(chǎn)品與工具大有裨益,

而 Amazon Redshift是一款性能優(yōu)秀、強(qiáng)大、使用簡單、全托管的數(shù)據(jù)倉庫服務(wù),可以輕松進(jìn)行大規(guī)模并行處理,支持TB級規(guī)模數(shù)據(jù)的擴(kuò)展,可以通過Spectrum引起將查詢擴(kuò)展到Amazon S3,與數(shù)據(jù)湖集成可以進(jìn)行EB級的數(shù)據(jù)湖分析。

其他像Amazon Kinesis、AWS Lake Formation、Amazon Aurora、Amazon S3等都是AWS上深受用戶喜歡的產(chǎn)品與服務(wù)。張俠認(rèn)為:“數(shù)據(jù)湖在云計算時代得以快速發(fā)展,它發(fā)展到現(xiàn)在已經(jīng)包含了所有的數(shù)據(jù)庫、數(shù)據(jù)倉庫等服務(wù),是企業(yè)數(shù)據(jù)體系的基礎(chǔ)。數(shù)據(jù)湖其實比國內(nèi)流行的數(shù)據(jù)中臺更加全面,任何想構(gòu)建數(shù)據(jù)中臺的企業(yè)其實都可以在AWS找到全面的解決方案?!?/p>

多款新品落地,AWS加速中國數(shù)據(jù)湖應(yīng)用

在中國市場,各個行業(yè)用戶對于數(shù)據(jù)湖也是經(jīng)歷了一個從認(rèn)知到認(rèn)可的過程。張俠坦言,當(dāng)前中國市場的數(shù)據(jù)湖應(yīng)用依然處于早期階段,整個市場有著非常大的潛力。

中國數(shù)據(jù)湖市場之所以是一個重要且廣闊的市場,無外乎三點:

首先,中國對于數(shù)字經(jīng)濟(jì)的重視程度超乎想象,從國家政策還是企業(yè)自身都對于發(fā)展數(shù)字經(jīng)濟(jì)有著廣泛的共識,數(shù)字經(jīng)濟(jì)加速推動了各個行業(yè)的數(shù)字化進(jìn)程。根據(jù)IDC《數(shù)據(jù)時代2025》白皮書預(yù)測,中國數(shù)據(jù)量預(yù)計在未來7年將每年平均增長30%,位居世界第一,隨之而來的就是對于數(shù)據(jù)存儲、匯聚、分析越來越多的需求。

其次,在經(jīng)歷了多年的“企業(yè)上云”之后,各行各業(yè)對于云計算的認(rèn)知和認(rèn)可已經(jīng)形成,在企業(yè)加速上云這個過程中,數(shù)據(jù)湖作為與云計算天然緊密聯(lián)系在一起的應(yīng)用,其實已經(jīng)具備了非常好的基礎(chǔ)設(shè)施環(huán)境,用戶在上云之后逐步采用數(shù)據(jù)湖服務(wù)也是順勢而為。

再次,中國市場在5G、人工智能、物聯(lián)網(wǎng)等領(lǐng)域的步伐快速,尤其是5G商用所帶來的云計算、通信、大數(shù)據(jù)、人工智能等多項技術(shù)走向融合,未來在各個行業(yè)中會催生出更多新的現(xiàn)代化數(shù)據(jù)應(yīng)用場景,數(shù)據(jù)湖在這個過程中將會起到重要的支撐作用。

AWS在數(shù)據(jù)湖領(lǐng)域深厚的積累有助于推動中國數(shù)據(jù)湖應(yīng)用落地

據(jù)悉,針對中國市場,AWS近期在中國兩個區(qū)域陸續(xù)上線了多款重磅級的新產(chǎn)品與新服務(wù),其中就包括AWS Glue和Amazon Athena兩款跟數(shù)據(jù)湖相關(guān)的服務(wù)。張俠透露:“AWS中國之后會陸續(xù)上線數(shù)據(jù)湖相關(guān)的產(chǎn)品與服務(wù)。隨著越來越多服務(wù)落地中國,中國區(qū)用戶可以在短短幾天之內(nèi)完成數(shù)據(jù)湖的建立工作?!?/p>

例如,AWS Glue是數(shù)據(jù)湖應(yīng)用中一款非常重要的服務(wù),它可以幫助用戶建立起無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù),自動發(fā)現(xiàn)數(shù)據(jù)并存儲Schema,與AWS上運行的Aurora、RDS、Redshift、S3和數(shù)據(jù)庫引擎天然集成,這將給用戶在使用數(shù)據(jù)湖帶來巨大好處。舉個例子,用戶之前想將數(shù)據(jù)導(dǎo)入Redshift云數(shù)據(jù)倉庫,之前需要自己寫ETL管道,非常不方便,如今有了AWS Glue能夠快速完成數(shù)據(jù)的抽取、轉(zhuǎn)換和加載。

“中國市場的確是到了該好好研究與使用數(shù)據(jù)湖的階段了,尤其是5G、邊緣計算應(yīng)用上來之后,在數(shù)據(jù)層面更應(yīng)該匹配走數(shù)據(jù)湖這條路?!睆垈b最后表示道。

總體而言,數(shù)據(jù)湖一晃已經(jīng)走過了十年,從一個概念逐步走向落地。在這十年中,以AWS為代表云服務(wù)提供商們真是洞悉了用戶在數(shù)據(jù)湖上的需求,并且圍繞數(shù)據(jù)湖打造出來的一系列全面的產(chǎn)品體系,使得數(shù)據(jù)湖真正走出了一條價值之路。

十年意味著一個階段的結(jié)束,也預(yù)示著下一個階段的開啟。數(shù)據(jù)湖在未來會有更大的舞臺。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AWS
    AWS
    +關(guān)注

    關(guān)注

    0

    文章

    427

    瀏覽量

    24290
收藏 人收藏

    評論

    相關(guān)推薦

    國產(chǎn)MCU廠商,靠什么從內(nèi)卷中脫穎而出?

    的競爭日益激烈,價格戰(zhàn)已成常態(tài),MCU市場亦不例外。SIA數(shù)據(jù)顯示,中國MCU市場占全球25%左右。盡管市場規(guī)模龐大,但國內(nèi)MCU廠商的產(chǎn)品主要集中在中低端市場,同質(zhì)
    的頭像 發(fā)表于 10-22 16:20 ?218次閱讀
    國產(chǎn)MCU廠商,靠什么從內(nèi)卷中<b class='flag-5'>脫穎而出</b>?

    NAS求變,“0成本、低門檻”的魯大師能否脫穎而出

    多年來,NAS不斷集成新技術(shù),諸如硬盤容量提升、用于數(shù)據(jù)保護(hù)的RAID技術(shù)配置、引入家用級NAS設(shè)備等。到21世紀(jì)初,NAS系統(tǒng)開始支持多種協(xié)議、并提供諸如遠(yuǎn)程訪問、自動備份解決方案等特性。至此,NAS革命的舞臺已經(jīng)搭建完畢。
    的頭像 發(fā)表于 09-24 09:26 ?203次閱讀
    NAS求變,“0成本、低門檻”的魯大師能否<b class='flag-5'>脫穎而出</b>?

    三星貼片電容CL10B104KA85PN 0603/100nF/25Vdc/X7R --芯引力產(chǎn)品中心

    芯引力貼片電容 電子元器件一站式配單 助您SMT 貼片加工的產(chǎn)品脫穎而出
    的頭像 發(fā)表于 08-07 16:37 ?211次閱讀

    美光發(fā)布全新數(shù)據(jù)中心SSD

    近日,全球領(lǐng)先的存儲解決方案提供商美光科技股份有限公司宣布了一項重大創(chuàng)新成果——美光9550 NVMe? SSD的正式推出。這款專為數(shù)據(jù)中心設(shè)計的高端存儲產(chǎn)品,以業(yè)界領(lǐng)先的性能表現(xiàn)脫穎而出,同時在處理AI工作負(fù)載時展現(xiàn)出非凡的能效與穩(wěn)定性。
    的頭像 發(fā)表于 07-30 16:41 ?605次閱讀

    NAS設(shè)備鐵威馬F4-424是如何從市場中脫穎而出

    簡便又性能卓越的家用NAS,成為了眾多家庭面臨的難題。今天,我們將聚焦于鐵威馬F4-424這款NAS設(shè)備,探討它是如何憑借其出色的性能與易用性,在家用NAS市場中脫穎而出,成為家庭用戶的理想之選。
    的頭像 發(fā)表于 07-18 17:28 ?720次閱讀

    易特馳榮獲2024世界智能駕駛挑戰(zhàn)賽(WIDC)銀獎

    我司任建文擔(dān)任隊長的“安全脈脈”團(tuán)隊從眾多來自汽車行業(yè)領(lǐng)軍企業(yè)和知名高校80支精英團(tuán)隊中脫穎而出,成功晉級決賽,并最終斬獲了銀牌。
    的頭像 發(fā)表于 07-01 10:40 ?755次閱讀

    運動相機(jī)為什么會脫穎而出

    ? 01 運動相機(jī)為什么會脫穎而出 與傳統(tǒng)相機(jī)或手機(jī)拍攝相比,運動相機(jī)具備防水和耐沖擊的特性,適合在戶外活動中使用。運動相機(jī)通常具有的廣角鏡頭、高分辨率和高幀率的功能,可以拍攝的范圍更廣,畫面也更
    的頭像 發(fā)表于 06-27 16:01 ?483次閱讀
    運動相機(jī)為什么會<b class='flag-5'>脫穎而出</b>

    通過在AWS發(fā)布命令,讓io的電平狀態(tài)上報給AWS,為什么上傳的同時一模一樣的數(shù)據(jù)在串口調(diào)試助手打印?

    我在平臺上發(fā)布命令4.png 通過回調(diào)函數(shù)判斷是否上報數(shù)據(jù)1.png 判斷io的狀態(tài)并把數(shù)據(jù)上傳到AWS2.png 但為什么上傳的同時一模一樣的數(shù)據(jù)在串口調(diào)試助手打印? : esp32
    發(fā)表于 06-20 06:09

    新一代驅(qū)動器產(chǎn)品,PI SCALE-iFlex? XLT如何脫穎而出?

    即插即用!作為新一代驅(qū)動器產(chǎn)品,看SCALE-iFlex? XLT如何以其獨特的設(shè)計和出色的性能,在市場中脫穎而出! 在電力電子領(lǐng)域,高效、緊湊且安全的門極驅(qū)動器產(chǎn)品設(shè)計一直是研發(fā)的焦點。隨著儲能
    的頭像 發(fā)表于 05-27 14:55 ?258次閱讀
    新一代驅(qū)動器產(chǎn)品,PI SCALE-iFlex? XLT如何<b class='flag-5'>脫穎而出</b>?

    什么是數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質(zhì)上說,數(shù)據(jù)就是一個信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構(gòu)和滿足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?558次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)</b>倉庫有什么區(qū)別?

    慧視圖像處理板 究竟憑什么脫穎而出

    市面上的圖像處理板有很多,如何通過分析獲得自己滿意的產(chǎn)品,從而減少自身項目的開發(fā)時間,是一個重要的過程。如果你有圖像處理板的需要,那么這篇短文你應(yīng)該往下看一看!經(jīng)驗豐富成都慧視光電多年來一直致力于圖像處理板的開發(fā)應(yīng)用,有著超十年開發(fā)經(jīng)驗的團(tuán)隊成員,能夠快速進(jìn)行軟硬件的模塊化集成,定制出符合行業(yè)需求的圖像處理板。曾服務(wù)過安防巡檢、鐵路、空港、高校研究院、事業(yè)研
    的頭像 發(fā)表于 04-30 08:29 ?327次閱讀
    慧視圖像處理板  究竟憑什么<b class='flag-5'>脫穎而出</b>?

    stm32 AWS云連接怎么使用?

    stm32 AWS云連接怎么使用,官方的擴(kuò)展包看不明白
    發(fā)表于 04-01 07:21

    解鎖AI時代的利器——訊飛AI鼠標(biāo)AM30助你在AI時代脫穎

    解鎖AI時代的利器——訊飛AI鼠標(biāo)AM30助你在AI時代脫穎而出 隨著AI時代的到來,人們對于人工智能的需求越來越迫切。 在這個競爭激烈的時代里,如果你不懂得使用AI技術(shù),很有可能被淘汰出局。 而訊
    的頭像 發(fā)表于 03-25 13:37 ?502次閱讀
    解鎖AI時代的利器——訊飛AI鼠標(biāo)AM30助你在AI時代<b class='flag-5'>脫穎</b>

    思睿達(dá)榮獲2023年“松杯”創(chuàng)新創(chuàng)業(yè)大賽“50強(qiáng)”先鋒獎

    的“用于新能源設(shè)備高性能DC–DC變換器芯片”項目,在激烈的競爭中脫穎而出,榮獲大賽最高獎項——“50強(qiáng)”先鋒獎。這一項目在大賽的新能源細(xì)分賽道中榮膺第一名,他們的創(chuàng)
    的頭像 發(fā)表于 11-30 08:08 ?885次閱讀
    思睿達(dá)榮獲2023年“松<b class='flag-5'>湖</b>杯”創(chuàng)新創(chuàng)業(yè)大賽“50強(qiáng)”先鋒獎

    NVG002F語音芯片:低功耗 寬電壓工作與可重復(fù)燒寫脫穎而出

    在芯片日益發(fā)展的時期,為滿足用戶的需求,九芯一款具有頗高競爭力的語音芯片-NVG002F出現(xiàn)在市場上。這款芯片低成本、生產(chǎn)周期短,適合大中小型批量生產(chǎn)以及在2.4V~5.2V寬電壓范圍內(nèi)工作的特性,特別是可重復(fù)燒寫的特點,在語音芯片市場中脫穎而出。
    的頭像 發(fā)表于 11-29 15:59 ?391次閱讀