編者按:
每年仲夏之際,全球兩大數(shù)據(jù)平臺巨頭 Snowflake、Databricks 均會召開各自的年度大會,成為數(shù)據(jù)圈的“超級碗”。隨著競爭的加劇,Snowflake、Databricks 把 2023 年度重磅市場大會放在相同日期(6.26-6.29),充滿著火藥味。大會召開在即,云器科技作為專注數(shù)據(jù)領(lǐng)域的創(chuàng)業(yè)公司,策劃一系列文章,從主題演講、重點(diǎn)發(fā)布、客戶案例等方面對比和解讀這兩個年度大會。本文是第一篇,對兩個大會做前瞻對比,并預(yù)測最值得聽的場。
發(fā)布會 Snowflake 搶到最重磅嘉賓, 但 Databricks 在生成式 AI 方向布局更早
Snowflake 和 Databricks 的 2023 年度市場大會都是在 6 月 26 日至 29 日舉行,但地點(diǎn)不同,前者在拉斯維加斯,后者在舊金山。為了緊扣熱點(diǎn)更吸引眼球,兩家公司的大會主題都與 AI 和大模型有關(guān),并邀請了重量級的嘉賓,Snowflake 請到了英偉達(dá) CEO 黃仁勛,Databricks 請到了微軟 CEO 薩蒂亞·納德拉。
布局方面,主打 Data+AI 口號的 Databricks 顯然更面向 AI,也布局更早。主推的 Lakehouse 湖倉一體架構(gòu)天然更支持 AI 存儲和計(jì)算,之后收購了由前 Google LLC 和 Dropbox Inc. 工程師創(chuàng)立的 AI 存儲公司 Rubicon Inc. 近期推出自己的大語言開源模型 Dolly 和 Dolly 2.0。Databricks 將 Data+AI 的口號走的很徹底。而 Snowflake 去年年度大會的最重磅發(fā)布是收購 Streamlit 并面向數(shù)據(jù)應(yīng)用構(gòu)建生態(tài),直到大語言模型火爆之后,才收購了 Neeva.ai(智能搜索公司),開始其在這個領(lǐng)域的布局。
展示各自的優(yōu)勢和差異化: Snowflake 和 Databricks 在產(chǎn)品和技術(shù)上并不盡相同。
Snowflake 更專注于圍繞數(shù)據(jù)分析的數(shù)據(jù)倉庫和查詢處理,而 Databricks 更專注于數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),本次大會兩方在努力突出他們在 Lakehouse 市場的優(yōu)勢和差異化。據(jù) Enterprise Technology Research 調(diào)研,36% 的 Snowflake 客戶同時也是 Databricks 的客戶,客戶也在同時使用獲得兩者最大化組合優(yōu)勢(從 Snowflake 獲得分析的優(yōu)勢,從 Databricks 獲得 AI 的優(yōu)勢)。
從會議安排看,數(shù)據(jù)平臺是核心,AI 是噱頭
從會議的主題演講看,Snowflake 會繼續(xù)強(qiáng)調(diào)和推動DataCloud為核心的數(shù)據(jù)一體化和共享能力,基于Streamlit的一體化應(yīng)用開發(fā),以及生成式 AI 的可能性。特別值得一提的是,開源的Iceberg成為發(fā)布會介紹的關(guān)鍵字。在此,我們給出今年大會的一個合理猜測:Snowflake 會支持基于 iceberge 的開放數(shù)據(jù)架構(gòu),向湖倉一體邁進(jìn)!
而反觀 Databricks 的主題演講,主線就非常明確且有持續(xù)性,重點(diǎn)強(qiáng)調(diào)三方面:LLM、Lakehouse Platform、OpenSource 軟件。LLM 是今年新增的熱點(diǎn),也非常貼合 Data+AI 的定位。Lakehouse 經(jīng)過 3 年持續(xù)推進(jìn),已經(jīng)成為數(shù)據(jù)平臺的新標(biāo)準(zhǔn)。OpenSource 作為老牌領(lǐng)域,今年新增大量的生態(tài)話題,包括一度看作競對的 Presto/Trino 等。面對 Snowflake SaaS 化服務(wù)極致簡單的競爭壓力,Databricks 選擇聯(lián)合開源生態(tài)的力量。
兩會的主題演講都不約而同的強(qiáng)調(diào)生成式 AI,但如果看具體 session 組織,就會發(fā)現(xiàn) AI 是噱頭,真正的主線依然在高速增長的數(shù)據(jù)平臺領(lǐng)域。(兩家今年均聲明 60% 的年化營收增長,在經(jīng)濟(jì)整體下行的今天,數(shù)據(jù)平臺增長速度相當(dāng)亮眼)。
Snowflake 年度發(fā)布會一共有 400 場 Session 之多,DataPlatform、DataApplication、DataAnalytics 是三個最大的主題,占據(jù)了一半的場次。ML/AI 相關(guān)的領(lǐng)域話題僅占 15%??紤]到 Snowflake 當(dāng)前數(shù)據(jù)平臺“一哥”的位置,這種“守正 + 出奇”的會議安排就不讓人意外。
而 Databricks 的議題安排略顯不同。DataEngineering 作為主線占據(jù) 1/4 的議題,之后是 ML/DataScience 部分,要注意這里面的 ML/DataScience 并不僅僅是生成式 AI,而是包含了大量“傳統(tǒng)”的機(jī)器學(xué)習(xí)和算法部分(例如 SparkML)。特別的,在這些 session 的介紹中,Databricks 最重點(diǎn)強(qiáng)調(diào)的是 Lakehouse 架構(gòu)對 AI 的支持,以及 Data+AI 的各種最佳實(shí)踐。Databricks 自己的大語言模型 dolly 并不是重點(diǎn),真正宣傳 Dolly 的 session 僅有 3 個。
綜合起來看,盡管生成式 AI 是話題上的亮點(diǎn),兩家不約而同的重點(diǎn)強(qiáng)調(diào)“自己的數(shù)據(jù)平臺能力本身和可擴(kuò)展性,可以容易的集成生成式 AI 在內(nèi)的多種計(jì)算模型”。
前瞻,兩個發(fā)布會最大看點(diǎn)在哪里?
結(jié)合筆者的經(jīng)驗(yàn)和發(fā)布會的內(nèi)容,筆者大膽預(yù)測如下可能的方向演進(jìn)和重磅發(fā)布:
Snowflake 的重點(diǎn)方向和重磅發(fā)布:
方向從數(shù)倉進(jìn)一步轉(zhuǎn)型湖倉一體,改變封閉數(shù)倉的缺陷,發(fā)布支持基于 Iceberg 的開放數(shù)據(jù)格式。
發(fā)布內(nèi)置的 AI 模型部署和推理能力,會更多的結(jié)合 LLM,通過 Snowflake 釋放 LLM 大型語言模型的力量。
Data + Application 一體化,推進(jìn) Operational Analytics。
Databricks 的重點(diǎn)方向和重磅發(fā)布:
借生成式 AI 的東風(fēng),繼續(xù)大力推進(jìn) Data+AI 的概念。同時借力對 AI 的支持,競爭 Snowflake(會有實(shí)際客戶案例比較 Databricks 和 Snowflake)
全鏈路實(shí)時化和增量化會成為重點(diǎn)方向(每天 40% 的 topic 與全鏈路實(shí)時增量化相關(guān))
大幅增加企業(yè)級數(shù)據(jù)平臺能力的建設(shè)和宣傳(包括數(shù)據(jù)質(zhì)量,數(shù)據(jù)加密這些 Databricks 的傳統(tǒng)弱項(xiàng),這些 topic 占每天主題的 20%)
未來 AI 時代需要什么樣的數(shù)據(jù)平臺支撐?
看過上述對比和前瞻分析,讀者應(yīng)該能感受到濃濃的火藥味,可見兩家的技術(shù)競爭已經(jīng)是數(shù)據(jù)平臺全面或一體化綜合能力的競爭。
筆者認(rèn)為,AI 大火的今天,我們更應(yīng)該關(guān)注的焦點(diǎn),還是應(yīng)該回歸到支撐 AI 的基礎(chǔ)數(shù)據(jù)平臺能力,回歸到“支點(diǎn)”上。從兩方大會的日程安排上,也可以得到充分印證。
Snowflake 大會的支點(diǎn)由數(shù)據(jù)倉庫 + 數(shù)據(jù)安全 + 數(shù)據(jù)應(yīng)用三個方向共計(jì) 400 多個 session 組成。數(shù)據(jù)倉庫強(qiáng)相關(guān)的話題是 Snowflake 的基本盤,而數(shù)據(jù)應(yīng)用主題延續(xù)了 Snowflake 在 2022 年秋季 Build 大會上通過 Streamlit 構(gòu)建應(yīng)用的熱點(diǎn),并增強(qiáng)了數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的主題方向。
Databricks 大會的支點(diǎn)由 300 多個 session 構(gòu)成,涵蓋了數(shù)據(jù)工程,數(shù)據(jù)科學(xué),機(jī)器學(xué)習(xí),深度學(xué)習(xí),自然語言處理,計(jì)算機(jī)視覺,數(shù)據(jù)分析,數(shù)據(jù)治理,數(shù)據(jù)倫理等和 ETL/ELT 數(shù)據(jù)處理、數(shù)據(jù)科學(xué)等數(shù)據(jù)湖上場景更為密切的支點(diǎn)型主題方向。很明顯,Databricks 在泛 AI 領(lǐng)域?qū)χ黝}做了更多細(xì)分,包括機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、深度學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺。特別的一點(diǎn)是 Databricks 在數(shù)據(jù)倫理方面開辟了新的主題。
站在國內(nèi)視角,也會激發(fā)我們思考數(shù)據(jù)平臺演進(jìn)的脈絡(luò)。這里推薦這篇文章《從 Hadoop 到 Snowflake,2023 年數(shù)據(jù)平臺路在何方?_InfoQ 精選文章》的梳理。
盡管兩方大會的共同主旋律“通過 Data + 生成式 AI 重塑企業(yè)”,但筆者這里可以大膽預(yù)先總結(jié)一下兩個峰會的內(nèi)容套路:“生成式 AI 搭臺,Data+Analytics 唱戲”。
我們會持續(xù)關(guān)注會議的進(jìn)展,并同步報道最新情況,看上述預(yù)測是否準(zhǔn)確,請大家持續(xù)關(guān)注。
-
AI
+關(guān)注
關(guān)注
87文章
29822瀏覽量
268111 -
語言模型
+關(guān)注
關(guān)注
0文章
501瀏覽量
10236 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8353瀏覽量
132315 -
生成式AI
+關(guān)注
關(guān)注
0文章
480瀏覽量
446
原文標(biāo)題:生成式AI搭臺,Data+Analytics唱戲: Snowflake、Databricks 2023年度大會前瞻
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論