0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

科技云報到:大模型時代下,向量數(shù)據(jù)庫的野望

科技云報到 ? 來源:科技云報到 ? 作者:科技云報到 ? 2024-10-14 17:18 ? 次閱讀

科技云報到原創(chuàng)。

自ChatGPT爆火,國內(nèi)頭部平臺型公司一擁而上,先后發(fā)布AGI或垂類LLM,但鮮有大模型基礎設施在數(shù)據(jù)層面的進化,比如向量數(shù)據(jù)庫。

在此之前,向量數(shù)據(jù)庫經(jīng)歷了幾年的沉寂期,現(xiàn)在似乎終于乘著ChatGPT的東風成為資本的“寵兒”。然而,一年狂飆之后,市場逐漸退潮,因此有人質(zhì)疑,向量數(shù)據(jù)庫又涼了?

判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態(tài)度。大模型應用的逐步落地于向量數(shù)據(jù)庫而言,無疑是最好的催熟劑。

然而任何新技術(shù)的到來,都需要更長的時間才能得到市場的接受。

一份關于向量數(shù)據(jù)庫的市場研究是,隨著AI應用場景加速落地,據(jù)西南證券分析,預計2025年向量數(shù)據(jù)庫滲透率約為30%,其中,中國向量數(shù)據(jù)庫市場規(guī)模約為82.56億元。而據(jù)中國信通院測算,到2025年,中國數(shù)據(jù)庫市場規(guī)模將達688億元。這意味著,兩年后向量數(shù)據(jù)庫在中國的滲透率將超過10%。

在國內(nèi),不少數(shù)據(jù)庫廠商都在嘗試推出向量數(shù)據(jù)庫產(chǎn)品,然而從市場驗證階段走向?qū)崿F(xiàn)盈利,中間還需要一段更漫長的時間。向量數(shù)據(jù)庫究竟是虛火過旺還是星辰大海?在向量數(shù)據(jù)庫這條賽道,能否看到更遠的未來?


向量數(shù)據(jù)庫,剛剛開始

向量數(shù)據(jù)庫,顧名思義,是一種專門處理向量數(shù)據(jù)的數(shù)據(jù)庫。在傳統(tǒng)的關系型數(shù)據(jù)庫中,數(shù)據(jù)通常以表格形式存儲,而向量數(shù)據(jù)庫則將非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖像、音頻等)轉(zhuǎn)換為向量形式進行存儲。這種數(shù)據(jù)表示方法使得向量數(shù)據(jù)庫能夠高效地處理大規(guī)模、高維度的數(shù)據(jù)集,為AI提供了強大的計算基礎。

如果說數(shù)據(jù)庫是數(shù)據(jù)的“硬盤”,那么,向量數(shù)據(jù)庫就是更適合AI體質(zhì)的“硬盤”,其“AI原生”的體質(zhì),具體表現(xiàn)在以下幾個方面。

首先,是更高的效率。AI算法,要從圖像、音頻和文本等海量的非結(jié)構(gòu)化數(shù)據(jù)中學習,提取出以向量為表示形式的“特征”,以便模型能夠理解和處理。因此,向量數(shù)據(jù)庫比傳統(tǒng)基于索引的數(shù)據(jù)庫有明顯優(yōu)勢。

其次,更低的成本。大模型要從一種新技術(shù)轉(zhuǎn)化為產(chǎn)業(yè)價值,必須達到合理的投入產(chǎn)出比,而向量數(shù)據(jù)庫可以有效減少存儲和計算成本。一個公開數(shù)據(jù)是,通過騰訊云向量數(shù)據(jù)庫,QQ音樂人均聽歌時長提升3.2%、騰訊視頻有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%,就在于檢索效率、運行穩(wěn)定性、運營效率、推薦算法等,有了較大的提升。

第三,更強的數(shù)據(jù)安全。企業(yè)想做大模型,還要確保數(shù)據(jù)的隱私安全,就必須與數(shù)據(jù)庫產(chǎn)品做好配合,這給向量數(shù)據(jù)庫的本地部署帶來了廣闊的需求。

第四,更大的擴展性。隨著大模型走向行業(yè)應用,垂直領域的AI用例不斷增多,洶涌的數(shù)據(jù)洪潮和存算任務,會帶來大量向量搜索的需求。而向量數(shù)據(jù)庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據(jù)AI用例和模型而變化,更好地處理大規(guī)模數(shù)據(jù)集。

從大模型技術(shù)標桿的OpenAI發(fā)布的GPT-4o和即將發(fā)布的GPT-5消息來看,以及國內(nèi)外商業(yè)化大模型的進展來看,大模型的技術(shù)路線還沒有發(fā)生顛覆性的變革,因此落地應用還是需要向量檢索和向量數(shù)據(jù)庫。

由此可見,向量數(shù)據(jù)庫與AI的關系緊密相連。在大模型興起之前,傳統(tǒng)數(shù)據(jù)庫已經(jīng)在不斷嘗試與AI結(jié)合,主要涉及以下幾個方向:數(shù)據(jù)存儲與管理、數(shù)據(jù)清洗與預處理、數(shù)據(jù)檢索與查詢、數(shù)據(jù)集成與共享、數(shù)據(jù)安全與隱私保護。隨著大模型的興起,可以看到在這些方向上,數(shù)據(jù)庫與AI間的關聯(lián)比以往任何時候都要密切。

此外,AI 大模型的興起還為數(shù)據(jù)庫注入了預測估算的能力。AI模型可以通過學習歷史數(shù)據(jù)和模式,對未來的趨勢和結(jié)果進行預測和估算。傳統(tǒng)數(shù)據(jù)庫可以集成AI模型,實現(xiàn)對數(shù)據(jù)的預測分析。這使得數(shù)據(jù)庫可以不僅提供對歷史數(shù)據(jù)的查詢和分析,還能夠提供對未來數(shù)據(jù)的預測和估算結(jié)果,幫助用戶做出更準確的決策。

總的來說,幾乎所有類型的數(shù)據(jù)庫都在積極向AI靠攏,比如在數(shù)據(jù)庫中添加向量索引,數(shù)據(jù)庫和AI已經(jīng)密不可分,兩者相輔相成,共同推動著技術(shù)的進步和應用的拓展。


兩大新勢力,云是方向

傳統(tǒng)數(shù)據(jù)庫廠商不必多說,既有相應的能力建設,也有一定的客戶基礎,推出相關產(chǎn)品是必然。一些在AI領域積淀已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量數(shù)據(jù)庫的技術(shù)積累,也都可以向外輸出相關能力和產(chǎn)品。

除了這些常規(guī)面孔,向量數(shù)據(jù)庫市場也吸引了新的參與者。作為這一輪大模型投資熱和創(chuàng)業(yè)熱的主要目標之一,向量數(shù)據(jù)庫領域誕生了不少創(chuàng)新創(chuàng)業(yè)公司。比如AI創(chuàng)業(yè)新秀Pinecone就是閉源的領跑者,憑借良好的開箱即用的產(chǎn)品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。其他競爭者大多建立在開源項目的基礎上。

不過,作為創(chuàng)業(yè)公司,長期盈利能力還有待驗證。一個主要原因,是客戶大多是嘗鮮、實驗性質(zhì)。

企業(yè)需要先將非結(jié)構(gòu)化的私密數(shù)據(jù),放入一個小的模型中進行數(shù)據(jù)轉(zhuǎn)化,即數(shù)據(jù)向量化,產(chǎn)生一個向量的矩陣,再存儲到向量數(shù)據(jù)庫里,來供大模型學習和檢索。這個過程涉及大量的工程化,會耗費企業(yè)許多開發(fā)人員、時間成本,一開始可能會因為AI大模型很火而對向量數(shù)據(jù)庫產(chǎn)生興趣,但能否真正在業(yè)務中落地還是個未知數(shù)。因此,長期付費意愿還有較大的不確定性。

另一股積極參與的新勢力,就是公有云廠商。

從2017年到2019年,于向量數(shù)據(jù)庫的發(fā)展而言,是一段更為重要的時間。騰訊云、百度智能云、京東科技等也恰都是在這個時間段將向量數(shù)據(jù)庫的相關組件應用到具體的業(yè)務之上。

實際上,這段時間所對應的背景也正是,非結(jié)構(gòu)化數(shù)據(jù)需求的激增。

一個具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業(yè),各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。

除此之外,京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。

事實上,不是所有企業(yè)都有能力自建大模型所需要的基礎設施,通過MaaS(模型即服務)業(yè)務來訓練應用大模型,是更靈活的選擇。此外,很多政企客戶往往會選擇公有云或行業(yè)云來滿足其業(yè)務需求,對云數(shù)據(jù)庫的關注度和接受度上升,而這些用戶在探索大模型時,會傾向于以整體解決方案的形式來交付,這就給了云廠商參與到此賽道機會,同時也要求云廠商提供向量數(shù)據(jù)庫的全棧支持。

如今頭部云廠商基本建立了全生命周期AI化的向量數(shù)據(jù)庫。有數(shù)據(jù)顯示,企業(yè)原先接入一個大模型需要花1個月左右時間,使用某公有云的向量數(shù)據(jù)庫后,3天時間即可完成,極大降低了企業(yè)的接入成本。

更何況,前不久火山引擎、阿里云、百度智能云等都圍繞大模型API價格,打起了互相抄底的“價格戰(zhàn)”,意味著AI創(chuàng)新門檻的降低,而AI應用市場的用戶規(guī)模擴大,也會帶動向量數(shù)據(jù)庫的使用需求。

綜合來看,整個云AI市場的格局還在快速變化之中,風物長宜放眼量,AI Native的向量數(shù)據(jù)庫,前景仍然值得期待。

向量數(shù)據(jù)庫,展望AGI時代

從某種程度上而言,無論是向量數(shù)據(jù)庫,還是大模型,歸根結(jié)底,大家在追捧它時的心態(tài),焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

大模型、多模態(tài)等新技術(shù)、新應用的出現(xiàn),正在迅速刷新著人們對AGI時代的期待,仿佛它下一刻就會到來。

而向量數(shù)據(jù)庫的熱潮,在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實際價值,甚至更長遠的價值。

雖然,目前向量數(shù)據(jù)庫仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫與大模型一定是捆綁關系。因此,未來其演進方向也一定隨著大模型能力的演進而發(fā)生變化。

騰訊云數(shù)據(jù)庫副總經(jīng)理羅云認為,向量數(shù)據(jù)庫幫助大模型解決在專有領域知識不足的問題。通用大模型是基于海量的互聯(lián)網(wǎng)業(yè)務和數(shù)據(jù)去訓練的,但對于一些細分的垂直行業(yè)缺少知識。而向量數(shù)據(jù)庫可以幫助企業(yè)打通企業(yè)私有知識庫和大模型的連接,幫助企業(yè)更好地利用大模型等AI新技術(shù)去實現(xiàn)企業(yè)的降本增效,推動企業(yè)從“數(shù)字化”到“數(shù)智化”的躍升,這就是向量數(shù)據(jù)庫在AI時代的重要的定位和價值。


而在具體的演進方向上,向量數(shù)據(jù)庫一定會考慮多模態(tài)數(shù)據(jù)的表達以及數(shù)據(jù)的智能化管理。

首先,在大模型應用百花齊放的背景下,向量數(shù)據(jù)庫對于多模態(tài)數(shù)據(jù)的處理意義,變得十分重要。

羅云進一步舉例,比如某教育客戶,把一些線下的教育課程,甚至老師上課的教育提綱,全部作為向量,存儲到騰訊云的向量數(shù)據(jù)庫里。當家長想要去咨詢某節(jié)課老師講了什么,就可以把存儲在向量數(shù)據(jù)庫里面內(nèi)容檢索出來,再交給大模型按照人們能理解的語言來回答,這就將向量數(shù)據(jù)庫與大模型進行了很好的匹配。

如果沒有向量數(shù)據(jù)庫參與,以及沒有合理的多模態(tài)數(shù)據(jù)處理方式,這種情況下是無法查詢出這些數(shù)據(jù)的。

但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升,另一個問題也隨之出現(xiàn)。不同數(shù)據(jù)庫中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來,這就涉及到的智能化管理也是向量數(shù)據(jù)庫未來的發(fā)力點。

向量數(shù)據(jù)庫作為處理多樣性和復雜性數(shù)據(jù)挑戰(zhàn)的得力工具,為各行業(yè)提供了高效、靈活的數(shù)據(jù)管理解決方案。其高維索引、相似性查詢、向量聚合等特點,使其在推薦系統(tǒng)、搜索引擎、社交媒體分析、生物信息學和圖像視頻分析等多個領域得到了成功應用。

不可否認,向量數(shù)據(jù)庫的未來既蘊含著廣闊的發(fā)展空間,也面臨著諸多挑戰(zhàn)。得益于大模型火熱,向量數(shù)據(jù)庫已逐漸成為資本市場的青睞之選。在未來的AGI道路上,向量數(shù)據(jù)庫仍需要砥礪前行。

【關于科技云報到】

企業(yè)級IT領域Top10新媒體。聚焦云計算人工智能、大模型、網(wǎng)絡安全、大數(shù)據(jù)、區(qū)塊鏈等企業(yè)級科技領域。原創(chuàng)文章和視頻獲工信部權(quán)威認可,是世界人工智能大會、數(shù)博會、國家網(wǎng)安周、可信云大會與全球云計算等大型活動的官方指定傳播媒體之一。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數(shù)據(jù)庫

    關注

    7

    文章

    3750

    瀏覽量

    64217
  • 大模型
    +關注

    關注

    2

    文章

    2262

    瀏覽量

    2341
收藏 人收藏

    評論

    相關推薦

    數(shù)據(jù)庫“再進化”,OB Cloud如何打造時代數(shù)據(jù)底座?

    科技報到原創(chuàng)。 任何一項技術(shù),都會隨著時代和市場的需求變化而演進。
    的頭像 發(fā)表于 10-31 17:52 ?256次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復—通過拼接數(shù)據(jù)庫碎片恢復SQLserver數(shù)據(jù)庫

    一個運行在存儲上的SQLServer數(shù)據(jù)庫,有1000多個文件,大小幾十TB。數(shù)據(jù)庫每10天生成一個NDF文件,每個NDF幾百GB大小。數(shù)據(jù)庫包含兩個LDF文件。 存儲損壞,數(shù)據(jù)庫
    的頭像 發(fā)表于 10-31 13:21 ?76次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復—通過拼接<b class='flag-5'>數(shù)據(jù)庫</b>碎片恢復SQLserver<b class='flag-5'>數(shù)據(jù)庫</b>

    數(shù)據(jù)庫可以租用嗎?完整租用流程來了

    數(shù)據(jù)庫是可以租用的,這是一種合法且便捷的數(shù)據(jù)存儲和管理方式。數(shù)據(jù)庫服務提供商提供的各種服
    的頭像 發(fā)表于 10-28 09:54 ?76次閱讀

    數(shù)據(jù)庫服務中的IP地址管理

    ? “門牌號”(IP地址)可以確保確保客戶端能夠準確找到并訪問數(shù)據(jù)庫服務器。不僅如此,還有一些方面都可以看出IP地址的重要性。? 1、連接管理:通過IP地址,用戶可以輕松連接到數(shù)據(jù)庫服務器,執(zhí)行
    的頭像 發(fā)表于 10-22 10:00 ?125次閱讀

    一文詳解企業(yè)上數(shù)據(jù)庫是干嘛的

    業(yè)上數(shù)據(jù)庫是企業(yè)將其數(shù)據(jù)庫系統(tǒng)從傳統(tǒng)的本地數(shù)據(jù)中心遷移到由第三方服務提供商管理的遠程服務器上的過程。這樣做的目的通常是為了提高
    的頭像 發(fā)表于 09-13 11:49 ?256次閱讀

    恒訊科技分析:數(shù)據(jù)庫rds和redis區(qū)別是什么如何選擇?

    數(shù)據(jù)庫RDS(Relational Database Service)和Redis是兩種不同類型的數(shù)據(jù)庫服務,它們有各自的特點和適用場景: 1、數(shù)據(jù)模型:RDS是一種關系型
    的頭像 發(fā)表于 08-19 15:31 ?286次閱讀

    模型卷價格,向量數(shù)據(jù)庫“卷”什么?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
    的頭像 發(fā)表于 05-23 09:24 ?1731次閱讀
    大<b class='flag-5'>模型</b>卷價格,<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>“卷”什么?

    搭載英偉達GPU,全球領先的向量數(shù)據(jù)庫公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫

    在美國硅谷圣何塞召開的 NVIDIA GTC 大會上,全球領先的向量數(shù)據(jù)庫公司 Zilliz 發(fā)布了 Milvus 2.4 版本。這是一款革命性的向量數(shù)據(jù)庫系統(tǒng),在業(yè)界首屈一指,它首次
    的頭像 發(fā)表于 04-01 14:33 ?427次閱讀
    搭載英偉達GPU,全球領先的<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>公司Zilliz發(fā)布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>

    騰訊向量數(shù)據(jù)庫“卷”到哪一步了?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
    的頭像 發(fā)表于 01-15 09:49 ?1539次閱讀
    騰訊<b class='flag-5'>云</b>把<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>“卷”到哪一步了?

    誠邀報名 | AI 向量、云原生、開源,今年的數(shù)據(jù)庫熱點技術(shù)都在這里

    2023 開放原子開發(fā)者大會 OPEN ATOM DEVELOPERS CONFERENCE AI 時代數(shù)據(jù)庫存儲管理新挑戰(zhàn)分論壇 2023.12.16 隨著 AI 大模型的廣泛應用和普及,其模型
    的頭像 發(fā)表于 12-20 20:48 ?320次閱讀
    誠邀報名 | AI <b class='flag-5'>向量</b>、云原生、開源,今年的<b class='flag-5'>數(shù)據(jù)庫</b>熱點技術(shù)都在這里

    第五代英特爾? 至強? 可擴展處理器助力星環(huán)科技分布式向量數(shù)據(jù)庫 Transwarp Hippo 實現(xiàn)大幅性能提升

    ,這在大模型訓練等場景中有著重要的 意義,可幫助用戶更高效、 更精確地打造大模型產(chǎn)品。 — 朱珺辰 星環(huán)科技聯(lián)合創(chuàng)始人兼副總裁 百花齊放的大模型時代凸顯了分布式
    的頭像 發(fā)表于 12-16 16:15 ?436次閱讀
    第五代英特爾? 至強? 可擴展處理器助力星環(huán)科技分布式<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b> Transwarp Hippo 實現(xiàn)大幅性能提升

    誠邀報名 | AI 向量、云原生、開源,今年的數(shù)據(jù)庫熱點技術(shù)都在這里

    和推理的精準度對數(shù)據(jù)和信息的存儲、檢索、處理提出了更高的要求。為此,存算分離、向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、分布式數(shù)據(jù)庫和開源
    的頭像 發(fā)表于 12-13 16:05 ?305次閱讀

    NoSQL 數(shù)據(jù)庫如何選型

    什么是NoSQL數(shù)據(jù)庫?為什么要使用NoSQL數(shù)據(jù)庫?鍵值數(shù)據(jù)庫內(nèi)存鍵值數(shù)據(jù)庫文檔數(shù)據(jù)庫列式數(shù)據(jù)庫
    的頭像 發(fā)表于 11-26 08:05 ?419次閱讀
    NoSQL <b class='flag-5'>數(shù)據(jù)庫</b>如何選型

    一文解析向量數(shù)據(jù)庫的大模型之路

    數(shù)據(jù)在 MaaS 時代很重要,市場的火熱映射到具體的企業(yè)行為上,表現(xiàn)為大批量垂直模型的推出、數(shù)據(jù)庫企業(yè)融資數(shù)量增加、數(shù)據(jù)庫使用量陡然增長等。
    發(fā)表于 11-17 11:37 ?476次閱讀
    一文解析<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>的大<b class='flag-5'>模型</b>之路

    英特爾攜手星環(huán)科技聯(lián)合發(fā)布AIGC向量數(shù)據(jù)庫解決方案

    近日,英特爾與星環(huán)科技在2023中國國際進口博覽會上,聯(lián)合發(fā)布了AIGC向量數(shù)據(jù)庫解決方案,旨在支持多樣化機器學習模型生成的海量向量數(shù)據(jù),滿
    的頭像 發(fā)表于 11-11 15:24 ?745次閱讀