自從2018年谷歌發(fā)布BERT之后
到ChatGPT在火爆全球
大模型的超強(qiáng)能力以及背后的吸金屬性
吸引著無數(shù)廠商對其趨之若鶩
紛紛投入到煉大模型的熱潮中去
這大模型不僅是越來越大
模態(tài)還越“堆”越多
多模態(tài)大模型到底是個(gè)啥?
講到這里,我們先來說說
多模態(tài)大模型中的
這個(gè)“多模態(tài)”到底是個(gè)啥
多模態(tài)的概念源于德國生理學(xué)家
赫爾姆霍茨提出的“感覺道”
加被稱為“感覺通道”
主要探討了人類在感知和認(rèn)知過程中
多種感官的相互作用和協(xié)同工作
如視覺、聽覺、觸覺、味覺和嗅覺等
在人工智能領(lǐng)域
多模態(tài)意味著算法可以處理不止一個(gè)模態(tài)的數(shù)據(jù)
可以在文本、圖像、音頻等
多種類型的數(shù)據(jù)中理解、轉(zhuǎn)譯、生成
有效提高大模型處理多種信息的
準(zhǔn)確性和魯棒性
比如多模態(tài)大模型
理解文字和圖片兩種模態(tài)的數(shù)據(jù)
就能以文生圖,讓畫手直面職業(yè)危機(jī)
理解音頻、視頻、圖片多種形態(tài)的數(shù)據(jù)
在生成工業(yè)質(zhì)檢模型時(shí)
就能實(shí)現(xiàn)視頻分析、圖片分析
甚至音頻分析等多樣化的選擇
自從OpenAI發(fā)布多模態(tài)大模型GPT-4后
全球各大廠商便又開始朝著“好事多?!边M(jìn)發(fā)
這模態(tài)越“堆”越多
前一段時(shí)間還出現(xiàn)了
六模態(tài)大模型和全模態(tài)大模型……
“堆模態(tài)”是喜還是憂?
看著大家爭相發(fā)布多模態(tài)大模型
突然就有一個(gè)問題:
大模型的模態(tài)越多就真的越好嗎?
答案卻是……不一定。
舉個(gè)例子,如果你要建造一棟房子
你會選擇使用多少種不同的材料呢?
顯然,選擇過多的材料會導(dǎo)致
建筑成本增加、建設(shè)時(shí)間、精力增加等問題
而多模態(tài)大模型的模態(tài)過多
也會導(dǎo)致一些問題的出現(xiàn),比如:
1.多模態(tài)不等于湊模態(tài)
如今廠商們都在爭先恐后的發(fā)布
自家的多模態(tài)大模型
其中當(dāng)然有許多精品
但也不乏粗制濫造的水貨
比如在自然語言處理中
增加一個(gè)文字轉(zhuǎn)換語音的功能
就生成自己家練出了多模態(tài)
2.多模態(tài)=高成本
算力資源是各大公司進(jìn)入煉大模型的入場券
數(shù)據(jù)更熟訓(xùn)練大模型的關(guān)鍵
模態(tài)越多大模型
訓(xùn)練所需要的算力就越多
數(shù)據(jù)量也就越豐富
如果公司一味要求模態(tài)的豐富
最終很可能導(dǎo)致大模型模態(tài)多而不精
反而得不償失
3.多模態(tài)不等于好落地
上文也提到了
多模態(tài)大模型在處理復(fù)雜的應(yīng)用場景時(shí)
可能更加有效
然而不同的應(yīng)用場景對模態(tài)的需求是不同的
例如,在自然語言處理領(lǐng)域
對于一些特定任務(wù)
如情感分析或文本分類
使用單一的文本模態(tài)可能已經(jīng)足夠
而不需要額外的圖像或音頻模態(tài)
“貪多嚼不爛”這句俗語
如今也可以用在煉大模型上
廠家們在決定“堆模態(tài)”前
不妨先考慮一下
落地場景、數(shù)據(jù)質(zhì)量、算力資源等綜合因素
適當(dāng)選擇模型結(jié)構(gòu)
切記模型雖好,但不能貪多哦!
審核編輯 黃宇
-
大模型
+關(guān)注
關(guān)注
2文章
2274瀏覽量
2357
發(fā)布評論請先 登錄
相關(guān)推薦
評論