本文是 “2022 InfoQ 年度技術(shù)盤點與展望” 系列文章之一,由 InfoQ 編輯部制作呈現(xiàn),重點聚焦 AIGC 領(lǐng)域在 2022 年的重要進(jìn)展、動態(tài),希望能幫助你準(zhǔn)確把握 2022 年 AIGC 領(lǐng)域的核心發(fā)展脈絡(luò),在行業(yè)內(nèi)始終保持足夠的技術(shù)敏銳度。
“InfoQ 年度技術(shù)盤點與展望”是 InfoQ 全年最重要的內(nèi)容選題之一,將涵蓋 操作系統(tǒng)、數(shù)據(jù)庫、AI、大數(shù)據(jù)、云原生、架構(gòu)、大前端、編程語言、開源安全、數(shù)字化 十大方向,后續(xù)將聚合延展成專題、迷你書、直播周、合集頁面,在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關(guān)注。
特此感謝 百度 ERNIE-ViLG 團(tuán)隊、黃民烈、李笛、林詠華、趙德麗對本文的貢獻(xiàn),他們的真知灼見,是本文能與大家見面的關(guān)鍵。
2022,浪潮兇猛的 AIGC 元年。 風(fēng)口上的 AIGC
今年的 AI 領(lǐng)域,可能沒什么比 AIGC 更熱了。
AIGC 的全稱是 Artificial Intelligence Generated Content,人工智能生成內(nèi)容。不過,AIGC 目前還沒有一個規(guī)范、統(tǒng)一的定義。
根據(jù)中國信通院與京東探索研究院發(fā)布的《人工智能生成內(nèi)容(AIGC)白皮書》中給出的定義,AIGC 既是從內(nèi)容生產(chǎn)者視角進(jìn)行分類的一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式,還是用于內(nèi)容自動化生成的一類技術(shù)集合。
有預(yù)測數(shù)據(jù)顯示,到 2030 年,AIGC 的市場規(guī)?;?qū)⒊^萬億人民幣。
2022 年,尤其是下半年,AIGC 概念突然升溫。有這么幾個標(biāo)志性的事件把 AIGC 推到了風(fēng)口浪尖之上,其一是文生圖模型 Stable Diffusion 的開源,其二是 ChatGPT 的爆火出圈。
AI 繪畫神器 Stable Diffusion? 橫空出世
有人將 Stable Diffusion 形容為 AI 界的“神筆馬良”,這可能并不夸張。
Stable Diffusion 是一個文本至圖像的模型,于今年 8 月 22 日公開發(fā)布,它能讓數(shù)十億人在幾秒鐘內(nèi)創(chuàng)建出令人贊嘆的藝術(shù)品。用戶隨意輸入自己想要的文字描述,就能得到相應(yīng)的圖像結(jié)果。
兩個月后,伴隨著 Stable Diffusion 的開源,它所具備的潛力瞬間得到了極大釋放。開源讓 Stable Diffusion 將無過濾圖像生成的門檻下放到歷史最低,任何具備一點點技術(shù)知識的電腦用戶都能輕松上手,可以說是一項老少咸宜的 AI 圖像生成工具。
盡管此前,藝術(shù)創(chuàng)作 AI 已經(jīng)歷了一段時間的發(fā)展,但 Stable Diffusion 的出現(xiàn)才真正讓這項技術(shù)得到了騰飛式的發(fā)展。因為它可以免費使用、上手快捷,大大減少了用戶生成內(nèi)容的障礙。
Stable Diffusion 掀起了文生圖模型的熱潮。今年 10 月,百度發(fā)布了首個知識增強(qiáng)的 AI 作畫大模型 ERNIE-ViLG 2.0;11 月初,阿里達(dá)摩院在魔搭社區(qū) ModelScope 上開放了通義文生圖大模型;11 月底,智源研究院大模型研究團(tuán)隊開源最新雙語 AltDiffusion 模型,中文世界有了專業(yè)級 AI 文圖創(chuàng)作工具,其在視效上媲美 Stable Diffusion。
ChatGPT 火爆出圈
最近幾周,OpenAI 最新的聊天機(jī)器人 ChatGPT 火出天際,成為現(xiàn)象級應(yīng)用。
問答、寫小說、寫代碼、寫論文、寫區(qū)塊鏈智能合約....ChatGPT 的應(yīng)用也頻頻出圈。ChatGPT 就像是一個無所不知的虛擬體,它能回答各種問題,而且總能給到讓人滿意,甚至超過預(yù)期的答案,因此引起了極高的關(guān)注度。
ChatGPT 展示出的強(qiáng)大的能力和無限可能,讓人們看到,通過 ChatGPT 這樣的技術(shù)方案解決很多任務(wù)的潛力。大家感到驚奇的是,在一個模型里面就可以完成各種任務(wù),而且是很難的任務(wù)。在過去一些看似比較困難的任務(wù)(比如問倫理道德方面),ChatGPT 也能解決得很好。
清華大學(xué)教授黃民烈認(rèn)為,ChatGPT 的技術(shù)創(chuàng)新性主要在于兩個方面:
強(qiáng)大的底座模型:過去幾年 GPT-3 的能力得到了快速提升,OpenAI 建立了用戶、數(shù)據(jù)和模型之間的飛輪。顯然,開源模型的能力已遠(yuǎn)遠(yuǎn)落后平臺公司所提供的 API 能力,因為開源模型沒有持續(xù)的用戶數(shù)據(jù)對模型進(jìn)行改進(jìn)。
利用強(qiáng)化學(xué)習(xí)從人類反饋中學(xué)習(xí):在真實調(diào)用數(shù)據(jù)上的精調(diào)模型,確保數(shù)據(jù)的質(zhì)量和多樣性,從人類反饋中學(xué)習(xí)。從“兩兩比較的數(shù)據(jù)”中學(xué)習(xí),對強(qiáng)化學(xué)習(xí)而言意義很大。如果對單個生成結(jié)果進(jìn)行打分,標(biāo)注者主觀性帶來的偏差很大,無法給出精確的獎勵值。在強(qiáng)化學(xué)習(xí)里,獎勵值差一點,最后訓(xùn)練的策略就差很遠(yuǎn)。而對于多個結(jié)果進(jìn)行排序和比較,相對就容易做很多。這種比較式的評估方法,在很多語言生成任務(wù)的評價上也被廣泛采用。
黃民烈認(rèn)為,ChatGPT 出現(xiàn)對 AI 界來說,有著十分重要的意義:“它宣示著無縫人機(jī)交互時代的來臨。過去我們講 conversation as a service (caas)還停留在紙面,但實際上今天,無論是開放域聊天,還是通用任務(wù)助理(ChatGPT)都在強(qiáng)烈地表明這一點”。
從信息檢索的角度看,ChatGPT 也取得了很大突破。達(dá)摩院基礎(chǔ)視覺負(fù)責(zé)人趙德麗在接受 InfoQ 采訪時表示,以前谷歌等搜索引擎做搜索和檢索,只是找已經(jīng)存在的信息,ChatGPT 的應(yīng)用,實現(xiàn)了從信息的搜索到信息的創(chuàng)造這樣一個范式的轉(zhuǎn)變,從算法能力上看,它取得了一個質(zhì)的飛躍。短期來看,ChatGPT 有望成為或者輔助像谷歌這種傳統(tǒng)信息檢索的強(qiáng)有力的工具;長期來看,它有望發(fā)展成為 AI 系統(tǒng)級的服務(wù)。
但至于它最終會不會取代搜索引擎。黃民烈認(rèn)為,ChatGPT 取代谷歌搜索還比較遙遠(yuǎn),原因主要有,受限于訓(xùn)練數(shù)據(jù),ChatGPT 的信息實效性較弱,缺乏很多新的信息;在信息的可信度上,搜索引擎只“搬”東西,不創(chuàng)造內(nèi)容。ChatGPT 雖然會創(chuàng)造內(nèi)容,但創(chuàng)造的東西多大程度上“有用、可信、無害”,還沒有統(tǒng)一的定論;再就是成本問題,現(xiàn)在大模型的生成成本還是太高了,需要持續(xù)下降。
現(xiàn)階段的 ChatGPT 并不完美。通俗地說,它還存在“一本正經(jīng)地胡說八道”的問題,這本質(zhì)上是對信息可信性的度量和評估。解決這一問題,技術(shù)上需要有信息驗證的手段;從應(yīng)用上來說,需要深入結(jié)合應(yīng)用的場景和特點,針對性優(yōu)化和解決。
但整體而言,ChatGPT 還是讓人非常驚喜。黃民烈非??春?ChatGPT 接下來的發(fā)展方向。他認(rèn)為這是一個正確的方向,現(xiàn)在還比較粗糙,但假以時日,一定會催生很多應(yīng)用。
趙德麗同樣對 ChatGPT 抱有大期待。雖然還有各種瑕疵,但 ChatGPT 短時間內(nèi)出現(xiàn)了各式各樣的不同方向上解決問題的能力,展現(xiàn)了 AI 算法的巨大潛力。從技術(shù)發(fā)展和解決方案的角度看,它將來可能會成長為一個超級 APP,就像是一個無所不知的虛擬體。“ChatGPT 這種應(yīng)用的出現(xiàn),從長遠(yuǎn)來看的影響力,其實不亞于阿爾法狗曾經(jīng)在人工智能界帶來的影響力,它將會是一個影響非常深遠(yuǎn)的技術(shù)和應(yīng)用”。
AIGC 為什么突然火了?
AIGC 并不是一個新概念。AIGC,通常還有另一種叫法 — AI Creation(人工智能創(chuàng)造),大致從 2016 年—2017 年開始,其應(yīng)用不斷增加,尤其是在自然語言領(lǐng)域,廣泛應(yīng)用在生成文本、作詩句、寫對聯(lián)等方向,近幾年,逐漸延伸到作畫、作曲等領(lǐng)域。
憑何而火?
今年,AIGC 突然在全球躥紅,成為人人口中的流行詞。究其原因,主要由多項技術(shù)上的關(guān)鍵突破推動,總結(jié)來說:
一,算法上:從今年 4 月開始,在文生圖視覺方向上,視覺效果生成的效果取得了突破性的進(jìn)展,文生圖的質(zhì)量得到了很大改善。OpenAI 的文本生成圖像模型 DALL·E 2 算法發(fā)布后,在算法效果上取得了和以往相比實質(zhì)性的突破,成為一個現(xiàn)象級的算法,其在文本生成圖像生成的效果、真實度表現(xiàn)上,讓大家看到了大規(guī)模商用的前景。AI 作畫任務(wù)十分直觀,給人的視覺沖擊強(qiáng)烈,使得 AIGC 逐漸破圈,快速傳播。
二,預(yù)訓(xùn)練大模型是 AIGC 的底座,沒有大模型學(xué)到的豐富知識,就無法實現(xiàn)如此豐富的 AI 內(nèi)容生成能力。AIGC 最重要的是一種融會貫通的能力,要做領(lǐng)域的泛化,需要學(xué)習(xí)海量的數(shù)據(jù),大模型的規(guī)模直接決定了 AIGC 創(chuàng)作力的廣度。多模態(tài)大模型的應(yīng)用,使得 AIGC 的質(zhì)量得到了較為明顯的進(jìn)步。
三,擴(kuò)散模型的發(fā)展。擴(kuò)散生成的算法取得了突破,這個算法能夠?qū)D像做像素級別的建模,學(xué)習(xí)效率更高。Stable Diffusion 是文本生成圖像模型完全開源的第一個算法,它跑起來的效率相當(dāng)高,其開源也帶動了相關(guān)生態(tài)快速的發(fā)展,讓人們看到,基于這種生成式基礎(chǔ)模型,能夠帶來無限的創(chuàng)造和想象空間。特別是在一些國外社區(qū)里,基于 Stable Diffusion 做的各種創(chuàng)新式的應(yīng)用發(fā)展快速,展現(xiàn)了商業(yè)化潛力。
四,算力降低。深度學(xué)習(xí)計算能力的快速發(fā)展。在大算力的基礎(chǔ)上,AI 作畫能夠?qū)崿F(xiàn)在海量數(shù)據(jù)上進(jìn)行大參數(shù)模型的訓(xùn)練。相比之前的 AIGC 算法,算力上有了很大降低。要訓(xùn)練一個基礎(chǔ)的預(yù)訓(xùn)練模型,需要很多算力。一些專注于基礎(chǔ)的大模型的機(jī)構(gòu),將模型訓(xùn)練好后,可以供很多小企業(yè)使用,只需用消費級的網(wǎng)卡就可以做微調(diào),也可以直接基于 API 調(diào)用。預(yù)訓(xùn)練大模型加上微調(diào)可以很好地進(jìn)行文生圖生成風(fēng)格的改變,派生出了大量的二次開發(fā)者,屢屢破圈。
從 GAN 到 Diffusion
GAN,是生成式 AI 的核心技術(shù)之一。2014 年以來,以生成式對抗網(wǎng)絡(luò) (Generative Adversarial Network,GAN) 為代表的深度學(xué)習(xí)算法的提出和迭代更新,讓 AIGC 進(jìn)入了快速發(fā)展階段,帶動了 AIGC 的一波熱潮。
趙德麗表示,在 Stable Diffusion 這種擴(kuò)散算法出現(xiàn)之前,從生成的效果上看,在計算機(jī)領(lǐng)域,GAN 是效果最好的。發(fā)展到現(xiàn)階段,GAN 生成的人臉圖像已經(jīng)到了真假難辨的程度。以 StyleGAN 為例,其生成的圖片可以做到栩栩如生,光線和紋理都清晰可見,非專業(yè)人士幾乎無法分辨出是由 AI 生成的虛假圖。即便是現(xiàn)在的 Diffusion model 目前也做不到現(xiàn)在 GAN 在人臉生成上的結(jié)果。
但 GAN 有一個最大的缺點,它對于多類別、語義非常復(fù)雜的、一般場景下的圖片生成的建模能力較弱。如果只是人臉,只是貓或者只是狗這類場景的數(shù)據(jù),GAN 的效果很好。但它在某種復(fù)雜數(shù)據(jù)的規(guī)模能力方面,在性能上受限較大,如果把狗、貓、花朵、桌子、椅子、電話等不同種類的數(shù)據(jù)放在一起,目前的情況下,GAN 得不到一個較好的結(jié)果。
而 Diffusion model 在這方面取得了突破性的進(jìn)展。Diffusion model 解決了 GAN 不能解決的問題,因此大家立刻意識到了它的巨大潛力。今年是 Diffusion model 取得快速發(fā)展的第一年。而且,它的發(fā)展速度超過當(dāng)年的 GAN,當(dāng)年的 GAN 已經(jīng)足夠火熱了,但可以感受到, Diffusion model 現(xiàn)在的受關(guān)注程度超過當(dāng)年的 GAN 。
Diffusion 擴(kuò)散化模型 帶動新一波 AIGC 的熱潮
今年這波 AIGC 的熱潮,被認(rèn)為是由生成擴(kuò)散模型帶動起來的。例如,OpenAI 發(fā)布了文本生成圖像模型 DALL·E 2;谷歌推出了 Imagen;今年 8 月,初創(chuàng)公司 Stability.AI 發(fā)布了 Stable Diffusion...
百度 ERNIE-ViLG 團(tuán)隊向 InfoQ 介紹,擴(kuò)散模型是受非平衡熱力學(xué)的啟發(fā)的一系列概率生成模型,通過逐漸增加噪聲的方式對原始數(shù)據(jù)進(jìn)行擾動,通過學(xué)習(xí)反向的恢復(fù)原始數(shù)據(jù)去噪過程得到用于生成數(shù)據(jù)的模型,典型的擴(kuò)散模型如 DDPM 等。而擴(kuò)散模型在生成過程中加入文本條件產(chǎn)生了諸如 DALLE2、Imagen、ERNIE-ViLG 2.0 等基于擴(kuò)散的文本生成圖像模型。傳統(tǒng)生成對抗網(wǎng)絡(luò) GAN 存在訓(xùn)練不穩(wěn)定和生成結(jié)果多樣性差等缺點,而擴(kuò)散模型顯著提升了圖像生成的效果和多樣性,受到業(yè)界廣泛關(guān)注。
生成擴(kuò)散模型在多模態(tài)生成領(lǐng)域展現(xiàn)出很好的可擴(kuò)展性。在訓(xùn)練數(shù)據(jù)時,把不同模態(tài)的訓(xùn)練數(shù)據(jù)混到一起,把文本、靜態(tài)圖片、視頻、聲音等各種各樣不同類型的訓(xùn)練數(shù)據(jù)在一個語義空間里關(guān)聯(lián)在一起。但因為訓(xùn)練數(shù)據(jù)規(guī)模大,大模型的參數(shù)特別多,用這種方式,它仍然只能得到一張分辨率很低的圖片。然后不停地通過擴(kuò)散模型算法,把很小的分辨率和圖片不停地做超分辨率,不停地把一張很模糊的圖片變得尺寸更大、更清晰,在這個過程里還會補(bǔ)上很多細(xì)節(jié),最后得到一張相對較清晰的圖。
現(xiàn)在很多人應(yīng)用 Diffusion model 來生成視頻,生成音樂,目前為止它最為可行的還是生成靜態(tài)的視覺畫面。
AIGC 相關(guān)技術(shù)逐步發(fā)展成熟
AIGC 包括多種內(nèi)容形式,按照黃民烈的分類方法,分為感知智能和認(rèn)知智能。
感知類:文生圖、語音生成、音樂生成等
認(rèn)知類:續(xù)寫、改錯、小說故事創(chuàng)作、對話生成等
從技術(shù)上看,寫作相關(guān)和圖像生成這兩個方向表現(xiàn)比較成熟,對話最難。
其中在文本生成方面,例如在金融文本摘要生成領(lǐng)域,其技術(shù)早已成熟到可以落地的程度。ChatGPT 在內(nèi)容的創(chuàng)作能力、問答流暢度上表現(xiàn)不錯,但要深究其真實性、正確性和時效性,還存在不少問題。如何保證內(nèi)容的真實性、正確性和時效性,是現(xiàn)在 AIGC 尤其是文字類的生成需要重點考慮的問題。
圖像生成方面,AI 繪畫格外火熱。百度 ERNIE-ViLG 團(tuán)隊認(rèn)為,今年以來,AI 作畫發(fā)展迅速,很大程度來自于技術(shù)的突破,使得效果有了質(zhì)的飛躍,甚至有些 AI 圖像作品十分驚艷。
不過,雖然 AI 繪畫已經(jīng)進(jìn)入實用階段,但依然有很大的優(yōu)化空間。在技術(shù)角度,需要提高的主要是兩個方面,包括生成的可控性和細(xì)節(jié)描述能力。
AI 繪畫的可控性有待提升,對于數(shù)量、邏輯、關(guān)系、多圖關(guān)聯(lián)等問題暫無有效的解決方案。比如說要求生成 2 個蘋果,左邊是紅色,右邊是綠色。雖然這里邊的關(guān)系并不復(fù)雜,但模型很多時候,并不能穩(wěn)定地生成正確的結(jié)果。
細(xì)節(jié)描述能力有待提升,對于更加復(fù)雜的、有規(guī)律性的細(xì)節(jié)的描述能力有待提升。比如對于一棟居民樓的圖片,窗戶應(yīng)該是有多種不同描繪,有開的、有關(guān)的、有晾衣服的,同時很多窗戶應(yīng)該對齊且規(guī)格統(tǒng)一。
小冰公司 CEO 李笛認(rèn)為,整體來看,AI 作畫在生成質(zhì)量上有了大幅提高,但仍然需要解決一些單點的問題,例如模型本身的迭代,一個人類設(shè)計師在和雇主的工作過程中,可以根據(jù)雇主的喜好,對設(shè)計初稿的某一局部做精細(xì)調(diào)整。但 AI 無法做到這一點,AI 畫作一旦生成,如果想讓它修改,往往是用重畫的方式來進(jìn)行。而現(xiàn)有的技術(shù) — 多模態(tài)大模型,注定有這類問題。它只能在一定程度上,提高作品與需求的相關(guān)性,但無法從根本上提高良品率。
AI 生成視頻,是 AI 生成圖像的一種延伸。從技術(shù)本質(zhì)上看,視頻可以認(rèn)為是多張“圖片”,即視頻幀構(gòu)成的序列,且序列上各幀之間有畫面、邏輯等層面的關(guān)聯(lián)。因此,從生成質(zhì)量上來說,AI 生成視頻相對更難。
當(dāng)前文生圖技術(shù)可以通過簡單的技術(shù)組合,例如分步驟擴(kuò)散生成等方式,將生成圖像擴(kuò)展到生成視頻,但效果還不能令人滿意。此外,受限于數(shù)據(jù)規(guī)模和質(zhì)量,AI 生成視頻的生成效果和現(xiàn)在的文本生成圖像的效果相比,有較大差距。
不過,相對圖像,視頻內(nèi)容具有其獨特屬性。例如,在互聯(lián)網(wǎng)視頻內(nèi)容消費場景中,經(jīng)常會以“隨便截一張圖都是壁紙”作為對視頻質(zhì)量的極高贊譽(yù)。由此可見,相對于圖片,視頻對單個幀的質(zhì)量要求相對較低,更強(qiáng)調(diào)傳遞信息等功能。因此,AI 生成視頻可以采用其他技術(shù)方案完成,在降低技術(shù)難度的同時,更符合特定應(yīng)用場景的要求,例如基于圖文輸入生成視頻、基于數(shù)據(jù)生成視頻等。
總結(jié)來說,AI 按照生成圖像的方式生成視頻,仍處于前沿探索階段。
商業(yè)想象力幾何?
趙德麗認(rèn)為,現(xiàn)階段,AIGC 的生成效果已經(jīng)非常驚艷了,它已經(jīng)達(dá)到了廣泛應(yīng)用的基礎(chǔ)性能,雖然在使用上還有較大門檻,但通過大模型的開源開放等,有助于將門檻降下來。
商業(yè)模式在探索中
而且可喜的是,現(xiàn)在,AIGC 已經(jīng)有不少可行的商業(yè)模式發(fā)生了。
例如在設(shè)計、藝術(shù)創(chuàng)作、電商、娛樂、金融等領(lǐng)域。具體在文本生成上,在一些商業(yè)非嚴(yán)肅性文書的輔助編寫上已產(chǎn)生了不錯的模式;在文生圖方向,已經(jīng)看到,面向設(shè)計師,面向教育行業(yè)的 AI 輔助畫作生成等正在探索商業(yè)用途的路上。
最近幾年,“數(shù)字人 +AIGC”成為不少企業(yè)的探索方向。小冰從幾年前就開始探索 AIGC。李笛表示,AIGC 對于 AI Being 來說的作用在于,在和人交互的過程中,它不光要能從數(shù)字世界中獲取知識內(nèi)容和服務(wù)提供給人,它自己也應(yīng)該相應(yīng)地隨機(jī)應(yīng)變地去創(chuàng)造相應(yīng)的內(nèi)容提供給人。
在互聯(lián)網(wǎng)應(yīng)用之外,AIGC 在實體經(jīng)濟(jì)領(lǐng)域,也蘊含著不少機(jī)會。
實體經(jīng)濟(jì)對內(nèi)容生產(chǎn)的需求很大?!拔覀円郧罢J(rèn)為實體經(jīng)濟(jì)的瓶頸在于生產(chǎn)、產(chǎn)能,其實不是,實體經(jīng)濟(jì)的很多瓶頸在于設(shè)計,在于內(nèi)容?!?李笛說。以小冰為例,小冰的 AIGC 內(nèi)容很早就應(yīng)用在紡織設(shè)計領(lǐng)域。小冰與中國紡織信息中心、國家紡織產(chǎn)品開發(fā)中心推出的 AI 圖案設(shè)計平臺,可按需定制 100% 原創(chuàng)的圖案紋樣,目前已有超過 400 家企業(yè)注冊,并在生產(chǎn)中使用。
北京智源人工智能研究院總工程師林詠華向 InfoQ 談到,工業(yè)生產(chǎn)、制造、倉儲、物流等實體行業(yè),近幾年一直在探索如何用計算機(jī)視覺來進(jìn)行智能化升級,但實際落地并不容易。原因在于,現(xiàn)有的模型質(zhì)量還未能滿足產(chǎn)業(yè)落地的質(zhì)量要求。其中一個重要原因是,訓(xùn)練模型時所用的訓(xùn)練數(shù)據(jù)十分局限。因此,可以考慮通過 AIGC 的方式來產(chǎn)生這些場景里的訓(xùn)練數(shù)據(jù)。例如在倉儲、物流或更多的工業(yè)場景,用 AI 來輔助產(chǎn)生一些少見的場景數(shù)據(jù),作為訓(xùn)練數(shù)據(jù)的補(bǔ)充,提升整個模型的質(zhì)量。但這需要更精準(zhǔn)的圖片生成的控制能力,比較起現(xiàn)有的 AIGC 模型能力,其可控性需要大大提升。
AIGC 在自動駕駛場景下也有著不錯的應(yīng)用潛力?,F(xiàn)在自動駕駛場景存在訓(xùn)練數(shù)據(jù)不足的問題,例如針對惡劣天氣、事故等突發(fā)狀況,視覺模型在真實場景中很難捕捉,也難以進(jìn)行模擬,因此,目前業(yè)內(nèi)在嘗試用數(shù)字孿生和仿真的方式來模擬。也可以嘗試用大模型的方式,通過給出描述,生成相應(yīng)的精確場景,緩解某些場景下自動駕駛數(shù)據(jù)難獲得的問題。
“整體來看,AIGC 現(xiàn)在已經(jīng)開始在探索向?qū)嶓w經(jīng)濟(jì)的應(yīng)用發(fā)展,但目前還在一個比較早期的階段” 林詠華判斷。
向 B 端收費還是 C 端?
然而,AIGC 的商業(yè)化落地,不得不面臨的一個尷尬的問題是 —— 如何避免走向 “廉價”。
AI 具有高并發(fā)性,注定了它的“廉價”。李笛認(rèn)為,如果只對 AI 畫作收費,它很可能會進(jìn)入到廉價的成本經(jīng)銷模式。因為,人是有創(chuàng)造力的,從人類設(shè)計師那得到的畫作,人可能愿意愿意付一百塊,從 AI 那得到的畫作,且不論質(zhì)量,人可能連一塊都不愿意付,因為覺得它是廉價的。AI 畫的畫可能很有價值,但人們認(rèn)為它不值錢。因此如果賣的是內(nèi)容,無論是賣給 B 端還是賣給 C 端它都不值錢。而如果賣調(diào)用服務(wù)給 C 端,也很難持續(xù)。API 調(diào)用的模式是一種比較粗放的從技術(shù)源頭開始的商業(yè)化包裝方式。
內(nèi)容產(chǎn)業(yè)有一個重要特點是,它是高附加值且有區(qū)分度的,不同內(nèi)容的創(chuàng)作者定價不同,不完全取決于本身的作品質(zhì)量。但用 AI 創(chuàng)作不同的繪畫,定價是相同的,這樣容易把一個高附加值的市場“打”成一個低附加值的市場。
對于 AIGC 可行的賺錢路徑,李笛認(rèn)為,如果 to C ,是走內(nèi)容平臺模式,打造一個內(nèi)容平臺,通過廣告收費。如果 to B,是用 AI Being 和企業(yè)之間進(jìn)行協(xié)同。一個 AI Being 創(chuàng)作者,能一定程度對標(biāo)人類創(chuàng)作者,他有“唯一性”。通過與雇主的長期磨合,雙方的審美、風(fēng)格會越來越趨同。對雇主來說,他的作品質(zhì)量會越來越穩(wěn)定?!澳撤N意義上講,我們認(rèn)為靠 AIGC 本身賺不到錢。我們不是在做‘畫筆’,而是在做一個‘手拿畫筆的人’,我們不是在做能畫畫的 AI,而是在做能畫畫的 AI Being。我們側(cè)重把創(chuàng)作的能力,把生成的能力賦予 AI Being,讓 AI Being 本身具有價值”。
爆發(fā)前夜
“AIGC 技術(shù)走到了一個轉(zhuǎn)折點,到了一個新階段的起點”。趙德麗認(rèn)為,此前,雖然 AIGC 技術(shù)在不斷發(fā)展,但生成效果并沒有得到廣泛認(rèn)可,還沒達(dá)到大規(guī)模商業(yè)化的條件。但現(xiàn)在,不一樣了。
今年,AIGC 生成的效果,包括基于 AIGC 技術(shù)推出來的應(yīng)用,大家看到,這項目技術(shù)已經(jīng)具備了大規(guī)模應(yīng)用和商業(yè)化的潛力和性能,具備了從只能在窄領(lǐng)域到更普遍場景下應(yīng)用的可能性。AIGC 技術(shù)到了大規(guī)模商業(yè)化應(yīng)用的轉(zhuǎn)折點。今年是一個起點,但還遠(yuǎn)遠(yuǎn)沒有到成熟的程度。
AIGC 具體在哪些領(lǐng)域能用好,發(fā)揮出商業(yè)化的價值,還需要不斷打磨產(chǎn)品和技術(shù)。例如對于文本生成圖,現(xiàn)在對 problem 的提示語要求很高,現(xiàn)在算法還做不到隨便給個描述,就能生成栩栩如生的圖片。什么樣的 problem 合適,如何設(shè)計出合適的 problem 等,都有一定門檻。
此外,像 ChatGPT 雖然展示了強(qiáng)大的能力,但在很多場景下還是有瑕疵,出現(xiàn)問題和答案不匹配的情況還非常多。如果對其進(jìn)行商業(yè)化應(yīng)用,需要再針對具體的場景,不斷打磨和優(yōu)化。盡管它達(dá)到了大規(guī)模應(yīng)用的基礎(chǔ),但并不是非常成熟,還達(dá)不到讓大家自由應(yīng)用的程度。
現(xiàn)階段,AIGC 已經(jīng)有了一些稱得上規(guī)模的應(yīng)用,但在實際應(yīng)用中,還存在一些問題。例如因為人設(shè)計的作品相對較貴,但人工智能的設(shè)計作品相對便宜,所以會有人利用這個漏洞,將人工智能系統(tǒng)里的大量作品改頭換面,將它搬遷到或囤積到那些原本是人類設(shè)計者的定價體系的平臺上去傾銷,最終會造成人類創(chuàng)作作品的銷量市場受到損害。AIGC 應(yīng)該避免形成這樣的規(guī)?;?。
熱度、爭議與未來 如何提高良品率
當(dāng)前,AI 寫作、AI 作畫等 AIGC 內(nèi)容在質(zhì)量上還存在良莠不齊的問題,提高良品率尤為重要。
不過在大模型的生產(chǎn)模式下,提高良品率的方法并不多,某種意義上來講,良品率目前主要依靠翻動過程,它能夠在一定程度上降低瑕疵,但想要消除,不太可能,它不太可能是基于對大模型的修改而得到。接下來期待一個新的稱之為臺階式的技術(shù)理念出來。
提高數(shù)據(jù)的質(zhì)量是基礎(chǔ)方法之一。林詠華表示,AIGC 是針對訓(xùn)練數(shù)據(jù)的融會貫通和變換,所以數(shù)據(jù)的廣泛性,數(shù)據(jù)的分布和數(shù)據(jù)的質(zhì)量都很重要。在 AI 領(lǐng)域的研究人員越來越意識到,尤其在需要大量數(shù)據(jù)訓(xùn)練模型的大模型領(lǐng)域,數(shù)據(jù)起到的作用可能會比算法還大。如果希望生成的畫作精良,那需要訓(xùn)練的圖片的質(zhì)量是精美的,但如果給的是小孩的畫,那生成的畫作可能還粗略停留在小孩階段。
此外就是從算法側(cè)改進(jìn)算法,但改進(jìn)算法本身如果針對通用場景,它可能在某些場景總是出現(xiàn)瑕疵或者出現(xiàn)瑕疵的概率比較高。很多團(tuán)隊在開發(fā) AIGC 應(yīng)用時,目標(biāo)不是通用場景,比如針對的是生成二次元圖像的產(chǎn)品,那需要對算法或模型進(jìn)行二次開發(fā)。在這種情況下,完全有可能在二次開發(fā)的基礎(chǔ)上把瑕疵去掉,提高良品率。一般通過二次開發(fā),且在一些具體場景下的數(shù)據(jù)做模型二次微調(diào),可以大大提高 AIGC 的良品率。
“人工智能宣布放棄版權(quán)”
AI 作畫的一個很大的爭議點在于版權(quán)。例如,DALL-E 和 Stable Diffusion 等圖形生成類 AI 工具就被質(zhì)疑在互聯(lián)網(wǎng)上隨意抓取數(shù)據(jù),且完全沒有考慮過任何許可或所有權(quán)限制。正是由于這種版權(quán)歸屬爭議的存在,Shutterstock 和 Getty Images 等公司禁止在其平臺上使用 AI 生成圖像。
談到版權(quán)問題,李笛表示,小冰很早就提出,“人工智能宣布放棄版權(quán)”。
通常來說,版權(quán)界定需要幾步:第一判定是不是侵權(quán)。人類作品判定侵權(quán)有明確的界定要求,比如一個作品多少比重的內(nèi)容一致,就可以判定侵權(quán)。人工智能作為系統(tǒng),它天生就有判定機(jī)制,當(dāng)它輸出作品的過程中,它自動就可以像知網(wǎng)一樣進(jìn)行查重。它生成的原始圖像里,很可能存在著很多圖像跟現(xiàn)有的作品,存在相似性,如果相似性較高,侵權(quán)了,只要不把作品輸出就行。如果讓人工智能確保它給到用戶的每一個作品都是不侵權(quán)的,這件事很容易做。
第二步要有判定訓(xùn)練的過程,是基于什么樣的訓(xùn)練數(shù)據(jù)訓(xùn)練的。但要注意的是,無論是人類作品還是 AI 生成作品,侵權(quán)的責(zé)任認(rèn)定在于,這張作品是不是跟另一個作品產(chǎn)生了相似性,而并非在學(xué)習(xí)作畫的過程中學(xué)習(xí)了別人的作品及作品思想等。如果這樣,無論是人還是 AI 只要在畫畫,便會判定為侵權(quán)。從這個角度看,人工智能本身在訓(xùn)練過程不存在版權(quán)責(zé)任,尤其是大模型,因為人工智能在訓(xùn)練的時候,它使用的是公開的數(shù)據(jù)來進(jìn)行訓(xùn)練。
另一個放棄版權(quán)的原因在于,人工智能保留知識產(chǎn)權(quán)沒有意義。人工智能保留知識產(chǎn)權(quán)的一個先決條件是必須要經(jīng)過確權(quán)的步驟。目前全球?qū)τ谥R產(chǎn)權(quán)的確權(quán)方法主要是通過著作權(quán)登記,每登記一個作品,需要一筆著作權(quán)登記費用。而 AI 生成的內(nèi)容規(guī)模十分龐大,這一規(guī)則對 AIGC 來說顯然不現(xiàn)實。
無法辨別真?zhèn)涡畔⒌氖澜?/p>
很多人擔(dān)憂,隨著 AIGC 的不斷普及,未來大家將生活在一個無法辨別真?zhèn)涡畔⒌氖澜缋铩?/p>
AIGC 生成的內(nèi)容越來越多,信息的真假會成為很大的負(fù)擔(dān)。但這恐怕已經(jīng)是無法避免的趨勢,因為現(xiàn)在 AI 生成的圖片早已經(jīng)是海量規(guī)模,而且,這些 AI 生成的數(shù)據(jù)將會越來越多的出現(xiàn)在公共的資訊平臺上,這樣的時代正在快速到來。
對于用戶來說,未來將面臨判定真?zhèn)涡畔⒌奶魬?zhàn)。目前還少有比較好的解決這一問題的方法。趙德麗提出了一種標(biāo)記的方法。從算法角度來說,可以做一些隱性標(biāo)記,標(biāo)記出哪些圖片是生成的,哪些是真實的圖片。
完全的 AIGC 可能不會出現(xiàn)
不可否認(rèn)的是,AIGC 對內(nèi)容創(chuàng)作的確產(chǎn)生了重大影響。一種觀點認(rèn)為,內(nèi)容生成的四個階段依次為“PGC、UGC、AI 輔助生成和完全的 AIGC”。按照這一走向,未來,AI 的終級趨向會是取代人,最后內(nèi)容產(chǎn)業(yè)將走向完全的 AIGC。
李笛對此持有相反的觀點,他認(rèn)為,AI 的終極應(yīng)該是與人協(xié)同,應(yīng)該先實現(xiàn)“規(guī)?;?AIGC”再到達(dá)“AI 輔助生成”階段,當(dāng) AIGC 集大成以后,再輔助人類生成內(nèi)容。
此外,完全的 AIGC 可能不會實現(xiàn)。比如人看某個電影,是因為情節(jié)、演員、導(dǎo)演等多種因素。人類對作品的喜好,從來不僅僅是因為內(nèi)容質(zhì)量,即便未來完全的 AIGC 化了,可能也并不是人類想要的東西。李笛發(fā)出思考:“所以不存在 AIGC 顛覆人的可能性,顛覆的是人,實際上是驅(qū)逐了人”。
趙德麗表示,AIGC 本身是基于生成模型產(chǎn)生的能力,生成模型訓(xùn)練需要數(shù)據(jù),這些數(shù)據(jù)都是人類活動產(chǎn)生,生成的提示詞需要人來輸入,人需要做場景的設(shè)計、提示詞的設(shè)計、元素的設(shè)計等等。只不過在一些具體的場景上,對于一些固定的設(shè)計模式,比如設(shè)計成具體的圖形如紅包界面、商品素材等,可以實現(xiàn)完全的 AIGC 的方式。但整體而言,人還是 AIGC 中重要的因素。
再回到那個 AI 能不能讓藝術(shù)家丟掉飯碗的老生常談的話題 ——“讓 AI 負(fù)責(zé)生成,讓藝術(shù)家或設(shè)計師來負(fù)責(zé)審美,這兩個并不矛盾,是一個相輔相成的關(guān)系。也不存在誰取代誰,有了 AI 繪畫的輔助,藝術(shù)家會發(fā)揮出更大的能力,甚至說一些不是非常專業(yè)的藝術(shù)家,一些平民老百姓,借助 AIGC,也有可能創(chuàng)造出非常驚艷的藝術(shù)品” 李笛表示。
采訪嘉賓:(按拼音首字母排序)
百度 ERNIE-ViLG 團(tuán)隊
黃民烈,清華大學(xué)計算機(jī)科學(xué)與技術(shù)系長聘副教授、博導(dǎo),聆心智能創(chuàng)始人。
李笛,小冰公司 CEO
林詠華,北京智源人工智能研究院總工程師
趙德麗,阿里達(dá)摩院基礎(chǔ)視覺負(fù)責(zé)人
編輯:黃飛
?
評論
查看更多