自從進(jìn)入 2023 年以來(lái),AIGC 技術(shù)已催生了新一輪人工智能浪潮。AI 繪畫作為大模型最引人矚目的應(yīng)用領(lǐng)域之一,近年來(lái)也取得了重大突破。AI 繪畫系統(tǒng)可以根據(jù)用戶的輸入或提示生成各種風(fēng)格的圖像,這為藝術(shù)家、設(shè)計(jì)師和創(chuàng)作者提供了強(qiáng)大的工具,也為數(shù)字創(chuàng)意領(lǐng)域帶來(lái)了新的可能性。在本期“極客有約”對(duì)話節(jié)目中,魚哲和百度搜索主任架構(gòu)師 TianBao 就圖像生成技術(shù)進(jìn)行了深入探討,包括百度搜索的應(yīng)用場(chǎng)景、相關(guān)技術(shù)的思考,以及在搜索業(yè)務(wù)場(chǎng)景的應(yīng)用落地經(jīng)驗(yàn)。
亮點(diǎn):
這是一個(gè)巨大的變革,從過(guò)去用戶在全網(wǎng)尋找圖像,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿足用戶更具體的需求,這也在一定程度上鼓勵(lì)用戶更主動(dòng)地表達(dá)他們真正的需求。
要使一個(gè)模型更好地理解中文,準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料非常重要。
對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對(duì)齊所必需的能力。
百度搜索需要滿足用戶在內(nèi)容和風(fēng)格方面多樣化的需求,因此在百度搜索目前支持上千種不同的畫面風(fēng)格定義。
遵循美學(xué)標(biāo)準(zhǔn),構(gòu)建自己的美學(xué)認(rèn)知,無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都需要按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。
文生圖的技術(shù)發(fā)展過(guò)程
魚哲:AIGC 從去年 9 月到現(xiàn)在,我們能看到各種各樣的模型和公司不斷涌現(xiàn)。從最初大家使用 Stable Diffusion 來(lái)生成簡(jiǎn)單的圖像,到后來(lái)用一些其它方法進(jìn)行生成式圖像編輯,后來(lái)甚至 Adobe Photoshop 支持使用自然語(yǔ)言方式修改圖片。我覺(jué)得從之前看到的 AIGC 在生成文本方面取得的成就之外,還有更多有趣的應(yīng)用領(lǐng)域。除了生成圖片,還能夠生成視頻和音頻。最近,我也看到了一些令人驚艷的生成視頻產(chǎn)品。今天想請(qǐng) TianBao 老師跟大家展開介紹一下文生圖技術(shù)目前的整體發(fā)展趨勢(shì)是什么樣的。
TianBao:2022 年可以算是文生圖的元年,整體上分為以 Stable Diffusion 為代表的開源的流派,以及 Midjourney 、Adobe 的 Firefly、Dall-E 3 為代表的閉源模型。而之所以說(shuō)這一年是元年,是源于 Disco Diffusion。Disco Diffusion 的目標(biāo)主要是 landscape 等風(fēng)景類創(chuàng)作,風(fēng)景類場(chǎng)景是一個(gè)容錯(cuò)率比較高的場(chǎng)景,并結(jié)合了富有視覺(jué)沖擊的色彩,極具藝術(shù)質(zhì)感,這在 2021 年底至 2022 年初,是一個(gè)很大膽、很驚艷的一個(gè)嘗試。
直到 2022 年 2 月,Midjourney 發(fā)布了 v1 版本。v1 的整體效果相當(dāng)令人吃驚,但在生成人像方面還差強(qiáng)人意。直到同年 7 月中旬,Midjourney v3 才能正常地生成一些常規(guī)人像。在 8 月份時(shí),作品《太空歌劇院》就通過(guò) Midjourney v3 進(jìn)行生成,加上 Photoshop 的后期處理,這使得 Midjourney 成功引起了轟動(dòng)。
stable-diffusion 1.5 版本也在同一時(shí)期開源,這個(gè)開源事件具有里程碑的意義,因?yàn)閺哪菚r(shí)起,像 C 站這樣的更多用戶開始涌向去中心化的模型和優(yōu)化領(lǐng)域。隨著開源技術(shù)的發(fā)展,整個(gè)生態(tài)系統(tǒng),包括下游應(yīng)用,都經(jīng)歷了爆發(fā)式增長(zhǎng)和涌現(xiàn)。之后,技術(shù)的進(jìn)步以及下游應(yīng)用的發(fā)展持續(xù)在相互促進(jìn)。
百度文生圖的探索和成果
魚哲:我大致還記得 Stable Diffusion 剛開始的效果并不太好,例如在嘗試生成人像時(shí),出現(xiàn)了很多扭曲的結(jié)果,如一個(gè)人有三條腿或多個(gè)眼睛。隨著時(shí)間推移,這一技術(shù)逐漸變得更加逼真。同時(shí),類似 Civitai 的 AI 技術(shù)也興起,允許人們根據(jù)他們的圖像進(jìn)行各種場(chǎng)景的創(chuàng)作,比如受歡迎的原神系列。這種生成圖像技術(shù)的發(fā)展催生了多種應(yīng)用。比如,在抽卡類游戲中,原畫師可以利用這一技術(shù)來(lái)創(chuàng)建游戲組件。在百度搜索等國(guó)民級(jí)應(yīng)用中,文生圖又如何與場(chǎng)景相結(jié)合的?剛開始,我理解它可能是在搜索框中,用戶輸入關(guān)鍵詞后能夠找到相關(guān)的圖像,但我相信你們會(huì)有更多不同的創(chuàng)新。
TianBao:早期,百度也進(jìn)行了一些 AIGC 圖像生成的嘗試。正如剛才和大家討論的,文生圖技術(shù)從最初的結(jié)果不夠可用,逐漸變得可用,并能夠釋放想象力,帶來(lái)了引人注目的視覺(jué)沖擊。對(duì)于搜索,用戶以前要找一張圖片,通常會(huì)進(jìn)行文本搜索。例如,一個(gè)戴著太陽(yáng)鏡和帽子的貓,做著憤怒的手勢(shì),用戶在腦海中構(gòu)想的畫面,他們通常只能在全網(wǎng)中搜索到已經(jīng)被創(chuàng)作好的、可感知的內(nèi)容。但對(duì)于一些更具體的場(chǎng)景,比如貓要做著憤怒的手勢(shì),穿著特殊服飾,如果全網(wǎng)沒(méi)有人創(chuàng)作這種圖片,用戶需求的滿足就會(huì)受到限制,導(dǎo)致需求退化成尋找一個(gè)憤怒的貓,之后,他們將變成瀏覽型需求,查看全網(wǎng)上是否有類似的憤怒的貓來(lái)滿足他們的需求。
然而,隨著生成式技術(shù)的迅速發(fā)展,我們現(xiàn)在有能力將用戶腦海中的圖像具體呈現(xiàn)出來(lái),以滿足他們的需求。我們將用戶的查找需求,轉(zhuǎn)變?yōu)榻Y(jié)合了查找圖像和生成圖像兩種方式,以滿足用戶更具體的需求,這也在一定程度上鼓勵(lì)用戶更主動(dòng)地表達(dá)他們真正的需求。在產(chǎn)品方面,用戶可以通過(guò)百度的 App,搜索"畫一個(gè)憤怒的貓"或者"畫一畫",然后進(jìn)入文生圖的相關(guān)功能頁(yè)面,大家可以親自體驗(yàn)一下。
尋找一張圖片是搜索的第一步。在圖像領(lǐng)域,許多創(chuàng)作者首先需要找到適合他們需求的圖像,然后他們可能需要用這張圖像作為頭像,或者用它作為創(chuàng)作素材,或者在工作中使用它。因此,在生成的過(guò)程中,我們正在加入編輯工作,例如修復(fù)(inpainting)、擴(kuò)展(outpainting)。舉個(gè)例子,如果畫面中有一只戴著帽子的貓,通過(guò)自然語(yǔ)言交互,我們可以將貓?zhí)鎿Q為一只狗,從而增加了圖像的再利用能力。這背后通常會(huì)涉及一個(gè)基于文生圖的預(yù)訓(xùn)練大模型,用于圖像編輯。整體而言,從最初的尋找圖像,變成了“找圖”加“生圖”的過(guò)程,然后進(jìn)入到第二個(gè)階段,即圖像的用途,以滿足用戶在圖像領(lǐng)域的需求。
文生圖的實(shí)踐及挑戰(zhàn)
魚哲:聽(tīng)起來(lái)這是一個(gè)非常有趣的應(yīng)用場(chǎng)景,因?yàn)楹芏鄷r(shí)候,比如我以前制作 PPT 時(shí),需要找到能滿足我的想象場(chǎng)景的圖像,例如客戶使用產(chǎn)品的場(chǎng)景或某個(gè)行業(yè)的照片。然而,我又不希望侵犯版權(quán),或者避免涉及各種圖像來(lái)源的糾紛。在這種情況下,能夠找到圖像,并在此基礎(chǔ)上進(jìn)行 inpainting 修改、邊框補(bǔ)全,甚至進(jìn)行圖像超分辨率處理,這實(shí)際上是一個(gè)非常實(shí)用的應(yīng)用場(chǎng)景。
外界可能認(rèn)為我們只支持一些基本的圖像生成和編輯功能,如生成、簡(jiǎn)單編輯、邊框展開以及高分辨率圖像的補(bǔ)全。但實(shí)際上,根據(jù)我的了解,這項(xiàng)技術(shù)在中文語(yǔ)境下是相當(dāng)具有挑戰(zhàn)性的。特別是針對(duì)中文文化和語(yǔ)義場(chǎng)景,大部分模型通常是在以英語(yǔ)為基礎(chǔ)的語(yǔ)境下進(jìn)行訓(xùn)練的,其原始語(yǔ)料庫(kù)也是英語(yǔ)為主。然而,百度作為中文搜索引擎領(lǐng)域的巨頭,需要處理中文和英文,甚至一些方言的情況,面對(duì)這種挑戰(zhàn)是如何應(yīng)對(duì)的?
TianBao:作為最大的中文搜索引擎,百度在理解中文方面具有更強(qiáng)的優(yōu)勢(shì),包括對(duì)中文特有元素、中文習(xí)慣表達(dá)以及方言的理解。要使一個(gè)模型更好地理解中文,準(zhǔn)備和清理與中文語(yǔ)義相關(guān)的語(yǔ)料顯然是不可或缺的步驟。
我們?cè)谒阉黝I(lǐng)域擁有感知全網(wǎng)最全的中文語(yǔ)料的能力,這是天然優(yōu)勢(shì)。但除此之外,還需要進(jìn)行樣本的清理、更全面的知識(shí)覆蓋、獲取更多多樣性的高質(zhì)量樣本等,以更好地理解整體模型的語(yǔ)義。同時(shí),如果我們希望模型生成的圖像質(zhì)量更高,就需要考慮圖像質(zhì)量、美學(xué)因素,例如圖像中物體的明顯特征和美學(xué)風(fēng)格的準(zhǔn)確呈現(xiàn)。此外,還需要進(jìn)行去重處理,這些都需要有基礎(chǔ)的算子能力支持。
所以對(duì)于清洗來(lái)說(shuō),底層基礎(chǔ)算子的基建也是一個(gè)非常重要的工作。百度在圖片基礎(chǔ)層面的刻畫體系上有多年的積累,所以我們?cè)谑珍浀臄?shù)據(jù)優(yōu)勢(shì)之上,可以快速根據(jù)模型的不同目標(biāo),進(jìn)行樣本的組織和篩選。例如,我們想要更好的語(yǔ)義樣本,要做到樣本的均衡,要積累不同等級(jí)質(zhì)量和美觀度的樣本,包括一些人像或者是特殊的 IP 概念等。我們對(duì)這些樣本進(jìn)行快速學(xué)習(xí),而后應(yīng)用在模型里。
魚哲:對(duì)于生成圖像大模型,一方面,在訓(xùn)練過(guò)程中,我們需要準(zhǔn)備高質(zhì)量的數(shù)據(jù)集,建立一個(gè)良好的基礎(chǔ)。另一方面,用戶在使用時(shí)可能會(huì)提供各種各樣的復(fù)雜描述,例如描述一個(gè)杯子,用戶可能會(huì)加入很多形容詞,比如高的、透明的、藍(lán)色的,里面裝了一只蟋蟀等,這些描述詞可能超出了標(biāo)準(zhǔn)模型支持的 Token 長(zhǎng)度。特別是在中文語(yǔ)境中,用戶的描述可能更長(zhǎng),就像您剛才提到的,一只戴著帽子、站在山峰頂、吹著西北風(fēng)、雪花在背后飄落的貓。在這種情況下,如何處理具有大量描述詞和形容詞的圖像是一個(gè)挑戰(zhàn)嗎?
TianBao:這是一個(gè)非常好的問(wèn)題。圖文配對(duì)的質(zhì)量非常重要。目前,大家主要關(guān)注的是開源的 Laion-5b,一個(gè)包含 50 億樣本的英文模型,主要基于英文數(shù)據(jù)集,中文數(shù)據(jù)相對(duì)較少。同時(shí),從這個(gè)數(shù)據(jù)集中,我們也觀察到許多不相關(guān)的圖文對(duì)的問(wèn)題,這些問(wèn)題可能是由一些雜質(zhì)引起的。因此,我們需要使用相關(guān)性建模算法來(lái)過(guò)濾掉這些不相關(guān)的圖文對(duì)。
對(duì)于使用中文數(shù)據(jù)集,例如 Laion-5b,有一種較快速的方法,即通過(guò)英文翻譯成中文。然而,這種方法可能會(huì)引入很多語(yǔ)言上的歧義,特別是中英文之間表達(dá)上的歧義,以及中文所特有的一些語(yǔ)義。例如,如果我們將"transformer"翻譯成中文,它可能會(huì)變成"變壓器",而如果是指一個(gè)頭像,對(duì)應(yīng)的英文可能會(huì)是"阿凡達(dá)"。這些情況都是由于中文語(yǔ)料建設(shè)不足導(dǎo)致的中文理解能力上的不足。關(guān)于剛才提到的圖文對(duì)的相關(guān)性質(zhì)量問(wèn)題,過(guò)濾低質(zhì)量的圖文對(duì),需要使用類似于常規(guī)的 CLIPScore 等方式來(lái)度量圖文的相關(guān)性。
另一個(gè)方向是在優(yōu)質(zhì)數(shù)據(jù)集的構(gòu)建上。畢竟,一張圖片可以被非常詳細(xì)地描述成上百個(gè)字,而當(dāng)前互聯(lián)網(wǎng)上這種詳細(xì)描述的數(shù)據(jù)還相對(duì)較少。當(dāng)前互聯(lián)網(wǎng)上的描述通常較為簡(jiǎn)短,可能只包含幾十個(gè)標(biāo)記,甚至更短。因此,在構(gòu)建優(yōu)質(zhì)數(shù)據(jù)集方面,需要將一些高質(zhì)量的圖像與文本描述的力度和視角相結(jié)合,以進(jìn)行文本描述的補(bǔ)充。通常,人們描述的可能是圖像的主體和意境,但他們可能會(huì)忽略掉圖像中的背景、物體的數(shù)量以及基本實(shí)體的描述。因此,如何實(shí)現(xiàn)圖像和文本的對(duì)齊理解對(duì)于文生圖的構(gòu)建非常重要。
因此,對(duì)于提供高質(zhì)量樣本的問(wèn)題,可能需要更適合于圖像生成任務(wù)的模型,例如 caption 生成模型。百度在這方面積累了一些經(jīng)驗(yàn),所以對(duì)于去除低質(zhì)量樣本和構(gòu)建高價(jià)值樣本,這些都是圖文對(duì)齊所必需的能力。
圖片美感的評(píng)估
魚哲:確實(shí),與我想象的相比,這個(gè)處理的復(fù)雜度要高得多。您剛才提到的去除低質(zhì)量、保留高質(zhì)量的很重要。您所說(shuō)的低值和高值是指圖像質(zhì)量對(duì)嗎?在生成圖像時(shí),如果要生成一只貓,首先它必須是一只貓,其次重要的是它必須符合美感。它必須符合一只貓的形狀,或者說(shuō)它必須符合一只狗的形狀,而美感是一個(gè)非常主觀的事情。例如,即使是一只貓,有些人喜歡圓圓的、胖胖的、毛發(fā)豐富的貓,他們認(rèn)為最好是長(zhǎng)得像個(gè)球一樣,但有些人認(rèn)為貓應(yīng)該像貓一樣,應(yīng)該有貓的特征,頭是頭,腿是腿,脖子是脖子。在這種情況下,百度如何處理關(guān)于貓應(yīng)該長(zhǎng)成什么樣子的問(wèn)題呢?
TianBao:對(duì)于美學(xué),確實(shí)像剛才提到的,它是一個(gè)偏主觀的一個(gè)感知,其實(shí)是千人千面的,大家可能對(duì)美的認(rèn)知是不太一樣的,但是這里面我們其實(shí)是期望通過(guò)大部分人的美學(xué)認(rèn)知,提出一些美學(xué)的定義。
例如,美學(xué)的定義通常包括圖像的構(gòu)圖,整個(gè)畫面的結(jié)構(gòu)是什么樣的,還包括色彩的應(yīng)用,如飽和度、對(duì)比度、整體的配色,以及光感,例如在攝影棚中的光線設(shè)置,如何為不同場(chǎng)景創(chuàng)造更好和更合適的光感。除了視覺(jué)色彩方面的定義,畫面的內(nèi)容也可以體現(xiàn)美學(xué),例如畫面內(nèi)容的豐富度或畫面的敘事性,這些都是由畫面內(nèi)的內(nèi)容構(gòu)成的。因此,這些維度形成了更具普世性的美學(xué)標(biāo)準(zhǔn)。
我們遵循這些美學(xué)標(biāo)準(zhǔn),然后構(gòu)建自己的美學(xué)認(rèn)知,無(wú)論是在整體模型構(gòu)建方面還是在算法優(yōu)化方面,都按照這些先進(jìn)標(biāo)準(zhǔn)來(lái)進(jìn)行相關(guān)的指導(dǎo)和評(píng)估。除了美學(xué)之外,圖像的清晰度也會(huì)影響整體的質(zhì)感。同時(shí),內(nèi)容的一致性也很重要,如果看到一只貓有三只腿,內(nèi)容實(shí)體的不一致性將會(huì)導(dǎo)致缺陷,從而間接影響圖像的可用性和美感。
魚哲:您剛剛提到內(nèi)容的一致性,可以展開這個(gè)解釋一下這個(gè)概念嗎?
TianBao:內(nèi)容一致性可以大概理解為內(nèi)容的質(zhì)量或可用性。比如,如果畫一只手,出現(xiàn)了手部的畸形或畸變,這實(shí)際上與我們通常對(duì)手的概念不符。這會(huì)導(dǎo)致手的實(shí)體不一致,因此可以認(rèn)為它存在質(zhì)量問(wèn)題。
文生圖提示工程
魚哲:不同場(chǎng)景和用途對(duì)美學(xué)要求不同,以戴帽子和太陽(yáng)鏡的貓為例,用戶可能希望生成不同風(fēng)格的漫畫,如日漫和美漫,它們?cè)谝曈X(jué)體驗(yàn)上有顯著差異。美漫通常色彩豐富、輪廓鮮明,而日漫則以黑白為主,視覺(jué)沖擊力較強(qiáng)。在保障在內(nèi)容一致性的要求下,百度是如何在不同風(fēng)格的情況下,從用戶的 prompt 中獲取相關(guān)信息,以支持不同畫風(fēng)的生成?
TianBao:我們來(lái)看一下當(dāng)前文生成圖的應(yīng)用場(chǎng)景。目前,在主流的交互中,通常提供了一些明確定義的特定風(fēng)格選項(xiàng),如漫畫風(fēng)格或水彩畫風(fēng)格。但對(duì)于用戶而言,不應(yīng)該受到過(guò)多的限制,例如,如果用戶需要生成一個(gè)賽博朋克風(fēng)格的貓,將其繪制成卡通風(fēng)格就無(wú)法滿足用戶需求。也就是說(shuō),用戶不僅可以描述生成畫面中出現(xiàn)的內(nèi)容,如貓,還可以描述他們期望的畫面風(fēng)格。因此,百度搜索需要滿足用戶在內(nèi)容和風(fēng)格方面多樣化的需求。
在百度搜索中,我們目前支持上千種不同的畫面風(fēng)格定義。舉例來(lái)說(shuō),用戶可以將一只貓呈現(xiàn)為水墨畫或卡通畫,也可以將它呈現(xiàn)為鋁制品或雕刻品,甚至以不同的材質(zhì)。此外,用戶還可以選擇不同的視角,如帶有運(yùn)動(dòng)模糊效果、延時(shí)攝影效果,或者魚眼和廣角視角等。我們覆蓋了多種不同的風(fēng)格和分類,因此用戶如果有更具體的風(fēng)格要求,只需在他們的 prompt 中包含相關(guān)風(fēng)格,即可獲得符合他們期望的畫面并具備相應(yīng)風(fēng)格。
魚哲:我還有一個(gè)問(wèn)題,就是關(guān)于風(fēng)格的疊加,是否支持這種操作?例如,能否將魚眼廣角和水墨畫的風(fēng)格同時(shí)應(yīng)用在圖像上?因?yàn)橐粋€(gè)是關(guān)于畫風(fēng),另一個(gè)是視角,那如果我們想要將水墨畫與卡通風(fēng)格結(jié)合,這是否也是支持的呢?
TianBao:在模型方面,支持多風(fēng)格是可行的,這樣可以激發(fā)新的風(fēng)格創(chuàng)意。然而,我們面臨的另一個(gè)問(wèn)題是如何在保持內(nèi)容一致性的前提下,有效地融合和協(xié)調(diào)多種風(fēng)格。因?yàn)椴煌L(fēng)格之間的差異可能很大,可能會(huì)發(fā)生一些相互制約的情況,但這確實(shí)為用戶提供了更多的實(shí)驗(yàn)和探索機(jī)會(huì),可以通過(guò)嘗試不同風(fēng)格的組合,實(shí)現(xiàn)更廣泛的創(chuàng)意空間。
魚哲:如果我有多個(gè)風(fēng)格的關(guān)鍵詞去描述最后的主體,最后整張圖出來(lái)的效果和關(guān)鍵詞所在的位置的關(guān)聯(lián)度大嗎?比如說(shuō)水墨、卡通風(fēng)格的貓和卡通、水墨風(fēng)格的貓,這兩個(gè)出來(lái)的效果會(huì)是一樣的嗎?
TianBao:這個(gè)其實(shí)就會(huì)涉及到剛才說(shuō)的一個(gè)可控性。最基本的,就像剛才提到的貓一樣。它關(guān)系到我們?nèi)绾慰刂粕傻膬?nèi)容,尤其是在涉及到風(fēng)格方面。實(shí)際上,可控性與我們整體的 prompt 方式相關(guān),因?yàn)椴煌?prompt 方式可以導(dǎo)致不同的結(jié)果。有些人可能會(huì)提供簡(jiǎn)短的提示,可能前后并列會(huì)輸入兩個(gè)不同的風(fēng)格,而其他人可能更喜歡更詳細(xì)的 prompt 表達(dá)方式,比如他們可能希望描述一個(gè)場(chǎng)景的畫面,指定特定的風(fēng)格,或者強(qiáng)調(diào)某種風(fēng)格在生成中的比重。這些都是不同的 prompt 方式,可以影響生成內(nèi)容的方式。
然后對(duì)于這種可控來(lái)說(shuō),其實(shí)現(xiàn)在這種順序上會(huì)有一些 Bias。比如 Stable Diffusion 的 prompt 煉丹,也會(huì)提及一些,比如怎么寫 prompt,是放到前面好還是后面好,其實(shí)本質(zhì)上是一種控制的能力,理想的話應(yīng)該不會(huì)存在這樣的一些偏差。當(dāng)然最理想的還是我們可以引導(dǎo)用戶能夠去更精準(zhǔn)的去表達(dá)自己腦海中的畫面。
魚哲:剛才提到百度支持上千種風(fēng)格,我想問(wèn),這上千種風(fēng)格是人工梳理的,還是通過(guò)模型聚類后自動(dòng)生成的?對(duì)于用戶來(lái)說(shuō),知道有這么多風(fēng)格可選可能一開始會(huì)覺(jué)得有點(diǎn)過(guò)多,有點(diǎn)難以選擇。
TianBao:關(guān)于風(fēng)格,基于我們之前提到的,我們對(duì)全網(wǎng)內(nèi)容的感知非常廣泛,因此我們有能力感知到全網(wǎng)存在的各種風(fēng)格數(shù)據(jù)。第二點(diǎn)是,我們也依賴于對(duì)圖像相關(guān)的理解,無(wú)論是聚合算法還是風(fēng)格美觀度的描述,都需要首先有數(shù)據(jù),然后通過(guò)數(shù)據(jù)的篩選和識(shí)別能力,對(duì)這些風(fēng)格進(jìn)行自然而然的呈現(xiàn)。這是對(duì)風(fēng)格定義的方式。
另外剛才提到的,比如說(shuō)我們當(dāng)前支持上千種風(fēng)格,對(duì)于用戶來(lái)說(shuō),其實(shí)大家可能還是得有一個(gè)認(rèn)知的過(guò)程,因?yàn)槊恳环N風(fēng)格可能對(duì)于藝術(shù)向的用戶來(lái)說(shuō)還是會(huì)有比較大的一些驚喜的。比如我們看到某種風(fēng)格和我們常規(guī)看到的畫面有很大的這種區(qū)別,也具備很強(qiáng)的視覺(jué)沖擊感。所以這里面怎么樣能夠把我們已有的這些風(fēng)格能夠更好的傳遞給用戶,讓用戶理解這種風(fēng)格,并且在后續(xù)的這些需求滿足創(chuàng)作中能夠應(yīng)用上這些風(fēng)格,這其實(shí)是需要整體的產(chǎn)品和技術(shù)來(lái)引導(dǎo)的一個(gè)工作。
魚哲:正如你剛提到的,有上千種不同的藝術(shù)風(fēng)格。即使對(duì)于非專業(yè)和一些專業(yè)的美術(shù)生來(lái)說(shuō),通常只了解一兩種風(fēng)格,比如素描或水墨畫。實(shí)際上,很少有人能深入了解這么多不同風(fēng)格并寫出好的提示詞。那么,當(dāng)用戶不太了解如何編寫 prompt 提示詞時(shí),我們?cè)撛趺刺幚砟兀勘热?,用戶第一次使用百度,除非有人告訴他們,他們可能不知道支持上千種風(fēng)格。在這種情況下,我們應(yīng)該如何處理,并引導(dǎo)他們了解更多有關(guān)百度的各種風(fēng)格以及可以編寫的其他提示詞呢?
TianBao:對(duì)于藝術(shù)風(fēng)格和創(chuàng)造性而言,大家更常接觸到關(guān)鍵詞"Midjourney",可以將其作為一個(gè)例子,來(lái)講述一個(gè)從零開始激發(fā)想象力的過(guò)程。在早期的運(yùn)營(yíng)推廣中,有些資源并未過(guò)多優(yōu)化提示詞。通常,它們提供了一些相對(duì)簡(jiǎn)單的提示詞,比如"dog"(狗)。然而,這是建立在 disco 社區(qū)基礎(chǔ)之上的,允許所有用戶參與。一些用戶嘗試將他們的提示詞更改為描述一只毛茸茸的狗,而其他用戶可能更喜歡科幻題材,例如一只擁有鐳射眼睛的狗是什么樣子。通過(guò)不斷的嘗試,他們會(huì)發(fā)現(xiàn)在不同的提示詞下可以獲得更引人入勝或有趣的效果。這導(dǎo)致了彼此學(xué)習(xí),觀察其他人如何生成內(nèi)容,如何設(shè)置提示詞,以及這會(huì)產(chǎn)生什么樣的效果。因此,提示詞的優(yōu)化逐漸變得流行起來(lái)。這個(gè)問(wèn)題對(duì)于整個(gè)業(yè)界,包括百度搜索和文生圖,也是類似的。
對(duì)于一般用戶而言,他們可能較少接觸文生圖這個(gè)場(chǎng)景。對(duì)于初次使用的用戶,通常只是嘗試?yán)L制一只貓或一只小狗,這引出了一個(gè)問(wèn)題,即如何在用戶使用環(huán)境相對(duì)簡(jiǎn)單的情況下,為他們生成更好的效果。
這里就會(huì)涉及到 prompt 的擴(kuò)充或者是改寫。這里有兩種思路,一種是去擴(kuò)充畫面的內(nèi)容,類似于內(nèi)容的一個(gè)豐富性或者是故事感。比如剛才說(shuō)的戴著帽子,然后做著憤怒的手勢(shì)的狗,把畫面更具象,其實(shí)這是 prompt 的優(yōu)化所做的一個(gè)工作。同樣也可以對(duì)風(fēng)格進(jìn)行一些擴(kuò)展,我們可以感知到大部分人對(duì)于這個(gè)內(nèi)容之下更喜歡哪些風(fēng)格,我們就可以通過(guò)這種 prompt 來(lái)做更多風(fēng)格的一些擴(kuò)寫。像剛才說(shuō)的內(nèi)容以及在風(fēng)格上的一些擴(kuò)寫多樣性之后,就可以極大的去優(yōu)化畫面的內(nèi)容豐富度、故事性,以及風(fēng)格和美觀的程度。所以這里面會(huì)涉及到怎么樣把一個(gè)簡(jiǎn)單的表達(dá)的 prompt 的輸入,通過(guò)優(yōu)化的方式變成一個(gè)對(duì)模型來(lái)說(shuō)效果更好的一組 prompt。
魚哲:有一個(gè)更具體的問(wèn)題需要討論,涉及到 prompt 的改寫。例如,當(dāng)我們將一個(gè)提示從描述一只狗轉(zhuǎn)變?yōu)橐恢粠弊拥纳鷼獾氖謩?shì)狗時(shí),用戶實(shí)際上無(wú)法看到被改寫的部分。我們是否能夠確保每次改寫都是一樣的,或者每次改寫的內(nèi)容可能略有不同?舉例來(lái)說(shuō),第一次可能是一只戴帽子的狗,而第二次可能是一只戴眼鏡躺在沙灘上的狗。這個(gè)過(guò)程是否具有隨機(jī)性,或者每次都是固定的?
TianBao:對(duì)于 prompt 的改寫來(lái)說(shuō),其實(shí)我們更期望給到用戶更多多樣性、更多豐富的結(jié)果。因?yàn)槿绻且粭l狗的話,我們可以想象到的是一個(gè)主體是一條狗,可能會(huì)有不同的一些犬類的品種,但是狗可能穿著不同服飾出現(xiàn)在不同場(chǎng)景之下,這個(gè)對(duì)更多人來(lái)說(shuō)會(huì)有更多樣的一些結(jié)果,大家會(huì)有更多的預(yù)期。所以在模型層面,我們期望通過(guò) prompt 這種改寫和優(yōu)化,有更多的多樣性的備選,然后基于用戶實(shí)際的反饋,去來(lái)感知用戶對(duì)哪些風(fēng)格,對(duì)什么類型的內(nèi)容場(chǎng)景的一個(gè)畫面結(jié)果會(huì)感興趣,后驗(yàn)反饋會(huì)比較高,這對(duì)于整體的 prompt 的改寫模型也會(huì)有數(shù)據(jù)促進(jìn)的作用。
反饋和評(píng)估
魚哲:剛剛提到了改寫,從用戶側(cè)收集反饋來(lái)迭代模型,有一個(gè)詞叫做 RLHF(Reinforcement Learning from Human Feedback)。這里我覺(jué)得最難的點(diǎn)是 human feedback 是不穩(wěn)定的,因?yàn)槿伺c人之間的主觀觀點(diǎn)會(huì)差很多。如果我們需要依賴人的反饋來(lái)去迭代模型,其實(shí)是比較困難的。如果再落實(shí)到說(shuō)模型的 evaluation 上來(lái)說(shuō),在這種情況下,百度是如何去 manage balance,在圖像生成的方向上去做評(píng)估。
TianBao:關(guān)于后驗(yàn)反饋,首先需要考慮反饋數(shù)據(jù)是否確實(shí)能夠代表人類的后驗(yàn)反饋,這對(duì)于反饋質(zhì)量有更高的要求。因此,可以將這一方面與產(chǎn)品的整體設(shè)計(jì)和用戶交互相結(jié)合,以收集更多積極的用戶行為反饋。例如,當(dāng)用戶對(duì)某個(gè)結(jié)果感興趣時(shí),他們可能會(huì)點(diǎn)擊圖片以進(jìn)行放大查看,然后進(jìn)行下載等后續(xù)行為,這些都是積極的反饋。如果用戶對(duì)某張圖片點(diǎn)贊或進(jìn)行評(píng)論,也提供了直接的反饋。我們希望在整個(gè)反饋系統(tǒng)中更有效地收集這些反饋,因?yàn)樗鼈儗?shí)際上反映了用戶的偏好。至于模棱兩可的反饋,只能通過(guò)更大的樣本量來(lái)收集更具代表性的數(shù)據(jù)。
魚哲:過(guò)去,無(wú)論是傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)還是標(biāo)準(zhǔn)的深度學(xué)習(xí)模型,基本上都是監(jiān)督學(xué)習(xí),需要樣本或監(jiān)督來(lái)計(jì)算 F1 分?jǐn)?shù)、IQZ 和 VCR 等指標(biāo)。然而,對(duì)于生成式模型,如 GPT 系列模型或 DALL-E 這樣的生成式模型,技術(shù)上并沒(méi)有像以前那樣的標(biāo)準(zhǔn)基準(zhǔn)數(shù)據(jù)集,大家可以根據(jù)這些基準(zhǔn)數(shù)據(jù)集來(lái)生成和評(píng)估。相比之下,生成式模型需要一種更高效的評(píng)價(jià)方法,而不是依賴人工逐個(gè)觀察。在這個(gè)領(lǐng)域,與其讓人們用肉眼逐個(gè)觀察,是否有方法可以更高效地進(jìn)行評(píng)估呢?
TianBao:更高效的方法實(shí)際上更多地涉及到人機(jī)結(jié)合的手段。就像之前提到的圖像評(píng)價(jià),我們可以通過(guò)一些初步的機(jī)器指標(biāo)來(lái)進(jìn)行觀察。如果我們關(guān)注整體的相關(guān)性或質(zhì)量美觀度,那么在某些機(jī)器指標(biāo)上可以進(jìn)行一些刻畫。但如果需要精確評(píng)估兩張圖片之間的差異,這些機(jī)器指標(biāo)可能并不具備太大的意義,更需要人工進(jìn)行判斷。前面提到的機(jī)器初步評(píng)估可以幫助人們進(jìn)行初步的篩選,從而在人工評(píng)價(jià)方面節(jié)省一些勞動(dòng)力。
未來(lái)展望
魚哲:好的,接下來(lái)的問(wèn)題稍微展望未來(lái),盡管并不是非常遙遠(yuǎn),因?yàn)樽罱铱吹皆S多初創(chuàng)團(tuán)隊(duì)和相關(guān)公司正在嘗試這個(gè)領(lǐng)域。以動(dòng)畫為例,動(dòng)畫實(shí)際上是將多幅圖像的幀疊加在一起呈現(xiàn)的。通常,動(dòng)畫電影以每秒 24 幀或 16 幀的速度播放。除了靜態(tài)單幅圖像的編輯,我們可以看到在 AIGC 領(lǐng)域,對(duì)于視頻生成或短視頻生成,無(wú)論是三秒還是七八秒的視頻,都在不斷發(fā)展。之前 Runway 團(tuán)隊(duì)曾舉辦了一個(gè)使用文生圖進(jìn)行視頻生成的比賽。您認(rèn)為在未來(lái)多久內(nèi),我們會(huì)看到第一部完全由 AI 生成的電影或電影狀態(tài)?
TianBao:簡(jiǎn)要回顧一下圖像生成,在 2022 年初,圖像生成效果并不是特別理想,但到了 2022 年的七八月份,整體變得更加可行。根據(jù)技術(shù)發(fā)展趨勢(shì),對(duì)于動(dòng)態(tài)圖或視頻的生成,預(yù)計(jì)不會(huì)太久就會(huì)迎來(lái)技術(shù)的飛速發(fā)展。因?yàn)樽罱谝曨l生成領(lǐng)域還有很多探索,無(wú)論是基于可控生成的方法還是像 Runway 這樣生成幾秒小短片的方法。對(duì)于幾秒小短片,大家通常會(huì)將生成的最后一幀作為下一段的第一幀,以實(shí)現(xiàn)更連貫的長(zhǎng)視頻。然而,對(duì)于視頻生成來(lái)說(shuō),面臨更大的挑戰(zhàn),因?yàn)樗粌H要保證空間效果,還需要確保時(shí)間上的一致性,這引入了一個(gè)額外的維度,對(duì)技術(shù)要求更高。隨著最近對(duì)視頻生成的不斷探索,我們可以預(yù)計(jì)未來(lái)一到兩年內(nèi)可能會(huì)出現(xiàn)類似于 Stable Diffusion 這樣革命性的時(shí)刻。
-
百度
+關(guān)注
關(guān)注
9文章
2243瀏覽量
90186 -
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48660 -
AIGC
+關(guān)注
關(guān)注
1文章
352瀏覽量
1485
原文標(biāo)題:文生圖大型實(shí)踐:揭秘百度搜索 AIGC 繪畫工具的背后故事!
文章出處:【微信號(hào):AI前線,微信公眾號(hào):AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論