0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

人工智能系統(tǒng)VON,生成最逼真3D圖像

DPVg_AI_era ? 來源:lq ? 2018-12-07 09:28 ? 次閱讀

人工智能合成的3D物體模型不夠逼真?谷歌團(tuán)隊(duì)最近開發(fā)了一個(gè)AI系統(tǒng)——視覺對象網(wǎng)絡(luò)(VON),不僅生成的圖像比當(dāng)前最先進(jìn)的方法還要逼真,而且還可以做一系列3D操作。

合成現(xiàn)實(shí)3D物體模型的人工智能,看上去并沒有那么遙不可及。

在2018年蒙特利爾NeurIPS大會上,麻省理工學(xué)院計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(MIT CSAIL)和谷歌的研究人員發(fā)表了一篇論文,描述了一個(gè)能夠生成具有逼真紋理的人工智能系統(tǒng)。

論文名稱:

Visual Object Networks: Image Generation with Disentangled 3D Representation

論文地址:

https://papers.nips.cc/paper/7297-visual-object-networks-image-generation-with-disentangled-3d-representations.pdf

人工智能系統(tǒng)VON,生成最逼真3D圖像

該人工智能系統(tǒng)——視覺對象網(wǎng)絡(luò)(Visual Object Networks,VON),不僅生成的圖像比當(dāng)前最先進(jìn)的方法還要逼真,還可以進(jìn)行形狀和紋理編輯、視角轉(zhuǎn)換以及其它3D調(diào)整。

研究人員寫到:“現(xiàn)代深層生成模型學(xué)會了合成較為逼真的圖像。大多數(shù)計(jì)算模型只專注于生成2D圖像,忽略了世界是3D的本質(zhì)。這種2D視角不可避免地限制了它們在許多領(lǐng)域的實(shí)際應(yīng)用,比如合成數(shù)據(jù)生成、機(jī)器人學(xué)習(xí)、視覺現(xiàn)實(shí)和游戲行業(yè)?!?/p>

VON通過聯(lián)合合成三維形狀和二維圖像來解決這個(gè)問題,研究人員將其稱為“disentangled object representation”。圖像生成模型被分解為形狀、視點(diǎn)和紋理三個(gè)要素,在計(jì)算“2.5D”草圖和添加紋理之前,首先學(xué)習(xí)三維形狀的合成。

重要的是,因?yàn)檫@三個(gè)要素是條件獨(dú)立的,模型不需要在二維和三維形狀之間配對數(shù)據(jù)。這使得該團(tuán)隊(duì)能夠?qū)ΧS圖像和三維形狀的大規(guī)模集合進(jìn)行訓(xùn)練,比如Pix3D、谷歌圖像搜索和ShapeNet,后者包含了55個(gè)對象類別的數(shù)千個(gè)CAD模型。

為了讓VON學(xué)習(xí)如何生成自己的形狀,該團(tuán)隊(duì)訓(xùn)練了一個(gè)生成對抗網(wǎng)絡(luò)(GAN),試圖在上述三維形狀數(shù)據(jù)集上區(qū)分生成樣本和真實(shí)樣本。紋理生成被“降級”到另一個(gè)基于GAN的神經(jīng)網(wǎng)絡(luò)

經(jīng)過大約兩到三天的訓(xùn)練,人工智能系統(tǒng)產(chǎn)生了逼真的128×128×128模型,具有真實(shí)的反射率、環(huán)境照度和反照率。

為了評估圖像生成模型,團(tuán)隊(duì)計(jì)算了用于生成三維模型的Fréchet初始距離 。此外,他們還向亞馬遜的Mechanical Turk上展示了200對由VON和最先進(jìn)的模型生成的圖像,被試者的任務(wù)是在每對圖像中選擇更加真實(shí)的結(jié)果。

VON的性能表現(xiàn)非常突出。與其它AI模型相比,它的Fréchet初始距離最低。Mechanical Turk被試者更喜歡VON生成的圖像,比例高達(dá)74%至85%。

研究人員將專注于更加精細(xì)化的建模,以更高的分辨率生成形狀和圖像,將紋理分解為光照和外觀,并合成自然場景。

研究團(tuán)隊(duì)寫道:“我們的關(guān)鍵思想是將圖像生成過程分解為三個(gè)要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對抗學(xué)習(xí)框架下從3D和2D視覺數(shù)據(jù)收集中學(xué)習(xí)模型。與現(xiàn)有的2D生成模型相比,我們的模型合成的圖像更加逼真;它還允許3D操作,這用以前的2D方法是無法實(shí)現(xiàn)的?!?/p>

突飛猛進(jìn)的GAN

近年來,對GAN的研究突飛猛進(jìn),尤其是在機(jī)器視覺領(lǐng)域:

Google旗下的DeepMind去年10月推出了一個(gè)基于GAN的系統(tǒng),可以創(chuàng)建非常逼真的食物、風(fēng)景、動物等照片;

今年9月,英偉達(dá)的研究人員開發(fā)了一種AI模型,可以對腦癌進(jìn)行合成掃描;

今年8月,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon)的一個(gè)研究小組展示了如何利用人工智能將一個(gè)人錄制下來的動作和面部表情在轉(zhuǎn)移到另一張照片或視頻中的目標(biāo)對象;

最近,愛丁堡大學(xué)感知研究所和天文學(xué)研究所的科學(xué)家設(shè)計(jì)了一種可以產(chǎn)生高分辨率的星系圖像。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1787

    文章

    46061

    瀏覽量

    235072
  • 3D圖像
    +關(guān)注

    關(guān)注

    0

    文章

    38

    瀏覽量

    10696

原文標(biāo)題:谷歌NeurIPS 2018論文:GAN生成3D模型,圖像自帶逼真效果

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    生成人工智能在教育中的應(yīng)用

    生成人工智能在教育中的應(yīng)用日益廣泛,為教育領(lǐng)域帶來了諸多變革和創(chuàng)新。以下是對生成人工智能在教育中的幾個(gè)主要應(yīng)用方面的詳細(xì)闡述:
    的頭像 發(fā)表于 09-16 16:07 ?139次閱讀

    生成人工智能的概念_生成人工智能主要應(yīng)用場景

    生成人工智能(Generative Artificial Intelligence,簡稱GAI)是一種先進(jìn)的人工智能技術(shù),其核心在于利用計(jì)算機(jī)算法和大量數(shù)據(jù)來生成新的、具有實(shí)際價(jià)值的
    的頭像 發(fā)表于 09-16 16:05 ?142次閱讀

    FPGA在人工智能中的應(yīng)用有哪些?

    FPGA(現(xiàn)場可編程門陣列)在人工智能領(lǐng)域的應(yīng)用非常廣泛,主要體現(xiàn)在以下幾個(gè)方面: 一、深度學(xué)習(xí)加速 訓(xùn)練和推理過程加速:FPGA可以用來加速深度學(xué)習(xí)的訓(xùn)練和推理過程。由于其高并行性和低延遲特性
    發(fā)表于 07-29 17:05

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    App。 騰訊元寶APP發(fā)布時(shí),就圍繞工作效率場景、日常生活等場景提供了豐富的應(yīng)用,并有創(chuàng)建個(gè)人智能體等個(gè)性化體驗(yàn),“3D角色夢工廠”則將大模型生成技術(shù)和3D應(yīng)用結(jié)合,進(jìn)一步創(chuàng)新了元寶
    的頭像 發(fā)表于 07-18 11:39 ?617次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用

    Cognex發(fā)布了In-Sight? L38 3D視覺系統(tǒng),為3D檢測設(shè)立新標(biāo)準(zhǔn)

    人工智能(AI)驅(qū)動的3D視覺系統(tǒng)為自動化制造提供快速部署和可靠的檢測功能。
    的頭像 發(fā)表于 04-15 09:04 ?332次閱讀

    NVIDIA生成式AI研究實(shí)現(xiàn)在1秒內(nèi)生成3D形狀

    NVIDIA 研究人員使 LATTE3D (一款最新文本轉(zhuǎn) 3D 生成式 AI 模型)實(shí)現(xiàn)雙倍加速。
    的頭像 發(fā)表于 03-27 10:28 ?366次閱讀
    NVIDIA<b class='flag-5'>生成</b>式AI研究實(shí)現(xiàn)在1秒內(nèi)<b class='flag-5'>生成</b><b class='flag-5'>3D</b>形狀

    KOALA人工智能圖像生成模型問世

    近日,韓國科學(xué)團(tuán)隊(duì)宣布研發(fā)出名為 KOALA 的新型人工智能圖像生成模型,該模型在速度和質(zhì)量上均實(shí)現(xiàn)了顯著突破。KOALA 能夠在短短 2 秒內(nèi)生成高質(zhì)量圖片,同時(shí)大幅降低了對硬件的需
    的頭像 發(fā)表于 03-05 10:46 ?607次閱讀

    嵌入式人工智能的就業(yè)方向有哪些?

    嵌入式人工智能的就業(yè)方向有哪些? 在新一輪科技革命與產(chǎn)業(yè)變革的時(shí)代背景下,嵌入式人工智能成為國家新型基礎(chǔ)建設(shè)與傳統(tǒng)產(chǎn)業(yè)升級的核心驅(qū)動力。同時(shí)在此背景驅(qū)動下,眾多名企也紛紛在嵌入式人工智能領(lǐng)域布局
    發(fā)表于 02-26 10:17

    小白學(xué)大模型:什么是生成人工智能?

    來源:Coggle數(shù)據(jù)科學(xué)什么是生成人工智能?在過去幾年中,機(jī)器學(xué)習(xí)領(lǐng)域取得了迅猛進(jìn)步,創(chuàng)造了人工智能的一個(gè)新的子領(lǐng)域:生成人工智能。這
    的頭像 發(fā)表于 02-22 08:27 ?1365次閱讀
    小白學(xué)大模型:什么是<b class='flag-5'>生成</b>式<b class='flag-5'>人工智能</b>?

    生成人工智能和感知式人工智能的區(qū)別

    生成新的內(nèi)容和信息的人工智能系統(tǒng)。這些系統(tǒng)能夠利用已有的數(shù)據(jù)和知識來生成全新的內(nèi)容,如圖片、音樂、文本等。
    的頭像 發(fā)表于 02-19 16:43 ?1180次閱讀

    Adobe提出DMV3D3D生成只需30秒!讓文本、圖像都動起來的新方法!

    因此,本文研究者的目標(biāo)是實(shí)現(xiàn)快速、逼真和通用的 3D 生成。為此,他們提出了 DMV3D。DMV3D 是一種全新的單階段的全類別擴(kuò)散模型,能
    的頭像 發(fā)表于 01-30 16:20 ?683次閱讀
    Adobe提出DMV<b class='flag-5'>3D</b>:<b class='flag-5'>3D</b><b class='flag-5'>生成</b>只需30秒!讓文本、<b class='flag-5'>圖像</b>都動起來的新方法!

    生成人工智能的應(yīng)用

    ChatGPT 雖然很酷,但這只是一個(gè)開始; 生成人工智能的企業(yè)用途要復(fù)雜得多。
    的頭像 發(fā)表于 01-09 11:19 ?1088次閱讀

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    3D 生成領(lǐng)域,根據(jù)文本提示創(chuàng)建高質(zhì)量的 3D 人體外觀和幾何形狀對虛擬試穿、沉浸式遠(yuǎn)程呈現(xiàn)等應(yīng)用有深遠(yuǎn)的意義。傳統(tǒng)方法需要經(jīng)歷一系列人工制作的過程,如
    的頭像 發(fā)表于 12-20 16:37 ?1307次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實(shí)現(xiàn)原理

    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建逼真3D 內(nèi)容

    Covision 的基于 AI 的 3D 技術(shù)可幫助企業(yè)掃描數(shù)千種產(chǎn)品,為網(wǎng)站和移動應(yīng)用創(chuàng)建逼真3D 圖像、視頻和 AR 體驗(yàn)。 將實(shí)體產(chǎn)品掃描成
    的頭像 發(fā)表于 11-28 18:45 ?545次閱讀
    阿迪達(dá)斯與 Covision Media 使用 AI 和 NVIDIA RTX 創(chuàng)建<b class='flag-5'>逼真</b>的 <b class='flag-5'>3D</b> 內(nèi)容

    生成人工智能如何治理 生成人工智能的機(jī)遇和挑戰(zhàn)

    人工智能按其模型可以劃分為決策式人工智能生成人工智能。決策式人工智能是一種用于決策的技術(shù),它利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)來處理
    發(fā)表于 10-12 09:57 ?590次閱讀