CVPR 2023舉辦在即。
今天,官方公布了12篇獲獎?wù)撐暮蜻x。(占接受論文的0.51%,占提交論文的0.13%)
根據(jù)官網(wǎng)上統(tǒng)計(jì)數(shù)據(jù),本次CVPR一共接受論文9155篇,錄用2359篇,接受率為25.8%。
其中,235篇被評為Highlights。(占接受論文的10%,占提交論文的2.6%)
1. Ego-Body Pose Estimation via Ego-Head Pose Estimation
作者:Jiaman Li,Karen Liu,Jiajun Wu
機(jī)構(gòu):斯坦福大學(xué)
論文地址:https://arxiv.org/pdf/2212.04636.pdf
本文中,研究人員提出了一種新的方法,即通過自我-頭部姿勢估計(jì)的自我身體姿勢估計(jì)(EgoEgo),它將問題分解為兩個(gè)階段,由頭部運(yùn)動作為中間表征來連接。EgoEgo首先整合了SLAM和一種學(xué)習(xí)方法,以估計(jì)準(zhǔn)確的頭部運(yùn)動。
隨后,利用估計(jì)的頭部姿勢作為輸入,EgoEgo利用條件擴(kuò)散,以產(chǎn)生多個(gè)可信的全身運(yùn)動。這種頭部和身體姿勢的分離消除了對配對自我中心視頻和三維人體運(yùn)動的訓(xùn)練數(shù)據(jù)集的需要,使研究人員能夠分別利用大規(guī)模自我中心視頻數(shù)據(jù)集和運(yùn)動捕捉數(shù)據(jù)集。
此外,為了進(jìn)行系統(tǒng)的基準(zhǔn)測試,研究人員開發(fā)了一個(gè)合成數(shù)據(jù)集AMASS-Replica-Ego-Syn(ARES),其中包括成對的自我中心視頻和人類運(yùn)動。在ARES和真實(shí)數(shù)據(jù)上,研究人員的EgoEgo模型的表現(xiàn)明顯優(yōu)于目前最先進(jìn)的方法。
2. 3D Registration with Maximal Cliques
作者:Xiyu Zhang,Jiaqi Yang,Shikun Zhang,Yanning Zhang
3. OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation
作者:Tong Wu,Jiarui Zhang,Xiao Fu,Yuxin WANG,Jiawei Ren,Liang Pan,Wenyan Wu,Lei Yang,Jiaqi Wang,Chen Qian,Dahua Lin,Ziwei Liu
機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室,香港中文大學(xué),商湯,香港科技大學(xué),南洋理工大學(xué)
論文地址:https://arxiv.org/pdf/2301.07525.pdf
由于缺乏大規(guī)模的真實(shí)掃描三維數(shù)據(jù)庫,最近在三維物體建模方面的進(jìn)展大多依賴于合成數(shù)據(jù)集。
為了促進(jìn)現(xiàn)實(shí)世界中3D感知、重建和生成的發(fā)展,研究人員提出了OmniObject3D,一個(gè)具有大規(guī)模高質(zhì)量真實(shí)掃描3D物體的大型詞匯3D物體數(shù)據(jù)集。
OmniObject3D有幾個(gè)吸引人的特性:1)超大數(shù)據(jù)量:它包括190個(gè)日常類別的6000個(gè)掃描物體,與流行的二維數(shù)據(jù)集(如ImageNet和LVIS)共享共同的類別,有利于追求可通用的三維表征。2)豐富的注釋:每個(gè)三維物體都由二維和三維傳感器捕獲,提供紋理網(wǎng)格、點(diǎn)云、多視角渲染圖像和多個(gè)真實(shí)捕獲的視頻。3) 真實(shí)的掃描:專業(yè)掃描儀支持高質(zhì)量的物體掃描,具有精確的形狀和逼真的外觀。
利用OmniObject3D提供的廣闊探索空間,研究人員精心設(shè)置了四個(gè)評估基準(zhǔn):a)強(qiáng)大的3D感知,b)新視角合成,c)神經(jīng)表面重建,以及d)3D物體生成。
4. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures
作者:Zhiqin Chen,Thomas Funkhouser,Peter Hedman,Andrea Tagliasacchi
機(jī)構(gòu):谷歌,西蒙菲莎大學(xué),多倫多大學(xué)
論文地址:https://arxiv.org/pdf/2208.00277.pdf
神經(jīng)輻射場(NeRFs)在從新的視角合成三維場景的圖像方面表現(xiàn)出驚人的能力。然而,它們依賴的專有體積渲染算法,與廣泛部署的圖形硬件的能力并不匹配。
本文介紹了一種新的基于紋理多邊形的NeRF表征方法,它可以用標(biāo)準(zhǔn)渲染管道有效地合成新的圖像。NeRF被表征為一組多邊形,其紋理代表二進(jìn)制不透明度和特征矢量。用Z型緩沖器對多邊形進(jìn)行傳統(tǒng)的渲染,得到的圖像在每個(gè)像素上都有特征,這些特征被運(yùn)行在片段著色器中的一個(gè)小型的、依賴于視圖的MLP解釋,以產(chǎn)生最終的像素顏色。
這種方法使NeRF能夠用傳統(tǒng)的多邊形光柵化管道進(jìn)行渲染,它提供了大規(guī)模的像素級并行性,在包括手機(jī)在內(nèi)的各種計(jì)算平臺上實(shí)現(xiàn)了足以進(jìn)行交互的幀率。
5. DynIBaR: Neural Dynamic Image-Based Rendering
作者:Zhengqi Li,Qianqian Wang,F(xiàn)orrester Cole,Richard Tucker,Noah Snavely
機(jī)構(gòu):谷歌,康奈爾科技校區(qū)
論文地址:https://arxiv.org/pdf/2211.11082.pdf
本文中,研究人員提出了一種基于體積圖像的渲染框架,該框架通過以場景運(yùn)動感知的方式,來聚合附近的視點(diǎn)特征,從而合成新的視點(diǎn)。
研究人員的系統(tǒng)保留了先前方法的優(yōu)點(diǎn),即能夠?qū)?fù)雜的場景和視點(diǎn)相關(guān)的效果進(jìn)行建模,而且還能夠從具有復(fù)雜場景動態(tài)和無約束相機(jī)軌跡的長視頻中合成照片般真實(shí)的新視點(diǎn)。
結(jié)果證明,在動態(tài)場景數(shù)據(jù)集上,新方法比SOTA有明顯改進(jìn)。并且,還能應(yīng)用于頗具挑戰(zhàn)性的運(yùn)動視頻當(dāng)中,此前的方法在這里都無法產(chǎn)生高質(zhì)量的渲染。
6. Planning-oriented Autonomous Driving
作者:Yihan Hu,Jiazhi Yang,Li Chen,Keyu Li,Chonghao Sima,Xizhou Zhu,Siqi Chai,Senyao Du,Tianwei Lin,Wenhai Wang,Lewei Lu,Xiaosong Jia,Qiang Liu,Jifeng Dai,Yu Qiao,Hongyang Li機(jī)構(gòu):上海人工智能實(shí)驗(yàn)室,武漢大學(xué),商湯
論文地址:https://arxiv.org/pdf/2212.10156.pdf 本文中,研究人員提出了一種全新的綜合框架——統(tǒng)一自動駕駛(UniAD)。通過將全棧式的駕駛?cè)蝿?wù)納入一個(gè)網(wǎng)絡(luò),該框架可以利用每個(gè)模塊的優(yōu)勢,并從全局角度為智能體交互提供互補(bǔ)的特征抽象。任務(wù)通過統(tǒng)一的查詢接口進(jìn)行通信,從而促進(jìn)彼此的規(guī)劃。 研究人員在具有挑戰(zhàn)性的nuScenes基準(zhǔn)上對UniAD進(jìn)行了實(shí)例化。消融實(shí)驗(yàn)顯示,新方法在各個(gè)方面的性能都大大優(yōu)于此前的SOTA。
7. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
作者:Nataniel Ruiz,Yuanzhen Li,Varun Jampani,Yael Pritch,Michael Rubinstein,Kfir Aberman機(jī)構(gòu):谷歌,波士頓大學(xué)
論文地址:https://arxiv.org/pdf/2208.12242.pdf 在這項(xiàng)工作中,研究人員提出了一種新的「個(gè)性化」文本到圖像擴(kuò)散模型的方法。 只需輸入少數(shù)幾張主體的圖片,就可以微調(diào)預(yù)訓(xùn)練的文本到圖像模型,使其學(xué)會將獨(dú)特的標(biāo)識符與特定主體綁定。一旦將主體嵌入模型的輸出域,就可以使用獨(dú)特的標(biāo)識符在不同場景中合成該主體的新的真實(shí)感圖像。 通過利用模型中嵌入的語義先驗(yàn)以及新的自生類特定先驗(yàn)保留損失,新的方法使得在各種場景、姿態(tài)、視角和光照條件下合成主體成為可能,而這些條件在參考圖像中并未出現(xiàn)。
8. On Distillation of Guided Diffusion Models
作者:Chenlin Meng,Robin Rombach,Ruiqi Gao,Diederik Kingma,Stefano Ermon,Jonathan Ho,Tim Salimans機(jī)構(gòu):斯坦福大學(xué),Stability AI,慕尼黑大學(xué),谷歌
論文地址:https://arxiv.org/pdf/2210.03142.pdf 無分類器指導(dǎo)的擴(kuò)散模型的一個(gè)缺點(diǎn)是,它們在推理時(shí)的計(jì)算成本很高,因?yàn)樗鼈冃枰u估兩個(gè)擴(kuò)散模型,一個(gè)類別條件模型和一個(gè)無條件模型,需要數(shù)十到數(shù)百次。 為了解決這一局限性,研究人員提出了一種將無分類器指導(dǎo)的擴(kuò)散模型提煉成快速采樣的模型的方法。 給定一個(gè)預(yù)先訓(xùn)練好的無分類器指導(dǎo)的模型,首先學(xué)習(xí)一個(gè)單一的模型來匹配合并的條件和無條件模型的輸出,然后逐步將該模型提煉成一個(gè)需要更少采樣步驟的擴(kuò)散模型。
9. Visual Programming: Compositional visual reasoning without training
作者:Tanmay Gupta,Aniruddha Kembhavi機(jī)構(gòu):艾倫人工智能研究所
論文地址:https://arxiv.org/pdf/2211.11559.pdf 研究人員提出了一種神經(jīng)符號方法VISPROG,用于解決給定自然語言指令的復(fù)雜和組合性的視覺任務(wù)。 VISPROG使用大型語言模型的非文本學(xué)習(xí)能力來生成類似于python的模塊化程序,然后執(zhí)行這些程序以獲得解決方案和一個(gè)全面的、可解釋的理由。 生成的程序的每一行都可以調(diào)用幾個(gè)現(xiàn)成的CV模型、圖像處理子程序或python函數(shù)中的一個(gè),以產(chǎn)生中間輸出。 研究人員在4個(gè)不同的任務(wù)上展示了VISPROG的靈活性:組合式視覺問題回答、圖像對的零點(diǎn)推理、事實(shí)知識對象標(biāo)簽和語言引導(dǎo)的圖像編輯。 研究人員表示,像VISPROG這樣的神經(jīng)符號方法是一條令人興奮的途徑,可以輕松有效地?cái)U(kuò)大人工智能系統(tǒng)的范圍,為人們可能希望執(zhí)行的長尾復(fù)雜任務(wù)提供服務(wù)。
10. What Can Human Sketches Do for Object Detection?
作者:Pinaki Nath Chowdhury,Ayan Kumar Bhunia,Aneeshan Sain,Subhadeep Koley,Tao Xiang,Yi-Zhe Song機(jī)構(gòu):薩里大學(xué)
論文地址:https://arxiv.org/pdf/2303.15149.pdf 草圖,具有很強(qiáng)的表現(xiàn)力,本身就能捕捉到主觀和細(xì)粒度的視覺線索。然而,當(dāng)前對草圖這種先天屬性的探索僅限于圖像檢索領(lǐng)域。 論文中,研究人員嘗試開發(fā)草圖的表現(xiàn)力,而不是目標(biāo)檢測這一基本視覺任務(wù)。 研究人員首先對SBIR模型的草圖和照片分支進(jìn)行獨(dú)立提示,在CLIP的泛化能力的基礎(chǔ)上建立高度可泛化的Sketches和照片編碼器。 然后,研究人員設(shè)計(jì)了一個(gè)訓(xùn)練范式,使編碼器適用于物體檢測,這樣,檢測到的邊界款區(qū)域的嵌入,與SBIR的草圖和照片嵌入對齊。 通過在標(biāo)準(zhǔn)目標(biāo)檢測數(shù)據(jù)集(如PASCAL-VOC和MS-COCO)上評估最新框架,可見在零樣本設(shè)置上優(yōu)于受監(jiān)督(SOD)和弱監(jiān)督目標(biāo)檢測器(WSOD)。
11. Data-driven Feature Tracking for Event Cameras
作者:Nico Messikommer,Carter Fang,Mathias Gehrig,Davide Scaramuzza機(jī)構(gòu):蘇黎世大學(xué)
論文地址:https://arxiv.org/pdf/2211.12826.pdf 現(xiàn)有的事件相機(jī)特征跟蹤方法要么是人工制作的,要么是從第一性原理中推導(dǎo)出來的,但需要大量的參數(shù)調(diào)整,且對噪聲敏感,由于未建模的效應(yīng),無法泛化到不同的場景。 為了解決這些不足,研究人員引入了第一個(gè)數(shù)據(jù)驅(qū)動的事件相機(jī)特征跟蹤器,該跟蹤器利用低延遲的事件來跟蹤在灰度幀中檢測到的特征。 通過直接從合成數(shù)據(jù)無縫轉(zhuǎn)移到真實(shí)數(shù)據(jù),新的數(shù)據(jù)驅(qū)動跟蹤器在相對特征年齡上超過了現(xiàn)有方法高達(dá)120%,同時(shí)也實(shí)現(xiàn)了最低的延遲。通過使用一種新的自監(jiān)督策略讓跟蹤器適應(yīng)真實(shí)數(shù)據(jù),這個(gè)性能差距進(jìn)一步增加到130%。
12. Integral Neural Networks
作者:Kirill Solodskikh,Azim Kurbanov,Ruslan Aydarkhanov,Irina Zhelavskaya,Yury Parfenov,Dehua Song,Stamatios Lefkimmiatis機(jī)構(gòu):華為諾亞方舟實(shí)驗(yàn)室
論文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Solodskikh_Integral_Neural_Networks_CVPR_2023_paper.pdf 研究人員介紹了一個(gè)新的深度神經(jīng)網(wǎng)絡(luò)系列。研究人員使用了沿過濾器和通道維度的連續(xù)層表征,而不是傳統(tǒng)的網(wǎng)絡(luò)層作為N維權(quán)重張量的表示。研究人員稱這種網(wǎng)絡(luò)為積分神經(jīng)網(wǎng)絡(luò)(INNs)。 特別是,INNs的權(quán)重被表示為定義在N維超立方體上的連續(xù)函數(shù),而輸入到各層的離散轉(zhuǎn)換也相應(yīng)地被連續(xù)的集成操作所取代。 在推理階段,連續(xù)層可以通過數(shù)值積分求積法轉(zhuǎn)換為傳統(tǒng)的張量表示。這種表示允許網(wǎng)絡(luò)以任意大小和各種離散化間隔對積分核進(jìn)行離散化。 這種方法可用于直接在邊緣設(shè)備上對模型進(jìn)行剪枝,而在沒有任何微調(diào)的情況下,即使在高剪枝率下也只會有小的性能損失。 為了評估提出方法的實(shí)際效益,研究人員在多個(gè)任務(wù)上使用各種神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行了實(shí)驗(yàn)。 報(bào)告結(jié)果顯示,所提出的INNs實(shí)現(xiàn)了與傳統(tǒng)的離散對應(yīng)物相同的性能,同時(shí)能夠在不進(jìn)行微調(diào)的高剪枝率(高達(dá)30%)下保持大致相同的性能(對于Imagenet上的ResNet18,精度損失為2%),而傳統(tǒng)剪枝方法在相同條件下的準(zhǔn)確性損失65%。
審核編輯 :李倩
-
傳感器
+關(guān)注
關(guān)注
2545文章
50445瀏覽量
751075 -
SLAM
+關(guān)注
關(guān)注
23文章
415瀏覽量
31758 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1200瀏覽量
24619
原文標(biāo)題:重磅!CVPR 2023最佳論文候選出爐!
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論