NVIDIA 研究人員正在與世界各地的學(xué)術(shù)機(jī)構(gòu)合作,推進(jìn)生成式 AI、機(jī)器人和自然科學(xué)領(lǐng)域的進(jìn)步。在全球頂級 AI 會議之一 NeurIPS 上,NVIDIA 將介紹其中的十幾個項目。
NeurIPS 大會將于太平洋時間 12 月 10 日至 16 日在新奧爾良舉行,匯集了生成式 AI、機(jī)器學(xué)習(xí)、計算機(jī)視覺等領(lǐng)域的專家。在此次大會上,NVIDIA Research 將展示一系列創(chuàng)新,包括將文本轉(zhuǎn)化為圖像、將照片轉(zhuǎn)化為 3D 化身,以及將專用機(jī)器人轉(zhuǎn)化為多功能機(jī)器的新技術(shù)。
NVIDIA 學(xué)習(xí)和感知研究副總裁 Jan Kautz 表示:“NVIDIA Research 繼續(xù)推動該領(lǐng)域的進(jìn)步,包括將文本轉(zhuǎn)化為圖像或語音的生成式 AI 模型、更快地學(xué)習(xí)新任務(wù)的自主 AI 代理,以及計算復(fù)雜物理學(xué)的神經(jīng)網(wǎng)絡(luò)。這些項目通常與學(xué)術(shù)界的領(lǐng)軍人物合作完成,將有助于加速虛擬世界、模擬和自主機(jī)器的開發(fā)。”
轉(zhuǎn)換為圖像:
改進(jìn)文本到圖像擴(kuò)散模型
對于將文本轉(zhuǎn)化為逼真的圖像,擴(kuò)散模型已經(jīng)成為最流行的生成式 AI 模型。NVIDIA 的研究人員與多所大學(xué)合作了多個推進(jìn)擴(kuò)散模型發(fā)展的項目,并將在 NeurIPS 上進(jìn)行展示。
-
一篇口頭報告論文重點研究讓生成式 AI 模型更好地理解文本提示中修飾詞和主體之間的聯(lián)系。當(dāng)要求現(xiàn)有文本生成圖像模型生成一個黃色西紅柿和一個紅色檸檬時,其可能會生成錯誤的黃色檸檬和紅色西紅柿,但新新模型可以分析用戶提示詞的語法,鼓勵在主體與其修飾符之間建立聯(lián)系,從而更忠實地對文本提示詞進(jìn)行視覺描述。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/oral/73870
-
SceneScape 是一個使用擴(kuò)散模型根據(jù)文本提示詞創(chuàng)建 3D 場景長視頻的新框架,其將在會議上以海報的形式進(jìn)行展示。該項目將文本生成圖像模型與深度預(yù)測模型相結(jié)合,有助于視頻中看似合理的場景在連續(xù)的幾幀中保持不變——生成美術(shù)館、鬼屋和冰雪城堡視頻。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/71859
-
另一個海報描述了如何讓文本生成圖像模型更好地生成那些通常在訓(xùn)練數(shù)據(jù)中罕見的概念。嘗試生成這樣的圖像通常會導(dǎo)致低質(zhì)量的視覺效果,不能完全匹配用戶的提示詞。新方法使用了一小組示例圖像,幫助模型識別好的種子——隨機(jī)數(shù)序列,引導(dǎo) AI 從指定的稀有類中生成圖像。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/70922
-
第三個海報展示了文本生成圖像擴(kuò)散模型如何使用不完整點云的文本描述來生成缺失部分,并創(chuàng)建物體的完整 3D 模型。這可能有助于完善激光雷達(dá)掃描儀和其他深度傳感器收集的點云數(shù)據(jù),用于機(jī)器人和自動駕駛汽車 AI 應(yīng)用。收集的圖像通常是不完整的,因為物體是從特定角度掃描的。例如,當(dāng)汽車沿街行駛時,安裝在車上的激光雷達(dá)傳感器只會掃描每棟建筑的一側(cè)。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/70648
角色開發(fā):AI 化身的進(jìn)步
AI 化身結(jié)合了多個生成式 AI 模型來創(chuàng)建虛擬角色并做成動畫、生成文本并將其轉(zhuǎn)化為語音。NeurIPS 大會上的兩個 NVIDIA 海報展示了可以提高這些任務(wù)效率的新方法。
-
其中一個海報描述了一種新方法,可以將一張肖像圖轉(zhuǎn)化為 3D 頭像,同時捕捉發(fā)型和配飾等細(xì)節(jié)。不同于當(dāng)前需要多張圖像并且優(yōu)化過程需要較長時間的方法,該模型在推理過程中無需額外優(yōu)化即可實現(xiàn)高保真度的 3D 重建。這些頭像可以通過混合形狀(blendshapes)做成動畫,混合形狀是 3D 網(wǎng)格表示,用于表示不同的面部表情。這些頭像也可以使用參考視頻剪輯做成動畫,視頻中人的臉部表情和動作會應(yīng)用于頭像。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/72615
-
另一個海報介紹了 NVIDIA 研究人員和大學(xué)合作者使用 P-Flow 模型來開展零樣本文本到語音合成。P-Flow 是一種生成式 AI 模型,可以在給出三秒?yún)⒖继崾镜那闆r下快速合成高質(zhì)量的個性化語音。與近期最先進(jìn)的同類模型相比,P-Flow具有更好的發(fā)音、擬人度和說話者相似度。只需一個 NVIDIA A100 Tensor Core GPU,該模型就能即刻將文本轉(zhuǎn)化為語音。
了解更多信息,請查閱:https://pflow-demo.github.io/projects/pflow/
強(qiáng)化學(xué)習(xí)、機(jī)器人研究領(lǐng)域的突破
在強(qiáng)化學(xué)習(xí)和機(jī)器人領(lǐng)域,NVIDIA 的研究人員將帶來兩個海報,著重介紹提高 AI 在不同任務(wù)和環(huán)境中的通用性的創(chuàng)新技術(shù)。
-
第一個海報提出了一個用于開發(fā)強(qiáng)化學(xué)習(xí)算法的框架,該框架可以適應(yīng)新任務(wù),同時避免常見的梯度偏差和數(shù)據(jù)低效陷阱。研究人員表明,他們的方法采用新穎的元算法,可以創(chuàng)建任何元強(qiáng)化學(xué)習(xí)模型的魯棒版本——在執(zhí)行多個基準(zhǔn)測試任務(wù)時表現(xiàn)優(yōu)秀。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/72040
-
另一個海報介紹了 NVIDIA 研究人員和大學(xué)合作者解決了機(jī)器人進(jìn)行物體操控的挑戰(zhàn)。此前,那些幫助機(jī)器人用手拾取物體并與之交互的 AI 模型可以處理特定的形狀,但難以處理訓(xùn)練數(shù)據(jù)中未出現(xiàn)過的物體。研究人員引入一個新的框架,該框架可以估計各類物體在幾何上的相似性,例如擁有相似把手的抽屜和鍋蓋,從而使該模型能夠更快地推廣到新的形狀。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/71709
推動科學(xué)飛速發(fā)展:
AI 加速物理、氣候、醫(yī)療
在 NeurIPS 大會上,NVIDIA 研究人員還將發(fā)表涉及多個自然科學(xué)領(lǐng)域的論文,涵蓋物理模擬、氣候模型和醫(yī)療 AI。
-
為了加速大規(guī)模 3D 模擬的計算流體動力學(xué),NVIDIA 的一個研究團(tuán)隊提出了一種神經(jīng)算子架構(gòu),該架構(gòu)在估計車輛周圍的壓力場時實現(xiàn)了高精度和高計算效率。這是行業(yè)標(biāo)準(zhǔn)的大規(guī)模汽車基準(zhǔn)測試中第一個基于深度學(xué)習(xí)的計算流體動力學(xué)方法。與另一個基于 GPU 的求解器相比,該方法在單個 NVIDIA Tensor Core GPU 上實現(xiàn)了 10 萬倍的加速,同時降低了錯誤率。研究人員可以使用開源的神經(jīng)算子庫,將該模型整合到自己的應(yīng)用程序中。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/72670
-
來自大學(xué)、國家實驗室、研究所、Allen AI 和 NVIDIA 的氣候科學(xué)家和機(jī)器學(xué)習(xí)研究人員組成了一個聯(lián)盟,合作開發(fā)了大規(guī)模數(shù)據(jù)集 ClimSim,用于物理學(xué)和基于機(jī)器學(xué)習(xí)的氣候研究。這個數(shù)據(jù)集將在 NeurIPS 大會上的口頭報告中進(jìn)行分享,其中包含多年高分辨率的全球數(shù)據(jù)。使用這些數(shù)據(jù)構(gòu)建的機(jī)器學(xué)習(xí)模擬器可以集成至目前正在使用的氣候模擬器中,以提高其保真度、準(zhǔn)確性和精度。這可以幫助科學(xué)家更好地預(yù)測風(fēng)暴和其它極端事件。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/73569
-
NVIDIA Research 的實習(xí)生制作的一個海報介紹了一種 AI 算法,可以個性化地預(yù)測藥物劑量對患者的影響。利用真實數(shù)據(jù),研究人員測試了該模型對患者接受不同劑量時的凝血情況預(yù)測。他們還分析了新算法對接受藥物治療的患者體內(nèi)抗生素萬古霉素濃度的預(yù)測。結(jié)果發(fā)現(xiàn),與以前的方法相比,新算法的預(yù)測準(zhǔn)確性顯著提高。
了解更多信息,請查閱:https://neurips.cc/virtual/2023/poster/71940
NVIDIA Research 由全球數(shù)百名科學(xué)家和工程師組成,團(tuán)隊專注于 AI、計算機(jī)圖形學(xué)、計算機(jī)視覺、自動駕駛汽車、機(jī)器人學(xué)等領(lǐng)域的研究。點擊閱讀原文,了解更多信息。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。掃描下方海報二維碼,關(guān)注更多會議及活動信息。
原文標(biāo)題:下一代神經(jīng)網(wǎng)絡(luò):NVIDIA Research 在 NeurIPS 大會上發(fā)布一系列 AI 技術(shù)進(jìn)步
文章出處:【微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
22文章
3720瀏覽量
90682
原文標(biāo)題:下一代神經(jīng)網(wǎng)絡(luò):NVIDIA Research 在 NeurIPS 大會上發(fā)布一系列 AI 技術(shù)進(jìn)步
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論