據(jù)披露,阿里巴巴研發(fā)部門近期推出了一款名為 AtomoVideo 的高保真 I2V(即 Image to Video)框架,可將靜態(tài)圖像轉(zhuǎn)化成精美的視頻內(nèi)容。其主要特點有:
1. 高保真度:生成視頻與輸入圖片在細節(jié)和風格上保持一致;
2. 運動連貫:視頻流暢無跳躍,保證時間上的連續(xù)性;
3. 視頻幀預測:通過精確的預測來支持長時延視頻序列生成;
4. 兼容性強:適配現(xiàn)有各式各樣的 T2I(Text-to-image)模型;
5. 高語義控制力:能夠針對客戶特殊需求,打造個性化的視頻內(nèi)容。
AtomoVideo運用預設的 T2I 模型,在每個空間卷積層和注意力層后新增一維時空卷積和注意力模塊。現(xiàn)有的 T2I 模型參數(shù)固定不變,它們只會訓練新增的時空層,而輸入的串聯(lián)圖像信息由 VAE 編碼解析,這代表的是低層次信息,有利于提高視頻對輸入圖像的還原度。此外,團隊還使用 Cross-Attention 的方法融入高級圖像語義,以加強圖像語義可控性。
目前,該項目僅發(fā)布了論文和演示視頻,尚未開放線上試用途徑。另外,阿里巴巴已開啟 GitHub 賬號,但現(xiàn)在只是作為官方網(wǎng)站的托管地,并不包含相關代碼分享。
-
圖像
+關注
關注
2文章
1075瀏覽量
40267 -
阿里巴巴
+關注
關注
7文章
1603瀏覽量
46774 -
模型
+關注
關注
1文章
3032瀏覽量
48357
發(fā)布評論請先 登錄
相關推薦
評論