本周論文包括尤洋團隊FastFold上線,訓(xùn)練時間從11天壓縮至67小時;微軟亞洲研究院直接把 Transformer 深度提升到 1000 層等研究。
目錄
FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours
Transformer Memory as a Differentiable Search Index
DeepNet: Scaling Transformers to 1,000 Layers
The Quest for a Common Model of the Intelligent Decision Maker
GenéLive! Generating Rhythm Actions in Love Live!
Transformer Quality in Linear Time
FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours
作者:Shenggan Cheng, Ruidong Wu, Zhongming Yu, Binrui Li, Xiwen Zhang, Jian Peng, Yang You
論文鏈接:https://arxiv.org/abs/2203.00854
摘要:來自潞晨科技和上海交大的研究者提出了一種蛋白質(zhì)結(jié)構(gòu)預(yù)測模型的高效實現(xiàn) FastFold。FastFold 包括一系列基于對 AlphaFold 性能全面分析的 GPU 優(yōu)化。同時,通過動態(tài)軸并行和對偶異步算子,F(xiàn)astFold 提高了模型并行擴展的效率,超越了現(xiàn)有的模型并行方法。
實驗結(jié)果表明,F(xiàn)astFold 將整體訓(xùn)練時間從 11 天減少到 67 小時,并實現(xiàn)了 7.5 ~ 9.5 倍的長序列推理加速。此外,研究者還將 FastFold 擴展到 512 個 A100 GPU 的超算集群上,聚合峰值性能達到了 6.02PetaFLOPs,擴展效率達到 90.1%。
不同于一般的 Transformer 模型,AlphaFold 在 GPU 平臺上的計算效率較低,主要面臨兩個挑戰(zhàn):1) 有限的全局批大小限制了使用數(shù)據(jù)并行性將訓(xùn)練擴展到更多節(jié)點,更大的批大小會導(dǎo)致準確率更低。即使使用 128 個谷歌 TPUv3 訓(xùn)練 AlphaFold 也需要約 11 天;2) 巨大的內(nèi)存消耗超出了當(dāng)前 GPU 的處理能力。在推理過程中,較長的序列對 GPU 內(nèi)存的需求要大得多,對于 AlphaFold 模型,一個長序列的推理時間甚至可以達到幾個小時。
AlphaFold 模型架構(gòu)
作為首個用于蛋白質(zhì)結(jié)構(gòu)預(yù)測模型訓(xùn)練和推理的性能優(yōu)化工作,F(xiàn)astFold 成功引入了大型模型訓(xùn)練技術(shù),顯著降低了 AlphaFold 模型訓(xùn)練和推理的時間和經(jīng)濟成本。FastFold 由 Evoformer 的高性能實現(xiàn)、AlphaFold 的主干結(jié)構(gòu)和一種稱為動態(tài)軸并行(Dynamic Axial Parallelism,DAP)的模型并行新策略組成。
Evoformer 的注意力機制如下圖所示:
推薦:512 塊 A100,AlphaFold 訓(xùn)練時間從 11 天壓縮至 67 小時:尤洋團隊 FastFold 上線。
論文 2:Transformer Memory as a Differentiable Search Index
作者:Yi Tay 、 Vinh Q. Tran 等
論文鏈接:https://arxiv.org/pdf/2202.06991.pdf
摘要:近日,谷歌研究院在論文《Transformer Memory as a Differentiable Search Index》中提出了一種替代架構(gòu),研究者采用序列到序列 (seq2seq) 學(xué)習(xí)系統(tǒng)。
該研究證明使用單個 Transformer 即可完成信息檢索,其中有關(guān)語料庫的所有信息都編碼在模型的參數(shù)中。該研究引入了可微搜索索引(Differentiable Search Index,DSI),這是一種學(xué)習(xí)文本到文本新范式。DSI 模型將字符串查詢直接映射到相關(guān)文檔;換句話說,DSI 模型只使用自身參數(shù)直接回答查詢,極大地簡化了整個檢索過程。
此外,本文還研究了如何表示文檔及其標(biāo)識符的變化、訓(xùn)練過程的變化以及模型和語料庫大小之間的相互作用。實驗表明,在適當(dāng)?shù)脑O(shè)計選擇下,DSI 明顯優(yōu)于雙編碼器模型等強大基線,并且 DSI 還具有強大的泛化能力,在零樣本設(shè)置中優(yōu)于 BM25 基線。
DSI 背后的核心思想是在單個神經(jīng)模型中完全參數(shù)化傳統(tǒng)的多階段先檢索后排序 pipeline。為此,DSI 模型必須支持兩種基本操作模式:
索引:DSI 模型應(yīng)該學(xué)會將每個文檔內(nèi)容 d_j 與其對應(yīng)的 docid j ( 文檔標(biāo)識符 :document identifiers,docid)相關(guān)聯(lián)。本文采用一種簡單的序列到序列方法,將文檔 token 作為輸入并生成標(biāo)識符作為輸出;
檢索:給定輸入查詢,DSI 模型應(yīng)返回候選 docid 排序列表。本文是通過自回歸生成實現(xiàn)的。
在這兩個操作之后,DSI 模型可以用來索引文檔語料庫,并對可用的帶標(biāo)記數(shù)據(jù)集(查詢和標(biāo)記文檔)進行微調(diào),然后用于檢索相關(guān)文檔 —— 所有這些都在單個、統(tǒng)一的模型中完成。與先檢索后排序方法相反,DSI 模型允許簡單的端到端訓(xùn)練,并且可以很容易地用作更大、更復(fù)雜的神經(jīng)模型的可微組件。
下表為這個進程的偽代碼:
推薦:單個 Transformer 完成信息檢索,谷歌用可微搜索索引打敗雙編碼器模型。
論文 3:DeepNet: Scaling Transformers to 1,000 Layers
作者:Hongyu Wang、Shuming Ma、 Li Dong 、Shaohan Huang 、Dongdong Zhang、 Furu Wei
論文鏈接:https://arxiv.org/pdf/2203.00555.pdf
摘要:微軟亞洲研究院直接把 Transformer 深度提升到 1000 層!
研究者的目標(biāo)是提升 Transformer 模型的訓(xùn)練穩(wěn)定性,并將模型深度進行數(shù)量級的擴展。為此,他們研究了不穩(wěn)定優(yōu)化的原因,并且發(fā)現(xiàn)爆炸式模型更新是造成不穩(wěn)定的罪魁禍首?;谶@些觀察,研究者在殘差連接處引入了一個新的歸一化函數(shù) —— DEEPNORM,它在將模型更新限制為常數(shù)時具有理論上的合理性。
這一方法簡單但高效,只需要改變幾行代碼即可。最終,該方法提升了 Transformer 模型的穩(wěn)定性,并實現(xiàn)了將模型深度擴展到了 1000 多層。
此外,實驗結(jié)果表明,DEEPNORM 能夠?qū)?Post-LN 的良好性能和 Pre-LN 的穩(wěn)定訓(xùn)練高效結(jié)合起來。研究者提出的方法可以成為 Transformers 的首選替代方案,不僅適用于極其深(多于 1000 層)的模型,也適用于現(xiàn)有大規(guī)模模型。值得指出的是,在大規(guī)模多語言機器翻譯基準上,文中 32 億參數(shù)量的 200 層模型(DeepNet)比 120 億參數(shù)量的 48 層 SOTA 模型(即 Facebook AI 的 M2M 模型)實現(xiàn)了 5 BLEU 值提升。
如下圖 2 所示,使用 PostLN 實現(xiàn)基于 Transformer 的方法很簡單。與 Post-LN 相比,DEEPNORM 在執(zhí)行層歸一化之前 up-scale 了殘差連接。
此外,該研究還在初始化期間 down-scale 了參數(shù)。值得注意的是,該研究只擴展了前饋網(wǎng)絡(luò)的權(quán)重,以及注意力層的值投影和輸出投影。此外,殘差連接和初始化的規(guī)模取決于圖 2 中不同的架構(gòu)。
DeepNet 基于 Transformer 架構(gòu)。與原版 Transformer 相比,DeepNet 在每個子層使用了新方法 DEEPNORM,而不是以往的 Post-LN。
推薦:解決訓(xùn)練難題,1000 層的 Transformer 來了,訓(xùn)練代碼很快公開。
論文 4:The Quest for a Common Model of the Intelligent Decision Maker
作者:Richard S. Sutton
論文鏈接:https://arxiv.org/pdf/2202.13252.pdf
摘要:強化學(xué)習(xí)和決策多學(xué)科會議(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,隨著時間的推移,多個學(xué)科對目標(biāo)導(dǎo)向的決策有著共同的興趣。
近日,阿爾伯塔大學(xué)計算機科學(xué)系教授、強化學(xué)習(xí)先驅(qū) Richard S. Sutton 在其最新論文《The Quest for a Common Model of the Intelligent Decision Maker》中通過提出決策者的觀點來加強和深化這一前提,該觀點在心理學(xué)、人工智能、經(jīng)濟學(xué)、控制理論和神經(jīng)科學(xué)等領(lǐng)域得到實質(zhì)和廣泛的應(yīng)用,他稱之為「智慧智能體的通用模型」。通常模型不包含任何特定于任何有機體、世界或應(yīng)用域的東西,而涵蓋了決策者與其世界交互的各個方面(必須有輸入、輸出和目標(biāo))以及決策者的內(nèi)部組件(用于感知、決策、內(nèi)部評估和世界模型)。
Sutton 確定了這些方面和組件,指出它們在不同學(xué)科中被賦予不同的名稱,但本質(zhì)上指向相同的思路。他探討了設(shè)計一個可跨學(xué)科應(yīng)用的中性術(shù)語面臨的挑戰(zhàn)和帶來的益處,并表示是時候認可并在智慧智能體的實質(zhì)性通用模型上構(gòu)建多樣化學(xué)科的融合了。
RLDM 的前提是所有對「隨時間推移學(xué)習(xí)和決策以實現(xiàn)目標(biāo)」感興趣的學(xué)科融合在一起并共享觀點是有價值的。心理學(xué)、神經(jīng)科學(xué)等自然科學(xué)學(xué)科、人工智能、優(yōu)化控制理論等工程科學(xué)學(xué)科以及經(jīng)濟學(xué)和人類學(xué)等社會科學(xué)學(xué)科都只部分關(guān)注智能決策者。各個學(xué)科的觀點不同,但有相通的元素。跨學(xué)科的一個目標(biāo)是確定共同核心,即決策者對所有或許多學(xué)科共有的那些方面。只要能夠建立這樣一個決策者的通用模型,就可以促進思想和成果的交流,進展可能會更快,獲得的理解也可能會更加基礎(chǔ)和持久。
探索決策者的通用模型并不新鮮。衡量其當(dāng)前活力的一個重要指標(biāo)是 RLDM 和 NeurIPS 等跨學(xué)科會議以及《神經(jīng)計算》、《生物控制論》和《適應(yīng)行為》等期刊的成功。很多科學(xué)洞見可以從跨學(xué)科互動中獲得,例如貝葉斯方法在心理學(xué)中的廣泛應(yīng)用、多巴胺在神經(jīng)科學(xué)中的獎勵預(yù)測誤差解釋以及在機器學(xué)習(xí)中長期使用的神經(jīng)網(wǎng)絡(luò)隱喻。盡管很多這些學(xué)科之間的重要關(guān)系與學(xué)科本身一樣古老,但遠遠未解決。為了找到學(xué)科之間、甚至一個學(xué)科內(nèi)部之間的共性,人們必須忽略很多分歧。我們必須要有選擇性,從大局出發(fā),不要期望沒有例外發(fā)生。
因此,在這篇論文中,Sutton 希望推進對智能決策者模型的探索。首先明確地將探索與富有成效的跨學(xué)科互動區(qū)分開來;其次強調(diào)目標(biāo)是作為高度跨學(xué)科的累積數(shù)值信號的最大化;接著又強調(diào)了決策者的特定內(nèi)部結(jié)構(gòu),即以特定方式交互的四個主要組件,它們?yōu)槎鄠€學(xué)科所共有;最后突出了掩蓋領(lǐng)域之間共性的術(shù)語差異,并提供了鼓勵多學(xué)科思維的術(shù)語。
決策智能體標(biāo)準組件
推薦:強化學(xué)習(xí)教父 Richard Sutton 新論文探索決策智能體的通用模型:尋找跨學(xué)科共性。
論文 5:GenéLive! Generating Rhythm Actions in Love Live!
作者:Atsushi Takada、Daichi Yamazaki、Likun Liu 等
論文鏈接:https://arxiv.org/abs/2202.12823
摘要:最近,預(yù)印版論文平臺 arXiv 上的一篇論文引起了人們的注意,其作者來自游戲開發(fā)商 KLab 和九州大學(xué)。他們提出了一種給偶像歌曲自動寫譜的模型,更重要的是,作者表示這種方法其實已經(jīng)應(yīng)用過很長一段時間了。
KLab 等機構(gòu)提交的論文介紹了自己的節(jié)奏動作游戲生成模型。KLab Inc 是一家智能手機游戲開發(fā)商。該公司在線運營的節(jié)奏動作游戲包括《Love Live!學(xué)院偶像季:群星閃耀》(簡稱 LLAS)已以 6 種語言在全球發(fā)行,獲得了上千萬用戶。已經(jīng)有一系列具有類似影響的類似游戲,這使得該工作與大量玩家密切相關(guān)。
在研究過程中,開發(fā)者們首先提出了 Dance Dance Convolution (DDC) ,生成了具有人類高水平的,較高難度游戲模式的樂譜,但低難度反而效果不好。隨后研究者們通過改進數(shù)據(jù)集和多尺度 conv-stack 架構(gòu),成功捕捉了樂譜中四分音符之間的時間依賴性以及八分音符和提示節(jié)拍的位置,它們是音游中放置按鍵的較好時機。
DDC 由兩個子模型組成:onset(生成音符的時機)和 sym(決定音符類型,如輕按或滑動)目前正在使用的 AI 模型在所有難度的曲譜上都獲得了很好的效果,研究人員還展望了該技術(shù)擴展到其他領(lǐng)域的可能性。
GenéLive! 的基礎(chǔ)模型由卷積神經(jīng)網(wǎng)絡(luò) CNN 層和長短期記憶網(wǎng)絡(luò) LSTM 層組成。對于頻域中的信號,作者利用 CNN 層來捕獲頻率特征,對于時域利用 LSTM 層來完成任務(wù)。
時域方面采用了 BiLSTM,提供前一個 conv-stack 的輸出作為輸入。為了實現(xiàn)不同的難度模式,作者將難度編碼為一個標(biāo)量(初級是 10,中級是 20,以此類推)并將這個值作為新特征附加到 convstack 的輸出中。
Conv-stack 架構(gòu)。
該模型是由 KLab 和九州大學(xué)合作完成的。兩個團隊之間需要一個基于 Web 的協(xié)作平臺來共享源代碼、數(shù)據(jù)集、模型和實驗等。具體來說,該研究用于模型開發(fā)的系統(tǒng)架構(gòu)如下圖所示。
為了使樂譜生成程序可供藝術(shù)家按需使用,它應(yīng)該方便藝術(shù)家自行使用而無需 AI 工程師的幫助。并且由于該程序需要高端 GPU,將其安裝在藝術(shù)家的本地計算機上并不是一個合適的選擇。該模型服務(wù)系統(tǒng)架構(gòu)如下圖所示。
推薦:LoveLive! 出了一篇 AI 論文:生成模型自動寫曲譜。
論文 6:Transformer Quality in Linear Time
作者:Weizhe Hua、Zihang Dai、Hanxiao Liu、Quoc V. Le
論文鏈接:https://arxiv.org/abs/2202.10447
摘要:來自康奈爾大學(xué)、谷歌大腦的研究人員近日提出了一個新模型 FLASH(Fast Linear Attention with a Single Head),首次不僅在質(zhì)量上與完全增強的 Transformer 相當(dāng),而且在現(xiàn)代加速器的上下文大小上真正享有線性可擴展性。與旨在逼近 Transformers 中的多頭自注意力 (MHSA) 的現(xiàn)有高效注意力方法不同,谷歌從一個新層設(shè)計開始,自然地實現(xiàn)更高質(zhì)量的逼近。FLASH 分兩步開發(fā):
首先設(shè)置一個更適合有效近似的新層,引入門控機制來減輕自注意力的負擔(dān),產(chǎn)生了下圖 2 中的門控注意力單元 (Gated Attention Unit, GAU)。與 Transformer 層相比,每個 GAU 層更便宜。更重要的是,它的質(zhì)量更少依賴于注意力精度。事實上,小單頭、無 softmax 注意力的 GAU 與 Transformers 性能相近。
隨后作者提出了一種有效的方法來逼近 GAU 中的二次注意力,從而導(dǎo)致在上下文大小上具有線性復(fù)雜度的層變體。其思路是首先將標(biāo)記分組為塊,然后在一個塊內(nèi)使用精確的二次注意力和跨塊的快速線性注意力(如下圖 4 所示)。在論文中,研究者進一步描述了如何利用此方法自然地推導(dǎo)出一個高效的加速器實現(xiàn),在實踐中做到只需更改幾行代碼的線性可擴展能力。
在大量實驗中,F(xiàn)LASH 在各種任務(wù)、數(shù)據(jù)集和模型尺度上均效果很好。FLASH 在質(zhì)量上與完全增強的 Transformer (Transformer++) 相比具有競爭力,涵蓋了各種實踐場景的上下文大小 (512-8K),同時在現(xiàn)代硬件加速器上實現(xiàn)了線性可擴展。
例如,在質(zhì)量相當(dāng)?shù)那闆r下,F(xiàn)LASH 在 Wiki-40B 上的語言建模實現(xiàn)了 1.2 倍至 4.9 倍的加速,在 Transformer++ 上 C4 上的掩碼語言建模實現(xiàn)了 1.0 倍至 4.8 倍的加速。在進一步擴展到 PG-19 (Rae et al., 2019) 之后,F(xiàn)LASH 將 Transformer++ 的訓(xùn)練成本降低了 12.1 倍,并實現(xiàn)了質(zhì)量的顯著提升。
研究者首先提出了門控注意力單元(Gated Attention Unit, GAU),這是一個比 Transformers 更簡單但更強的層。
研究者在下圖 3 中展示了 GAU 與 Transformers 的比較情況,結(jié)果顯示對于不同模型大小,GAU 在 TPUs 上的性能可與 Transformers 競爭。需要注意,這些實驗是在相對較短的上下文大小(512)上進行的。
推薦:谷歌 Quoc Le 團隊新 transformer:線性可擴展,訓(xùn)練成本僅有原版 1/12。
論文 7:FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS
作者:Jaideep Pathak 、 Shashank Subramanian 等
論文鏈接:https://arxiv.org/pdf/2202.11214.pdf
摘要:在近日的一篇論文中,英偉達、勞倫斯伯克利國家實驗室、密歇根大學(xué)安娜堡分校、萊斯大學(xué)等機構(gòu)的研究者開發(fā)了一種基于傅里葉的神經(jīng)網(wǎng)絡(luò)預(yù)測模型 FourCastNet,它能以 0.25° 的分辨率生成關(guān)鍵天氣變量的全球數(shù)據(jù)驅(qū)動預(yù)測,相當(dāng)于赤道附近大約 30×30 km 的空間分辨率和 720×1440 像素的全球網(wǎng)格大小。這使得我們首次能夠與歐洲中期天氣預(yù)報中心(ECMWF)的高分辨率綜合預(yù)測系統(tǒng)(IFS)模型進行直接比較。
FourCastNet 在節(jié)點小時(node-hour)基礎(chǔ)上比傳統(tǒng) NWP 模型快約 45,000 倍。FourCastNet 這種數(shù)量級的加速以及在高分辨率下前所未有的準確性,使得它能夠以很低的成本生成超大規(guī)模集合預(yù)測。FourCastNet 極大地改善了概率天氣預(yù)報的效果,使用它可以在幾秒鐘內(nèi)生成對颶風(fēng)、大氣層河流和極端降水等事件的大規(guī)模集合預(yù)報,從而可以實現(xiàn)更及時、更明智的災(zāi)難響應(yīng)。
此外,F(xiàn)ourCastNet 對近地表風(fēng)速的可靠、快速和低廉預(yù)測可以改善陸海風(fēng)電場的風(fēng)能資源規(guī)劃。訓(xùn)練 FourCastNet 所需的能量大約等于使用 IFS 模型生成 10 天預(yù)測所需的能量(50 個成員)。然而,一旦經(jīng)過訓(xùn)練,F(xiàn)ourCastNet 生成預(yù)測所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只訓(xùn)練一次,并且后續(xù)微調(diào)的能耗可以忽略不計。
在實現(xiàn)技術(shù)上,F(xiàn)ourCastNet 使用基于傅里葉變換的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。這一方法基于最近的的傅里葉神經(jīng)算子,該算子以分辨率不變的方式學(xué)習(xí),并在建模流體動力學(xué)等具有挑戰(zhàn)性的偏微分方程中取得了成功。此外,他們選擇 ViT 骨干的原因是它能夠很好地建模長程依賴。ViT 和基于傅里葉的 token 方法混合生成了 SOTA 高分辨率模型,它可以解析細粒度的特征,并能夠很好地隨分辨率和數(shù)據(jù)集大小擴展。研究者表示,這一方法能夠以真正前所未有的高分辨率訓(xùn)練高保真數(shù)據(jù)驅(qū)動的模型。
歐洲中期天氣預(yù)報中心(ECMWF)提供了一個公開可用的綜合數(shù)據(jù)集 ERA5,該研究使用 ERA5 來訓(xùn)練 FourCastNet。他們專注于兩個大氣變量,即(1)距離地球表面 10m 處的風(fēng)速和(2)6 小時總降水量,除此以外,該研究還預(yù)測了其他幾個變量,包括幾個不同垂直高度的位勢高度、溫度、風(fēng)速和相對濕度,一些近地表變量,如地面氣壓和平均海平面氣壓以等。
整個訓(xùn)練過程是在 64 個 Nvidia A100 GPU 的集群上完成,端到端訓(xùn)練大約需要 16 小時。
該研究選擇了一些變量(表 1)來表示大氣的瞬時狀態(tài):
推薦:速度提升 45000 倍,英偉達用傅里葉模型實現(xiàn)前所未有天氣預(yù)報準確率。
原文標(biāo)題:7 Papers & Radios | 尤洋團隊FastFold上線;1000層的Transformer來了
文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
審核編輯:湯梓紅
-
微軟
+關(guān)注
關(guān)注
4文章
6516瀏覽量
103602 -
gpu
+關(guān)注
關(guān)注
27文章
4591瀏覽量
128140 -
模型
+關(guān)注
關(guān)注
1文章
3032瀏覽量
48356
原文標(biāo)題:7 Papers & Radios | 尤洋團隊FastFold上線;1000層的Transformer來了
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論