0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟亞洲研究院把Transformer深度提升到1000層

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-03-24 14:22 ? 次閱讀

本周論文包括尤洋團隊FastFold上線,訓(xùn)練時間從11天壓縮至67小時;微軟亞洲研究院直接把 Transformer 深度提升到 1000 層等研究。

目錄

FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours

Transformer Memory as a Differentiable Search Index

DeepNet: Scaling Transformers to 1,000 Layers

The Quest for a Common Model of the Intelligent Decision Maker

GenéLive! Generating Rhythm Actions in Love Live!

Transformer Quality in Linear Time

FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)

論文 1:FastFold: Reducing AlphaFold Training Time from 11 Days to 67 Hours

作者:Shenggan Cheng, Ruidong Wu, Zhongming Yu, Binrui Li, Xiwen Zhang, Jian Peng, Yang You

論文鏈接:https://arxiv.org/abs/2203.00854

摘要:來自潞晨科技和上海交大的研究者提出了一種蛋白質(zhì)結(jié)構(gòu)預(yù)測模型的高效實現(xiàn) FastFold。FastFold 包括一系列基于對 AlphaFold 性能全面分析的 GPU 優(yōu)化。同時,通過動態(tài)軸并行和對偶異步算子,F(xiàn)astFold 提高了模型并行擴展的效率,超越了現(xiàn)有的模型并行方法。

實驗結(jié)果表明,F(xiàn)astFold 將整體訓(xùn)練時間從 11 天減少到 67 小時,并實現(xiàn)了 7.5 ~ 9.5 倍的長序列推理加速。此外,研究者還將 FastFold 擴展到 512 個 A100 GPU 的超算集群上,聚合峰值性能達到了 6.02PetaFLOPs,擴展效率達到 90.1%。

不同于一般的 Transformer 模型,AlphaFold 在 GPU 平臺上的計算效率較低,主要面臨兩個挑戰(zhàn):1) 有限的全局批大小限制了使用數(shù)據(jù)并行性將訓(xùn)練擴展到更多節(jié)點,更大的批大小會導(dǎo)致準確率更低。即使使用 128 個谷歌 TPUv3 訓(xùn)練 AlphaFold 也需要約 11 天;2) 巨大的內(nèi)存消耗超出了當(dāng)前 GPU 的處理能力。在推理過程中,較長的序列對 GPU 內(nèi)存的需求要大得多,對于 AlphaFold 模型,一個長序列的推理時間甚至可以達到幾個小時。

2bf115d8-9f8f-11ec-952b-dac502259ad0.png

AlphaFold 模型架構(gòu)

作為首個用于蛋白質(zhì)結(jié)構(gòu)預(yù)測模型訓(xùn)練和推理的性能優(yōu)化工作,F(xiàn)astFold 成功引入了大型模型訓(xùn)練技術(shù),顯著降低了 AlphaFold 模型訓(xùn)練和推理的時間和經(jīng)濟成本。FastFold 由 Evoformer 的高性能實現(xiàn)、AlphaFold 的主干結(jié)構(gòu)和一種稱為動態(tài)軸并行(Dynamic Axial Parallelism,DAP)的模型并行新策略組成。

Evoformer 的注意力機制如下圖所示:

2c045224-9f8f-11ec-952b-dac502259ad0.png

推薦:512 塊 A100,AlphaFold 訓(xùn)練時間從 11 天壓縮至 67 小時:尤洋團隊 FastFold 上線。

論文 2:Transformer Memory as a Differentiable Search Index

作者:Yi Tay 、 Vinh Q. Tran 等

論文鏈接:https://arxiv.org/pdf/2202.06991.pdf

摘要:近日,谷歌研究院在論文《Transformer Memory as a Differentiable Search Index》中提出了一種替代架構(gòu),研究者采用序列到序列 (seq2seq) 學(xué)習(xí)系統(tǒng)。

該研究證明使用單個 Transformer 即可完成信息檢索,其中有關(guān)語料庫的所有信息都編碼在模型的參數(shù)中。該研究引入了可微搜索索引(Differentiable Search Index,DSI),這是一種學(xué)習(xí)文本到文本新范式。DSI 模型將字符串查詢直接映射到相關(guān)文檔;換句話說,DSI 模型只使用自身參數(shù)直接回答查詢,極大地簡化了整個檢索過程。

此外,本文還研究了如何表示文檔及其標(biāo)識符的變化、訓(xùn)練過程的變化以及模型和語料庫大小之間的相互作用。實驗表明,在適當(dāng)?shù)脑O(shè)計選擇下,DSI 明顯優(yōu)于雙編碼器模型等強大基線,并且 DSI 還具有強大的泛化能力,在零樣本設(shè)置中優(yōu)于 BM25 基線。

DSI 背后的核心思想是在單個神經(jīng)模型中完全參數(shù)化傳統(tǒng)的多階段先檢索后排序 pipeline。為此,DSI 模型必須支持兩種基本操作模式:

索引:DSI 模型應(yīng)該學(xué)會將每個文檔內(nèi)容 d_j 與其對應(yīng)的 docid j ( 文檔標(biāo)識符 :document identifiers,docid)相關(guān)聯(lián)。本文采用一種簡單的序列到序列方法,將文檔 token 作為輸入并生成標(biāo)識符作為輸出;

檢索:給定輸入查詢,DSI 模型應(yīng)返回候選 docid 排序列表。本文是通過自回歸生成實現(xiàn)的。

在這兩個操作之后,DSI 模型可以用來索引文檔語料庫,并對可用的帶標(biāo)記數(shù)據(jù)集(查詢和標(biāo)記文檔)進行微調(diào),然后用于檢索相關(guān)文檔 —— 所有這些都在單個、統(tǒng)一的模型中完成。與先檢索后排序方法相反,DSI 模型允許簡單的端到端訓(xùn)練,并且可以很容易地用作更大、更復(fù)雜的神經(jīng)模型的可微組件。

2c19ba74-9f8f-11ec-952b-dac502259ad0.png

下表為這個進程的偽代碼:

2c6d9eaa-9f8f-11ec-952b-dac502259ad0.png

推薦:單個 Transformer 完成信息檢索,谷歌用可微搜索索引打敗雙編碼器模型。

論文 3:DeepNet: Scaling Transformers to 1,000 Layers

作者:Hongyu Wang、Shuming Ma、 Li Dong 、Shaohan Huang 、Dongdong Zhang、 Furu Wei

論文鏈接:https://arxiv.org/pdf/2203.00555.pdf

摘要:微軟亞洲研究院直接把 Transformer 深度提升到 1000 層!

研究者的目標(biāo)是提升 Transformer 模型的訓(xùn)練穩(wěn)定性,并將模型深度進行數(shù)量級的擴展。為此,他們研究了不穩(wěn)定優(yōu)化的原因,并且發(fā)現(xiàn)爆炸式模型更新是造成不穩(wěn)定的罪魁禍首?;谶@些觀察,研究者在殘差連接處引入了一個新的歸一化函數(shù) —— DEEPNORM,它在將模型更新限制為常數(shù)時具有理論上的合理性。

這一方法簡單但高效,只需要改變幾行代碼即可。最終,該方法提升了 Transformer 模型的穩(wěn)定性,并實現(xiàn)了將模型深度擴展到了 1000 多層。

此外,實驗結(jié)果表明,DEEPNORM 能夠?qū)?Post-LN 的良好性能和 Pre-LN 的穩(wěn)定訓(xùn)練高效結(jié)合起來。研究者提出的方法可以成為 Transformers 的首選替代方案,不僅適用于極其深(多于 1000 層)的模型,也適用于現(xiàn)有大規(guī)模模型。值得指出的是,在大規(guī)模多語言機器翻譯基準上,文中 32 億參數(shù)量的 200 層模型(DeepNet)比 120 億參數(shù)量的 48 層 SOTA 模型(即 Facebook AI 的 M2M 模型)實現(xiàn)了 5 BLEU 值提升。

如下圖 2 所示,使用 PostLN 實現(xiàn)基于 Transformer 的方法很簡單。與 Post-LN 相比,DEEPNORM 在執(zhí)行層歸一化之前 up-scale 了殘差連接。

2cb28e52-9f8f-11ec-952b-dac502259ad0.png

此外,該研究還在初始化期間 down-scale 了參數(shù)。值得注意的是,該研究只擴展了前饋網(wǎng)絡(luò)的權(quán)重,以及注意力層的值投影和輸出投影。此外,殘差連接和初始化的規(guī)模取決于圖 2 中不同的架構(gòu)。

DeepNet 基于 Transformer 架構(gòu)。與原版 Transformer 相比,DeepNet 在每個子層使用了新方法 DEEPNORM,而不是以往的 Post-LN。

推薦:解決訓(xùn)練難題,1000 層的 Transformer 來了,訓(xùn)練代碼很快公開。

論文 4:The Quest for a Common Model of the Intelligent Decision Maker

作者:Richard S. Sutton

論文鏈接:https://arxiv.org/pdf/2202.13252.pdf

摘要:強化學(xué)習(xí)和決策多學(xué)科會議(Multi-Disciplinary Conference on Reinforcement Learning and Decision Making, RLDM)的重要前提是,隨著時間的推移,多個學(xué)科對目標(biāo)導(dǎo)向的決策有著共同的興趣。

近日,阿爾伯塔大學(xué)計算機科學(xué)系教授、強化學(xué)習(xí)先驅(qū) Richard S. Sutton 在其最新論文《The Quest for a Common Model of the Intelligent Decision Maker》中通過提出決策者的觀點來加強和深化這一前提,該觀點在心理學(xué)、人工智能、經(jīng)濟學(xué)、控制理論和神經(jīng)科學(xué)等領(lǐng)域得到實質(zhì)和廣泛的應(yīng)用,他稱之為「智慧智能體的通用模型」。通常模型不包含任何特定于任何有機體、世界或應(yīng)用域的東西,而涵蓋了決策者與其世界交互的各個方面(必須有輸入、輸出和目標(biāo))以及決策者的內(nèi)部組件(用于感知、決策、內(nèi)部評估和世界模型)。

Sutton 確定了這些方面和組件,指出它們在不同學(xué)科中被賦予不同的名稱,但本質(zhì)上指向相同的思路。他探討了設(shè)計一個可跨學(xué)科應(yīng)用的中性術(shù)語面臨的挑戰(zhàn)和帶來的益處,并表示是時候認可并在智慧智能體的實質(zhì)性通用模型上構(gòu)建多樣化學(xué)科的融合了。

RLDM 的前提是所有對「隨時間推移學(xué)習(xí)和決策以實現(xiàn)目標(biāo)」感興趣的學(xué)科融合在一起并共享觀點是有價值的。心理學(xué)、神經(jīng)科學(xué)等自然科學(xué)學(xué)科、人工智能、優(yōu)化控制理論等工程科學(xué)學(xué)科以及經(jīng)濟學(xué)和人類學(xué)等社會科學(xué)學(xué)科都只部分關(guān)注智能決策者。各個學(xué)科的觀點不同,但有相通的元素。跨學(xué)科的一個目標(biāo)是確定共同核心,即決策者對所有或許多學(xué)科共有的那些方面。只要能夠建立這樣一個決策者的通用模型,就可以促進思想和成果的交流,進展可能會更快,獲得的理解也可能會更加基礎(chǔ)和持久。

探索決策者的通用模型并不新鮮。衡量其當(dāng)前活力的一個重要指標(biāo)是 RLDM 和 NeurIPS 等跨學(xué)科會議以及《神經(jīng)計算》、《生物控制論》和《適應(yīng)行為》等期刊的成功。很多科學(xué)洞見可以從跨學(xué)科互動中獲得,例如貝葉斯方法在心理學(xué)中的廣泛應(yīng)用、多巴胺在神經(jīng)科學(xué)中的獎勵預(yù)測誤差解釋以及在機器學(xué)習(xí)中長期使用的神經(jīng)網(wǎng)絡(luò)隱喻。盡管很多這些學(xué)科之間的重要關(guān)系與學(xué)科本身一樣古老,但遠遠未解決。為了找到學(xué)科之間、甚至一個學(xué)科內(nèi)部之間的共性,人們必須忽略很多分歧。我們必須要有選擇性,從大局出發(fā),不要期望沒有例外發(fā)生。

因此,在這篇論文中,Sutton 希望推進對智能決策者模型的探索。首先明確地將探索與富有成效的跨學(xué)科互動區(qū)分開來;其次強調(diào)目標(biāo)是作為高度跨學(xué)科的累積數(shù)值信號的最大化;接著又強調(diào)了決策者的特定內(nèi)部結(jié)構(gòu),即以特定方式交互的四個主要組件,它們?yōu)槎鄠€學(xué)科所共有;最后突出了掩蓋領(lǐng)域之間共性的術(shù)語差異,并提供了鼓勵多學(xué)科思維的術(shù)語。

2cd89688-9f8f-11ec-952b-dac502259ad0.png

2d06b810-9f8f-11ec-952b-dac502259ad0.png

決策智能體標(biāo)準組件

推薦:強化學(xué)習(xí)教父 Richard Sutton 新論文探索決策智能體的通用模型:尋找跨學(xué)科共性。

論文 5:GenéLive! Generating Rhythm Actions in Love Live!

作者:Atsushi Takada、Daichi Yamazaki、Likun Liu 等

論文鏈接:https://arxiv.org/abs/2202.12823

摘要:最近,預(yù)印版論文平臺 arXiv 上的一篇論文引起了人們的注意,其作者來自游戲開發(fā)商 KLab 和九州大學(xué)。他們提出了一種給偶像歌曲自動寫譜的模型,更重要的是,作者表示這種方法其實已經(jīng)應(yīng)用過很長一段時間了。

KLab 等機構(gòu)提交的論文介紹了自己的節(jié)奏動作游戲生成模型。KLab Inc 是一家智能手機游戲開發(fā)商。該公司在線運營的節(jié)奏動作游戲包括《Love Live!學(xué)院偶像季:群星閃耀》(簡稱 LLAS)已以 6 種語言在全球發(fā)行,獲得了上千萬用戶。已經(jīng)有一系列具有類似影響的類似游戲,這使得該工作與大量玩家密切相關(guān)。

在研究過程中,開發(fā)者們首先提出了 Dance Dance Convolution (DDC) ,生成了具有人類高水平的,較高難度游戲模式的樂譜,但低難度反而效果不好。隨后研究者們通過改進數(shù)據(jù)集和多尺度 conv-stack 架構(gòu),成功捕捉了樂譜中四分音符之間的時間依賴性以及八分音符和提示節(jié)拍的位置,它們是音游中放置按鍵的較好時機。

DDC 由兩個子模型組成:onset(生成音符的時機)和 sym(決定音符類型,如輕按或滑動)目前正在使用的 AI 模型在所有難度的曲譜上都獲得了很好的效果,研究人員還展望了該技術(shù)擴展到其他領(lǐng)域的可能性。

GenéLive! 的基礎(chǔ)模型由卷積神經(jīng)網(wǎng)絡(luò) CNN 層和長短期記憶網(wǎng)絡(luò) LSTM 層組成。對于頻域中的信號,作者利用 CNN 層來捕獲頻率特征,對于時域利用 LSTM 層來完成任務(wù)。

2d32e5ac-9f8f-11ec-952b-dac502259ad0.png

時域方面采用了 BiLSTM,提供前一個 conv-stack 的輸出作為輸入。為了實現(xiàn)不同的難度模式,作者將難度編碼為一個標(biāo)量(初級是 10,中級是 20,以此類推)并將這個值作為新特征附加到 convstack 的輸出中。

2d53056c-9f8f-11ec-952b-dac502259ad0.png

Conv-stack 架構(gòu)。

該模型是由 KLab 和九州大學(xué)合作完成的。兩個團隊之間需要一個基于 Web 的協(xié)作平臺來共享源代碼、數(shù)據(jù)集、模型和實驗等。具體來說,該研究用于模型開發(fā)的系統(tǒng)架構(gòu)如下圖所示。

2d76e7e8-9f8f-11ec-952b-dac502259ad0.png

為了使樂譜生成程序可供藝術(shù)家按需使用,它應(yīng)該方便藝術(shù)家自行使用而無需 AI 工程師的幫助。并且由于該程序需要高端 GPU,將其安裝在藝術(shù)家的本地計算機上并不是一個合適的選擇。該模型服務(wù)系統(tǒng)架構(gòu)如下圖所示。

2da4eca6-9f8f-11ec-952b-dac502259ad0.png

推薦:LoveLive! 出了一篇 AI 論文:生成模型自動寫曲譜。

論文 6:Transformer Quality in Linear Time

作者:Weizhe Hua、Zihang Dai、Hanxiao Liu、Quoc V. Le

論文鏈接:https://arxiv.org/abs/2202.10447

摘要:來自康奈爾大學(xué)、谷歌大腦的研究人員近日提出了一個新模型 FLASH(Fast Linear Attention with a Single Head),首次不僅在質(zhì)量上與完全增強的 Transformer 相當(dāng),而且在現(xiàn)代加速器的上下文大小上真正享有線性可擴展性。與旨在逼近 Transformers 中的多頭自注意力 (MHSA) 的現(xiàn)有高效注意力方法不同,谷歌從一個新層設(shè)計開始,自然地實現(xiàn)更高質(zhì)量的逼近。FLASH 分兩步開發(fā):

首先設(shè)置一個更適合有效近似的新層,引入門控機制來減輕自注意力的負擔(dān),產(chǎn)生了下圖 2 中的門控注意力單元 (Gated Attention Unit, GAU)。與 Transformer 層相比,每個 GAU 層更便宜。更重要的是,它的質(zhì)量更少依賴于注意力精度。事實上,小單頭、無 softmax 注意力的 GAU 與 Transformers 性能相近。

隨后作者提出了一種有效的方法來逼近 GAU 中的二次注意力,從而導(dǎo)致在上下文大小上具有線性復(fù)雜度的層變體。其思路是首先將標(biāo)記分組為塊,然后在一個塊內(nèi)使用精確的二次注意力和跨塊的快速線性注意力(如下圖 4 所示)。在論文中,研究者進一步描述了如何利用此方法自然地推導(dǎo)出一個高效的加速器實現(xiàn),在實踐中做到只需更改幾行代碼的線性可擴展能力。

在大量實驗中,F(xiàn)LASH 在各種任務(wù)、數(shù)據(jù)集和模型尺度上均效果很好。FLASH 在質(zhì)量上與完全增強的 Transformer (Transformer++) 相比具有競爭力,涵蓋了各種實踐場景的上下文大小 (512-8K),同時在現(xiàn)代硬件加速器上實現(xiàn)了線性可擴展。

例如,在質(zhì)量相當(dāng)?shù)那闆r下,F(xiàn)LASH 在 Wiki-40B 上的語言建模實現(xiàn)了 1.2 倍至 4.9 倍的加速,在 Transformer++ 上 C4 上的掩碼語言建模實現(xiàn)了 1.0 倍至 4.8 倍的加速。在進一步擴展到 PG-19 (Rae et al., 2019) 之后,F(xiàn)LASH 將 Transformer++ 的訓(xùn)練成本降低了 12.1 倍,并實現(xiàn)了質(zhì)量的顯著提升。

研究者首先提出了門控注意力單元(Gated Attention Unit, GAU),這是一個比 Transformers 更簡單但更強的層。

2df3d76c-9f8f-11ec-952b-dac502259ad0.png

研究者在下圖 3 中展示了 GAU 與 Transformers 的比較情況,結(jié)果顯示對于不同模型大小,GAU 在 TPUs 上的性能可與 Transformers 競爭。需要注意,這些實驗是在相對較短的上下文大小(512)上進行的。

2e37841c-9f8f-11ec-952b-dac502259ad0.png

推薦:谷歌 Quoc Le 團隊新 transformer:線性可擴展,訓(xùn)練成本僅有原版 1/12。

論文 7:FOURCASTNET: A GLOBAL DATA-DRIVEN HIGH-RESOLUTION WEATHER MODEL USING ADAPTIVE FOURIER NEURAL OPERATORS

作者:Jaideep Pathak 、 Shashank Subramanian 等

論文鏈接:https://arxiv.org/pdf/2202.11214.pdf

摘要:在近日的一篇論文中,英偉達、勞倫斯伯克利國家實驗室、密歇根大學(xué)安娜堡分校、萊斯大學(xué)等機構(gòu)的研究者開發(fā)了一種基于傅里葉的神經(jīng)網(wǎng)絡(luò)預(yù)測模型 FourCastNet,它能以 0.25° 的分辨率生成關(guān)鍵天氣變量的全球數(shù)據(jù)驅(qū)動預(yù)測,相當(dāng)于赤道附近大約 30×30 km 的空間分辨率和 720×1440 像素的全球網(wǎng)格大小。這使得我們首次能夠與歐洲中期天氣預(yù)報中心(ECMWF)的高分辨率綜合預(yù)測系統(tǒng)(IFS)模型進行直接比較。

FourCastNet 在節(jié)點小時(node-hour)基礎(chǔ)上比傳統(tǒng) NWP 模型快約 45,000 倍。FourCastNet 這種數(shù)量級的加速以及在高分辨率下前所未有的準確性,使得它能夠以很低的成本生成超大規(guī)模集合預(yù)測。FourCastNet 極大地改善了概率天氣預(yù)報的效果,使用它可以在幾秒鐘內(nèi)生成對颶風(fēng)、大氣層河流和極端降水等事件的大規(guī)模集合預(yù)報,從而可以實現(xiàn)更及時、更明智的災(zāi)難響應(yīng)。

此外,F(xiàn)ourCastNet 對近地表風(fēng)速的可靠、快速和低廉預(yù)測可以改善陸海風(fēng)電場的風(fēng)能資源規(guī)劃。訓(xùn)練 FourCastNet 所需的能量大約等于使用 IFS 模型生成 10 天預(yù)測所需的能量(50 個成員)。然而,一旦經(jīng)過訓(xùn)練,F(xiàn)ourCastNet 生成預(yù)測所需的能量比 IFS 模型少 12,000 倍。研究者希望 FourCastNet 只訓(xùn)練一次,并且后續(xù)微調(diào)的能耗可以忽略不計。

在實現(xiàn)技術(shù)上,F(xiàn)ourCastNet 使用基于傅里葉變換的 token 混合方法 [Guibas et al., 2022] 和 ViT 骨干 [Dosovitskiy et al., 2021]。這一方法基于最近的的傅里葉神經(jīng)算子,該算子以分辨率不變的方式學(xué)習(xí),并在建模流體動力學(xué)等具有挑戰(zhàn)性的偏微分方程中取得了成功。此外,他們選擇 ViT 骨干的原因是它能夠很好地建模長程依賴。ViT 和基于傅里葉的 token 方法混合生成了 SOTA 高分辨率模型,它可以解析細粒度的特征,并能夠很好地隨分辨率和數(shù)據(jù)集大小擴展。研究者表示,這一方法能夠以真正前所未有的高分辨率訓(xùn)練高保真數(shù)據(jù)驅(qū)動的模型。

歐洲中期天氣預(yù)報中心(ECMWF)提供了一個公開可用的綜合數(shù)據(jù)集 ERA5,該研究使用 ERA5 來訓(xùn)練 FourCastNet。他們專注于兩個大氣變量,即(1)距離地球表面 10m 處的風(fēng)速和(2)6 小時總降水量,除此以外,該研究還預(yù)測了其他幾個變量,包括幾個不同垂直高度的位勢高度、溫度、風(fēng)速和相對濕度,一些近地表變量,如地面氣壓和平均海平面氣壓以等。

整個訓(xùn)練過程是在 64 個 Nvidia A100 GPU 的集群上完成,端到端訓(xùn)練大約需要 16 小時。

2e6d2482-9f8f-11ec-952b-dac502259ad0.png

該研究選擇了一些變量(表 1)來表示大氣的瞬時狀態(tài):

2e880de2-9f8f-11ec-952b-dac502259ad0.png

推薦:速度提升 45000 倍,英偉達用傅里葉模型實現(xiàn)前所未有天氣預(yù)報準確率。

原文標(biāo)題:7 Papers & Radios | 尤洋團隊FastFold上線;1000層的Transformer來了

文章出處:【微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6516

    瀏覽量

    103602
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    27

    文章

    4591

    瀏覽量

    128140
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3032

    瀏覽量

    48356

原文標(biāo)題:7 Papers & Radios | 尤洋團隊FastFold上線;1000層的Transformer來了

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    人工智能方向在哪里?看微軟亞洲研究院四任院長的建言

    11月14日,李開復(fù)、張亞勤、沈向洋、洪小文同時現(xiàn)身中關(guān)村丹棱街微軟亞洲研究院,這四個人分別為微軟亞洲
    發(fā)表于 11-17 11:01 ?1233次閱讀

    西安某500強研究院招聘

    西安某國球500強企業(yè)研究院招聘需要大量通信行業(yè)研發(fā)人員,主要崗位:嵌入式,射頻,軟件測試等要求:統(tǒng)招本科5年以上工作經(jīng)驗,碩士3年以上,博士應(yīng)屆畢業(yè)薪資面議有意者請聯(lián)系QQ:2318655563郵箱:maggie.li@up-hr.com
    發(fā)表于 08-13 11:07

    中馬研究院正式掛牌成立

    `  12月30日下午,中馬研究院于園區(qū)正式掛牌成立,園區(qū)管委會副主任楊健豪、主任助理曹全來出席并為研究院揭牌,園區(qū)管委會經(jīng)濟發(fā)展局全體成員見證揭牌。  中馬研究院旨在打造“立足中馬、面向東盟的新型
    發(fā)表于 01-07 16:02

    如何將vertix5I提升到超過頻率?

    大家好我正在研究vertix5I只出現(xiàn)了20 MHz的極低頻率!!!!!!我如何將它提升到超過這么多頻率注意我使用的程序是有一個設(shè)計師管道(5階段)和16byte輸入來自的BlockRAM上帝掌管
    發(fā)表于 07-03 08:59

    Excel被提升到了非常重要的地位

    ,Excel被提升到了非常重要的地位,除了OLAP前端外,Excel還充當(dāng)起SSAS中的DM和未來PPS的客戶端軟件。再加上MOSS,Excel成為了集分析、報表、發(fā)布為一體的BI客戶端工具。
    發(fā)表于 07-11 07:17

    如何將DSP性能提升到極限?

    如何將DSP性能提升到極限?FPGA用做數(shù)字信號處理應(yīng)用
    發(fā)表于 04-30 06:34

    英特爾研究院與聯(lián)想研究院簽署研究院合作框架協(xié)議

    英特爾研究院與聯(lián)想研究院日前在北京簽署了《研究院合作框架協(xié)議》,宣布雙方將在PC及移動互聯(lián)網(wǎng)領(lǐng)域,立足3~5年長遠技術(shù)研究,開展協(xié)同創(chuàng)新深度
    發(fā)表于 04-13 08:42 ?533次閱讀

    微軟將在上海設(shè)立微軟亞洲研究院

    9月17日,在上海舉辦的2018世界人工智能大會上,微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負責(zé)人沈向洋宣布:微軟將成立
    的頭像 發(fā)表于 09-19 14:55 ?6168次閱讀

    微軟亞洲研究院被譽為AI黃埔軍校,覆蓋了國內(nèi)高科技領(lǐng)導(dǎo)的半壁江山

    如火如荼的人工智能熱潮,眾多AI明星企業(yè)創(chuàng)始人和聯(lián)合創(chuàng)始人從微軟亞洲研究院走出來,物聯(lián)網(wǎng)高級顧問楊劍勇指出,有李開復(fù)創(chuàng)辦了創(chuàng)新工場,以及機器視覺獨角獸商湯科技、依圖科技、曠視科技。李開復(fù)在朋友圈聲稱
    的頭像 發(fā)表于 11-06 15:16 ?4943次閱讀

    微軟亞洲研究院"創(chuàng)新匯": AI為數(shù)字化轉(zhuǎn)型注入動能

    微軟亞洲研究院"創(chuàng)新匯": AI為數(shù)字化轉(zhuǎn)型注入動能微軟全球資深副總裁,微軟亞太研發(fā)集團主席兼微軟
    發(fā)表于 06-29 12:17 ?539次閱讀

    微軟亞洲研究院開發(fā)出了一種超級鳳凰人工智能系統(tǒng)

    微軟亞洲研究院(MSR Asia)開發(fā)出麻將人工智能(AI)系統(tǒng)——超級鳳凰(Suphx)。研發(fā)者們相信,它不僅掌握了麻將對弈,還能夠贏得99%的對局,做好了解決實際任務(wù)的準備。
    發(fā)表于 04-15 11:48 ?1047次閱讀

    微軟亞洲研究院研究員們提出了一種模型壓縮的新思路

    近日,來自微軟亞洲研究院自然語言計算組的研究員們提出了一種與顯式地利用蒸餾損失函數(shù)來最小化教師模型與學(xué)生模型距離的知識蒸餾不同的模型壓縮新方法。
    的頭像 發(fā)表于 11-24 09:48 ?1562次閱讀

    無線及移動網(wǎng)絡(luò)領(lǐng)域?qū)<仪皲嚵尤?b class='flag-5'>微軟亞洲研究院

    推動技術(shù)創(chuàng)新的邊界,充分發(fā)揮本地優(yōu)勢,促進更多跨領(lǐng)域、跨行業(yè)的深度合作、融合發(fā)展?!? 微軟亞洲研究院(上海)自2018年宣布落戶上海市徐匯區(qū)以來,持續(xù)吸引全球頂尖的計算機基礎(chǔ)
    的頭像 發(fā)表于 01-25 10:25 ?1320次閱讀

    微軟亞洲研究院否認撤離中國,但確認部分 AI 科學(xué)家將遷至溫哥華

    6 月 19 日消息,針對有消息稱微軟公司旗下研究機構(gòu) 微軟亞洲研究院(MSRA)的 AI 頂級科學(xué)家從中國轉(zhuǎn)移到溫哥華,6 月 19 日上
    的頭像 發(fā)表于 06-20 08:48 ?750次閱讀

    科學(xué)匠人 | 邊江:在研究院的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道

    基礎(chǔ)科研的創(chuàng)新為技術(shù)落地應(yīng)用提供了動力,而來自真實世界的業(yè)務(wù)需求則為基礎(chǔ)科研提供了靈感和方向。當(dāng)人工智能進入大模型時代,什么樣的技術(shù)創(chuàng)新才能更好地落地于產(chǎn)業(yè)?對此,微軟亞洲研究院資深首席研究
    的頭像 發(fā)表于 08-04 00:10 ?581次閱讀
    科學(xué)匠人 | 邊江:在<b class='flag-5'>研究院</b>的七年“技癢”,探尋大模型助力AI與產(chǎn)業(yè)融合之道