0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

和谷歌研究人員一起探索數(shù)據(jù)并行的邊界極限

nlfO_thejiangme ? 來源:YXQ ? 2019-03-22 08:51 ? 次閱讀

在過去的幾年里,神經(jīng)網(wǎng)絡在圖像分類、機器翻譯和語音識別等領域獲得了長足的進步,取得了十分優(yōu)異的結果。這樣的成績離不開軟件和硬件的對訓練過程的加速和改進。更快速的訓練使得模型質量飛速提升,不僅在相同的時間內(nèi)可以處理更多的數(shù)據(jù),也使得研究人員得以迅速嘗試更多的想法,研究出更好的模型。

隨著軟硬件和數(shù)據(jù)中心云計算的迅速發(fā)展,支撐神經(jīng)網(wǎng)絡的算力大幅提升,讓模型訓練地又好又快。但該如何利用這前所未有的算力來得到更好的結果是擺在所有研究人員面前的一個問題,我們是否應該用更大的算力來實現(xiàn)更快的訓練呢?

并行計算

分布式計算是使用大規(guī)模算力最常用的方法,可以同時使用不同平臺和不同架構的處理器。在訓練神經(jīng)網(wǎng)絡的時候,一般會使用模型并行和數(shù)據(jù)并行兩種方式。其中模型并行會將模型分別置于不同的計算單元上,使得大規(guī)模的模型訓練成為可能,但通常需要對網(wǎng)絡架構進行裁剪以適應不同的處理器。而數(shù)據(jù)并行著是將訓練樣本分散在多個計算單元上,并將訓練結果進行同步。

數(shù)據(jù)并行幾乎可以用于任何模型的訓練加速,它是目前使用最為廣泛也最為簡單的神經(jīng)網(wǎng)絡并行訓練手段。對于想SGD等常見的訓練優(yōu)化算法來說,數(shù)據(jù)并行的規(guī)模與訓練樣本的批量大小息息相關。我們需要探索對于數(shù)據(jù)并行方法的局限性,以及如何充分利用數(shù)據(jù)并行方法來加速訓練。

實驗中使用的模型、數(shù)據(jù)集和優(yōu)化器。

谷歌的研究人員在先前的研究中評測了數(shù)據(jù)并行對于神經(jīng)網(wǎng)絡訓練的影響,深入探索了批次(batch)的大小與訓練時間的關系,并在六種不同的神經(jīng)網(wǎng)絡/數(shù)據(jù)集上利用三種不同的優(yōu)化方法進行了測試。在實驗中研究人員在約450個負載上訓練了超過100k個模型并發(fā)現(xiàn)了訓練時間與批量大小的關系。

研究人員分別從數(shù)據(jù)集、網(wǎng)絡架構、優(yōu)化器等角度探索了這一關系的變化,發(fā)現(xiàn)在不同的負載上訓練時間和批量大小的關系發(fā)生了劇烈的變化。研究結果中包含了71M個模型的測評結果,完整的描繪了100k個模型的訓練曲線,并在論文中的24個圖中充分體現(xiàn)了出來。

訓練時間與批量大小間的普遍聯(lián)系

在理想的數(shù)據(jù)并行系統(tǒng)中,模型間的同步時間可忽略不計,訓練時間可以使用訓練的步數(shù)(steps)來測定。在這一假設下,研究人員從實驗的結果中發(fā)現(xiàn)了三個區(qū)間的關系:在完美區(qū)間內(nèi)訓練時間隨著批量大小線性減小,隨之而來的是遞減拐點,最后將達到最大數(shù)據(jù)并行的極限,無論如何增大批量的大小即使不考慮硬件,模型的訓練時間也不會明顯減小。

盡管上述的基本關系在不同測試中成立,但研究人員發(fā)現(xiàn)上述過程中的拐點在不同數(shù)據(jù)集和神經(jīng)網(wǎng)絡架構中的表現(xiàn)十分不同。這意味著簡單的數(shù)據(jù)并行可以再當今硬件極限的基礎上為某些工作提供加速,但除此之外有些工作也許還需要其他方法來充分利用大規(guī)模算力。

在上面的例子中可以看到,ResNet-8在CIFAR-10并不能從超過1024的批大小中獲得明顯的加速,而ResNet-50在ImageNet上則可以一直將批大小提升到65536以上來減小訓練時間。

優(yōu)化任務

如果可以預測出哪一種負載最適合于數(shù)據(jù)并行訓練,我們就可以針對性的修改任務負載以充分利用硬件算力。但遺憾的是實驗結果并沒有給出一個明確的計算最大有效批次的方法。拐點與網(wǎng)絡架構、數(shù)據(jù)集、優(yōu)化器都有著密切的關系。例如在相同的數(shù)據(jù)集和優(yōu)化器上,不同的架構可能會有截然不同的最大可用批次數(shù)量。

研究人員認為這主要來源于網(wǎng)絡寬度和深度的不同,但對于某些網(wǎng)絡來說甚至沒有深度和寬度的概念,所以無法得到一個較為清晰的關系來計算最大可用批次數(shù)量。甚至當我們發(fā)現(xiàn)有的網(wǎng)絡架構可以接受更大的批次,但在不同數(shù)據(jù)集上的表現(xiàn)又無法得到統(tǒng)一的結論,有時小數(shù)據(jù)集上大批次的表現(xiàn)甚至要好于大數(shù)據(jù)上的結果。

fig 4圖中顯示了遷移模型和LSTM模型在相同數(shù)據(jù)集上最大批次的不同,右圖則顯示了較大的數(shù)據(jù)集與最大batch也沒有絕對的相關性,LM1B規(guī)模較小但可以達到較大的batch。但毋庸置疑的是,在優(yōu)化算法上的微小改動都會使得訓練結果在增加批量大小的過程中發(fā)生極大的變化。這意味著我們可以通過設計新的優(yōu)化器來最大化的利用數(shù)據(jù)并行的能力。

未來的工作

雖然利用通過增加批量大小來提高數(shù)據(jù)并行能力是提速的有效手段,但由于衰減效應的存在無法達到硬件的極限能力。研究表明優(yōu)化算法也許可以指導我們找到充分利用硬件算力的解決方案。研究人員未來的工作將集中于對于不同優(yōu)化器的測評,探索恩能夠加速數(shù)據(jù)并行能力的新方法,盡可能的延伸批量大小對應訓練時間的加速范圍。

如果想探索研究人員們在千百個模型上訓練出的數(shù)據(jù),可以直接訪問colab:https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb詳細過程見論文包含了24個豐富完整的測評圖,描繪了神經(jīng)網(wǎng)絡訓練過程各種參數(shù)隨批量變化的完整過程:https://arxiv.org/pdf/1811.03600.pdf

ref:https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html

Paper:https://arxiv.org/pdf/1811.03600.pdf

代碼:https://colab.research.google.com/github/google-research/google-research/blob/master/batch_science/reproduce_paper_plots.ipynb

https://blog.skymind.ai/distributed-deep-learning-part-1-an-introduction-to-distributed-training-of-neural-networks/https://blog.inten.to/hardware-for-deep-learning-part-3-gpu-8906c1644664?gi=bdd1e2e4331ehttps://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.htmlhttps://blog.csdn.net/xbinworld/article/details/74781605

Headpic from: https://dribbble.com/shots/4038074-Data-Center

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6128

    瀏覽量

    104956
  • 并行計算
    +關注

    關注

    0

    文章

    27

    瀏覽量

    9412
  • 分布式計算
    +關注

    關注

    0

    文章

    27

    瀏覽量

    4456

原文標題:和谷歌研究人員一起,探索數(shù)據(jù)并行的邊界極限

文章出處:【微信號:thejiangmen,微信公眾號:將門創(chuàng)投】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    谷歌研究人員推出革命性首個AI驅動游戲引擎

    在科技日新月異的今天,人工智能(AI)正以前所未有的速度滲透到我們生活的每個角落,從自動駕駛汽車到智能家居,無不彰顯著其巨大的潛力和無限可能。而最近,谷歌研究團隊的
    的頭像 發(fā)表于 08-29 17:21 ?495次閱讀

    谷歌發(fā)布新型大語言模型Gemma 2

    在人工智能領域,大語言模型直是研究的熱點。近日,全球科技巨頭谷歌宣布,面向全球研究人員和開發(fā)人員,正式發(fā)布了其最新研發(fā)的大語言模型——Ge
    的頭像 發(fā)表于 06-29 09:48 ?391次閱讀

    研究人員利用人工智能提升超透鏡相機的圖像質量

    研究人員利用深度學習技術提高了直接集成在 CMOS 成像芯片上的超透鏡相機(左)的圖像質量。超透鏡利用 1000 納米高的圓柱形氮化硅納米柱陣列(右圖)操縱光線。 研究人員利用深度學習技術提高了超
    的頭像 發(fā)表于 06-11 06:34 ?316次閱讀
    <b class='flag-5'>研究人員</b>利用人工智能提升超透鏡相機的圖像質量

    【大語言模型:原理與工程實踐】探索《大語言模型原理與工程實踐》2.0

    、自然語言處理感興趣的研究人員、工程師以及學生閱讀。無論是初學者還是有定基礎的專業(yè)人士,都能從中獲得有價值的信息。
    發(fā)表于 05-07 10:30

    六類網(wǎng)線可以和強電一起走嗎

    六類網(wǎng)線理論上不建議和強電一起走。從布線規(guī)范的角度來看,弱電線路和強電線路通常不建議共用同橋架,以避免潛在的電磁干擾。然而,多年的施工經(jīng)驗表明,在某些情況下,強電線和弱電網(wǎng)線可能一起
    的頭像 發(fā)表于 04-19 09:55 ?4943次閱讀

    研究人員發(fā)現(xiàn)提高激光加工分辨率的新方法

    通過透明玻璃聚焦定制激光束可以在材料內(nèi)部形成個小光斑。東北大學的研究人員研發(fā)了種利用這種小光斑改進激光材料加工、提高加工分辨率的方法。 他們的研究成果發(fā)表在《光學通訊》(Optic
    的頭像 發(fā)表于 04-18 06:30 ?298次閱讀
    <b class='flag-5'>研究人員</b>發(fā)現(xiàn)提高激光加工分辨率的新方法

    #新開端、新起點,2024一起加油#

    \"新開端、新起點,2024一起加油\" 這句話充滿了積極向上的精神和對未來的期待。新開端和新起點意味著我們有機會摒棄過去的不足,以個全新的姿態(tài)開始新的旅程。而\"
    發(fā)表于 02-26 21:01

    邊界矢量數(shù)據(jù)是什么格式

    邊界矢量數(shù)據(jù)種用于描述地理空間邊界的格式。它包含了系列的數(shù)據(jù)點,這些點按照
    的頭像 發(fā)表于 02-25 15:16 ?1063次閱讀

    谷歌宣布Gemma大模型全球開放使用

    使用標志著谷歌在AI領域的新里程碑,為全球的開發(fā)者、研究人員和企業(yè)提供了強大的工具,以推動人工智能技術的進步和應用。
    的頭像 發(fā)表于 02-23 10:41 ?716次閱讀

    研究人員首次將光子濾波器和調(diào)制器組合在單個芯片上

    悉尼大學的研究人員將光子濾波器和調(diào)制器組合在單個芯片上,使他們能夠精確檢測寬帶射頻頻譜上的信號。這項工作使光子芯片更接近有朝日,有可能取代光纖網(wǎng)絡中體積更大、更復雜的電子射頻芯片。
    的頭像 發(fā)表于 01-02 16:30 ?584次閱讀

    LabVIEW進行癌癥預測模型研究

    效果。 LabVIEW在此研究中的應用展示了其在處理復雜醫(yī)學數(shù)據(jù)和開發(fā)高效預測模型方面的獨特優(yōu)勢,特別是在癌癥早期診斷和治療策略的研究中。通過使用LabVIEW,研究人員可以更快、更準
    發(fā)表于 12-13 19:04

    研究人員創(chuàng)造種六角形心電圖貼片 實現(xiàn)遙感與數(shù)據(jù)傳輸功能

    電極進行心電圖信號傳導的優(yōu)勢,研究人員創(chuàng)造了種緊湊、輕便、無凝膠的六角形心電圖貼片,并集成了無線藍牙模塊,以實現(xiàn)遙感與數(shù)據(jù)傳輸功能。 心血管疾病是全球主要的死亡原因之,每年至少有兩
    的頭像 發(fā)表于 12-13 16:44 ?441次閱讀

    大模型數(shù)據(jù)集:突破邊界,探索未來

    隨著人工智能技術的快速發(fā)展,大型預訓練模型如GPT-4、BERT等在自然語言處理領域取得了顯著的成功。這些大模型背后的關鍵之是龐大的數(shù)據(jù)集,為模型提供了豐富的知識和信息。本文將探討大模型數(shù)據(jù)集的突破
    的頭像 發(fā)表于 12-06 16:10 ?589次閱讀

    研究人員設計種新的3D噴墨打印技術

    據(jù)悉,只帶韌帶和肌腱的骨骼機械手現(xiàn)在可以通過次3D打印完成 —— 這是通過種新的增材制造方法實現(xiàn)的,這種方法可以同時以高分辨率打印剛性和彈性材料。 這項新工作是瑞士蘇黎世聯(lián)邦理工學院的
    的頭像 發(fā)表于 11-20 17:01 ?680次閱讀

    SC23 | 研究人員競相使用 NVIDIA CUDA Quantum 大力推進研究工作

    眾多企業(yè)機構正通過 NVIDIA 軟件和 GPU 上的混合量子計算獲得洞察,全球最大的化工企業(yè)巴斯夫就是其中之。 巴斯夫的兩位研究人員 Michael Kuehn 和 Davide Vodola
    的頭像 發(fā)表于 11-14 20:05 ?569次閱讀
    SC23 | <b class='flag-5'>研究人員</b>競相使用 NVIDIA CUDA Quantum 大力推進<b class='flag-5'>研究</b>工作