0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習并行化的自適應、可組合與自動化問題

人工智能與大數據技術 ? 來源:機器之心 ? 作者:機器之心 ? 2020-11-23 11:30 ? 次閱讀

CMU 機器人研究所張昊(Hao Zhang)博士論文新鮮出爐,主要圍繞著機器學習并行化的自適應、可組合與自動化問題展開。

隨著近年來,機器學習領域的創(chuàng)新不斷加速,SysML 的研究者已經創(chuàng)建了在多個設備或計算節(jié)點上并行機器學習訓練的算法和系統。機器學習模型在結構上變得越來越復雜,許多系統都試圖提供全面的性能。尤其是,機器學習擴展通常會低估從一個適當的分布策略映射到模型所需要的知識與時間。此外,將并行訓練系統應用于復雜模型更是增加了非常規(guī)的開發(fā)成本,且性能通常低于預期。 近日,CMU 機器人研究所博士張昊公布了自己的博士學位論文《機器學習并行化的自適應、可組合與自動化》,旨在找出并解決并行 ML 技術和系統實現在可用性和性能方面的研究挑戰(zhàn)。 具體而言,該論文從可編程性、并行化表示、性能優(yōu)化、系統架構和自動并行化技術等幾方面對分布式并行 ML 展開了研究,并認為分布式并行機器學習可以同時實現簡潔性和高效性。此外,該論文表明,并行 ML 的性能可以通過生成自適應 ML 模型結構和集群資源范式的策略實現大幅度提升,同時通過將「如何并行化」這一核心問題形式化為端到端優(yōu)化目標以及構建可組合分布式 ML 系統來自動優(yōu)化這類自適應、自定義策略,進而可以解決可用性挑戰(zhàn)。

論文鏈接:https://www.cs.cmu.edu/~hzhang2/files/hao_zhang_doctoral_dissertation.pdf 機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀原論文。 論文內容介紹 這篇論文主要由三部分組成,如下圖所示,第 1 部分(第三章 - 第五章):在單個機器學習并行化層面,使用自適應并行化理解和優(yōu)化并行機器學習性能;第 2 部分(第六章 - 第七章):為機器學習并行開發(fā)統一的表示和可組合系統;第 3 部分(第八章):機器學習并行化的自動化。

論文結構概覽 論文第一部分提出了一個簡單的設計原則自適應并行(adaptive parallelism),根據模型構建要素(比如層)的特定 ML 屬性,將合適的并行化技術應用于模型組成要素中。作者以 BERT 為例,總結出了實現這種自適應的基本原理和三個核心概念,分別是子模型策略組合、多個并行化方面的系統優(yōu)化和資源感知。此外,作者推導出了一系列優(yōu)化和實現方法,從不同層面去提升 ML 并行化。研究結果表明其顯著提高了 ML 訓練在集群上的效率和可擴展性。 第二部分對這種方法進行了概述,并且面向機器學習并行化任務的兩個常見范式:單節(jié)點動態(tài)批處理和分布式機器學習并行,作者將機器學習的并行化表述為端到端的優(yōu)化問題,并尋找其自動化的解決方法。作者提出了原則表征來表示兩類機器學習并行,以及可組合的系統架構 Cavs 與 AutoDist。它們能夠快速組合不可見模型的并行化策略,提升并行化表現,并簡化并行機器學習程序。

Facebook AI 提出的 DETR 的架構圖 在此基礎上,論文第三部分提出一個自動并行化框架 AutoSync,用于自動優(yōu)化數據并行分布訓練中的同步策略。它實現了「開箱即用」的高性能,可以通過提出的表征進行空間導航,并自動識別同步策略,這些策略比現有的手工優(yōu)化系統的速度提高了 1.2-1.6 倍,降低了分布式 ML 的技術障礙,并幫助更大范圍的用戶訪問它??偨Y來說,這篇論文提出的相關技術和系統驗證了分布式環(huán)境下面向大規(guī)模機器學習訓練的端到端編譯系統的概念與原型實現。

AutoSync 策略的自動優(yōu)化流程算法

AutoSync 中的策略空間包含了現有系統中的很多高級策略 語言模型的分布式預訓練示例 預訓練語言表征已成為 NLP 系統中最普遍、最關鍵的部分。使用與任務無關的語言模型框架,可以對從 web 抓取的未標記文本進行無監(jiān)督的訓練,只需預測下一個單詞或句子。預訓練表征可以靈活地應用于下游任務,針對特定任務的損失和數據集進行微調,或是通過少量上下文學習。 近年來,人們在開發(fā)更強大的任務無關 LM 架構方面取得了巨大進展,從單層詞向量表征到遞歸神經網絡的多層表征和上下文狀態(tài),以及最新的基于遞歸 transformer 的架構。 下圖展示了一個著名的例子——雙深度 Transformer(BERT)——屬于第三類。不管網絡架構如何,語言模型通常包含許多參數,而這些參數是在大規(guī)模文本語料庫上訓練出來的,這是因為它們的建模能力隨其大小以及文本掃描量成正比。

假設我們對訓練 BERT 感興趣,在基于 AWS 的 GPU 集群上使用 TensorFlow 等框架實現。我們可以使用最先進的開源訓練系統——Horovod,開始數據并行訓練。 應用 Horovod 轉換單機 BERT 訓練代碼,涉及將原始的框架內置優(yōu)化器與 Horovod 修補的優(yōu)化器包裝在一起。然后 Horovod 會在集群節(jié)點上使用 collective allreduce 或 allgather 來平均和應用梯度。

這些 TensorFlow+Horovod 代碼片段展示了 Horovod 如何給優(yōu)化器打補丁,以及如何為分布式訓練進行非常小的代碼改變。 雖然可能會在目標集群上部署訓練,但獲得的擴展不太可能隨著添加更多資源而成比例增長(理想情況下,線性擴展與加速器的數量成比例增長):所有的語言模型都有嵌入層,這些層擁有很多模型參數,但在每個設備上的每次訓練迭代中訪問很少,減少或聚集其梯度都會導致不必要的網絡運作;BERT 中的 transformer 是矩陣參數化、計算密集型的,與 Horovod 中的常規(guī)做法一樣,將梯度分組在一個縮減環(huán)(reduction ring)中,很容易使以太網帶寬或異構集群 (如 AWS) 的設備 Flops 飽和。 在這兩種情況下,設置都容易出現通信或計算混亂的情況,即訓練時間的縮短無法令人滿意,花費在訓練上的計算資源成本在經濟上也不能接受。這表明,并行化的常規(guī)目標并沒有實現。 所以,本文提出的這種自適應并行策略,能夠為并行化性能進行適當的優(yōu)化。 作者介紹 張昊在今年 9 月 2 日完成了博士學位的論文答辯,導師為 CMU 教授、Petuum 創(chuàng)始人邢波(Eric Xing)。獲得 CMU 機器人研究所的博士學位后,他將以博士后身份進入 UC 伯克利的 RISE 實驗室,與計算機科學系教授 Ion Stoica 共同工作。

他的研究興趣包括可擴展的機器學習、深度學習以及計算機視覺和自然語言處理領域的大規(guī)模機器學習應用。他還協同設計了一系列模型、算法和系統,在更大規(guī)模數據、問題、應用中進行機器學習擴展,以簡化復雜機器學習模型和算法的原型開發(fā),使機器學習程序分布自動化。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    8

    文章

    1685

    瀏覽量

    45814
  • 機器學習
    +關注

    關注

    66

    文章

    8306

    瀏覽量

    131848
  • 自然語言處理

    關注

    1

    文章

    585

    瀏覽量

    13418

原文標題:229頁,CMU博士張昊畢業(yè)論文公布,探索機器學習并行化的奧秘

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    機械自動化和電氣自動化區(qū)別是什么

    機械自動化和電氣自動化是現代工業(yè)生產中兩個重要的領域,它們在許多方面有著密切的聯系,但也存在一些明顯的區(qū)別。 一、基本概念 機械自動化 機械自動化是指利用機械設備、傳感器、控制系統等技
    的頭像 發(fā)表于 07-01 09:33 ?2625次閱讀

    機械自動化自動化的一種嗎

    引言 自動化技術是指利用控制裝置對生產過程進行控制,以實現生產過程的自動化。機械自動化自動化技術的一種,它主要涉及到使用機械設備和控制系統來實現生產過程的
    的頭像 發(fā)表于 07-01 09:32 ?1117次閱讀

    工業(yè)機器人、PLC與自動化之間的關系

    隨著科技的不斷進步和工業(yè)領域的快速發(fā)展,自動化已成為現代工業(yè)生產的重要趨勢。在這一進程中,工業(yè)機器人和PLC(可編程邏輯控制器)作為自動化的兩大核心要素,發(fā)揮著至關重要的作用。本文將深入探討工業(yè)
    的頭像 發(fā)表于 06-17 11:10 ?790次閱讀

    機器視覺技術在工業(yè)自動化中的應用

    隨著科技的不斷進步和工業(yè)4.0時代的到來,工業(yè)自動化已成為現代工業(yè)生產的重要趨勢。而機器視覺技術作為工業(yè)自動化中的關鍵技術之一,正發(fā)揮著越來越重要的作用。機器視覺技術利用攝像機和計算機
    的頭像 發(fā)表于 06-17 10:22 ?517次閱讀

    機械制造與自動化自動化類嗎

    機械制造與自動化自動化領域的一個重要分支,它涉及到機械設計、制造、檢測、控制等多個方面,是現代制造業(yè)的核心組成部分。 機械制造與自動化是指利用計算機、機器人、傳感器等
    的頭像 發(fā)表于 06-11 11:18 ?1013次閱讀

    工業(yè)自動化自動化區(qū)別是什么

    工業(yè)自動化自動化是兩個密切相關但又有所區(qū)別的概念。在這篇文章中,我們將詳細探討它們之間的區(qū)別,以及它們在現代工業(yè)生產中的應用。 一、自動化的定義 自動化是指通過使用
    的頭像 發(fā)表于 06-11 11:13 ?1113次閱讀

    機器視覺檢測技術在工業(yè)自動化中的應用

    隨著科技的飛速發(fā)展,工業(yè)自動化已成為現代工業(yè)生產的核心動力。在這個背景下,機器視覺檢測技術作為工業(yè)自動化中的關鍵技術之一,以其高精度、高效率、高可靠性的優(yōu)勢,在工業(yè)自動化領域得到了廣泛
    的頭像 發(fā)表于 06-07 12:06 ?601次閱讀

    非標自動化設備

    1、非標自動化設備 2、根據需求設計和制造 3、完成代替人工的目標
    發(fā)表于 03-25 09:52

    Zebra Aurora深度學習OCR算法榮獲CAIMRS頒發(fā)的自動化創(chuàng)新獎

    在第二十二屆中國自動化及數字年度評選活動中,Zebra Aurora深度學習OCR算法獲得了由中國自動化及數字產業(yè)年會(簡稱CAIMRS
    的頭像 發(fā)表于 03-20 16:35 ?355次閱讀

    工業(yè)自動化系統設計

    需要具備高度的可靠性和穩(wěn)定性,能夠保證長期無故障運行。因此,系統設計時應充分考慮硬件和軟件的冗余配置、故障診斷與容錯技術等方面,以提高系統的可靠性。 靈活性:工業(yè)自動化系統的設計應具備靈活性,能夠適應不同的生
    的頭像 發(fā)表于 02-02 17:00 ?553次閱讀
    工業(yè)<b class='flag-5'>自動化</b>系統設計

    淺析中國工業(yè)自動化與智能應用

    自動化驅動產品與智能操控系統主要用于工業(yè)自動化中的設備自動化領域,其中自動化驅動產品是實現設備單機自動化的核心部件;智能操控系統是在設備單機
    發(fā)表于 12-01 10:11 ?712次閱讀
    淺析中國工業(yè)<b class='flag-5'>自動化</b>與智能<b class='flag-5'>化</b>應用

    傳感器推動機器自動化

    電子發(fā)燒友網站提供《傳感器推動機器自動化.pdf》資料免費下載
    發(fā)表于 11-27 10:55 ?0次下載
    傳感器推動<b class='flag-5'>機器</b><b class='flag-5'>自動化</b>

    自動化到自主、協調,更加智能的生產用機器

    自動化到自主、協調,更加智能的生產用機器
    的頭像 發(fā)表于 10-16 17:50 ?583次閱讀
    從<b class='flag-5'>自動化</b>到自主<b class='flag-5'>化</b>、協調<b class='flag-5'>化</b>,更加智能<b class='flag-5'>化</b>的生產用<b class='flag-5'>機器</b>人

    集成機器視覺與運動控制的高速工業(yè)自動化應用

    電子發(fā)燒友網站提供《集成機器視覺與運動控制的高速工業(yè)自動化應用.pdf》資料免費下載
    發(fā)表于 10-07 16:38 ?1次下載
    集成<b class='flag-5'>機器</b>視覺與運動控制的高速工業(yè)<b class='flag-5'>自動化</b>應用

    過程自動化控制和運動自動化控制的原理詳解

    工業(yè)自動化從原理上可分為過程自動化與機械(運動)自動化
    的頭像 發(fā)表于 09-25 10:52 ?1454次閱讀
    過程<b class='flag-5'>自動化</b>控制和運動<b class='flag-5'>自動化</b>控制的原理詳解