0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

云計算機(jī)器學(xué)習(xí)平臺的標(biāo)配功能及選購指南

如意 ? 來源:企業(yè)網(wǎng)D1Net ? 作者:Martin Heller ? 2020-08-18 11:27 ? 次閱讀

云計算機(jī)器學(xué)習(xí)平臺提供的多種功能可以支持完整的機(jī)器學(xué)習(xí)生命周期。

為了創(chuàng)建有效的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型,組織需要獲取大量的數(shù)據(jù),并對其執(zhí)行特征工程的方法,以及在合理的時間內(nèi)訓(xùn)練數(shù)據(jù)模型的方法。然后,組織需要一種方法來部署模型,監(jiān)視它們是否隨時間的推移而改變,以及根據(jù)需要重新訓(xùn)練它們。

如果組織已經(jīng)在計算資源和加速器(例如GPU)上進(jìn)行了投資,則可以在內(nèi)部部署基礎(chǔ)設(shè)施完成所有這些操作,但是可能會發(fā)現(xiàn),如果資源足夠,它們在很多時間都處于閑置狀態(tài)。另一方面,有時在云平臺中運(yùn)行整個管道,根據(jù)需要使用大量計算資源和加速器,然后釋放它們,可能更具成本效益。

主要的云計算提供商(以及其他云計算提供商)已投入大量精力來構(gòu)建其機(jī)器學(xué)習(xí)平臺,以支持從計劃項目到維護(hù)生產(chǎn)模型的完整機(jī)器學(xué)習(xí)生命周期。組織如何確定哪些云平臺可以滿足其需求?每個端到端機(jī)器學(xué)習(xí)平臺都應(yīng)提供以下12種功能。

1.接近自己的數(shù)據(jù)

如果組織擁有建立精確模型所需的大量數(shù)據(jù),則不希望將其傳輸?shù)绞澜绺鞯?。這里的問題并不是距離,而是時間:數(shù)據(jù)傳輸速度最終受到光速限制,即使在帶寬無限的完美網(wǎng)絡(luò)上也是如此。長距離意味著等待時間更長。

對于非常大的數(shù)據(jù)集,理想的情況是在已經(jīng)存在數(shù)據(jù)的地方建立模型,從而不需要傳輸大量數(shù)據(jù)。一些數(shù)據(jù)庫在一定程度上支持這一點(diǎn)。

下一個最佳情況是數(shù)據(jù)與模型構(gòu)建軟件位于同一高速網(wǎng)絡(luò)上,這通常意味著在同一數(shù)據(jù)中心內(nèi)。如果組織擁有TB或更大容量的數(shù)據(jù),即使將數(shù)據(jù)從一個數(shù)據(jù)中心遷移到云計算可用性區(qū)域內(nèi)的另一個數(shù)據(jù)中心,也可能會造成嚴(yán)重的延遲。組織可以通過執(zhí)行增量更新來緩解這種情況。

最壞的情況是,組織必須在帶寬受限和高延遲的路徑上遠(yuǎn)程移動大量數(shù)據(jù)。而在這方面,澳大利亞為此部署的跨太平洋電纜的工程令人驚嘆。

2.支持ETL或ELT管道

ETL(導(dǎo)出、轉(zhuǎn)換和加載)和ELT(導(dǎo)出、加載和轉(zhuǎn)換)是數(shù)據(jù)庫領(lǐng)域中常見的兩種數(shù)據(jù)管道配置。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)擴(kuò)大了對這些內(nèi)容的需求,尤其是轉(zhuǎn)換部分。當(dāng)轉(zhuǎn)換需要更改時,ELT為組織提供更大的靈活性,因為加載階段通常是大數(shù)據(jù)最耗時的階段。

通常情況下,沒有進(jìn)行處理的數(shù)據(jù)很嘈雜,需要過濾。此外,這些數(shù)據(jù)的范圍也有所不同:一個變量的最大值可能高達(dá)數(shù)百萬,而另一個變量的范圍可能是-0.1至-0.001。對于機(jī)器學(xué)習(xí)來說,必須將其變量轉(zhuǎn)換為標(biāo)準(zhǔn)化的范圍,以防止較大范圍的變量控制模型。具體的標(biāo)準(zhǔn)化范圍取決于模型使用的算法。

3.支持在線環(huán)境進(jìn)行模型構(gòu)建

傳統(tǒng)的觀點(diǎn)是,組織應(yīng)該將數(shù)據(jù)導(dǎo)入桌面設(shè)備以進(jìn)行模型構(gòu)建。建立良好的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型所需的大量數(shù)據(jù)改變了局面:組織可以將一小部分?jǐn)?shù)據(jù)樣本下載到桌面設(shè)備上,以進(jìn)行探索性數(shù)據(jù)分析和模型構(gòu)建,但是對于生產(chǎn)模型,則需要訪問完整的模型數(shù)據(jù)。

Jupyter Notebooks、JupyterLab和Apache Zeppelin等基于Web的開發(fā)環(huán)境非常適合模型構(gòu)建。如果組織的數(shù)據(jù)與筆記本電腦環(huán)境位于同一云平臺中,則可以對數(shù)據(jù)進(jìn)行分析,以很大程度地減少數(shù)據(jù)移動的時間。

4.支持?jǐn)U展訓(xùn)練

除了訓(xùn)練模型之外,筆記本電池的計算和內(nèi)存要求通常很小。如果筆記本可以生成在多個大型虛擬機(jī)或容器上運(yùn)行的訓(xùn)練作業(yè),則將大有幫助。如果訓(xùn)練可以訪問加速器(例如GPU、TPU和FPGA),也將有很大幫助;這些模型可以將數(shù)天的訓(xùn)練過程變成數(shù)小時。

5.支持AutoML和自動特征工程

并不是每個組織都擅長于選擇機(jī)器學(xué)習(xí)模型、選擇特征(模型使用的變量),以及從原始觀察中設(shè)計新特征。即使組織擅長這些任務(wù),它們也很耗時,而且可以在很大程度上實現(xiàn)自動化。

AutoML系統(tǒng)經(jīng)常嘗試使用許多模型來查看哪些模型可以產(chǎn)生優(yōu)秀目標(biāo)函數(shù)值,例如回歸問題的最小平方誤差。出色的AutoML系統(tǒng)還可以執(zhí)行功能工程,并有效地利用它們的資源,以盡可能多的特征集合來追求優(yōu)質(zhì)的模型。

6.支持優(yōu)質(zhì)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架

大多數(shù)數(shù)據(jù)科學(xué)家擁有用于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的很喜歡的框架和編程語言。對于喜歡Python的人來說,Scikit學(xué)習(xí)通常是機(jī)器學(xué)習(xí)的最愛,而TensorFlow、PyTorch、Keras、MXNet通常是深度學(xué)習(xí)的首選。在Scala中,Spark MLlib往往是機(jī)器學(xué)習(xí)的首選。在R中,有許多原生機(jī)器學(xué)習(xí)包,以及與Python的良好接口。而在Java中,H2O.ai的評價很高,Java-ML和Deep Java Library也是如此。

云計算機(jī)器學(xué)習(xí)和深度學(xué)習(xí)平臺往往擁有自己的算法集合,并且它們通常以至少一種語言或作為具有特定入口點(diǎn)的容器來支持外部框架。在某些情況下,組織可以將自己的算法和統(tǒng)計方法與平臺的AutoML功能集成在一起,這非常方便。

一些云平臺還提供了自己的主要深度學(xué)習(xí)框架的調(diào)整版本。例如,AWS公司擁有TensorFlow的優(yōu)化版本,該公司聲稱可以為深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練提供近乎線性的可擴(kuò)展性。

7.提供預(yù)訓(xùn)練的模型并支持轉(zhuǎn)移學(xué)習(xí)

并非每個人都希望花費(fèi)時間和資源來訓(xùn)練自己的模型,而即使當(dāng)預(yù)訓(xùn)練的模型可用時,他們也不應(yīng)該如此。例如,ImageNet數(shù)據(jù)集非常龐大,并且要針對其訓(xùn)練比較先進(jìn)的深度神經(jīng)網(wǎng)絡(luò)可能要花費(fèi)數(shù)周的時間,因此在可能的情況下使用預(yù)先訓(xùn)練的模型是有意義的。

另一方面,經(jīng)過預(yù)訓(xùn)練的模型可能無法始終標(biāo)識組織關(guān)心的對象。轉(zhuǎn)移學(xué)習(xí)可以幫助組織針對特定數(shù)據(jù)集自定義神經(jīng)網(wǎng)絡(luò)的最后幾層,而無需花費(fèi)更多時間和資金來訓(xùn)練整個網(wǎng)絡(luò)。

8.提供優(yōu)化的人工智能服務(wù)

主要的云平臺為許多應(yīng)用程序提供了功能強(qiáng)大且經(jīng)過優(yōu)化的人工智能服務(wù),而不僅僅是圖像識別。其示例包括語言翻譯、語音轉(zhuǎn)換到文本、文本轉(zhuǎn)換到語音、預(yù)測和推薦。

這些服務(wù)已經(jīng)經(jīng)過訓(xùn)練和測試,其使用的數(shù)據(jù)量超出了企業(yè)通常可獲得的數(shù)據(jù)量。它們還已經(jīng)部署在具有足夠計算資源(包括加速器)的服務(wù)端點(diǎn)上,以確保在全球負(fù)載下具有良好的響應(yīng)時間。

9.管理實驗

為組織的數(shù)據(jù)集找到優(yōu)秀模型的唯一方法是嘗試采用所有方法,無論是人工還是使用AutoML。這就留下了另一個問題:管理實驗。

良好的云計算機(jī)器學(xué)習(xí)平臺將為組織提供一種方式,可以查看和比較每個實驗的目標(biāo)函數(shù)值(訓(xùn)練集和測試數(shù)據(jù))以及模型和混淆矩陣的大小。而能夠繪制所有這些圖表具有一定的優(yōu)勢。

10.支持模型部署以進(jìn)行預(yù)測

一旦組織有了根據(jù)自己的條件選擇優(yōu)秀實驗的方法,就需要一種簡單的方法來部署模型。如果組織出于同一目的部署多個模型,則還需要一種在它們之間分配流量的方法來進(jìn)行a/b測試。

11.監(jiān)控預(yù)測效果

數(shù)據(jù)隨著世界的變化而變化。這意味著組織無法部署模型而忘記它。與其相反,組織需要監(jiān)視為預(yù)測而提交的數(shù)據(jù)。當(dāng)數(shù)據(jù)從原始訓(xùn)練數(shù)據(jù)集的基線開始發(fā)生明顯變化時,組織需要重新訓(xùn)練模型。

12.控制成本

最后,組織需要一些方法來控制模型產(chǎn)生的成本。部署用于生產(chǎn)推理的模型通常占到深度學(xué)習(xí)成本的90%,而訓(xùn)練僅占成本的10%。

控制預(yù)測成本的優(yōu)秀方法取決于組織的負(fù)載和模型的復(fù)雜性。如果負(fù)載很高,則可以使用加速器來避免添加更多虛擬機(jī)實例。如果負(fù)載可變,則隨著負(fù)載的增加或減少,組織可能能夠動態(tài)更改大小或?qū)嵗蛉萜鞯臄?shù)量。而且,如果組織的負(fù)載較少,則可以使用帶有部分加速器的非常小的實例來處理預(yù)測。

【編輯推薦】

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 云計算
    +關(guān)注

    關(guān)注

    38

    文章

    7622

    瀏覽量

    136754
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8306

    瀏覽量

    131848
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5422

    瀏覽量

    120594
收藏 人收藏

    評論

    相關(guān)推薦

    如何理解計算?

    訪問需求。 **數(shù)據(jù)分析和挖掘:**用戶可以使用計算來處理和分析海量的數(shù)據(jù),通過平臺可以提供高性能的計算資源來加速數(shù)據(jù)分析的過程。 **
    發(fā)表于 08-16 17:02

    計算機(jī)系統(tǒng)的組成和功能

    計算機(jī)系統(tǒng)是一個復(fù)雜而龐大的概念,它涵蓋了計算機(jī)硬件、軟件以及它們之間相互作用的所有元素。為了全面而深入地探討計算機(jī)系統(tǒng),本文將從定義、組成、功能、發(fā)展歷程以及未來趨勢等方面進(jìn)行詳細(xì)闡
    的頭像 發(fā)表于 07-24 17:41 ?405次閱讀

    機(jī)器視覺和計算機(jī)視覺有什么區(qū)別

    機(jī)器視覺和計算機(jī)視覺是兩個密切相關(guān)但又有所區(qū)別的概念。 一、定義 機(jī)器視覺 機(jī)器視覺,又稱為計算機(jī)視覺,是指利用
    的頭像 發(fā)表于 07-16 10:23 ?288次閱讀

    計算機(jī)視覺和機(jī)器視覺區(qū)別在哪

    計算機(jī)視覺和機(jī)器視覺是兩個密切相關(guān)但又有明顯區(qū)別的領(lǐng)域。 一、定義 計算機(jī)視覺 計算機(jī)視覺是一門研究如何使計算機(jī)能夠像人類一樣理解和解釋視覺
    的頭像 發(fā)表于 07-09 09:22 ?290次閱讀

    深度學(xué)習(xí)計算機(jī)視覺領(lǐng)域的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,深度學(xué)習(xí)作為其中的核心技術(shù)之一,已經(jīng)在計算機(jī)視覺領(lǐng)域取得了顯著的成果。計算機(jī)視覺,作為計算機(jī)科學(xué)的一個重要分支,旨在讓
    的頭像 發(fā)表于 07-01 11:38 ?434次閱讀

    計算機(jī)控制器的結(jié)構(gòu)和功能

    隨著信息技術(shù)的迅猛發(fā)展,計算機(jī)已經(jīng)深入我們生活的方方面面。而計算機(jī)控制器,作為計算機(jī)系統(tǒng)的核心部件之一,承擔(dān)著協(xié)調(diào)各部件工作、指揮整個計算機(jī)按程序運(yùn)行的重要任務(wù)。本文將詳細(xì)介紹
    的頭像 發(fā)表于 06-17 15:47 ?860次閱讀

    本源超導(dǎo)量子計算機(jī)自主制造鏈11類產(chǎn)品系列之十一:中國首款搭載量子計算機(jī)真機(jī)的量子計算平臺

    使用。中國首款搭載量子計算機(jī)真機(jī)的量子計算平臺本源量子計算
    的頭像 發(fā)表于 06-07 08:22 ?207次閱讀
    本源超導(dǎo)量子<b class='flag-5'>計算機(jī)</b>自主制造鏈11類產(chǎn)品系列之十一:中國首款搭載量子<b class='flag-5'>計算機(jī)</b>真機(jī)的量子<b class='flag-5'>計算</b><b class='flag-5'>云</b><b class='flag-5'>平臺</b>

    工業(yè)計算機(jī)功能和特點(diǎn)

    在數(shù)字化和自動化的浪潮中,工業(yè)計算機(jī)以其獨(dú)特的功能和強(qiáng)大的計算能力,逐漸在工業(yè)領(lǐng)域中嶄露頭角。本文將對工業(yè)計算機(jī)進(jìn)行詳細(xì)介紹,包括其定義、功能
    的頭像 發(fā)表于 06-06 17:01 ?494次閱讀

    工業(yè)計算機(jī)與普通計算機(jī)的區(qū)別

    在信息化和自動化日益發(fā)展的今天,計算機(jī)已經(jīng)成為了我們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡墓ぞ摺H欢?,?b class='flag-5'>計算機(jī)領(lǐng)域中,工業(yè)計算機(jī)和普通計算機(jī)雖然都具備基本的計算
    的頭像 發(fā)表于 06-06 16:45 ?680次閱讀

    【量子計算機(jī)重構(gòu)未來 | 閱讀體驗】+ 初識量子計算機(jī)

    : 現(xiàn)在到哪里可以買到量子計算機(jī)? 1、購買實物的量子計算機(jī): Rigetti和D-Wave公司,當(dāng)前價格非常昂貴。 2、購買量子計算機(jī)服務(wù):IBM、Google、Amazon、Mi
    發(fā)表于 03-05 17:37

    國產(chǎn)計算機(jī)平臺介紹——龍芯

    你了解中國的自主平臺計算機(jī)嗎?不僅是中國制造,而是由中國自主研發(fā),可以持續(xù)迭代產(chǎn)品,而且還能夠決定產(chǎn)品用途、決定技術(shù)歸屬權(quán)的國產(chǎn)計算機(jī)才是真正中國計算機(jī)。 而作為中國
    的頭像 發(fā)表于 03-05 11:40 ?574次閱讀
    國產(chǎn)<b class='flag-5'>計算機(jī)</b><b class='flag-5'>平臺</b>介紹——龍芯

    電源濾波器的作用與選購指南

    隨著電子設(shè)備的普及和信息技術(shù)的飛速發(fā)展,電源濾波器作為保障電器設(shè)備穩(wěn)定運(yùn)行的關(guān)鍵組件逐漸受到重視。本文深圳維愛普小編將逐步介紹電源濾波器的作用、種類以及選購指南,幫助讀者更好地了解和選擇適合自己需求的電源濾波器。
    的頭像 發(fā)表于 12-18 10:06 ?504次閱讀
    電源濾波器的作用與<b class='flag-5'>選購指南</b>?

    國產(chǎn)計算機(jī)平臺介紹——龍芯

    你了解中國的自主平臺計算機(jī)嗎?不僅是中國制造,而是由中國自主研發(fā),可以持續(xù)迭代產(chǎn)品,而且還能夠決定產(chǎn)品用途、決定技術(shù)歸屬權(quán)的國產(chǎn)計算機(jī)才是真正中國計算機(jī)。 而作為中國
    的頭像 發(fā)表于 11-13 15:34 ?257次閱讀
    國產(chǎn)<b class='flag-5'>計算機(jī)</b><b class='flag-5'>平臺</b>介紹——龍芯

    用于計算機(jī)視覺的經(jīng)典機(jī)器學(xué)習(xí)應(yīng)用分析

    深度學(xué)習(xí)是指在大部分未處理或“原始”數(shù)據(jù)上運(yùn)行的非常大的神經(jīng)網(wǎng)絡(luò)模型。深度學(xué)習(xí)通過將特征提取操作拉入模型本身,對計算機(jī)視覺產(chǎn)生了巨大影響,從而使算法根據(jù)需要學(xué)習(xí)信息量最大的特征。
    發(fā)表于 11-07 10:11 ?337次閱讀
    用于<b class='flag-5'>計算機(jī)</b>視覺的經(jīng)典<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>應(yīng)用分析

    DTX附件選購指南

    FLUKE DTX附件選購指南 官方
    發(fā)表于 10-09 10:55 ?0次下載