如今的人工智能和深度學(xué)習(xí)應(yīng)用程序中使用了大數(shù)據(jù)集和快速I/O技術(shù),但數(shù)據(jù)存儲可能會導(dǎo)致性能問題。人們需要了解人工智能和深度學(xué)習(xí)存儲系統(tǒng)應(yīng)該具備哪些功能。
人工智能技術(shù)廣泛應(yīng)用在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中,已經(jīng)引發(fā)了研究和產(chǎn)品開發(fā)的爆炸性增長,因為企業(yè)發(fā)現(xiàn)了創(chuàng)造性的方法,將這些新算法用于過程自動化和預(yù)測性見解的創(chuàng)新方法。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的本質(zhì)要求獲取、準(zhǔn)備、移動和處理大量數(shù)據(jù)集,后者通常模擬大腦的神經(jīng)結(jié)構(gòu)和連接性。
特別是深度學(xué)習(xí)模型需要大量數(shù)據(jù)集,這對于人工智能和深度學(xué)習(xí)的存儲是一種獨特的挑戰(zhàn)。簡要介紹機(jī)器學(xué)習(xí)和深度學(xué)習(xí)軟件的本質(zhì),將會揭示存儲系統(tǒng)對于這些算法如此重要以提供及時準(zhǔn)確結(jié)果的原因。
為什么人工智能和深度學(xué)習(xí)的存儲很重要
許多研究者已經(jīng)證明,隨著數(shù)據(jù)集的增加,深度學(xué)習(xí)模型的準(zhǔn)確性也會提高。這一改進(jìn)意義重大,研究人員經(jīng)常使用復(fù)雜的數(shù)據(jù)增強(qiáng)技術(shù)來綜合生成額外的數(shù)據(jù)用于模型訓(xùn)練。
例如,用于對各種深度學(xué)習(xí)圖像分類算法進(jìn)行基準(zhǔn)測試的ImageNet數(shù)據(jù)集包含超過1400萬張具有大量注釋的圖像。雖然經(jīng)常用于對圖像分類硬件進(jìn)行基準(zhǔn)測試的ResNet-50模型的大小剛好超過100MB。這些模型最好保存在內(nèi)存中,必須不斷地提供數(shù)據(jù),這通常會導(dǎo)致存儲系統(tǒng)成為整體性能的瓶頸。
深度學(xué)習(xí)存儲系統(tǒng)設(shè)計必須在各種數(shù)據(jù)類型和深度學(xué)習(xí)模型之間提供平衡的性能。
無論模型和應(yīng)用如何,深度學(xué)習(xí)包括兩個步驟:模型訓(xùn)練和數(shù)據(jù)推理。訓(xùn)練是在使用訓(xùn)練數(shù)據(jù)集進(jìn)行重復(fù)的、通常是遞歸的計算的基礎(chǔ)上計算和優(yōu)化模型參數(shù)的過程。數(shù)據(jù)推理是在新的輸入數(shù)據(jù)上使用經(jīng)過訓(xùn)練的模型進(jìn)行分類和預(yù)測的地方。
每個步驟都會以不同的方式強(qiáng)調(diào)為人工智能和深度學(xué)習(xí)提供存儲的系統(tǒng)。通過訓(xùn)練,其壓力源于大型數(shù)據(jù)集和對計算復(fù)合體(通常是分布式集群)的快速I/O,這是可接受性能所必需的。通過推理,其壓力來自數(shù)據(jù)的實時性,必須以最小的延遲處理這些數(shù)據(jù)。
深度學(xué)習(xí)的存儲性能要求
深度學(xué)習(xí)算法的本質(zhì)意味著它們使用了大量的矩陣數(shù)學(xué)。與計算機(jī)圖形不同,神經(jīng)網(wǎng)絡(luò)和其他深度學(xué)習(xí)模型不需要高精度浮點結(jié)果,并且通常由新一代人工智能優(yōu)化的GPU和支持低精度8位和16位矩陣計算的CPU進(jìn)一步加速,這種優(yōu)化可以將存儲系統(tǒng)轉(zhuǎn)變?yōu)楦蟮男阅芷款i。
深度學(xué)習(xí)模型和數(shù)據(jù)源的多樣性,以及通常用于深度學(xué)習(xí)服務(wù)器的分布式計算設(shè)計,意味著旨在為人工智能提供存儲的系統(tǒng)必須解決以下問題:
?各種各樣的數(shù)據(jù)格式,包括二進(jìn)制對象(BLOB)數(shù)據(jù)、圖像、視頻、音頻、文本和結(jié)構(gòu)化數(shù)據(jù),它們具有不同的格式和I/O特性。
?橫向擴(kuò)展系統(tǒng)架構(gòu),其中工作負(fù)載分布在多個系統(tǒng)中,通常為4到16個,用于培訓(xùn),可能有數(shù)百個或數(shù)千個用于數(shù)據(jù)推理。
?帶寬和吞吐量,可以快速向計算硬件提供大量數(shù)據(jù)。
?無論數(shù)據(jù)特性如何,IOPS都能維持高吞吐量;也就是說,可以實現(xiàn)許多小交易和較少的大轉(zhuǎn)移。
?以最小的延遲提供數(shù)據(jù),因為與虛擬內(nèi)存分頁一樣,當(dāng)GPU等待新數(shù)據(jù)時,訓(xùn)練算法的性能會顯著降低。
深度學(xué)習(xí)存儲系統(tǒng)設(shè)計必須在各種數(shù)據(jù)類型和深度學(xué)習(xí)模型中提供均衡的性能。根據(jù)Nvidia公司一位工程師的說法,在各種負(fù)載條件下驗證存儲系統(tǒng)性能至關(guān)重要。
他說,“工作負(fù)載的復(fù)雜性加上深度學(xué)習(xí)培訓(xùn)所需的數(shù)據(jù)量創(chuàng)造了一個具有挑戰(zhàn)性的性能環(huán)境??紤]到這些環(huán)境的復(fù)雜性,在投入生產(chǎn)之前收集基準(zhǔn)性能數(shù)據(jù),驗證核心系統(tǒng)(硬件組件和操作系統(tǒng))是否能夠在綜合負(fù)載下提供預(yù)期性能至關(guān)重要?!?/p>
深度學(xué)習(xí)存儲系統(tǒng)的核心功能
上述性能因素促使人工智能存儲系統(tǒng)供應(yīng)商采用五項核心功能,其中包括:
1.可增量擴(kuò)展的并行擴(kuò)展系統(tǒng)設(shè)計,其中I/O性能隨容量而擴(kuò)展。這種設(shè)計的一個標(biāo)志是分布式存儲體系結(jié)構(gòu)或文件系統(tǒng),它將對象和文件等邏輯元素與保存它們的物理設(shè)備或設(shè)備區(qū)分開。
2.可編程的、軟件定義的控制平臺,它是實現(xiàn)橫向擴(kuò)展設(shè)計和大多數(shù)管理任務(wù)自動化的關(guān)鍵。
3.企業(yè)級可靠性、耐久性、冗余和存儲服務(wù)。
4.對于深度學(xué)習(xí)培訓(xùn)系統(tǒng),采用緊密耦合的計算存儲系統(tǒng)架構(gòu),采用無阻塞網(wǎng)絡(luò)設(shè)計,連接服務(wù)器和存儲,最低鏈路速度為10GB至25GB以太網(wǎng)或EDR(25Gbps)Infiniband。
5. SSD設(shè)備越來越多地使用速度更快的NVMe設(shè)備,提供比SATA更高的吞吐量和IOPS。
o DAS系統(tǒng)通常使用NVMe-over-PCIe設(shè)備。
o NAS設(shè)計通常使用10Gb以太網(wǎng)或更快的以太網(wǎng),使用NVMe over fabric、Infiniband或交換PCIe結(jié)構(gòu)。
Nvidia公司的DGX-2系統(tǒng)是深度學(xué)習(xí)的高性能系統(tǒng)架構(gòu)的一個例子。
量身定制的存儲產(chǎn)品
人工智能現(xiàn)在是一項熱門技術(shù),供應(yīng)商通過混合使用新產(chǎn)品和更新產(chǎn)品快速應(yīng)對市場,以滿足人工智能工作負(fù)載的需求。鑒于市場活力,不會嘗試提供針對人工智能存儲優(yōu)化或針對的產(chǎn)品的綜合目錄,但以下是一些示例:
Dell EMC公司針對人工智能提供的現(xiàn)成解決方案,包括機(jī)架、服務(wù)器、存儲、邊緣交換機(jī)、管理節(jié)點。該存儲使用isilon H600或F800所有閃存擴(kuò)展NAS,帶有40GbE網(wǎng)絡(luò)鏈路。
DDN A3I使用AI200或AI400 NVMe全閃存陣列(AFA),分別具有360TB容量和750K和1.5MIOPS以及4或8個100GbE或EDR InfiniBand接口,或DDN AI7990混合存儲設(shè)備(5.4 PB)容量,750K IOPS和4個100 GbE或EDR InfiniBand接口。DDN還將產(chǎn)品與Nvidia DGX-1 GPU加速服務(wù)器和Hewlett Packard Enterprise Apollo 6500加速服務(wù)器捆綁在一起。
IBM Elastic Storage Server AFA陣列具有多種基于SSD硬盤的配置,可提供高達(dá)1.1 PB的可用容量。IBM公司還有一個參考系統(tǒng)架構(gòu),它將Elastic Storage Server與Power Systems服務(wù)器和PowerAI Enterprise軟件堆棧相結(jié)合。
NetApp OnTap AI參考架構(gòu)將Nvidia DGX-1服務(wù)器與NetApp AFA A800系統(tǒng)和兩個Cisco Nexus 3K 100GbE交換機(jī)相結(jié)合。A800可提供1M IOPS,延遲時間為半毫秒,其橫向擴(kuò)展設(shè)計可在24節(jié)點集群中提供超過11M的IOPS。
Pure Storage AIRI是另一個DGX-1集成系統(tǒng),它使用Pure的FlashBlade AFA系統(tǒng),支持文件和對象存儲。Arista、Cisco或Mellanox交換機(jī)提供參考系統(tǒng)。例如,Arista公司設(shè)計使用15個17TB FlashBlades和8個40GbE鏈路連接到Arista 32端口100 GbE交換機(jī)。
Pure Storage的AIRI系統(tǒng)架構(gòu)
深度學(xué)習(xí)推理系統(tǒng)對存儲子系統(tǒng)的要求較低,通??梢酝ㄟ^在x86服務(wù)器中使用本地SSD硬盤來實現(xiàn)。雖然推理平臺通常是具有本地SSD硬盤或NVMe插槽的傳統(tǒng)1U和2U服務(wù)器設(shè)計,但它們越來越多地包括計算加速器,如Nvidia T4 GPU或可以將一些深度學(xué)習(xí)操作編譯到硬件中的FPGA。
責(zé)任編輯:Ct
評論
查看更多