0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌深度神經(jīng)網(wǎng)絡(luò) 基于數(shù)據(jù)共享的快速訓(xùn)練方法

WpOh_rgznai100 ? 2019-07-18 09:25 ? 次閱讀

導(dǎo)讀:神經(jīng)網(wǎng)絡(luò)技術(shù)的普及離不開硬件技術(shù)的發(fā)展,GPU 和 TPU 等硬件型訓(xùn)練加速器帶來(lái)的高算力極大的縮短了訓(xùn)練模型需要的時(shí)間,使得研究者們能在短時(shí)間內(nèi)驗(yàn)證并調(diào)整想法,從而快速得到理想的模型。然而,在整個(gè)訓(xùn)練流程中,只有反向傳播優(yōu)化階段在硬件加速器上完成,而其他的例如數(shù)據(jù)載入和數(shù)據(jù)預(yù)處理等過程則不受益于硬件加速器,因此逐漸成為了整個(gè)訓(xùn)練過程的瓶頸。本文應(yīng)用數(shù)據(jù)共享和并行流水線的思想,在一個(gè)數(shù)據(jù)讀入和預(yù)處理周期內(nèi)多次重復(fù)使用上一次讀入的數(shù)據(jù)進(jìn)行訓(xùn)練,有效降低模型達(dá)到相同效果所需的總 epoch 次數(shù),在算法層面實(shí)現(xiàn)對(duì)訓(xùn)練過程的加速。

網(wǎng)絡(luò)訓(xùn)練的另一個(gè)瓶頸

網(wǎng)絡(luò)訓(xùn)練速度的提升對(duì)神經(jīng)網(wǎng)絡(luò)的發(fā)展至關(guān)重要。過去的研究著重于如何在 GPU 和更專業(yè)的硬件設(shè)備上進(jìn)行矩陣和張量的相關(guān)運(yùn)算,從而代替 CPU 進(jìn)行網(wǎng)絡(luò)訓(xùn)練。GPU 和TPU 等相關(guān)專業(yè)計(jì)算硬件的通用性不像 CPU 那么廣泛,但是由于特殊的設(shè)計(jì)和計(jì)算單元構(gòu)造,能夠在一些專門的任務(wù)中具有大幅超越 CPU 的表現(xiàn)。

由于 GPU 相關(guān)硬件善于進(jìn)行矩陣和張量運(yùn)算,因此通常用于訓(xùn)練中的反向傳播計(jì)算過程,也就是參數(shù)優(yōu)化過程。然而,一個(gè)完整的網(wǎng)絡(luò)訓(xùn)練流程不應(yīng)該只包含反向傳播參數(shù)優(yōu)化過程,還應(yīng)該有數(shù)據(jù)的讀入和預(yù)處理的過程,后者依賴于多種硬件指標(biāo),包括 CPU、硬盤、內(nèi)存大小、內(nèi)存帶寬、網(wǎng)絡(luò)帶寬,而且在不同的任務(wù)中細(xì)節(jié)也不盡相同,很難專門為這個(gè)概念寬泛的過程設(shè)計(jì)專用的硬件加速器,因此其逐漸成為了神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中相對(duì)于方向傳播過程的另一個(gè)瓶頸。

因此,如果要進(jìn)一步提升訓(xùn)練速度,就需要考慮優(yōu)化非硬件加速的相關(guān)任務(wù),而不僅僅是優(yōu)化反向傳播過程,這一優(yōu)化可以從兩個(gè)方面來(lái)進(jìn)行:

(1) 提升數(shù)據(jù)載入和預(yù)處理的速度,類似于提升運(yùn)算速度

(2) 減少數(shù)據(jù)載入和預(yù)處理的工作量

其中第一個(gè)思路更多的需要在硬件層面進(jìn)行改進(jìn),而第二個(gè)思路則可以通過并行計(jì)算和數(shù)據(jù)共享,重復(fù)利用的方法來(lái)實(shí)現(xiàn)。

并行化問題

在了解具體的訓(xùn)練優(yōu)化方法之前,我們需要知道神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的典型步驟,并做一些合理假設(shè)。下圖是一個(gè)典型的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程:

圖1 一種典型的神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程

包含了 5 個(gè)步驟:read and decode 表示讀入數(shù)據(jù)并解碼,例如將圖片數(shù)據(jù)重新 resize成相應(yīng)的矩陣形式;Shuffle 表示數(shù)據(jù)打亂,即隨機(jī)重新排列各個(gè)樣本;augmentation 表示對(duì)數(shù)據(jù)進(jìn)行變換和增強(qiáng);batch 對(duì)數(shù)據(jù)按照 batch size 進(jìn)行打包;Apply SGD update表示將數(shù)據(jù)輸入到目標(biāo)網(wǎng)絡(luò)中,并利用基于 SGD 的優(yōu)化算法進(jìn)行參數(shù)學(xué)習(xí)。

不同的任務(wù)中或許會(huì)增加或減少某些環(huán)節(jié),但大致上的流程就是由這5步構(gòu)成的。此外,網(wǎng)絡(luò)采用的學(xué)習(xí)優(yōu)化算法也會(huì)有不同,但都是基于 SGD 算法的,因此一律用“SGD update”來(lái)表示。這個(gè)流程每次運(yùn)行對(duì)應(yīng)一個(gè) epoch,因此其輸入也就是整個(gè)訓(xùn)練數(shù)據(jù)集。

可并行化是這個(gè)過程的重要特點(diǎn),也是對(duì)其進(jìn)行優(yōu)化的關(guān)鍵所在。不同的 epoch 流程之間的某些環(huán)節(jié)是可以同時(shí)進(jìn)行的,例如在上一個(gè) epoch 訓(xùn)練時(shí),就可以同步的讀入并處理下一個(gè)epoch 的數(shù)據(jù)。進(jìn)一步地,作者將該流程劃分為兩個(gè)部分,上游(upstream)過程和下游(downstream)過程。其中上游過程包含數(shù)據(jù)載入和部分的數(shù)據(jù)預(yù)處理操作,而下游過程包含剩余的數(shù)據(jù)預(yù)處理操作和 SGD update 操作。這個(gè)劃分并不是固定的,不同的劃分決定了上游和下游過程的計(jì)算量和時(shí)間開銷。這樣劃分后,可以簡(jiǎn)單地將并行操作理解為兩個(gè)流水線并行處理,如下圖:

圖1 基礎(chǔ)并行操作,idle表示空閑時(shí)間

上面的流水線處理上游過程,下面的處理下游過程。為了更好地表示對(duì)應(yīng)關(guān)系,我在原圖的基礎(chǔ)上添加了一個(gè)紅色箭頭,表示左邊的上游過程是為右邊的下游過程提供數(shù)據(jù)的,他們共同構(gòu)成一個(gè) epoch 的完整訓(xùn)練流程,并且必須在完成這個(gè) epoch 的上游過程后才可以開始其下游過程,而與左側(cè)的上游過程豎直對(duì)應(yīng)的下游過程則隸屬于上一個(gè) epoch了。

從圖中可以看到,上游過程需要的時(shí)間是比下游過程更長(zhǎng)的,因此在下游過程的流水線中有一部分時(shí)間(紅色部分)是空閑的等待時(shí)間,這也是本文中的主要優(yōu)化對(duì)象。此處做了第一個(gè)重要假設(shè):上游過程的時(shí)間消耗大于下游過程,這使得訓(xùn)練所需時(shí)間完全取決于上游過程。如果是小于關(guān)系,那么優(yōu)化的重點(diǎn)就會(huì)放到下游過程中,而下游過程中主要優(yōu)化內(nèi)容還是反向傳播過程。因此這個(gè)假設(shè)是將優(yōu)化內(nèi)容集中在下游過程流水線的充分條件。

那么如何利用這部分空閑時(shí)間呢?答案是繼續(xù)用來(lái)處理下游過程,如下圖:

圖2 單上游過程對(duì)應(yīng)多下游過程

同一個(gè)上游過程可以為多個(gè)下游過程提供數(shù)據(jù)(圖中是 2 個(gè)),通過在上游過程和下游過程的分界處添加一個(gè)額外的數(shù)據(jù)復(fù)制和分發(fā)操作,就可以實(shí)現(xiàn)相同的上游數(shù)據(jù)在多個(gè)下游過程中的重復(fù)利用,從而減少乃至消除下游過程流水線中的空閑時(shí)間。這樣,在相同的訓(xùn)練時(shí)間里,雖然和圖1中的一對(duì)一并行操作相比執(zhí)行了相同次數(shù)的上游過程,但是下游過程的次數(shù)卻提升了一定的倍數(shù),模型獲得了更多的訓(xùn)練次數(shù),因此最終性能一定會(huì)有所提升。

那么進(jìn)一步,如果要達(dá)到相同的模型性能,后者所需執(zhí)行的上游過程勢(shì)必比前者要少,因此從另個(gè)角度來(lái)講,訓(xùn)練時(shí)間就得到了縮短,即達(dá)到相同性能所需的訓(xùn)練時(shí)間更少。

但是,由于同一個(gè)上游過程所生成的數(shù)據(jù)是完全相同的,而在不同的反向傳播過程中使用完全相同的數(shù)據(jù)(repeated data),和使用完全不同的新數(shù)據(jù)(fresh data)相比,帶來(lái)的性能提升在一定程度上是會(huì)打折扣的。這個(gè)問題有兩個(gè)解決方法:

(1)由于下游過程并不是只包含最后的 SGD update 操作,還會(huì)包含之前的一些操作(只要不包含 read and encode 就可以),而諸如 shuffle 和 dropout 等具有隨機(jī)性的操作會(huì)在一定程度上帶來(lái)數(shù)據(jù)的差異性,因此合理的在下游過程中包含一些具有隨機(jī)性的操作,就可以保證最后用于 SGD update 的數(shù)據(jù)具有多樣性,這具體取決于上下游過程在整個(gè)流程中的分界點(diǎn)。

(2)在進(jìn)行分發(fā)操作的同時(shí)對(duì)數(shù)據(jù)進(jìn)行打亂,也能提高數(shù)據(jù)的多樣性,但由于數(shù)據(jù)打亂的操作本身要消耗計(jì)算資源,因此這不是一個(gè)可以隨意使用的方法。

我們將這種對(duì)上游過程的數(shù)據(jù)重復(fù)利用的算法稱為數(shù)據(jù)交流 data echoing,而重復(fù)利用的次數(shù)為重復(fù)因子 echoing factor。

數(shù)據(jù)重復(fù)利用效率分析

假設(shè)在完成一個(gè)上游過程的時(shí)間內(nèi),可以至多并行地完成 R 個(gè)下游過程,而數(shù)據(jù)的實(shí)際重復(fù)使用次數(shù)為e,通常 e 和 R 滿足 e

? ? ?

在此基礎(chǔ)上,可以得到以下關(guān)于訓(xùn)練效率的結(jié)論:

(1)只要e不大于R,那么訓(xùn)練時(shí)間就完全取決于上游過程所需的時(shí)間,而總訓(xùn)練時(shí)間就取決于上游過程的次數(shù),也就是第一條流水線的總時(shí)長(zhǎng)。

(2)由于重復(fù)數(shù)據(jù)的效果沒有新數(shù)據(jù)的效果好,因此要達(dá)到相同的模型性能,數(shù)據(jù)交流訓(xùn)練方法就需要更多的 SGD update操作,也就是需要更多下游過程。理論上,只要下游過程的擴(kuò)張倍數(shù)小于e倍,那么數(shù)據(jù)交流訓(xùn)練方法所需的總訓(xùn)練時(shí)長(zhǎng)就小于傳統(tǒng)訓(xùn)練方法。

(3)由于e的上限是R,那么R越大,e就可以取得越大,在下游過程只包含SGD update過程時(shí),R最大。進(jìn)一步地,若此時(shí)重復(fù)數(shù)據(jù)和新數(shù)據(jù)對(duì)訓(xùn)練的貢獻(xiàn)完全相同,那么訓(xùn)練加速效果將達(dá)到最大,即訓(xùn)練時(shí)間縮短為原來(lái)的1/R。

然而在前面已經(jīng)提到了,對(duì)重復(fù)利用的數(shù)據(jù)而言,其效果是不可能和新數(shù)據(jù)媲美的,這是限制該訓(xùn)練方法效率的主要因素。作者進(jìn)一步探究了在訓(xùn)練流程中的不同位置進(jìn)行上下游過程分割和數(shù)據(jù)交流所帶來(lái)的影響。

(1)批處理操作(batching)前后的數(shù)據(jù)交流

如果將批處理操作劃分為下游過程,那么由于批處理操作本身具有一定的隨機(jī)性,不同的下游過程就會(huì)對(duì)數(shù)據(jù)進(jìn)行不同的打包操作,最后送到 SGD update 階段的數(shù)據(jù)也就具備了一定的batch間的多樣性。當(dāng)然,如果將批處理操作劃分為上游過程,那么R值會(huì)更大,可以執(zhí)行更多次的SGD update 訓(xùn)練操作,當(dāng)然這些訓(xùn)練過程的數(shù)據(jù)相似度就更高了,每次訓(xùn)練帶來(lái)的性能提升也可能變得更少。

(2)數(shù)據(jù)增強(qiáng)(data augmentation)前后的數(shù)據(jù)交流

如果在 data augmentation 之前進(jìn)行數(shù)據(jù)交流,那么每個(gè)下游過程最終用于訓(xùn)練的數(shù)據(jù)就更不相同,也更接近于新數(shù)據(jù)的效果,這個(gè)道理同批處理操作前后的數(shù)據(jù)交流是相同的,只不過數(shù)據(jù)交流操作的插入點(diǎn)更靠前,R值更小,帶來(lái)的數(shù)據(jù)差異性也更強(qiáng)。

(3)在數(shù)據(jù)交流的同時(shí)進(jìn)行數(shù)據(jù)打亂

數(shù)據(jù)打亂本質(zhì)上也是在提升分發(fā)到不同下游過程的數(shù)據(jù)的多樣性,但這是一個(gè)有開銷的過程,根據(jù)應(yīng)用環(huán)境的不同,能進(jìn)行數(shù)據(jù)打亂的范圍也不同。

進(jìn)一步地,作者通過實(shí)驗(yàn)在5個(gè)不同的方面評(píng)估了數(shù)據(jù)交流訓(xùn)練方法帶來(lái)的性能提升,并得到了以下結(jié)論:

(1)數(shù)據(jù)交流能降低訓(xùn)練模型達(dá)到相同效果所需的樣本數(shù)量。由于對(duì)數(shù)據(jù)進(jìn)行了重復(fù)使用,因此相應(yīng)的所需新數(shù)據(jù)數(shù)量就會(huì)減少。

(2)數(shù)據(jù)交流能降低訓(xùn)練時(shí)間。事實(shí)上即便是 e>R,在某些網(wǎng)絡(luò)上仍然會(huì)帶來(lái)訓(xùn)練效果的提升,如下圖:

圖4 不同的e和R值在兩個(gè)不同網(wǎng)絡(luò)中帶來(lái)的訓(xùn)練時(shí)間提升

在 LM1B 數(shù)據(jù)集中,當(dāng) e>R 是總訓(xùn)練時(shí)間都是擴(kuò)大的,而在 ImageNet 數(shù)據(jù)集中,只要R 大于1.5, e 越大,訓(xùn)練時(shí)間就越小,作者并沒有對(duì)這個(gè)結(jié)論給出解釋,筆者認(rèn)為這是以為因?yàn)樵贗mageNet 數(shù)據(jù)集中,重復(fù)數(shù)據(jù)帶來(lái)的性能衰減 小于 重復(fù)訓(xùn)練帶來(lái)的性能提升,因此,e 越大,達(dá)到相同性能所需的訓(xùn)練時(shí)間越少,只是 LMDB 對(duì)重復(fù)數(shù)據(jù)的敏感度更高。

(3)batch_size越大,能支持的e數(shù)量也就越大。進(jìn)一步的,batch_size越大,所需要的訓(xùn)練數(shù)據(jù)也就越少。

(4)數(shù)據(jù)打亂操作可以提高最終訓(xùn)練效果,這是一個(gè)顯而易見的結(jié)論。

(5)在數(shù)據(jù)交流的訓(xùn)練方法下,模型仍然能訓(xùn)練到和傳統(tǒng)訓(xùn)練方法一樣的精度,也就是不損失精度。作者在 4 個(gè)任務(wù)上進(jìn)行了對(duì)比試驗(yàn):

總結(jié)

本文的核心思想就是數(shù)據(jù)的重復(fù)利用,通過數(shù)據(jù)的重復(fù)利用在并行執(zhí)行訓(xùn)練流程的過程中執(zhí)行更多次的參數(shù)優(yōu)化操作,一方面提高了流水線效率,另一方面提高了訓(xùn)練次數(shù),從而降低了達(dá)到相同精度所需的訓(xùn)練時(shí)間。(作者 | Google Brain譯者 | 凱隱責(zé)編 | 夕顏

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6128

    瀏覽量

    104952
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4734

    瀏覽量

    100420

原文標(biāo)題:谷歌新研究:基于數(shù)據(jù)共享的神經(jīng)網(wǎng)絡(luò)快速訓(xùn)練方法

文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    從AlexNet到MobileNet,帶你入門深度神經(jīng)網(wǎng)絡(luò)

    通過堆疊卷積層使得模型更深更寬,同時(shí)借助GPU使得訓(xùn)練再可接受的時(shí)間范圍內(nèi)得到結(jié)果,推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)甚至是深度學(xué)習(xí)的發(fā)展。下面是AlexNet的架構(gòu):AlexNet的特點(diǎn)有:1.借助擁有1500萬(wàn)標(biāo)簽
    發(fā)表于 05-08 15:57

    CV之YOLO:深度學(xué)習(xí)之計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)tiny-yolo-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

    CV之YOLO:深度學(xué)習(xí)之計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)tiny-yolo-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄
    發(fā)表于 12-24 11:50

    CV之YOLOv3:深度學(xué)習(xí)之計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)Yolov3-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄

    CV之YOLOv3:深度學(xué)習(xí)之計(jì)算機(jī)視覺神經(jīng)網(wǎng)絡(luò)Yolov3-5clessses訓(xùn)練自己的數(shù)據(jù)集全程記錄
    發(fā)表于 12-24 11:51

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    十余年來(lái)快速發(fā)展的嶄新領(lǐng)域,越來(lái)越受到研究者的關(guān)注。卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型是深度學(xué)習(xí)模型中最重要的一種經(jīng)典結(jié)構(gòu),其性能在近年來(lái)深度學(xué)習(xí)任務(wù)上逐步提高。由于可以自動(dòng)學(xué)習(xí)樣本
    發(fā)表于 08-02 10:39

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?
    發(fā)表于 09-06 09:52

    BP神經(jīng)網(wǎng)絡(luò)MapReduce訓(xùn)練

    為提高大樣本集情況下BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率,提出了一種基于局部收斂權(quán)陣進(jìn)化的BP神經(jīng)網(wǎng)絡(luò)MapReduce訓(xùn)練方法,以各Map任務(wù)基于其輸入數(shù)據(jù)
    發(fā)表于 11-23 15:07 ?12次下載
    BP<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>MapReduce<b class='flag-5'>訓(xùn)練</b>

    叫板谷歌,亞馬遜微軟推出深度學(xué)習(xí)庫(kù) 訓(xùn)練神經(jīng)網(wǎng)絡(luò)更加簡(jiǎn)單

    據(jù)報(bào)道,亞馬遜和微軟合力推出全新的深度學(xué)習(xí)庫(kù),名字叫Gluon。此舉被認(rèn)為是在云計(jì)算市場(chǎng)上與谷歌叫板,谷歌曾通過AI生態(tài)系統(tǒng)發(fā)力云計(jì)算,強(qiáng)調(diào)自身產(chǎn)品對(duì)深度學(xué)習(xí)的強(qiáng)大支持。Gluon可以
    發(fā)表于 01-05 16:56 ?2161次閱讀

    基于粒子群優(yōu)化的條件概率神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法

    訓(xùn)練方法。我們將這種基于粒子群優(yōu)化的條件概率神經(jīng)網(wǎng)絡(luò)用于人臉年齡估計(jì),實(shí)驗(yàn)結(jié)果表明這種網(wǎng)絡(luò)能夠顯著地提高識(shí)別的準(zhǔn)確率。
    發(fā)表于 01-08 16:35 ?0次下載

    基于虛擬化的多GPU深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架

    針對(duì)深度神經(jīng)網(wǎng)絡(luò)在分布式多機(jī)多GPU上的加速訓(xùn)練問題,提出一種基于虛擬化的遠(yuǎn)程多GPU調(diào)用的實(shí)現(xiàn)方法。利用遠(yuǎn)程GPU調(diào)用部署的分布式GPU集群改進(jìn)傳統(tǒng)一對(duì)一的虛擬化技術(shù),同時(shí)改變
    發(fā)表于 03-29 16:45 ?0次下載
    基于虛擬化的多GPU<b class='flag-5'>深度</b><b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b><b class='flag-5'>訓(xùn)練</b>框架

    NVIDIA GPU加快深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推斷

    深度學(xué)習(xí)是推動(dòng)當(dāng)前人工智能大趨勢(shì)的關(guān)鍵技術(shù)。在 MATLAB 中可以實(shí)現(xiàn)深度學(xué)習(xí)的數(shù)據(jù)準(zhǔn)備、網(wǎng)絡(luò)設(shè)計(jì)、訓(xùn)練和部署全流程開發(fā)和應(yīng)用。聯(lián)合高性能
    的頭像 發(fā)表于 02-18 13:31 ?2001次閱讀

    時(shí)識(shí)科技提出新脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法 助推類腦智能產(chǎn)業(yè)落地

    近日,SynSense時(shí)識(shí)科技技術(shù)團(tuán)隊(duì)發(fā)表題為“EXODUS: Stable and Efficient Training of Spiking Neural Networks”的文章,在文章中提出了新的脈沖神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法EXODUS。
    的頭像 發(fā)表于 06-20 14:21 ?1357次閱讀

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型

    cnn卷積神經(jīng)網(wǎng)絡(luò)模型 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型 生成卷積神經(jīng)網(wǎng)絡(luò)模型? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種
    的頭像 發(fā)表于 08-21 17:11 ?1181次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

    、訓(xùn)練過程以及應(yīng)用場(chǎng)景。 1. 卷積神經(jīng)網(wǎng)絡(luò)的基本概念 1.1 卷積神經(jīng)網(wǎng)絡(luò)的定義 卷積神經(jīng)網(wǎng)絡(luò)是一種前饋深度學(xué)習(xí)模型,其核心思想是利用卷積
    的頭像 發(fā)表于 07-03 09:15 ?319次閱讀

    怎么對(duì)神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    發(fā)生變化,導(dǎo)致神經(jīng)網(wǎng)絡(luò)的泛化能力下降。為了保持神經(jīng)網(wǎng)絡(luò)的性能,需要對(duì)其進(jìn)行重新訓(xùn)練。本文將詳細(xì)介紹重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)的步驟和
    的頭像 發(fā)表于 07-11 10:25 ?402次閱讀

    ai大模型訓(xùn)練方法有哪些?

    方法增加數(shù)據(jù)多樣性。 模型選擇 選擇合適的神經(jīng)網(wǎng)絡(luò)架構(gòu),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶
    的頭像 發(fā)表于 07-16 10:11 ?1290次閱讀