本文是清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室近期發(fā)表的深度遷移學(xué)習(xí)綜述,首次定義了深度遷移學(xué)習(xí)的四個分類,包括基于實例、映射、網(wǎng)絡(luò)和對抗的遷移學(xué)習(xí)方法,并在每個方向上都給出了豐富的參考文獻(xiàn)。機(jī)器之心對該綜述進(jìn)行了全文編譯。
論文:A Survey on Deep Transfer Learning
論文地址:https://arxiv.org/pdf/1808.01974v1.pdf
摘要:作為一種新的分類方法,深度學(xué)習(xí)最近受到研究人員越來越多的關(guān)注,并已成功應(yīng)用到諸多領(lǐng)域。在某些類似生物信息和機(jī)器人的領(lǐng)域,由于數(shù)據(jù)采集和標(biāo)注費用高昂,構(gòu)建大規(guī)模的標(biāo)注良好的數(shù)據(jù)集非常困難,這限制了這些領(lǐng)域的發(fā)展。遷移學(xué)習(xí)放寬了訓(xùn)練數(shù)據(jù)必須與測試數(shù)據(jù)獨立同分布(i.i.d.)的假設(shè),這啟發(fā)我們使用遷移學(xué)習(xí)來解決訓(xùn)練數(shù)據(jù)不足的問題。本篇綜述的重點是回顧當(dāng)前利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)的研究及其應(yīng)用。我們根據(jù)深度遷移學(xué)習(xí)中使用的技術(shù),給出了深度遷移學(xué)習(xí)的定義、類別并回顧了最近的研究工作。
1 引言
深度學(xué)習(xí)最近受到研究員越來越多的關(guān)注,并已成功應(yīng)用于眾多實踐中。深度學(xué)習(xí)算法可以從海量數(shù)據(jù)中學(xué)習(xí)高級特征,這使得深度學(xué)習(xí)具備超越傳統(tǒng)機(jī)器學(xué)習(xí)的優(yōu)勢。
深度學(xué)習(xí)可以通過無監(jiān)督或半監(jiān)督特征學(xué)習(xí)算法和分層特征提取來自動提取數(shù)據(jù)特征。相比之下,傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要手動設(shè)計特征,這會嚴(yán)重增加用戶的負(fù)擔(dān)??梢哉f深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于大規(guī)模數(shù)據(jù)的表征學(xué)習(xí)算法。
數(shù)據(jù)依賴是深度學(xué)習(xí)中最嚴(yán)峻的問題之一。與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)極其依賴大規(guī)模訓(xùn)練數(shù)據(jù),因為它需要大量數(shù)據(jù)去理解潛在的數(shù)據(jù)模式。我們可以發(fā)現(xiàn)一個有趣的現(xiàn)象,模型的規(guī)模和所需數(shù)據(jù)量的大小幾乎呈線性關(guān)系。
一個合理的解釋是,對于特定問題,模型的表達(dá)空間必須大到足以發(fā)現(xiàn)數(shù)據(jù)的模式。模型中的較底層可以識別訓(xùn)練數(shù)據(jù)的高級特征,之后的較高層可以識別幫助做出最終決策所需的信息。
在一些特殊領(lǐng)域,訓(xùn)練數(shù)據(jù)不足不可避免。數(shù)據(jù)收集復(fù)雜且昂貴,因此構(gòu)建大規(guī)模、高質(zhì)量的帶標(biāo)注數(shù)據(jù)集非常困難。
例如,生物信息數(shù)據(jù)集中的每個樣本通常都代表一次臨床試驗或一名痛苦的患者。另外,即使我們以昂貴的價格獲得訓(xùn)練數(shù)據(jù)集,也很容易過時,因此無法有效地應(yīng)用于新任務(wù)中。
遷移學(xué)習(xí)放寬了訓(xùn)練數(shù)據(jù)必須與測試數(shù)據(jù)獨立同分布(i.i.d.)這樣的假設(shè),這啟發(fā)我們使用遷移學(xué)習(xí)來解決訓(xùn)練數(shù)據(jù)不足的問題。
在遷移學(xué)習(xí)中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)不需要是 i.i.d.,目標(biāo)域中的模型也不需要從頭開始訓(xùn)練,這可以顯著降低目標(biāo)域?qū)τ?xùn)練數(shù)據(jù)和訓(xùn)練時間的需求。
過去,大多數(shù)遷移學(xué)習(xí)研究都是在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中進(jìn)行的。由于深度學(xué)習(xí)在現(xiàn)代機(jī)器學(xué)習(xí)方法中的優(yōu)勢地位,深度遷移學(xué)習(xí)及其應(yīng)用的概述尤為重要。這篇綜述論文的貢獻(xiàn)如下:
定義了深度遷移學(xué)習(xí),并首次將其分為四類。我們回顧了目前關(guān)于每種深度遷移學(xué)習(xí)的研究工作,并給出了每個類別的標(biāo)準(zhǔn)化描述和示意圖。
2 深度遷移學(xué)習(xí)
遷移學(xué)習(xí)是機(jī)器學(xué)習(xí)中解決訓(xùn)練數(shù)據(jù)不足問題的重要工具。它試圖通過放寬訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)必須為 i.i.d 的假設(shè),將知識從源域遷移到目標(biāo)域。
這對由于訓(xùn)練數(shù)據(jù)不足而難以改善性能的許多研究領(lǐng)域產(chǎn)生巨大的積極影響。遷移學(xué)習(xí)的學(xué)習(xí)過程如圖 1 所示。
這篇綜述中使用的某些符號需要明確定義。首先,我們分別給出了域和任務(wù)的定義:域可以 用 D = {χ, P(X)} 表示,其包含兩部分:特征空間 χ 和邊緣概率分布 P(X) 其中 X = {x1, ..., xn} ∈ χ。
任務(wù)可以用 T = {y, f(x)} 表示。它由兩部分組成:標(biāo)簽空間 y 和目標(biāo)預(yù)測函數(shù) f(x)。f(x) 也可看作條件概率函數(shù) P(y|x)。最后,遷移學(xué)習(xí) 可以定義如下:
定義 1:(遷移學(xué)習(xí))。給定一個基于數(shù)據(jù) Dt 的學(xué)習(xí)任務(wù) Tt,我們可以從 Ds 中獲取對任務(wù) Ts 有用的知識。遷移學(xué)習(xí)旨在通過發(fā)現(xiàn)并轉(zhuǎn)換 Ds 和 Ts 中的隱知識來提高任務(wù) Tt 的預(yù)測函數(shù) fT(.) 的表現(xiàn),其中 Ds ≠ Dt 且/或 Ts ≠ Tt。此外,大多數(shù)情況下,Ds 的規(guī)模遠(yuǎn)大于 Dt 的規(guī)模。
圖 1:遷移學(xué)習(xí)的學(xué)習(xí)過程。
綜述 [19] 和 [25] 將遷移學(xué)習(xí)就源域和目標(biāo)域之間的關(guān)系分為三個主要類別,這已被廣泛接受。這些綜述是對過去遷移學(xué)習(xí)工作的總結(jié),它介紹了許多經(jīng)典的遷移學(xué)習(xí)方法。
此外,人們最近提出了許多更新和更好的方法。近年來,遷移學(xué)習(xí)研究界主要關(guān)注以下兩個方面:域適應(yīng)和多源域遷移。
如今,深度學(xué)習(xí)近年來在許多研究領(lǐng)域取得了主導(dǎo)地位。重要的是要找到如何通過深度神經(jīng)網(wǎng)絡(luò)有效地傳遞知識,深度神經(jīng)網(wǎng)絡(luò)其定義如下:
定義 2:(深度遷移學(xué)習(xí))。給定一個由
3 類別
深度遷移學(xué)習(xí)研究如何通過深度神經(jīng)網(wǎng)絡(luò)利用其他領(lǐng)域的知識。由于深度神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域都很受歡迎,人們已經(jīng)提出了相當(dāng)多的深度遷移學(xué)習(xí)方法,對它們進(jìn)行分類和總結(jié)非常重要。
基于深度遷移學(xué)習(xí)中使用的技術(shù),本文將深度遷移學(xué)習(xí)分為四類:基于實例的深度遷移學(xué)習(xí),基于映射的深度遷移學(xué)習(xí),基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)和基于對抗的深度遷移學(xué)習(xí),如表 1 所示。
表 1:深度遷移學(xué)習(xí)的分類。
3.1 基于實例的深度遷移學(xué)習(xí)
基于實例的深度遷移學(xué)習(xí)是指使用特定的權(quán)重調(diào)整策略,通過為那些選中的實例分配適當(dāng)?shù)臋?quán)重,從源域中選擇部分實例作為目標(biāo)域訓(xùn)練集的補充。
它基于這個假設(shè):「盡管兩個域之間存在差異,但源域中的部分實例可以分配適當(dāng)權(quán)重供目標(biāo)域使用?!够趯嵗纳疃冗w移學(xué)習(xí)的示意圖如圖 2 所示:
圖 2:基于實例的深度遷移學(xué)習(xí)的示意圖。源域中的與目標(biāo)域不相似的淺藍(lán)色實例被排除在訓(xùn)練數(shù)據(jù)集之外;源域中與目標(biāo)域類似的深藍(lán)色實例以適當(dāng)權(quán)重包括在訓(xùn)練數(shù)據(jù)集中。
[4] 中提出的 TrAdaBoost 使用基于 AdaBoost 的技術(shù)來過濾掉源域中的與目標(biāo)域不同的實例。在源域中對實例重新加權(quán)以構(gòu)成類似于目標(biāo)域的分布。最后,通過使用來自源域的重新加權(quán)實例和來自目標(biāo)域的原始實例來訓(xùn)練模型。
它可以減少保持 AdaBoost 屬性的不同分布域上的加權(quán)訓(xùn)練誤差。[27] 提出的 TaskTrAdaBoost 是一種快速算法,可以促進(jìn)對新目標(biāo)域的快速再訓(xùn)練。與 TrAdaBoost 設(shè)計用于分類問題不同,[20] 提出了 ExpBoost.R2 和 TrAdaBoost.R2 來解決回歸問題。
[24] 提出的雙權(quán)重域自適應(yīng)(BIW)可以將兩個域的特征空間對齊到公共坐標(biāo)系中,然后為源域的實例分配適當(dāng)?shù)臋?quán)重。[10] 提出增強(qiáng)的 TrAdaBoost 來處理區(qū)域砂巖顯微圖像分類的問題。
[26] 提出了一個量度遷移學(xué)習(xí)框架,用于在并行框架中學(xué)習(xí)實例權(quán)重和兩個不同域的距離,以使跨域的知識遷移更有效。[11] 將集成遷移學(xué)習(xí)引入可以利用源域?qū)嵗纳疃壬窠?jīng)網(wǎng)絡(luò)。
3.2 基于映射的深度遷移學(xué)習(xí)
基于映射的深度遷移學(xué)習(xí)是指將源域和目標(biāo)域中的實例映射到新的數(shù)據(jù)空間。在這個新的數(shù)據(jù)空間中,來自兩個域的實例都相似且適用于聯(lián)合深度神經(jīng)網(wǎng)絡(luò)。
它基于假設(shè):「盡管兩個原始域之間存在差異,但它們在精心設(shè)計的新數(shù)據(jù)空間中可能更為相似。」基于映射的深度遷移學(xué)習(xí)的示意圖如圖 3 所示:
圖 3:基于映射的深度遷移學(xué)習(xí)的示意圖。來自源域和目標(biāo)域的實例同時以更相似的方式映射到新數(shù)據(jù)空間。將新數(shù)據(jù)空間中的所有實例視為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集。
由 [18] 引入的遷移成分分析(TCA)和基于 TCA 的方法 [29] 已被廣泛用于傳統(tǒng)遷移學(xué)習(xí)的許多應(yīng)用中。一個自然的想法是將 TCA 方法擴(kuò)展到深度神經(jīng)網(wǎng)絡(luò)。
[23] 通過引入適應(yīng)層和額外的域混淆損失來擴(kuò)展 MMD 用以比較深度神經(jīng)網(wǎng)絡(luò)中的分布,以學(xué)習(xí)具有語義意義和域不變性的表示。該工作中使用的 MMD 距離定義為:
損失函數(shù)定義為:
[12] 通過用 [8] 中提出的多核變量 MMD(MK-MMD)距離代替 MMD 距離改進(jìn)了以前的工作。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的學(xué)習(xí)任務(wù)相關(guān)的隱藏層被映射到再生核 Hilbert 空間(RKHS),并且通過多核優(yōu)化方法使不同域之間的距離最小化。
[14] 提出聯(lián)合最大均值差異(JMMD)來衡量聯(lián)合分布的關(guān)系。JMMD 用于泛化深度神經(jīng)網(wǎng)絡(luò)(DNN)的遷移學(xué)習(xí)能力,以適應(yīng)不同領(lǐng)域的數(shù)據(jù)分布,并改進(jìn)了以前的工作。由 [2] 提出的 Wasserstein 距離可以用作域的新距離度量,以便找到更好的映射。
3.3 基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)
基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)是指復(fù)用在源域中預(yù)先訓(xùn)練好的部分網(wǎng)絡(luò),包括其網(wǎng)絡(luò)結(jié)構(gòu)和連接參數(shù),將其遷移到目標(biāo)域中使用的深度神經(jīng)網(wǎng)絡(luò)的一部分。
它基于這個假設(shè):「神經(jīng)網(wǎng)絡(luò)類似于人類大腦的處理機(jī)制,它是一個迭代且連續(xù)的抽象過程。網(wǎng)絡(luò)的前面層可被視為特征提取器,提取的特征是通用的?!富诰W(wǎng)絡(luò)的深度遷移學(xué)習(xí)示意圖如圖 4 所示:
圖 4:基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)的示意圖。首先,在源域中使用大規(guī)模訓(xùn)練數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)。然后,基于源域預(yù)訓(xùn)練的部分網(wǎng)絡(luò)被遷移到為目標(biāo)域設(shè)計的新網(wǎng)絡(luò)的一部分。最后,它就成了在微調(diào)策略中更新的子網(wǎng)絡(luò)。
[9] 將網(wǎng)絡(luò)分為兩部分,前者是與語言無關(guān)的特征變換,最后一層是與語言相關(guān)的分類器。語言獨立的特征變換可以在多種語言之間遷移。[17] 反復(fù)使用 CNN 在 ImageNet 數(shù)據(jù)集上訓(xùn)練的前幾層來提取其他數(shù)據(jù)集圖像的中間圖像表征,CNN 被訓(xùn)練去學(xué)習(xí)圖像表征,它可以有效地遷移到其他訓(xùn)練數(shù)據(jù)量受限的視覺識別任務(wù)。
[15] 提出了一種聯(lián)合學(xué)習(xí)源域中標(biāo)記數(shù)據(jù)和目標(biāo)域中未標(biāo)記數(shù)據(jù)的自適應(yīng)分類器和可遷移特征的方法,它通過將多個層插入深層網(wǎng)絡(luò),指引目標(biāo)分類器顯式學(xué)習(xí)殘差函數(shù)。[30] 在 DNN 中同時學(xué)習(xí)域自適應(yīng)和深度哈希特征。
[3] 提出了一種新穎的多尺度卷積稀疏編碼方法。該方法可以以一種聯(lián)合方式自動學(xué)習(xí)不同尺度的濾波器組,強(qiáng)制規(guī)定學(xué)習(xí)模式的明確尺度,并提供無監(jiān)督的解決方案,用于學(xué)習(xí)可遷移的基礎(chǔ)知識并將其微調(diào)到目標(biāo)任務(wù)。
[6] 應(yīng)用深度遷移學(xué)習(xí)將知識從現(xiàn)實世界的物體識別任務(wù)遷移到 glitch 分類器,用于多重力波信號的探測。它證明了 DNN 可以作為優(yōu)秀的無監(jiān)督聚類方法特征提取器,根據(jù)實例的形態(tài)識別新類,而無需任何標(biāo)記示例。
另一個非常值得注意的結(jié)果是 [28] 指出了網(wǎng)絡(luò)結(jié)構(gòu)和可遷移性之間的關(guān)系。它證明了某些模塊可能不會影響域內(nèi)準(zhǔn)確性,但會影響可遷移性。它指出哪些特征在深層網(wǎng)絡(luò)中可以遷移,哪種類型的網(wǎng)絡(luò)更適合遷移。得出的結(jié)論是,LeNet、AlexNet、VGG、Inception、ResNet 在基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)中是很好的選擇。
3.4 基于對抗的深度遷移學(xué)習(xí)
基于對抗的深度遷移學(xué)習(xí)是指引入受生成對抗網(wǎng)絡(luò)(GAN)[7] 啟發(fā)的對抗技術(shù),以找到適用于源域和目標(biāo)域的可遷移表征。它基于這個假設(shè):「為了有效遷移,良好的表征應(yīng)該為主要學(xué)習(xí)任務(wù)提供辨判別力,并且在源域和目標(biāo)域之間不可區(qū)分。」基于對抗的深度遷移學(xué)習(xí)的示意圖如圖 5 所示。
圖 5:基于對抗的深度遷移學(xué)習(xí)的示意圖。在源域大規(guī)模數(shù)據(jù)集的訓(xùn)練過程中,網(wǎng)絡(luò)的前面層被視為特征提取器。它從兩個域中提取特征并將它們輸入到對抗層。
對抗層試圖區(qū)分特征的來源。如果對抗網(wǎng)絡(luò)的表現(xiàn)很差,則意味著兩種類型的特征之間存在細(xì)微差別,可遷移性更好,反之亦然。在以下訓(xùn)練過程中,將考慮對抗層的性能以迫使遷移網(wǎng)絡(luò)發(fā)現(xiàn)更多具有可遷移性的通用特征。
基于對抗的深度遷移學(xué)習(xí)由于其良好的效果和較強(qiáng)的實用性,近年來取得了快速發(fā)展。[1] 通過在損失函數(shù)中使用域自適應(yīng)正則化項,引入對抗技術(shù)來遷移域適應(yīng)的知識。
[5] 提出了一種對抗訓(xùn)練方法,通過增加幾個標(biāo)準(zhǔn)層和一個簡單的新梯度翻轉(zhuǎn)層,使其適用于大多數(shù)前饋神經(jīng)模型。[21] 為稀疏標(biāo)記的目標(biāo)域數(shù)據(jù)提出了一種方法遷移同時跨域和跨任務(wù)的知識。在這項工作中使用了一種特殊的聯(lián)合損失函數(shù)來迫使 CNN 優(yōu)化域之間的距離,其定義為 LD = Lc +λLadver,其中 Lc 是分類損失,Ladver 是域?qū)箵p失。
因為兩個損失彼此直接相反,所以引入迭代優(yōu)化算法,固定一個損失時更新另一個損失。[22] 提出了一種新的 GAN 損失,并將判別模型與新的域自適應(yīng)方法相結(jié)合。
[13] 提出一個隨機(jī)多線性對抗網(wǎng)絡(luò),其利用多個特征層和基于隨機(jī)多線性對抗的分類器層來實現(xiàn)深度和判別對抗適應(yīng)網(wǎng)絡(luò)。[16] 利用域?qū)剐該p失,并使用基于度量學(xué)習(xí)的方法將嵌入泛化到新任務(wù),以在深度遷移學(xué)習(xí)中找到更易處理的特征。
4 結(jié)論
在本篇綜述論文中,我們對深度遷移學(xué)習(xí)的當(dāng)前研究進(jìn)行了回顧和分類。并首次將深度遷移學(xué)習(xí)分為四類:基于實例的深度遷移學(xué)習(xí),基于映射的深度遷移學(xué)習(xí),基于網(wǎng)絡(luò)的深度遷移學(xué)習(xí)和基于對抗的深度遷移學(xué)習(xí)。在大多數(shù)實際應(yīng)用中,通常混合使用上述多種技術(shù)以獲得更好的結(jié)果。
目前大多數(shù)研究都集中在監(jiān)督學(xué)習(xí)上,如何通過深度神經(jīng)網(wǎng)絡(luò)在無監(jiān)督或半監(jiān)督學(xué)習(xí)中遷移知識,可能會在未來引發(fā)越來越多的關(guān)注。負(fù)遷移和可遷移性衡量標(biāo)準(zhǔn)是傳統(tǒng)遷移學(xué)習(xí)的重要問題。這兩個問題對深度遷移學(xué)習(xí)的影響也要求我們進(jìn)行進(jìn)一步的研究。
此外,為深層神經(jīng)網(wǎng)絡(luò)中的遷移知識找到更強(qiáng)大的物理支持是一個非常有吸引力的研究領(lǐng)域,但這需要物理學(xué)家、神經(jīng)學(xué)家和計算機(jī)科學(xué)家的合作。可以預(yù)見,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度遷移學(xué)習(xí)將被廣泛應(yīng)用于解決許多具有挑戰(zhàn)性的問題。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8306瀏覽量
131841 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5422瀏覽量
120591 -
遷移學(xué)習(xí)
+關(guān)注
關(guān)注
0文章
74瀏覽量
5536
原文標(biāo)題:綜述論文:四大類深度遷移學(xué)習(xí)
文章出處:【微信號:gh_ecbcc3b6eabf,微信公眾號:人工智能和機(jī)器人研究院】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論