0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進半監(jiān)督學習,取得令人矚目的成果

DPVg_AI_era ? 來源:lq ? 2019-07-13 07:31 ? 次閱讀

Google AI最新研究用無監(jiān)督數(shù)據(jù)增強推進半監(jiān)督學習,取得令人矚目的成果。該方法超越了所有現(xiàn)有的半監(jiān)督學習方法,并實現(xiàn)了僅使用極少量標記樣本即可達到使用大量標記樣本訓練集的精度。

深度學習之所以能夠成功的關(guān)鍵因素,是算法的進步,以及并行處理硬件GPU / TPU)以及大型標記數(shù)據(jù)集(如ImageNet)。

然而,當標記數(shù)據(jù)稀缺時,深度學習就像缺了一條腿。在這種情況下,需要應用數(shù)據(jù)增強方法,例如對句子進行釋義或?qū)D像進行旋轉(zhuǎn),以有效地增加標記的訓練數(shù)據(jù)的量。

如今,在諸如自然語言處理(NLP),視覺和語音等各種領(lǐng)域的數(shù)據(jù)增強方法的設計上,已經(jīng)取得了重大進展。不幸的是,數(shù)據(jù)增加通常僅限于監(jiān)督學習,需要標簽從原始示例轉(zhuǎn)移到增強示例。

上圖:基于文本(頂部)或基于圖像(底部)訓練數(shù)據(jù)的示例增強操作。

在谷歌最近“用于一致性訓練的無監(jiān)督數(shù)據(jù)增強(UDA)”的研究中,證明還可以對未標記數(shù)據(jù)執(zhí)行數(shù)據(jù)增強,以顯著改善半監(jiān)督學習(SSL)。

谷歌的結(jié)果促進了半監(jiān)督學習的復興,而且還發(fā)現(xiàn)3點有趣的現(xiàn)象:(1)SSL可以匹配甚至優(yōu)于使用數(shù)量級更多標記數(shù)據(jù)的純監(jiān)督學習。(2)SSL在文本和視覺兩個領(lǐng)域都能很好地工作。(3)SSL能夠與遷移學習很好地結(jié)合。

此外谷歌還開放了代碼在GitHub。

GitHub地址:

https://github.com/google-research/uda

無監(jiān)督數(shù)據(jù)擴充

無監(jiān)督數(shù)據(jù)增強同時使用標記數(shù)據(jù)和未標記數(shù)據(jù)。在標記數(shù)據(jù)方面,它使用監(jiān)督學習的標準方法來計算損失函數(shù)以訓練模型,如下圖的左側(cè)部分所示。

而對于未標記的數(shù)據(jù),則應用一致性訓練來強制預測未標記的示例和增強的未標記示例是否相似,如下圖的右側(cè)部分所示。

這里,相同的模型被同時應用于未標記的示例和增強的對應物,以產(chǎn)生兩個模型預測,從中計算一致性損失(即,兩個預測分布之間的距離)。

然后,UDA通過聯(lián)合優(yōu)化標記數(shù)據(jù)的監(jiān)督損失和未標記數(shù)據(jù)的無監(jiān)督一致性損失,來計算最終損失。

通過最小化一致性損失,UDA允許標簽信息從標記的示例平滑地傳播到未標記的示例。

直覺上,人們可以將UDA視為隱含的迭代過程:該模型依賴于少量標記的示例,來對一些未標記的示例進行正確的預測,從中通過一致性損失,并將標簽信息傳播到增強的對應物。隨著時間的推移,越來越多未標記的示例終將被正確預測,這反映了模型的改進的泛化。

谷歌對各種其他類型的噪聲進行一致性訓練測試(例如高斯噪聲、對抗性噪聲等)后,在各種各樣的噪聲上實現(xiàn)了最先進的性能。

UDA根據(jù)任務應用不同的現(xiàn)有增強方法,包括反向翻譯、自動增強和TF-IDF單詞替換。

新的NLP和計算機視覺的基準

UDA在低數(shù)據(jù)體系中出乎意料地有效。只用20個標記示例,UDA通過50000個未標記的示例,在IMDb情緒分析任務中實現(xiàn)了4.20的錯誤率。

該結(jié)果優(yōu)于先前使用25000個標記示例訓練的最先進模型(錯誤率為4.32)。在大數(shù)據(jù)制度中,通過完整的訓練集,UDA也提供了強大的收益。

IMDb的基準,是一種情緒分析任務。UDA在不同培訓規(guī)模的監(jiān)督學習中超越了最先進的成果,如下圖。

在CIFAR-10半監(jiān)督學習基準測試中,UDA的表現(xiàn)同樣優(yōu)于所有現(xiàn)有的SSL方法,如VAT、ICT和MixMatch。

在4k示例情況下,UDA實現(xiàn)了5.27的錯誤率,與使用50k示例的完全監(jiān)督模型的性能相匹配。

此外,通過更先進的PyramidNet+ShakeDro架構(gòu)p,UDA實現(xiàn)了2.7的新的最新錯誤率,與之前的最佳半監(jiān)督結(jié)果相比,錯誤率降低了45%以上。

在SVHN上,UDA僅使用250個標記示例,就實現(xiàn)了2.85的錯誤率,與使用70k標記示例訓練的完全監(jiān)督模型的性能相匹配。

CIFAR-10的SSL基準測試,圖像分類任務。UDA超越了所有現(xiàn)有的半監(jiān)督學習方法,所有這些方法都使用Wide-ResNet-28-2架構(gòu)。在4000個示例中,UDA將完全監(jiān)督設置的性能與50000個示例相匹配。

在具有10%標記示例的ImageNet上,UDA將TOP 1精度從55.1%提高到68.7%。

在具有完全標記集和1.3M額外未標記示例的高數(shù)據(jù)體系中,UDA繼續(xù)為前1精度提供78.3%至79.0%的增益。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1748

    瀏覽量

    57182
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4237

    瀏覽量

    61965
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24536

原文標題:讓半監(jiān)督學習再次偉大!谷歌最新無監(jiān)督數(shù)據(jù)增強研究,全面超越現(xiàn)有半監(jiān)督學習方法

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學習數(shù)據(jù)增強技術(shù)

    本文提出了一種適用于任意數(shù)據(jù)模態(tài)的自監(jiān)督學習數(shù)據(jù)增強技術(shù)。 ? 自監(jiān)督學習算法在自然語言處理、計算機視覺等領(lǐng)域
    的頭像 發(fā)表于 09-04 10:07 ?973次閱讀
    適用于任意<b class='flag-5'>數(shù)據(jù)</b>模態(tài)的自<b class='flag-5'>監(jiān)督學習</b><b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>增強</b>技術(shù)

    基于監(jiān)督學習的跌倒檢測系統(tǒng)設計_李仲年

    基于監(jiān)督學習的跌倒檢測系統(tǒng)設計_李仲年
    發(fā)表于 03-19 19:11 ?4次下載

    基于監(jiān)督學習框架的識別算法

    人體行為識別是計算機視覺研究的熱點問題,現(xiàn)有的行為識別方法都是基于監(jiān)督學習框架.為了取得較好的識別效果,通常需要大量的有標記樣本來建模.然而,獲取有標記樣本是一個費時又費力的工作.為了解決這個
    發(fā)表于 01-21 10:41 ?1次下載

    你想要的機器學習課程筆記在這:主要討論監(jiān)督學習監(jiān)督學習

    with experience E(一個程序從經(jīng)驗E中學習解決任務T進行某一任務量度P,通過P測量在T的表現(xiàn)而提高經(jīng)驗E(另一種定義:機器學習數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序
    發(fā)表于 12-03 17:12 ?506次閱讀

    如何用Python進行監(jiān)督學習

    監(jiān)督學習是一種用于在數(shù)據(jù)中查找模式的機器學習技術(shù)。監(jiān)督算法給出的
    的頭像 發(fā)表于 01-21 17:23 ?4137次閱讀

    谷歌:監(jiān)督學習其實正在悄然的進化

    上圖可以看出來,最開始的時候,監(jiān)督學習訓練確實有種提升監(jiān)督學習效果的趨勢,然而實際操作中,我們經(jīng)常陷入從“可怕又不可用”的狀態(tài),到“不那么可怕但仍然完全不可用”。
    的頭像 發(fā)表于 05-25 09:58 ?2851次閱讀
    谷歌:<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學習</b>其實正在悄然的進化

    監(jiān)督機器學習如何保護金融

    監(jiān)督機器學習是近年才發(fā)展起來的反欺詐手法。目前國內(nèi)反欺詐金融服務主要是應用黑白名單、有監(jiān)督學習監(jiān)督
    發(fā)表于 05-01 22:11 ?967次閱讀

    機器學習算法中有監(jiān)督監(jiān)督學習的區(qū)別

    監(jiān)督學習的好處之一是,它不需要監(jiān)督學習必須經(jīng)歷的費力的數(shù)據(jù)標記過程。但是,要權(quán)衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學習
    的頭像 發(fā)表于 07-07 10:18 ?5602次閱讀

    最基礎的監(jiān)督學習

    標記數(shù)據(jù)訓練的監(jiān)督學習技術(shù)得到更好的結(jié)果。這是監(jiān)督學習系列文章的第1部分,對這個機器學習的重要子領(lǐng)域進行了簡要的介紹。 區(qū)分
    的頭像 發(fā)表于 11-02 16:08 ?2532次閱讀

    監(jiān)督學習最基礎的3個概念

    有趣的方法,用來解決機器學習中缺少標簽數(shù)據(jù)的問題。SSL利用未標記的數(shù)據(jù)和標記的數(shù)據(jù)集來學習任務。SSL的目標是得到比單獨使用標記
    的頭像 發(fā)表于 11-02 16:14 ?2861次閱讀
    <b class='flag-5'>半</b><b class='flag-5'>監(jiān)督學習</b>最基礎的3個概念

    為什么監(jiān)督學習是機器學習的未來?

    揭示了添加監(jiān)督數(shù)據(jù)可以提高模型泛化和性能。事實上,在非常多的場景中,帶有標簽的數(shù)據(jù)并不容易獲得。監(jiān)督
    的頭像 發(fā)表于 11-27 10:42 ?3804次閱讀

    監(jiān)督學習:比監(jiān)督學習做的更好

    監(jiān)督學習是人工智能領(lǐng)域的第一種學習類型。從它的概念開始,無數(shù)的算法,從簡單的邏輯回歸到大規(guī)模的神經(jīng)網(wǎng)絡,都已經(jīng)被研究用來提高精...
    的頭像 發(fā)表于 12-08 23:32 ?1315次閱讀

    機器學習中的監(jiān)督學習應用在哪些領(lǐng)域

    監(jiān)督學習|機器學習| 集成學習|進化計算| 非監(jiān)督學習| 監(jiān)督學習| 自
    發(fā)表于 01-20 10:52 ?4819次閱讀
    機器<b class='flag-5'>學習</b>中的<b class='flag-5'>無</b><b class='flag-5'>監(jiān)督學習</b>應用在哪些領(lǐng)域

    監(jiān)督學習代碼庫存在的問題與挑戰(zhàn)

    當使用監(jiān)督學習(Supervised Learning)對大量高質(zhì)量的標記數(shù)據(jù)(Labeled Data)進行訓練時,神經(jīng)網(wǎng)絡模型會產(chǎn)生有競爭力的結(jié)果。例如,根據(jù)Paperswithcode網(wǎng)站統(tǒng)計
    的頭像 發(fā)表于 10-18 16:28 ?1175次閱讀

    深度學習中的監(jiān)督學習方法綜述

    深度學習作為機器學習領(lǐng)域的一個重要分支,近年來在多個領(lǐng)域取得了顯著的成果,特別是在圖像識別、語音識別、自然語言處理等領(lǐng)域。然而,深度學習模型
    的頭像 發(fā)表于 07-09 10:50 ?216次閱讀