国产精品jizz视频国产,久久香蕉国产精品观看,高清无码A片天天操天天操

我們對(duì)機(jī)器學(xué)習(xí)的發(fā)展認(rèn)識(shí)，很大程度上取決于少數(shù)幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)，比如CIFAR-10，ImageNet或MuJoCo。

近年來人工智能發(fā)展，大的，比如一項(xiàng)又一項(xiàng)“超越人類水平”的進(jìn)步，以及小的、甚至幾乎每天都在發(fā)生的（這要感謝Arxiv），比如在各種論文中不斷被刷新的“state-of-the-art”，無不讓人感嘆領(lǐng)域的蓬勃。

但是，實(shí)際情況或許并沒有這么美好。

一項(xiàng)伯克利和MIT合作的新研究，對(duì)過去近十年中提出的一些經(jīng)典分類器（比如VGG和ResNet）進(jìn)行再測(cè)試后發(fā)現(xiàn)，由于測(cè)試集過擬合，很多分類器的精度實(shí)際并沒有宣稱的那么高；在新的數(shù)據(jù)集上測(cè)試結(jié)果表明，這些分類器的精度普遍都有下降，幅度4%~10%不等。

研究者表示，這一結(jié)果可以被視為證據(jù)，證明模型的精度這個(gè)數(shù)字是不可靠的，并且容易受到數(shù)據(jù)分布中微小的自然變化的影響。

這項(xiàng)新的研究也提出了一個(gè)值得反思的問題——我們目前用來衡量機(jī)器學(xué)習(xí)進(jìn)展的手段和方法，究竟有多可靠？

重復(fù)使用相同的測(cè)試集，無法推廣到新數(shù)據(jù)

作者在論文中寫道，在過去五年里，機(jī)器學(xué)習(xí)已經(jīng)成為一個(gè)實(shí)驗(yàn)領(lǐng)域。在深度學(xué)習(xí)的推動(dòng)下，大多數(shù)發(fā)表的論文都采用了同一種套路，那就是看一種新的方法在幾個(gè)關(guān)鍵基準(zhǔn)上性能有多少提升。換句話說，就是簡(jiǎn)單粗暴地對(duì)比數(shù)值，很少有人去解釋為什么。

而在對(duì)比數(shù)值的時(shí)候，大多數(shù)研究的評(píng)估都取決于少數(shù)幾個(gè)標(biāo)準(zhǔn)的基準(zhǔn)，例如CIFAR-10、ImageNet或MuJoCo。不僅如此，由于Ground truth的數(shù)據(jù)分布一般很難得到，所以研究人員只能在單獨(dú)的測(cè)試集上評(píng)估模型的性能。

“現(xiàn)在，在整個(gè)算法和模型設(shè)計(jì)過程中，多次重復(fù)使用相同的測(cè)試集的做法已經(jīng)被普遍接受。盡管將新模型與以前的結(jié)果進(jìn)行比較是很自然的想法，但顯然目前的研究方法破壞了分類器獨(dú)立于測(cè)試集這一關(guān)鍵假設(shè)。”

這種不匹配帶來了明顯的危害，因?yàn)檠芯咳藛T可以很容易地設(shè)計(jì)出只能在特定測(cè)試集上運(yùn)行良好，但實(shí)際上無法推廣到新數(shù)據(jù)的模型。

CIFAR-10可重復(fù)性實(shí)驗(yàn)：VGG、ResNet等經(jīng)典模型精度普遍下降

為了審視這種現(xiàn)象造成的后果，研究人員對(duì)CIFAR-10以及相關(guān)分類器做了再調(diào)查。研究的主要目標(biāo)是，衡量新進(jìn)的分類器在泛化到來自相同分布的、未知新數(shù)據(jù)時(shí)能做得多好。

選擇標(biāo)準(zhǔn)CIFAR-10數(shù)據(jù)集，是因?yàn)樗该鞯膭?chuàng)建過程使其特別適合于這個(gè)任務(wù)。此外，CIFAR-10已經(jīng)成為近10年來研究的熱點(diǎn)，在調(diào)查適應(yīng)性（adaptivity）是否導(dǎo)致過擬合這個(gè)問題上，它是一個(gè)很好的測(cè)試用例。

在實(shí)驗(yàn)中，研究人員首先用新的、確定是模型沒有見過的大約2000幅圖像，制作了一個(gè)新的測(cè)試集，并將新測(cè)試集的子類分布與原始 CIFAR-10 數(shù)據(jù)集仔細(xì)地做匹配，盡可能保持一致。

然后，在新測(cè)試集上評(píng)估了30個(gè)圖像分類器的性能，包括經(jīng)典的VGG、ResNet，最近新提出的ResNeXt、PyramidNet、DenseNet，以及在ICLR 2018發(fā)布的Shake-Drop，這個(gè)Shake-Drop正則化方法結(jié)合以前的分類器，取得了目前的state-of-art。

結(jié)果如下表所示。原始CIFAR-10測(cè)試集和新測(cè)試集的模型精度，Gap是兩者精度的差異。ΔRank表示排名的變化，比如“-2”意味著在新測(cè)試集中的排名下降了兩個(gè)位置。

由結(jié)果可知，新測(cè)試集上模型的精度相比原始測(cè)試集有明顯下降。例如，VGG和ResNet這兩個(gè)模型在原始數(shù)據(jù)集上準(zhǔn)確率為93%，而在新測(cè)試集上降為了85%左右。此外，作者還表示，他們發(fā)現(xiàn)現(xiàn)有測(cè)試集上模型的性能相比新測(cè)試集更加具有預(yù)測(cè)性。

對(duì)于出現(xiàn)這種結(jié)果的原因，作者設(shè)定了多個(gè)假設(shè)并一一進(jìn)行了討論，除了統(tǒng)計(jì)誤差、調(diào)參等之外，主要還是過擬合。

作者表示，他們的結(jié)果展現(xiàn)了當(dāng)前機(jī)器學(xué)習(xí)進(jìn)展令人意外的一面。盡管CIFAR-10測(cè)試集已經(jīng)被不斷適應(yīng)（adapting）了很多年，但這種趨勢(shì)并沒有停滯。表現(xiàn)最好的模型仍然是最近提出的Shake-Shake網(wǎng)絡(luò)（Cutout正則化）。而且，在新的測(cè)試集置上，Shake-Shake比標(biāo)準(zhǔn)ResNet的優(yōu)勢(shì)從4％增加到8％。這表明，瞄準(zhǔn)一個(gè)測(cè)試集猛攻的研究方法對(duì)過擬合而言是十分有效的。

同時(shí)，這個(gè)結(jié)果也對(duì)當(dāng)前分類器的魯棒性提出了質(zhì)疑。盡管新數(shù)據(jù)集只做了微小的改變（分布轉(zhuǎn)移），但現(xiàn)有的被廣泛使用的模型，分類準(zhǔn)確性普遍顯著下降。例如，前面提到的VGG和ResNet的精度損失對(duì)應(yīng)于CIFAR-10的多年進(jìn)展。

作者特別指出，他們的實(shí)驗(yàn)引起的分布轉(zhuǎn)移（distributional shift）既不是對(duì)抗性的（adversarial），也不是不同數(shù)據(jù)源導(dǎo)致的結(jié)果。因此，即使在良性環(huán)境中，分布轉(zhuǎn)移也會(huì)帶來嚴(yán)峻的挑戰(zhàn)，研究人員需要思考，目前的模型真正能泛化到什么程度。

機(jī)器學(xué)習(xí)研究也需要注意可重復(fù)性

Python Machine Learning 一書作者Sebastian Raschka評(píng)論這項(xiàng)研究認(rèn)為，它再次提醒機(jī)器學(xué)習(xí)研究人員注意測(cè)試集重復(fù)使用（以及違背獨(dú)立性）的問題。

谷歌大腦研究科學(xué)家、Twitter賬戶hardmaru表示，對(duì)機(jī)器學(xué)習(xí)研究進(jìn)行可靠評(píng)估的方法十分重要。他期待見到有關(guān)文本和翻譯的類似研究，并查看PTB，wikitext，enwik8，WMT'14 EN-FR，EN-DE等結(jié)構(gòu)如何從相同分布轉(zhuǎn)移到新的測(cè)試集。

不過，hardmaru表示，如果在PTB上得到類似的結(jié)果，那么對(duì)于深度學(xué)習(xí)研究界來說實(shí)際上是好事，因?yàn)樵赑TB這個(gè)小數(shù)據(jù)集上進(jìn)行超級(jí)優(yōu)化的典型過程，確實(shí)會(huì)讓人發(fā)現(xiàn)泛化性能更好的新方法。

作者表示，未來實(shí)驗(yàn)應(yīng)該探索在其他數(shù)據(jù)集（例如ImageNet）和其他任務(wù)（如語(yǔ)言建模）上是否同樣對(duì)過擬合具有復(fù)原性。此外，我們應(yīng)該了解哪些自然發(fā)生的分布變化對(duì)圖像分類器具有挑戰(zhàn)性。

為了真正理解泛化問題，更多的研究應(yīng)該收集有洞察力的新數(shù)據(jù)并評(píng)估現(xiàn)有算法在這些數(shù)據(jù)上的性能表現(xiàn)。類似于招募新參與者進(jìn)行醫(yī)學(xué)或心理學(xué)的可重復(fù)性實(shí)驗(yàn)，機(jī)器學(xué)習(xí)研究也需要對(duì)模型性能的可重復(fù)多做研究。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

MIT

MIT

+關(guān)注

關(guān)注
3

文章
253

瀏覽量
23312
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8306

瀏覽量
131848

原文標(biāo)題：十年機(jī)器學(xué)習(xí)結(jié)果不可靠？伯克利&MIT研究質(zhì)疑了30個(gè)經(jīng)典模型

文章出處：【微信號(hào)：worldofai，微信公眾號(hào)：worldofai】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AMD贊助多支FIRST機(jī)器人競(jìng)賽團(tuán)隊(duì)

AMD 在 2024 賽季贊助了多支 FIRST 機(jī)器人競(jìng)賽團(tuán)隊(duì)。FIRST 機(jī)器人競(jìng)賽旨在教導(dǎo)高中生如何構(gòu)建能夠執(zhí)行特定任務(wù)的機(jī)器人，同時(shí)也讓他們有機(jī)會(huì)

發(fā)表于 09-18 09:45 ?238次閱讀

衡量功率放大電路的參數(shù)有哪些

衡量功率放大電路的參數(shù)主要包括以下幾個(gè)方面： 1. 輸出功率（Output Power）定義：指在特定負(fù)載條件下，功率放大器能夠輸出的最大功率。單位：一般以瓦特(W)為單位進(jìn)行表示。重要性

發(fā)表于 09-03 09:35 ?170次閱讀

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取

方法為該時(shí)間序列填充缺失值。時(shí)間序列的縮放是指對(duì)原有的時(shí)間序列數(shù)據(jù)進(jìn)行數(shù)據(jù)范圍的調(diào)整，以便更好地完成后續(xù)的數(shù)據(jù)分析或機(jī)器學(xué)習(xí)任務(wù)。該節(jié)有講到時(shí)間序列的最小最大縮放、時(shí)間序列的最大絕對(duì)值縮放、時(shí)間序列

發(fā)表于 08-17 21:12

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】全書概覽與時(shí)間序列概述

時(shí)間序列中的自相關(guān)性。時(shí)間序列有基于線性場(chǎng)景，也有一些非線性性質(zhì)周期性和不對(duì)稱性、波動(dòng)的聚集性、波動(dòng)中出現(xiàn)的跳躍現(xiàn)象，以及時(shí)間的不可逆性。機(jī)器學(xué)習(xí)已經(jīng)是目前非線性時(shí)序分析的主攻方向之一。時(shí)間序列

發(fā)表于 08-07 23:03

如何理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集

理解機(jī)器學(xué)習(xí)中的訓(xùn)練集、驗(yàn)證集和測(cè)試集，是掌握機(jī)器學(xué)習(xí)核心概念和流程的重要一步。這三者不僅構(gòu)成了模型學(xué)習(xí)與評(píng)估的基礎(chǔ)框架，還直接關(guān)系到模型性

發(fā)表于 07-10 15:45 ?1573次閱讀

深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)的對(duì)比

在人工智能的浪潮中，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)無疑是兩大核心驅(qū)動(dòng)力。它們各自以其獨(dú)特的方式推動(dòng)著技術(shù)的進(jìn)步，為眾多領(lǐng)域帶來了革命性的變化。然而，盡管它們都屬于機(jī)器

發(fā)表于 07-01 11:40 ?622次閱讀

圖機(jī)器學(xué)習(xí)入門：基本概念介紹

圖機(jī)器學(xué)習(xí)（GraphMachineLearning，簡(jiǎn)稱GraphML）是機(jī)器學(xué)習(xí)的一個(gè)分支，專注于利用圖形結(jié)構(gòu)的數(shù)據(jù)。在圖形結(jié)構(gòu)中，數(shù)據(jù)以圖的形式表示，其中的節(jié)點(diǎn)（或頂點(diǎn)）表示實(shí)體

發(fā)表于 05-16 08:27 ?414次閱讀

圖<b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>入門：基本概念介紹

機(jī)器學(xué)習(xí)8大調(diào)參技巧

今天給大家一篇關(guān)于機(jī)器學(xué)習(xí)調(diào)參技巧的文章。超參數(shù)調(diào)優(yōu)是機(jī)器學(xué)習(xí)例程中的基本步驟之一。該方法也稱為超參數(shù)優(yōu)化，需要搜索超參數(shù)的最佳配置以實(shí)現(xiàn)最佳性能。

發(fā)表于 03-23 08:26 ?473次閱讀

多電機(jī)仿真篇丨雙電機(jī)實(shí)時(shí)仿真測(cè)試應(yīng)用

國(guó)內(nèi)虛擬研究平臺(tái)多基于單電機(jī)設(shè)計(jì)，而實(shí)際工業(yè)中多電機(jī)配合工作更為常見，如機(jī)器人、3D打印機(jī)等。多電機(jī)同步控制在工業(yè)自動(dòng)化生產(chǎn)系統(tǒng)中廣泛存在，但目前

發(fā)表于 03-19 16:13

人工智能和機(jī)器學(xué)習(xí)的頂級(jí)開發(fā)板有哪些？

機(jī)器學(xué)習(xí)（ML）和人工智能（AI）不再局限于高端服務(wù)器或云平臺(tái)。得益于集成電路（IC）和軟件技術(shù)的新發(fā)展，在微型控制器和微型計(jì)算機(jī)上實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法和深度

發(fā)表于 02-29 18:59 ?594次閱讀

物聯(lián)網(wǎng)與機(jī)器學(xué)習(xí)如何創(chuàng)造智能未來

和機(jī)器學(xué)習(xí)得到廣泛運(yùn)用，利用這些工具可以實(shí)現(xiàn)流程自動(dòng)化，提高生產(chǎn)力，并實(shí)時(shí)做出數(shù)據(jù)驅(qū)動(dòng)的抉擇和策略。智慧醫(yī)療隨著科技的發(fā)展，電子產(chǎn)品已經(jīng)成為我們生活中的必備用品，但

發(fā)表于 11-11 08:23 ?819次閱讀

全面總結(jié)機(jī)器學(xué)習(xí)中的優(yōu)化算法

幾乎所有的機(jī)器學(xué)習(xí)算法最后都?xì)w結(jié)為求一個(gè)目標(biāo)函數(shù)的極值，即最優(yōu)化問題，例如對(duì)于有監(jiān)督學(xué)習(xí)，我們要找到一個(gè)最佳的映射函數(shù)f (x)，使得對(duì)訓(xùn)練

發(fā)表于 11-02 10:18 ?364次閱讀

淺析機(jī)器學(xué)習(xí)的基本步驟

在機(jī)器學(xué)習(xí)中，機(jī)器學(xué)習(xí)的效率在很大程度上取決于它所提供的數(shù)據(jù)集，數(shù)據(jù)集的大小和豐富程度也決定了最終預(yù)測(cè)的結(jié)果質(zhì)量。目前在算力方面，量子計(jì)算能

發(fā)表于 10-30 11:13 ?334次閱讀

VisionFive 2 AOSP最新進(jìn)展即將發(fā)布！

非常開心地在這里和大家提前預(yù)告，我們即將發(fā)布VisionFive 2 集成 AOSP的最新進(jìn)展！請(qǐng)大家多多期待吧~ 此次通過眾多社區(qū)成員的支持和貢獻(xiàn)(https://github.com

發(fā)表于 10-08 09:15

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用

機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘方法和應(yīng)用（經(jīng)典）

發(fā)表于 09-26 07:56