女朋友特别闷骚很吸引别人,色欲色香天天天综合网免费,无码专区

概要：今天我們將討論深度學(xué)習(xí)中最核心的問題之一：訓(xùn)練數(shù)據(jù)。

Hello World！

今天我們將討論深度學(xué)習(xí)中最核心的問題之一：訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)已經(jīng)在現(xiàn)實(shí)世界得到了廣泛運(yùn)用，例如：無人駕駛汽車，收據(jù)識(shí)別，道路缺陷自動(dòng)檢測，以及交互式電影推薦等等。

我們大部分的時(shí)間并不是花在構(gòu)建神經(jīng)網(wǎng)絡(luò)上，而是處理訓(xùn)練數(shù)據(jù)。深度學(xué)習(xí)需要大量的數(shù)據(jù)，然而有時(shí)候僅僅標(biāo)注一張圖像就需要花費(fèi)一個(gè)小時(shí)的時(shí)間！所以我們一直在考慮：能否找到一個(gè)方法來提升我們的工作效率？是的，我們找到了。

現(xiàn)在，我們很自豪的將Supervisely令人驚嘆的新特性公諸于世：支持AI的標(biāo)注工具來更快速地分割圖像上的對(duì)象。

在本文中，我們將重點(diǎn)介紹計(jì)算機(jī)視覺，但是，類似的思路也可用在大量不同類型的數(shù)據(jù)上，例如文本數(shù)據(jù)、音頻數(shù)據(jù)、傳感器數(shù)據(jù)、醫(yī)療數(shù)據(jù)等等。

重點(diǎn)：數(shù)據(jù)越多，AI越智能

讓我們以吳恩達(dá)非常著名的幻燈片開始，首先對(duì)其進(jìn)行小小的修改。

深度學(xué)習(xí)中最核心的問題之一：訓(xùn)練數(shù)據(jù)

深度學(xué)習(xí)的表現(xiàn)優(yōu)于其它機(jī)器學(xué)習(xí)算法早已不是什么秘密。從上圖可以得出以下結(jié)論。

結(jié)論 0：AI產(chǎn)品需要數(shù)據(jù)。

結(jié)論 1：獲得的數(shù)據(jù)越多，AI就會(huì)越智能。

結(jié)論 2：行業(yè)巨頭所擁有的數(shù)據(jù)量遠(yuǎn)超其它企業(yè)。

結(jié)論 3：AI產(chǎn)品的質(zhì)量差距是由其所擁有的數(shù)據(jù)量決定的。

因此，網(wǎng)絡(luò)架構(gòu)對(duì)AI系統(tǒng)的表現(xiàn)影響很大，但是訓(xùn)練數(shù)據(jù)的多少對(duì)系統(tǒng)表現(xiàn)的影響最大。致力于數(shù)據(jù)收集的公司可以提供更好的AI產(chǎn)品并獲得巨大的成功。

常見錯(cuò)誤：AI全都是關(guān)于構(gòu)建神經(jīng)網(wǎng)絡(luò)的。

深度學(xué)習(xí)中最核心的問題之一：訓(xùn)練數(shù)據(jù)

如上圖所示，當(dāng)人們一想到AI，就會(huì)想到算法，但是也應(yīng)該考慮到數(shù)據(jù)。算法是免費(fèi)的：谷歌和其他巨頭更傾向于向世界分享他們最先進(jìn)的(state-of-the-art)研究成果，但是他們從不會(huì)共享數(shù)據(jù)。

許多人已經(jīng)跳上了人工智能炒作的列車，并且創(chuàng)造了極棒的構(gòu)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò)的工具，然而關(guān)注訓(xùn)練數(shù)據(jù)的人卻少的可憐。當(dāng)企業(yè)打算將人工智能轉(zhuǎn)換成實(shí)際應(yīng)用時(shí)，會(huì)傾盡全部工具用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)，卻沒有用于開發(fā)訓(xùn)練數(shù)據(jù)上的工具。

吳恩達(dá)說論文已經(jīng)足夠了，現(xiàn)在讓我們來構(gòu)建AI吧！

好主意，我們完全贊同。目前有許多論文和開源成果論述了最先進(jìn)的（state of the art ）且涵蓋所有的實(shí)際應(yīng)用的神經(jīng)網(wǎng)絡(luò)架構(gòu)。想象一下，你獲得了一個(gè)價(jià)值10億美元的新想法。首先想到的肯定不會(huì)是：我將使用哪種類型的神經(jīng)網(wǎng)絡(luò)？最有可能的是：我在哪里可以得到能建立MVP的數(shù)據(jù)？

讓我們來尋找一些有效的方法訓(xùn)練數(shù)據(jù)，可行的方法如下：

1.開源數(shù)據(jù)集。深度神經(jīng)網(wǎng)絡(luò)（DNN）的價(jià)值是用于訓(xùn)練數(shù)據(jù)，在計(jì)算機(jī)視覺研究中，大多數(shù)可用數(shù)據(jù)都是針對(duì)特定研究小組所研究的課題而設(shè)計(jì)的，通常對(duì)于新研究人員來說，需要搜集更多額外的數(shù)據(jù)去解決他們自己的課題。這就是在大多數(shù)情況下開源數(shù)據(jù)集并不是一個(gè)解決方案的原因。

2.人工數(shù)據(jù)。它適用于類似OCR文字識(shí)別或者是文本檢測，然而很多實(shí)例（如人臉識(shí)別，醫(yī)學(xué)影像等）表明人工數(shù)據(jù)很難甚至是不可能產(chǎn)生，通常的做法是將人工數(shù)據(jù)和帶標(biāo)注的圖像相結(jié)合使用。

3.Web。自動(dòng)收集高質(zhì)量的訓(xùn)練數(shù)據(jù)是很難的，通常我們會(huì)對(duì)收集的訓(xùn)練數(shù)據(jù)進(jìn)行修正和過濾。

4.外面訂購圖像標(biāo)注服務(wù)。一些公司提供這樣的服務(wù)，我們也不例外。但其很大的缺點(diǎn)是不能進(jìn)行快速的迭代。通常，即使是數(shù)據(jù)專家也不確定如何標(biāo)注。通常的順序是做迭代研究：標(biāo)注圖像的一小部分→建立神經(jīng)網(wǎng)絡(luò)架構(gòu) →檢查結(jié)果。每個(gè)新的標(biāo)注都將會(huì)影響后續(xù)的標(biāo)注。

5.手動(dòng)標(biāo)注圖像。僅適用于你自己的工作，領(lǐng)域內(nèi)的專業(yè)知識(shí)是很關(guān)鍵的。醫(yī)學(xué)影像就是個(gè)很好的例子：只有醫(yī)生知道腫瘤在哪里。手動(dòng)注解圖像這個(gè)過程很耗時(shí)，但是如果你想要一個(gè)定制化的AI，也沒有其他辦法。

正如我們所看到的，其實(shí)并沒有萬能方法，最常見的方案是創(chuàng)建我們自己任務(wù)特定的訓(xùn)練數(shù)據(jù)，形成人工數(shù)據(jù)，如果可能的話再整合到公共數(shù)據(jù)集中。這其中的關(guān)鍵是，你必須為特定的任務(wù)建立自己獨(dú)一無二的數(shù)據(jù)集。

讓我們深入學(xué)習(xí)來構(gòu)建深度學(xué)習(xí)

深度學(xué)習(xí)接近于數(shù)據(jù)匱乏，且其性能極度依賴于可供訓(xùn)練數(shù)據(jù)的數(shù)量。

通過實(shí)例我們可以看出標(biāo)注的過程有多困難。這里是標(biāo)注過程所花費(fèi)時(shí)間的一些原始數(shù)據(jù)，例如使用Cityscapes數(shù)據(jù)集（用于無人駕駛），在對(duì)Cityscapes數(shù)據(jù)集中單個(gè)圖像的精細(xì)像素級(jí)的標(biāo)注平均需要花費(fèi)1.5h，如果標(biāo)注5000個(gè)圖像，則需要花費(fèi)5000*1.5=7500h。假設(shè)1h=＄10（美國最低工資），那么僅僅是標(biāo)注該數(shù)據(jù)集就需要花費(fèi)約＄7.5萬左右（不包括其他額外的成本）。同樣吃驚的是，像這樣一家擁有1000名做無人駕駛圖像標(biāo)注員工的公司，只不過是冰山一角。

神經(jīng)網(wǎng)絡(luò)能否幫助我們提高圖像標(biāo)注的效率呢？我們可不是第一個(gè)試圖回答這一問題的人。

半自動(dòng)化實(shí)例標(biāo)注很早就開始使用了，有很多經(jīng)典的方法可提高標(biāo)注的效率，如超像素塊算法(Superpixels)，分水嶺算法(Watershed)，GrabCut分割算法等。近幾年，研究人員試圖用深度學(xué)習(xí)完成這一任務(wù)（link1, link2, link3），這些經(jīng)典的算法有很多缺陷，需要很多超參數(shù)對(duì)每一幅圖像進(jìn)行檢索，難以對(duì)結(jié)果進(jìn)行標(biāo)準(zhǔn)化和修正。最新的基于深度學(xué)習(xí)的成果要好很多，但在大多情況下這些成果是不開源的。我們是第一個(gè)為每個(gè)人提供基于AI的標(biāo)注工具的人，我們自己獨(dú)立設(shè)計(jì)了與上邊三個(gè)links概念類似的神經(jīng)網(wǎng)絡(luò)架構(gòu)。它有一個(gè)很大的優(yōu)勢：我們的神經(jīng)網(wǎng)絡(luò)不需要對(duì)對(duì)象實(shí)例進(jìn)行分類。這就意味著，可以對(duì)行人、汽車、路面上的凹陷處、醫(yī)學(xué)影像上的腫瘤、室內(nèi)場景、食物成分、衛(wèi)星上的物體等等進(jìn)行分割。

那么，它是如何工作的呢？如下圖所示：

你只需要剪裁感興趣的對(duì)象，然后神經(jīng)網(wǎng)絡(luò)將會(huì)對(duì)其進(jìn)行分割。人機(jī)交互非常重要，你可以點(diǎn)擊圖像的內(nèi)部和外部標(biāo)簽進(jìn)行修正錯(cuò)誤。

語義分割是將圖像劃分為多個(gè)預(yù)定義語義類別的區(qū)域，與它不同的是，我們的交互式圖像分割旨在根據(jù)用戶的輸入提取其感興趣的對(duì)象。

交互式分割的主要目標(biāo)是根據(jù)用戶最少的操作，即可精確的提取對(duì)象以改善整體的用戶體驗(yàn)，因此我們大大提高了標(biāo)注的效率。

這是我們的第一次嘗試，當(dāng)然在有些情況下，好的標(biāo)注依然會(huì)有缺陷。我們會(huì)不斷的提高質(zhì)量，并做出適用于領(lǐng)域適應(yīng)性的簡單方法：在不編碼的情況下，為適應(yīng)內(nèi)部特定的任務(wù)自定義工具。

結(jié)語

數(shù)據(jù)是深度學(xué)習(xí)的關(guān)鍵，訓(xùn)練數(shù)據(jù)是費(fèi)時(shí)和高代價(jià)的。但是我們和深度學(xué)習(xí)的團(tuán)體積極嘗試著去解決訓(xùn)練數(shù)據(jù)的問題，并且成功的邁出了第一步，希望能夠在以后提供更好的解決方案。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6715

瀏覽量
88311
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5422

瀏覽量
120592

原文標(biāo)題：深度學(xué)習(xí)的核心：掌握訓(xùn)練數(shù)據(jù)的方法

文章出處：【微信號(hào)：AItists，微信公眾號(hào)：人工智能學(xué)家】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

利用Matlab函數(shù)實(shí)現(xiàn)深度學(xué)習(xí)算法

在Matlab中實(shí)現(xiàn)深度學(xué)習(xí)算法是一個(gè)復(fù)雜但強(qiáng)大的過程，可以應(yīng)用于各種領(lǐng)域，如圖像識(shí)別、自然語言處理、時(shí)間序列預(yù)測等。這里，我將概述一個(gè)基本的流程，包括環(huán)境設(shè)置、

發(fā)表于 07-14 14:21 ?1166次閱讀

基于Python的深度學(xué)習(xí)人臉識(shí)別方法

基于Python的深度學(xué)習(xí)人臉識(shí)別方法是一個(gè)涉及多個(gè)技術(shù)領(lǐng)域的復(fù)雜話題，包括計(jì)算機(jī)視覺、深度學(xué)習(xí)、以及圖像處理等。在這里，我將概述

發(fā)表于 07-14 11:52 ?941次閱讀

預(yù)訓(xùn)練和遷移學(xué)習(xí)的區(qū)別和聯(lián)系

預(yù)訓(xùn)練和遷移學(xué)習(xí)是深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域中的兩個(gè)重要概念，它們?cè)谔岣吣Ｐ托阅?、減少訓(xùn)練時(shí)間和降低

發(fā)表于 07-11 10:12 ?357次閱讀

深度學(xué)習(xí)模型中的過擬合與正則化

在深度學(xué)習(xí)的廣闊領(lǐng)域中，模型訓(xùn)練的核心目標(biāo)之一是實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的準(zhǔn)確預(yù)測。然而，在實(shí)際應(yīng)用中，我

發(fā)表于 07-09 15:56 ?390次閱讀

深度學(xué)習(xí)的基本原理與核心算法

隨著大數(shù)據(jù)時(shí)代的到來，傳統(tǒng)機(jī)器學(xué)習(xí)方法在處理復(fù)雜模式上的局限性日益凸顯。深度學(xué)習(xí)（Deep Learning）作為一種新興的人工智能技術(shù)，以

發(fā)表于 07-04 11:44 ?1078次閱讀

深度學(xué)習(xí)的典型模型和訓(xùn)練過程

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支，近年來在圖像識(shí)別、語音識(shí)別、自然語言處理等多個(gè)領(lǐng)域取得了顯著進(jìn)展。其核心在于通過構(gòu)建復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，從大規(guī)模

發(fā)表于 07-03 16:06 ?663次閱讀

PyTorch如何訓(xùn)練自己的數(shù)據(jù)集

PyTorch是一個(gè)廣泛使用的深度學(xué)習(xí)框架，它以其靈活性、易用性和強(qiáng)大的動(dòng)態(tài)圖特性而聞名。在訓(xùn)練深度學(xué)習(xí)

發(fā)表于 07-02 14:09 ?540次閱讀

TensorFlow與PyTorch深度學(xué)習(xí)框架的比較與選擇

深度學(xué)習(xí)作為人工智能領(lǐng)域的一個(gè)重要分支，在過去十年中取得了顯著的進(jìn)展。在構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型的

發(fā)表于 07-02 14:04 ?584次閱讀

深度學(xué)習(xí)模型訓(xùn)練過程詳解

深度學(xué)習(xí)模型訓(xùn)練是一個(gè)復(fù)雜且關(guān)鍵的過程，它涉及大量的數(shù)據(jù)、計(jì)算資源和精心設(shè)計(jì)的算法。訓(xùn)練

發(fā)表于 07-01 16:13 ?488次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)工件切割點(diǎn)位置預(yù)測，主要是通過對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上

發(fā)表于 12-22 11:07 ?606次閱讀

如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測與圓心位置預(yù)測

Hello大家好，今天給大家分享一下如何基于深度學(xué)習(xí)模型訓(xùn)練實(shí)現(xiàn)圓檢測與圓心位置預(yù)測，主要是通過對(duì)YOLOv8姿態(tài)評(píng)估模型在自定義的數(shù)據(jù)集上

發(fā)表于 12-21 10:50 ?1397次閱讀

深度學(xué)習(xí)如何訓(xùn)練出好的模型

算法工程、數(shù)據(jù)派THU深度學(xué)習(xí)在近年來得到了廣泛的應(yīng)用，從圖像識(shí)別、語音識(shí)別到自然語言處理等領(lǐng)域都有了卓越的表現(xiàn)。但是，要訓(xùn)練出一個(gè)高效準(zhǔn)確

發(fā)表于 12-07 12:38 ?947次閱讀

GPU在深度學(xué)習(xí)中的應(yīng)用與優(yōu)勢

學(xué)習(xí)中究竟擔(dān)當(dāng)了什么樣的角色？又有哪些優(yōu)勢呢？一、GPU加速深度學(xué)習(xí)訓(xùn)練并行處理GPU的核心理念

發(fā)表于 12-06 08:27 ?1090次閱讀

GPU的張量核心：深度學(xué)習(xí)的秘密武器

。深度學(xué)習(xí)中的大規(guī)模矩陣和張量運(yùn)算是計(jì)算密集型的，正是GPU的張量核心賦予了GPU這一計(jì)算工具在深度學(xué)習(xí)

發(fā)表于 09-26 08:29 ?760次閱讀

視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架Torchvision介紹

Torchvision是基于Pytorch的視覺深度學(xué)習(xí)遷移學(xué)習(xí)訓(xùn)練框架，當(dāng)前支持的圖像分類、對(duì)象檢測、實(shí)例分割、語義分割、姿態(tài)評(píng)估模型的遷移學(xué)習(xí)

發(fā)表于 09-22 09:49 ?748次閱讀