国产美女被遭强高潮免费网站,全色黄大色大片免费久久老太,国产揉捏爆乳巨胸挤奶视频

編者按：很多現(xiàn)實中的任務(wù)都有著復(fù)雜的目標或者很難詳細表述出的目標，這就很難衡量機器在此任務(wù)上的表現(xiàn)結(jié)果。其中一種解決辦法是，人類通過演示或判斷提供訓(xùn)練信號，但是這種方法在復(fù)雜情況下很容易失效。現(xiàn)在，OpenAI提出了一種方法，能夠為復(fù)雜任務(wù)生成訓(xùn)練信號。以下是論智對原文的編譯。

我們提出的技術(shù)稱作迭代擴增（iterated amplification），它能讓我們清楚的了解超越了人類能力的復(fù)雜行為和目標。與提供標簽數(shù)據(jù)或獎勵函數(shù)不同，我們的方法是將一個任務(wù)分解成多個更簡單的小任務(wù)。盡管這一想法還處在初級階段，而且一直在簡單的游戲算法中進行了實驗，不過我們還是決定分享出它的初期狀態(tài)，因為我們認為它將是保證AI安全非常有用的方法。

論文地址：arxiv.org/abs/1810.08575

如果我們想訓(xùn)練一個機器學(xué)習(xí)系統(tǒng)執(zhí)行任務(wù)，就需要一個訓(xùn)練信號，這是一種衡量系統(tǒng)表現(xiàn)的方法，從而能幫助它更好地學(xué)習(xí)。例如，監(jiān)督學(xué)習(xí)中的標簽或強化學(xué)習(xí)中的獎勵都可以看作訓(xùn)練信號。機器學(xué)習(xí)的組織規(guī)則通常假設(shè)一種訓(xùn)練信號已經(jīng)有現(xiàn)成的了，我們應(yīng)該關(guān)注從中學(xué)習(xí)，但是事實上，訓(xùn)練信號必須從別處得到。如果沒有訓(xùn)練信號，就無法學(xué)習(xí)任務(wù)。如果得到了錯誤的訓(xùn)練信號，就會得到錯誤、甚至危險的行為。所以，提高生成訓(xùn)練信號的能力對學(xué)習(xí)新任務(wù)和AI安全性都是有利的。

目前我們是如何生成訓(xùn)練信號的呢？有時，我們想實現(xiàn)的目標可以用算法進行評估，例如在圍棋比賽中計算得分或者是否成功得到了一定的分數(shù)。大多數(shù)現(xiàn)實任務(wù)都不適合算法訓(xùn)練信號，但是通常我們可以通過人類執(zhí)行任務(wù)或判斷AI的性能獲得訓(xùn)練信號。但是大多數(shù)任務(wù)都很復(fù)雜，人類無法進行判斷或很好地執(zhí)行，它們可能具有復(fù)雜的轉(zhuǎn)接系統(tǒng)或者有多種安全問題。

迭代擴增就是為第二種類型的任務(wù)設(shè)計的生成訓(xùn)練信號的方法。換句話說，雖然人類不能直接進行全部任務(wù)，但是我們假設(shè)他可以清楚地辨別某種任務(wù)中的各種組成部分。例如，在計算機的網(wǎng)絡(luò)案例中，人類可以將“保護服務(wù)器和路由器”的任務(wù)分解成“了解服務(wù)器受到的攻擊”、“了解路由器受到的攻擊”以及“這兩種攻擊如何交互”。另外，我們假設(shè)人類可以完成任務(wù)的一些很小實例，例如“辨別日志文件中可疑的特定代碼”。如果這些可以實現(xiàn)，那么我們就能通過人類在小任務(wù)上的訓(xùn)練信號搭建大型任務(wù)的訓(xùn)練信號。

在我們實施迭代擴增的過程中，我們首先對小的子任務(wù)進行采樣，訓(xùn)練AI系統(tǒng)模擬人類示范完成任務(wù)。之后，我們開始收集稍大型的任務(wù)，解決的方法是先讓人們將其分為小部分，經(jīng)過訓(xùn)練的AI就能解決這些小問題。這種方法常用于稍困難的任務(wù)中，其中加入了人類的幫助，作為訓(xùn)練信號來訓(xùn)練AI系統(tǒng)解決多層任務(wù)。之后在解決更復(fù)雜的任務(wù)時，重復(fù)搭建這樣的訓(xùn)練模型即可。如果這一過程可行，最終就能生成一個完全自動的解決復(fù)雜任務(wù)的系統(tǒng)，不論初期是否有直接的訓(xùn)練信號。這一過程有點像AlphaGo Zero中使用的expert iteration，只不過expert iteration是對現(xiàn)有的訓(xùn)練信號進行強化，而我們的iterated amplification是從零創(chuàng)造訓(xùn)練信號。它還類似于最近的幾種學(xué)習(xí)算法，例如在測試時利用問題分解解決某個任務(wù)，但是不同的是它是在沒有先驗訓(xùn)練信號的情況下操作的。

實驗

基于此前研究AI辯論的經(jīng)驗，我們認為直接處理超越人類尺度的任務(wù)對一個原型項目來說太難了。同時，利用人類的實際行為作為訓(xùn)練信號也比較復(fù)雜，所以我們還沒有解決這一點。在我們的第一個實驗中，我們嘗試擴大一個算法訓(xùn)練信號，來證明iterated amplification可以在這一簡單的設(shè)置上工作。我們同樣將注意力限制在監(jiān)督學(xué)習(xí)上。

我們在五個不同的玩具算法任務(wù)中測試了這種方法，這些任務(wù)都有直接的算法解決方案，但我們假裝不知道（例如，尋找圖中兩點之間的最短路線），不過，若想把每個片段手動組合起來就需要大量精力。我們使用迭代擴增來學(xué)習(xí)只使用片段作為訓(xùn)練信號的直接算法，從而模擬人類知道如何組合解決方法片段、但沒有直接的訓(xùn)練信號的情況。

在這五個任務(wù)中（排列供電、順序分配、通配符搜索、最短路徑查詢以及聯(lián)合查找），結(jié)果與直接通過監(jiān)督學(xué)習(xí)解決的任務(wù)表現(xiàn)相當(dāng)。

擴增方法和此前對AI安全的辯論研究有很多相似特征。和辯論相似的是，它也是訓(xùn)練模型在人類無法完成的任務(wù)上直接執(zhí)行或判斷，通過迭代過程讓人類提供間接的監(jiān)督，不過具體方法并不相同。未來，我們會加入人類的反饋機制。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

函數(shù)

函數(shù)

+關(guān)注

關(guān)注
3

文章
4240

瀏覽量
61998
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8308

瀏覽量
131896

原文標題：任務(wù)太龐大？OpenAI用“迭代擴增”學(xué)習(xí)復(fù)雜任務(wù)

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一種基于MATLAB的WCDMA信號仿真方法

摘要：本文以3GPP提出的3G TS25．213協(xié)議為依據(jù)，提供了一種時WCDMA物理層調(diào)制與解調(diào)的仿真方法。并通過實例，給出了WCDMA 系統(tǒng)對信源消息的處理流程。為WCDMA

發(fā)表于 07-14 11:13

淺談一種高斯隨機噪聲生成方法

本文提出了一種面向硬件的均值、方差的高斯隨機噪聲生成方法。

發(fā)表于 06-03 07:05

探索一種降低ViT模型訓(xùn)練成本的方法

（1 GPU）和時間（24小時）資源下從頭開始訓(xùn)練ViT模型。首先，提出了一種向ViT架構(gòu)添加局部性的有效方法。其次，開發(fā)了一種新的圖像大小

發(fā)表于 11-24 14:56

μClinux下實時任務(wù)的一種實現(xiàn)方法

文中以ARM7 TDMI 處理器為例，闡述了μClinux 進程調(diào)度的原理。根據(jù)該原理，提出了一種在μClinux 平臺下實現(xiàn)實時任務(wù)的設(shè)計方法，這

發(fā)表于 08-29 09:19 ?11次下載

得到模擬應(yīng)用設(shè)計經(jīng)驗的一種方法

得到模擬應(yīng)用設(shè)計經(jīng)驗的一種方法

發(fā)表于 01-24 16:29 ?8次下載

關(guān)于實時操作系統(tǒng)中任務(wù)間通信的一種方法

關(guān)于實時操作系統(tǒng)中任務(wù)間通信的一種方法

發(fā)表于 09-03 11:45 ?3次下載

DSP硬件驅(qū)動程序的一種方法

DSP硬件驅(qū)動程序的一種方法

發(fā)表于 10-19 10:48 ?1次下載

一種新的DEA公共權(quán)重生成方法

針對傳統(tǒng)數(shù)據(jù)包絡(luò)分析（DEA）公共權(quán)重生成方法不同時具備線性、規(guī)模無關(guān)優(yōu)點的問題，根據(jù)軍事訓(xùn)練績效評估需求，提出了一種新的DEA公共權(quán)重生成方法

發(fā)表于 01-13 11:03 ?0次下載

從電路的角度出發(fā)，提出了一種新的SOC跨時鐘域同步電路設(shè)計的方法

針對當(dāng)前SOC內(nèi)部時鐘越來越復(fù)雜、接口越來越多以及亞穩(wěn)態(tài)、漏信號等常見的各種問題，分析了以往的優(yōu)化方法的優(yōu)缺點，然后從電路的角度出發(fā)，提出了一種

發(fā)表于 02-09 14:30 ?6563次閱讀

OpenAI的研究人員提出了一種全新的AI安全策略——迭代放大法

本文提出的迭代放大，是一種在確定性假設(shè)下為后續(xù)任務(wù)生成訓(xùn)練假設(shè)的方法。實際上，雖然人類不能在全局

發(fā)表于 10-26 10:52 ?3176次閱讀

OpenAI提出了一種回報設(shè)置方法RND

在開發(fā)RND之前，OpenAI的研究人員和加州大學(xué)伯克利分校的學(xué)者進行了合作，他們測試了在沒有環(huán)境特定回報的情況下，智能體的學(xué)習(xí)情況。因為從理論上來說，好奇心提供了一種更簡單的方法來教授智能體如何與各種環(huán)境進行交互，它不需要人為

發(fā)表于 11-05 15:15 ?3073次閱讀

微軟在ICML 2019上提出了一個全新的通用預(yù)訓(xùn)練方法MASS

專門針對序列到序列的自然語言生成任務(wù)，微軟亞洲研究院提出了新的預(yù)訓(xùn)練方法：屏蔽序列到序列預(yù)訓(xùn)練（MASS: Masked Sequence

發(fā)表于 05-11 09:19 ?3396次閱讀

一種針對該文本檢索任務(wù)的BERT算法方案DR-BERT

基于MS MARCO數(shù)據(jù)集，微軟提出了兩種不同的任務(wù)：一種是給定問題，檢索所有數(shù)據(jù)集中的文檔并進行排序，屬于文檔檢索和排序任務(wù)；另

發(fā)表于 08-27 18:05 ?3987次閱讀

一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型

和理解能力。為此，提岀一種基于多任務(wù)聯(lián)合訓(xùn)練的閱讀理解模型，該模型是由一組功能各異的神經(jīng)絡(luò)構(gòu)成的聯(lián)合學(xué)習(xí)模型，其仿效人們推理和回答冋題的基本方式分別執(zhí)行文檔選擇和答案抽取兩個關(guān)鍵步驟。

發(fā)表于 03-16 11:41 ?10次下載

一種基于改進的DCGAN生成SAR圖像的方法

針對SAR圖像識別軟件，通過改進 DCGAN模型單生成器與單判別器對抗的結(jié)構(gòu)，采用多生成器與單判別器進行對抗，設(shè)計了控制各生成器生成圖像平均質(zhì)量的算法，

發(fā)表于 04-23 11:01 ?21次下載