日本最强rapper潮水网站,素人大屁股午夜激情经典

介紹

Donkey Car是一種為模型車開源的DIY 自動駕駛平臺，它利用一個帶有相機的樹莓派單片機，讓模型車可在賽道上自動駕駛，Donkey Car會學(xué)習(xí)你的駕駛方法，在訓(xùn)練后懂得自動駕駛。對于那些沒有背景知識的人來說，該平臺能提供你所需要的必要細(xì)節(jié)，它既包含硬件也帶有軟件。閱讀完這一教程，你也可以無需硬件背景知識組裝一輛自己的自動駕駛汽車。

現(xiàn)在，訓(xùn)練汽車進(jìn)行自動駕駛最常見的方法就是行為克隆和路線跟隨。在高級層面，行為克隆是利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)汽車前方攝像機所拍攝的圖像之間的映射，并通過監(jiān)督學(xué)習(xí)控制方向和油門大小。而路線跟隨是利用計算機視覺技術(shù)跟蹤路線，并且利用一個PID控制器讓小車跟著該路線。我嘗試了兩種方法，它們都很有用！

用行為克隆訓(xùn)練Donkey Car避開障礙物

用強化學(xué)習(xí)訓(xùn)練Donkey Car

重要的一點是，Donkey Car的目標(biāo)是搭建一輛在比賽中跑的最快的車（能以最快速度跑完一圈）。我認(rèn)為強化學(xué)習(xí)是訓(xùn)練的好方法，只需設(shè)計一種獎勵，讓汽車的速度達(dá)到最快，并且讓它能一直保持在軌道內(nèi)即可。聽上去很簡單對吧？但事實上，很多研究表示在實體目標(biāo)上訓(xùn)練強化學(xué)習(xí)是很困難的。強化學(xué)習(xí)主要通過試錯法訓(xùn)練，放在汽車身上，我們只能保佑車子不會在一次次的實驗中撞碎。另外，訓(xùn)練時長也是一個問題，通常，強化學(xué)習(xí)智能體都要訓(xùn)練個幾百回合才能掌握些許規(guī)律。所以，強化學(xué)習(xí)很少用在現(xiàn)實物體中。

模擬現(xiàn)實

最近有一些科學(xué)家們研究對現(xiàn)實進(jìn)行模擬，即先用強化學(xué)習(xí)在虛擬模擬器上訓(xùn)練小車，然后將其遷移到現(xiàn)實世界里。例如，最近OpenAI就訓(xùn)練了一個靈活的機械手臂，可以做出多種動作，整個過程就是在虛擬中訓(xùn)練的。除此之外，谷歌大腦也曾訓(xùn)練過一個四足機器人，可以用模擬現(xiàn)實的技術(shù)學(xué)習(xí)靈活的動作。在虛擬器中學(xué)習(xí)控制策略，然后再將其部署到真正的機器人上。這樣看來，若想用強化學(xué)習(xí)訓(xùn)練Donkey Car，一個可行方案就是先用模擬器訓(xùn)練，再把學(xué)到的策略用在真的小車上。

OpenAI訓(xùn)練的機械手

Donkey Car模擬器

第一步是先為Donkey Car建造一個高保真度的模擬器。幸運的是，Donkey Car社區(qū)里一位愛好者在Unity中創(chuàng)建好了一個模擬器。但是它設(shè)計的目的主要針對行為學(xué)習(xí)（即將相機中的圖片保存在對應(yīng)的控制角度和油門大小文件中以進(jìn)行監(jiān)督學(xué)習(xí)），但是和強化學(xué)習(xí)無關(guān)。我希望的是有一個類似OpenAI Gym那樣的交互界面，可以用reset( )重置環(huán)境、對其進(jìn)行操作。所以，我決定在現(xiàn)有的Unity模擬器基礎(chǔ)上對其進(jìn)行修改，讓它更適合強化學(xué)習(xí)。

4.1 創(chuàng)建一種能用Python和Unity溝通的方法

因為我們要用Python書寫強化學(xué)習(xí)代碼，所以我們首先要找到一種方法能讓Python在Unity環(huán)境中使用。結(jié)果我發(fā)現(xiàn)這現(xiàn)有的模擬器也是用Python代碼進(jìn)行溝通的，但它是通過Websocket協(xié)議進(jìn)行的，Weosocket和HTTP不同，它支持服務(wù)器和客戶端之間進(jìn)行雙向通信。在我們的案例中，我們的Python“服務(wù)器”可以直接向Unity推送信息（方向和油門），而我們的Unity“客戶端”也可以反向?qū)Ψ?wù)器推送信息（狀態(tài)和反饋）。

除了Websocket，我還考慮使用gRPC，這是一種高性能服務(wù)器-客戶端通信框架，用谷歌在2016年八月開源。Unity將其用于機器學(xué)習(xí)智能體接口通信的協(xié)議。但是它的設(shè)置有點麻煩，并不高效，所以我還是選擇Websocket。

4.2 為Donkey Car創(chuàng)建一個定制化的環(huán)境

下一步是創(chuàng)建一個類似于OpenAI gym的交互界面，用于訓(xùn)練強化學(xué)習(xí)算法。之前訓(xùn)練過強化學(xué)習(xí)算法的人可能對各種API的使用很熟悉。常見的就是reset( )、step( )、isgameover( )等。我們可以將OpenAI gym的種類進(jìn)行擴展，然后用上面的方法創(chuàng)建自己的gym環(huán)境。

最終成果能和OpenAI gym相媲美，我們科用類似的指令與Donkey環(huán)境交互：

env = gym.make("donkey-v0")

state = env.reset()

ac tion = get_action()

state, action, rewards, next_state = env.step(action)

環(huán)境同樣可以讓我們設(shè)置frame_skipping，并且用headless模式訓(xùn)練智能體（也就是無需Unity GUI）。

同時，Tawn Kramer還有3中Unity場景可用：生成道路、倉庫和Sparkfun AVC，都可以用于訓(xùn)練。在我們開始運行自己的強化學(xué)習(xí)算法之前，我們要么自己搭建Donkey Car的Unity環(huán)境，要么下載預(yù)先搭建好的環(huán)境可執(zhí)行程序。具體的環(huán)境設(shè)置和訓(xùn)練指導(dǎo)可以在我的GitHub中找到：github.com/flyyufelix/donkey_rl

4.3 用DDQN訓(xùn)練Donkey Car

準(zhǔn)備好了對強化學(xué)習(xí)友好的環(huán)境，我們現(xiàn)在就可以搭建自己的強化學(xué)習(xí)算法啦！我采取的是用Keras書寫的Double Deep Q學(xué)習(xí)算法，這是DeepMind開發(fā)的經(jīng)典強化學(xué)習(xí)算法，易于測試，編寫簡單。我已經(jīng)在OpenAI gym中的cartpole和VizDoom中測試了，所以如果有什么問題，應(yīng)該是Unity環(huán)境的問題，算法沒有問題。關(guān)于DQN的文章，大家可以參考我之前的博文。flyyufelix.github.io/2017/10/12/dqn-vs-pg.html

4.3.1 狀態(tài)空間

我們用Donkey Car前方安裝的攝像機所拍攝的像素照片，執(zhí)行以下轉(zhuǎn)換：

將尺寸從（120, 160）改為（80, 80）

變?yōu)榛叶葓D像

框架堆疊：去前面幾個步驟中的4個框架堆在一起

最后的狀態(tài)維度應(yīng)該是（1, 80, 80, 4）。

4.3.2 動作空間

現(xiàn)實和虛擬世界中的Donkey Car都是將持續(xù)的方向控制和油門數(shù)值作為輸入。為了簡介，我們將油門數(shù)值設(shè)為常量（例如0.7），僅僅改變控制方向?？刂品较虻闹祻?1到1，但是，DQN只能處理分離的動作，所以我將方向的值分為15個種類。

4.3.3 Q網(wǎng)絡(luò)框架

我們的Q網(wǎng)絡(luò)是一個3層卷積神經(jīng)網(wǎng)絡(luò)，以堆疊的框架狀態(tài)為輸入，輸出表示方向值分類的15個值。

4.3.4 獎勵

獎勵是有關(guān)汽車偏離中線程度的函數(shù)，它由Unity環(huán)境所提供。獎勵函數(shù)用以下公式表達(dá)：

其中maxcte是一個歸一化常數(shù)，所以獎勵的范圍在0到1之間。如果abs(cte)大于maxcte，循環(huán)即終止。

4.3.5 其他重要變量

Frame skipping設(shè)置為2以穩(wěn)定訓(xùn)練。Memory replay buffer的值為10000.Target Q網(wǎng)絡(luò)在最終訓(xùn)練時會更新。CNN訓(xùn)練時的Batch size為64。貪婪函數(shù)用于探索。Epsilon初始值為1，逐漸在10000次訓(xùn)練后會成為0.02。

4.3.6 結(jié)果

經(jīng)過上面的設(shè)置，在單個CPU和一個GTX 1080 GPU上，我訓(xùn)練了DDQN差不多100次。整個訓(xùn)練用了2到3個小時。可以從上面的視頻中看到，小車跑得很好！

去除背景噪聲

我們想讓我們的強化學(xué)習(xí)智能體只根據(jù)路線的位置和方向進(jìn)行決策輸出（即方向控制），不要受環(huán)境中的其他因素影響。但是，由于我們的輸入是全像素的圖像，它可能對背景模式過度擬合，而無法認(rèn)出行進(jìn)路線。這在現(xiàn)實中尤其重要，因為旁邊的車道可能會有障礙物（例如桌子、椅子、行人等）。如果我們想從虛擬世界將學(xué)習(xí)策略進(jìn)行遷移，我們應(yīng)該讓智能體顧略背景中的噪音，只關(guān)注于車道。

為了解決這個問題，我創(chuàng)建了一個預(yù)處理通道，可以將行車路線從原始像素圖像中分離出去，再輸入到CNN中。分割過程受這篇博文的啟發(fā)（https://medium.com/@ldesegur/a-lane-detection-approach-for-self-driving-vehicles-c5ae1679f7ee）。這一過程概括如下：

用Canny Edge檢測器檢測并提取所有邊框

用Hough直線轉(zhuǎn)換確定所有直線

將直線分成positive sloped和negative sloped兩類

刪除所有不屬于車道的直線

最終轉(zhuǎn)換出的圖片應(yīng)該有最多2條直線，具體情況如下：

接著我把分割后的圖像重新調(diào)整到(80, 80)的，將4個連續(xù)的框架堆疊在一起，用它們作為新的輸入狀態(tài)。我使用新狀態(tài)再次訓(xùn)練了DDQN，生成的強化學(xué)習(xí)智能體可以學(xué)習(xí)良好策略進(jìn)行駕駛！

然而，我注意到不僅僅訓(xùn)練時間會變長，學(xué)習(xí)策略也會變得不穩(wěn)定，車子會經(jīng)常在轉(zhuǎn)彎的時候搖晃。我想可能是因為在訓(xùn)練的時候丟掉了有用的背景信息。不然的話，智能體應(yīng)該不會過度擬合。

下一步

在這篇文章中，我們介紹了一種能和OpenAI gym相比的環(huán)境，用來訓(xùn)練Unity模擬器中的Donkey Car。還用DDQN訓(xùn)練它自動成功地自動駕駛。接下來，我計劃讓小車通過訓(xùn)練加速到最大值，并且將這一策略遷移到現(xiàn)實中。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

計算機視覺

計算機視覺

+關(guān)注

關(guān)注
8

文章
1685

瀏覽量
45811
自動駕駛

自動駕駛

+關(guān)注

關(guān)注
781

文章
13449

瀏覽量
165268
強化學(xué)習(xí)

強化學(xué)習(xí)

+關(guān)注

關(guān)注
4

文章
263

瀏覽量
11158
Unity

Unity

+關(guān)注

關(guān)注
1

文章
127

瀏覽量
21703

原文標(biāo)題：教程 | 如何在Unity環(huán)境中用強化學(xué)習(xí)訓(xùn)練Donkey Car

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

一種基于FPGA的飛行模擬器通信接口設(shè)計流程介紹

的必需設(shè)備，它是一種由計算機實時控制、多系統(tǒng)協(xié)調(diào)工作、能模擬真實飛行環(huán)境的模擬設(shè)備。相較于利用飛機的飛行

發(fā)表于 06-18 05:00

一種基于SIMULINK工具的太陽能電池陣列模擬器的仿真模型設(shè)計

設(shè)計一種成本較低，能夠代替實際光伏電池陣列來進(jìn)行各種光伏實驗的太陽能電池模擬器。本文所設(shè)計的太陽能電池模擬器以BUCK電路為基礎(chǔ)，采用ARM

發(fā)表于 07-16 07:17

飛行模擬器的運動系統(tǒng)

`飛行模擬器，顧名思義也就是模擬飛行器飛行的設(shè)備。用來應(yīng)對真實世界在飛行過程中會遇到的空氣動力、氣象、地理環(huán)境、飛行系統(tǒng)等，并且將仿真操控和

發(fā)表于 09-07 17:20

一種雷達(dá)回波信號模擬器的設(shè)計與實現(xiàn)

本文提出了一種基于CPCI母板和PMC背板的通用雷達(dá)回波模擬器的設(shè)計與實現(xiàn)，重點介紹了基于單片F(xiàn)PGA設(shè)計PMC背板，實現(xiàn)雷達(dá)回波信號模擬器數(shù)據(jù)合成(噪聲/雜澎目標(biāo)回波)的設(shè)計方

發(fā)表于 05-08 17:17 ?36次下載

一種多普勒模擬器的設(shè)計與實現(xiàn)The Design and I

本文介紹了一種成功應(yīng)用于某自主外測系統(tǒng)的多普勒模擬器的設(shè)計與實現(xiàn)。該模擬器易于使用，控制靈活。在系統(tǒng)聯(lián)調(diào)期間，該模擬器可進(jìn)行極小步進(jìn)、快速掃頻，取得了滿意

發(fā)表于 05-25 15:14 ?33次下載

基于開物2000、PLC 和I/O 擴展的訓(xùn)練模擬器Based ControX2000, P

介紹了一種在大規(guī)模數(shù)字I/O 擴展的基礎(chǔ)上由通用監(jiān)控系統(tǒng)支撐軟件ControX( 開物)2000 和FP0_C32 型PLC 控制的訓(xùn)練模擬器。運行結(jié)果表明，該訓(xùn)練

發(fā)表于 06-03 08:00 ?12次下載

駕駛訓(xùn)練模擬器車速表驅(qū)動模塊設(shè)計

主動式汽車駕駛模擬器是一種能正確模擬汽車駕駛操作，并能在主要性能上獲得與實車相同感覺的汽車駕駛訓(xùn)練仿真教學(xué)設(shè)備，它

發(fā)表于 08-26 11:22 ?21次下載

一種新型的基于LabView設(shè)計的脈壓模擬器

一種新型的基于LabView設(shè)計的脈壓模擬器 摘要：提出了一種新型的基于LabView設(shè)計的脈壓模擬器，介紹了其設(shè)計思想、系統(tǒng)的軟硬件構(gòu)成及應(yīng)

發(fā)表于 12-01 10:25 ?921次閱讀

一種同步Slave FIFO模式的USB數(shù)據(jù)傳輸設(shè)計

在現(xiàn)代科研、實驗、教學(xué)、訓(xùn)練中，模擬器起著重要作用，它是一種由計算機實時控制、多系統(tǒng)協(xié)調(diào)T作、能模擬

發(fā)表于 11-16 09:16 ?9次下載

一種基于FPGA嵌入式系統(tǒng)的雷達(dá)信號模擬器的實現(xiàn)

提出了一種基于FPGA的雷達(dá)回波實時模擬器的實現(xiàn)方法。該模擬器采用cPCI 標(biāo)準(zhǔn)總線，以FPGA 為核心計算單元，配有高速數(shù)模、模數(shù)轉(zhuǎn)換模塊，可實現(xiàn)雷達(dá)回波信號實時在線注入模擬。該

發(fā)表于 11-18 13:00 ?2614次閱讀

一種新的微結(jié)構(gòu)模擬器設(shè)計

處理器體系結(jié)構(gòu)模擬器可以對處理器的結(jié)構(gòu)采用軟件方式進(jìn)行模擬，輔助處理器的研究工作。通過對多種結(jié)構(gòu)和微結(jié)構(gòu)參數(shù)進(jìn)行配置，可以對處理

發(fā)表于 03-12 16:13 ?0次下載

南加州大學(xué)研究了一個模擬器 能訓(xùn)練機器人拼裝宜家家具

為了訓(xùn)練機器隨機應(yīng)變、適應(yīng)真實環(huán)境的能力，南加州大學(xué)研究團隊開發(fā)了一個模擬器，能訓(xùn)練機器人拼裝宜

發(fā)表于 12-04 09:52 ?4899次閱讀

R-Car DNN模擬器的介紹

本篇文章我們將介紹瑞薩為R-Car V4H提供的三種類型的DNN開發(fā)模擬器，以及它們的使用情況和特點。

發(fā)表于 02-02 11:06 ?1062次閱讀

太陽能模擬器：為太陽能研究帶來新的機遇

太陽能模擬器是一種可以模擬太陽光譜的設(shè)備，被廣泛應(yīng)用于太陽能電池的研究和制造。它能夠為太陽能領(lǐng)域

發(fā)表于 04-18 13:00 ?733次閱讀

工程師說 | R-Car DNN模擬器的介紹 (2)

摘要在瑞薩提供的R-Car SoC相關(guān)的一些DNN模擬器中，本文將重點介紹能夠?qū)崿F(xiàn)與實際硬件等價運算的Accurate Simulator ，并說明如何應(yīng)用它來分析和提高神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-13 18:15 ?373次閱讀