更長的飛行時間,更少的能量消耗,更復(fù)雜的飛行動作。”這是 Google「氣球互聯(lián)網(wǎng)」項目 “Project Loon”交回的最新成績單。
Google 母公司 Alphabet 于 2013 年 6 月正式啟動 Project Loon 計劃,該計劃旨在將 AI 技術(shù)與超壓氣球相結(jié)合,為更多地區(qū)提供低價且高速的無線互聯(lián)網(wǎng)服務(wù),尤其是與市中心相距甚遠的偏遠地區(qū)。
前段時間,Loon 順利完成了最新一輪飛行測試。
昨日,最新分析結(jié)果顯示,在飛躍太平洋的 39 天里,Loon 氣球表現(xiàn)出了比以往更好的性能——基于最新人工智能系統(tǒng),它能夠更快地計算出氣球的最佳導(dǎo)航路徑;在目標區(qū)域上飛行的時間更長,消耗的能量更少,更關(guān)鍵的是,它還提出了研究團隊此前未曾想到過的新的導(dǎo)航動作。
而這一最新人工智能系統(tǒng)正是基于強化學(xué)習(xí)( Reinforcement-Learnin,RL)算法的 AI 系統(tǒng)。
研究人員稱,這是他們首次將 RL 系統(tǒng)應(yīng)用到航空航天產(chǎn)品中。Loon 取得的成績,表明 RL 可以作為解決現(xiàn)實世界自主控制問題的有效解決方案。
目前,有關(guān)這項研究發(fā)現(xiàn)的論文成果已經(jīng)登上了《Nature》雜志。
接下來,我們來具體聊一下:Google 為什么要開展「氣球互聯(lián)網(wǎng)」計劃,以及強化學(xué)習(xí)系統(tǒng)到底解決了哪些難題。
「氣球互聯(lián)網(wǎng)」計劃
你可能難以想象,在互聯(lián)網(wǎng)如此普及的當(dāng)下,全球還有一半的以上的用戶無法享受到這項服務(wù)。
2013 年,為了讓 30 多億用戶所在的偏遠地區(qū)覆蓋互聯(lián)網(wǎng),Alphabet 正式啟動了高空互聯(lián)網(wǎng)服務(wù)項目。之后幾年,陸續(xù)有不少科技公司也加入了這個隊伍,比如 SpaceX、OneWeb 等。
其中最值得一提的,是馬斯克的 “太空互聯(lián)網(wǎng)”計劃,他計劃向太空發(fā)射 42000 顆通信衛(wèi)星,在地球低空軌道形成一個巨型星座來完成與地面的通信任務(wù)。目前他已經(jīng)成功發(fā)射了近 900 顆衛(wèi)星。
相比于馬斯克的「太空衛(wèi)星」,Alpbet 則把通信業(yè)務(wù)的核心放在了「高空氣球」上。
具體來說,用「高空氣球」實現(xiàn)地面通信的過程如下:當(dāng)氣球上升到高空平流層后(超過云層 12 英里高),利用 “太陽能技術(shù)”吸收能量以作為電力支持,然后通過 “算法系統(tǒng)控制( Algorithmic Control)”讓氣球上下飄動,并根據(jù)風(fēng)向捕捉風(fēng)流信號,將氣球穩(wěn)定在一個固定區(qū)域。
最后通過 “網(wǎng)狀回路(Mesh Networking)技術(shù)”,將互聯(lián)網(wǎng)數(shù)據(jù)包從一個氣球傳輸至另一個氣球;從氣球傳輸至在屋頂建立天線的家庭和企業(yè)用戶;最后將這些用戶的數(shù)據(jù)傳輸出去。
這一過程中,如果氣球在平流層飛行的時間越長,意味著 Loon 越可以在較低成本下為目標區(qū)域提供更長久的連通性,這也意味著互聯(lián)網(wǎng)服務(wù)將不僅可以覆蓋到更偏遠的地區(qū),而且它的價格也會更便宜。
在近幾年的飛行測試中,Loon 的平流層飛行時長不斷刷新著世界紀錄,目前最高成績已經(jīng)達到 312 天,接近一整年。
這項最高飛行紀錄開始于 2019 年 5 月,Loon 從波多黎各(Puerto Rico)起飛,進入秘魯(Peru),然后在那里進行為期三個月的飛行測試。測試結(jié)束后,向南越過太平洋,于今年 3 月在墨西哥的巴哈(Baja)登錄。
這項記錄刷新了當(dāng)時 223 天的最高記錄,Loon 首席技術(shù)官 Sal Candido 在博客中表示,創(chuàng)紀錄的飛行成績是該公司努力發(fā)展技術(shù),并以創(chuàng)新的方式推動硬件和軟件向不斷升級的結(jié)果。
當(dāng)時 Loon 的軟件系統(tǒng)還并未引入 RL。
目前,Loon 已經(jīng)在澳大利亞、昆士蘭、肯尼亞、新西蘭、加州中央峽谷以及巴西利亞東北部等多個地區(qū)提供了 Loon 測試服務(wù)。去年,因受到颶風(fēng)襲擊的影響,美國電信運營商還利用 Project Loon 為超過 25 萬的災(zāi)民提供了網(wǎng)絡(luò)連接。
不過,在以上服務(wù)過程中,Loon 的平流層導(dǎo)航問題依然面臨很大的挑戰(zhàn)。
此次,基于 RL 系統(tǒng)的提出為解決當(dāng)前的挑戰(zhàn)提供了一種全新的解決方案,與原有的氣球?qū)Ш较到y(tǒng)相比,RL 算法改善了飛行過程中的決策時間問題。
谷歌加拿大公司的研究科學(xué)家、論文一作馬克 · 貝勒馬爾(Marc Bellemare)表示,
通過強化學(xué)習(xí),我們可以根據(jù)數(shù)據(jù)決定該如何操作,AI 不僅可以做出決策,而且可以根據(jù)移動的時間做出實時決策。
Loon:強化學(xué)習(xí)飛行控制器
如果在一個區(qū)域提供完全的網(wǎng)絡(luò)覆蓋,Loon 一次至少要運行 5 到 10 個氣球。如果覆蓋范圍擴大,需要調(diào)用周圍的備用氣球,在空中組建一個更大的網(wǎng)狀網(wǎng)絡(luò)。
在這一過程中,氣球一般會出現(xiàn)以下狀況:一是因電池報廢等因素,導(dǎo)致氣球壽命縮短并自動降落。二是受颶風(fēng)等惡劣天氣影響,氣球被吹出固定服務(wù)區(qū);
三是最關(guān)鍵也是難度最高的氣球?qū)Ш健?/p>
上文已經(jīng)提到過,Loon 的氣球?qū)Ш绞峭ㄟ^球體上下移動,尋找合適的氣流來進行導(dǎo)航。
如下圖(a)氣球通過在不同高度的風(fēng)之間移動來接近它的指定位置。(b)顯示了氣球的飛行線路,藍色圓直徑代表 50 公里,為氣球之間的最佳距離。
但氣流是不穩(wěn)定的東西??匡L(fēng)在天空中移動就像使用一個道路網(wǎng),在那里街道會改變方向、車道數(shù)和速度限制,甚至在不可預(yù)知的時間完全消失。
因此要做到這一點就需要一套更復(fù)雜的算法—強化學(xué)習(xí)。通過訓(xùn)練飛行控制器,RL 可以形成一套控制策略,以處理高維的、異質(zhì)的輸入,并優(yōu)化長期目標。比如,RL 已經(jīng)在 Dota 2 等即時策略性游戲中多次戰(zhàn)勝人類頂級玩家,而且在長遠策略方面表現(xiàn)驚人。
而對于一個好的飛行控制器,需要確保三點:精準且豐富和數(shù)據(jù)集,最低負載消耗以及低計算成本。
在數(shù)據(jù)集方面,研究人員根據(jù)歐洲中期天氣預(yù)報中心(ECMWF)的全球再分析數(shù)據(jù)(ERA5)創(chuàng)建了可信的風(fēng)數(shù)據(jù)集,并通過數(shù)據(jù)集的模型訓(xùn)練重新解釋歷史天氣觀測的結(jié)果。(ERA5 提供了用程序噪聲修改的基準風(fēng),通過產(chǎn)生高分辨率風(fēng)場改變驅(qū)動程序噪聲的隨機種子,可以提高控制器建模誤差的魯棒性。)
在最低負載消耗方面,研究人員將部署控制器的平均功率控制在了 StationSeeker 之下(之前的風(fēng)控制系統(tǒng)),同時使用獎勵 r 對目標進行了編碼。當(dāng)氣球距離保持在 50 公里范圍內(nèi)時,r=1 為最大值。當(dāng)然這種獎勵也與氣球的狀態(tài)有關(guān),也就是說,它的響應(yīng)隨時間 t 的變化而提供不同的指示(上升、下降或停留)
當(dāng)系數(shù)小于 1 時,最優(yōu)控制器將使未來回報的預(yù)測折現(xiàn)總和最大化,即 “回報”。
其中 E 表示期望值。Rs 表示飛行控制器從初始狀態(tài)形成的長期值。
最后,計算成本主要體現(xiàn)在風(fēng)的測量上,研究人員使用高斯過程將氣球的測量結(jié)果與 ECMWF 的預(yù)報結(jié)果相結(jié)合,將風(fēng)預(yù)報作為先驗平均值。后驗分布的方差量化了不同風(fēng)估計的不確定性。作為控制器的輸入,對氣球正上方和下方的風(fēng)大小和相對方位進行編碼,在 181 個氣壓等級下,范圍為 5 kPa 到 14 kPa。
太平洋高空測試
基于以上 RL 控制器,研究人員在太平洋上空進行了為期 39 天的氣球?qū)Ш綔y試。
從 2019 年 12 月 17 日—2020 年 1 月 25 日,Loon 累計飛行了約 2884 小時。這些數(shù)據(jù)被劃分為 851 個三小時時間,每個時間段作為一個獨立樣本。最終測試結(jié)果顯示,
RL 控制器在平流層內(nèi)飛行的時間更長(TWR50 79% 對 72%;U=850, 410.5,P《10-4);高度控制使用的功率更少(29w 對 33w,U=1048,814,P》10-4)。
與 StationSeeker 相比,在 50 公里射程內(nèi),RL 控制器根據(jù)風(fēng)況使用不同的策略,可以使其在 25-50km 射程內(nèi)花費更多的時間(圖 4b);通過主動移動以返回目標區(qū)域,縮短了偏移時間(圖 4c)。同時也讓它節(jié)省了更多能耗(圖 d)最后,RL 控制器利用海拔高度將電池容量過剩的太陽能轉(zhuǎn)化為了勢能(圖 4e)。
這些結(jié)果表明,強化學(xué)習(xí)是解決現(xiàn)實世界中自主控制問題的有效解決方案,在傳統(tǒng)控制方法(StationSeeker)無法滿足要求的情況下,需要創(chuàng)建與真實動態(tài)環(huán)境持續(xù)交互的人工智能體。更長的飛行時間,更少的能量消耗,更復(fù)雜的飛行動作。
這是 Google「氣球互聯(lián)網(wǎng)」項目“Project Loon”交回的最新成績單。
Google 母公司 Alphabet 于 2013 年 6 月正式啟動 Project Loon 計劃,該計劃旨在將 AI 技術(shù)與超壓氣球相結(jié)合,為更多地區(qū)提供低價且高速的無線互聯(lián)網(wǎng)服務(wù),尤其是與市中心相距甚遠的偏遠地區(qū)。
前段時間,Loon 順利完成了最新一輪飛行測試。
昨日,最新分析結(jié)果顯示,在飛躍太平洋的 39 天里,Loon 氣球表現(xiàn)出了比以往更好的性能——基于最新人工智能系統(tǒng),它能夠更快地計算出氣球的最佳導(dǎo)航路徑;在目標區(qū)域上飛行的時間更長,消耗的能量更少,更關(guān)鍵的是,它還提出了研究團隊此前未曾想到過的新的導(dǎo)航動作。
而這一最新人工智能系統(tǒng)正是基于強化學(xué)習(xí)( Reinforcement-Learnin,RL)算法的 AI 系統(tǒng)。
研究人員稱,這是他們首次將 RL 系統(tǒng)應(yīng)用到航空航天產(chǎn)品中。Loon 取得的成績,表明 RL 可以作為解決現(xiàn)實世界自主控制問題的有效解決方案。
目前,有關(guān)這項研究發(fā)現(xiàn)的論文成果已經(jīng)登上了《Nature》雜志。
接下來,我們來具體聊一下:Google 為什么要開展「氣球互聯(lián)網(wǎng)」計劃,以及強化學(xué)習(xí)系統(tǒng)到底解決了哪些難題。
「氣球互聯(lián)網(wǎng)」計劃
你可能難以想象,在互聯(lián)網(wǎng)如此普及的當(dāng)下,全球還有一半的以上的用戶無法享受到這項服務(wù)。
2013 年,為了讓 30 多億用戶所在的偏遠地區(qū)覆蓋互聯(lián)網(wǎng),Alphabet 正式啟動了高空互聯(lián)網(wǎng)服務(wù)項目。之后幾年,陸續(xù)有不少科技公司也加入了這個隊伍,比如 SpaceX、OneWeb 等。
其中最值得一提的,是馬斯克的“太空互聯(lián)網(wǎng)”計劃,他計劃向太空發(fā)射 42000 顆通信衛(wèi)星,在地球低空軌道形成一個巨型星座來完成與地面的通信任務(wù)。目前他已經(jīng)成功發(fā)射了近 900 顆衛(wèi)星。
相比于馬斯克的「太空衛(wèi)星」,Alpbet 則把通信業(yè)務(wù)的核心放在了「高空氣球」上。
具體來說,用「高空氣球」實現(xiàn)地面通信的過程如下:當(dāng)氣球上升到高空平流層后(超過云層 12 英里高),利用“太陽能技術(shù)”吸收能量以作為電力支持,然后通過“算法系統(tǒng)控制( Algorithmic Control)”讓氣球上下飄動,并根據(jù)風(fēng)向捕捉風(fēng)流信號,將氣球穩(wěn)定在一個固定區(qū)域。
最后通過“網(wǎng)狀回路(Mesh Networking)技術(shù)”,將互聯(lián)網(wǎng)數(shù)據(jù)包從一個氣球傳輸至另一個氣球;從氣球傳輸至在屋頂建立天線的家庭和企業(yè)用戶;最后將這些用戶的數(shù)據(jù)傳輸出去。
這一過程中,如果氣球在平流層飛行的時間越長,意味著 Loon 越可以在較低成本下為目標區(qū)域提供更長久的連通性,這也意味著互聯(lián)網(wǎng)服務(wù)將不僅可以覆蓋到更偏遠的地區(qū),而且它的價格也會更便宜。
在近幾年的飛行測試中,Loon 的平流層飛行時長不斷刷新著世界紀錄,目前最高成績已經(jīng)達到 312 天,接近一整年。
這項最高飛行紀錄開始于 2019 年 5 月,Loon 從波多黎各(Puerto Rico)起飛,進入秘魯(Peru),然后在那里進行為期三個月的飛行測試。測試結(jié)束后,向南越過太平洋,于今年 3 月在墨西哥的巴哈(Baja)登錄。
這項記錄刷新了當(dāng)時 223 天的最高記錄,Loon 首席技術(shù)官 Sal Candido 在博客中表示,創(chuàng)紀錄的飛行成績是該公司努力發(fā)展技術(shù),并以創(chuàng)新的方式推動硬件和軟件向不斷升級的結(jié)果。
當(dāng)時 Loon 的軟件系統(tǒng)還并未引入 RL。
目前,Loon 已經(jīng)在澳大利亞、昆士蘭、肯尼亞、新西蘭、加州中央峽谷以及巴西利亞東北部等多個地區(qū)提供了 Loon 測試服務(wù)。去年,因受到颶風(fēng)襲擊的影響,美國電信運營商還利用 Project Loon 為超過 25 萬的災(zāi)民提供了網(wǎng)絡(luò)連接。
不過,在以上服務(wù)過程中,Loon 的平流層導(dǎo)航問題依然面臨很大的挑戰(zhàn)。
此次,基于 RL 系統(tǒng)的提出為解決當(dāng)前的挑戰(zhàn)提供了一種全新的解決方案,與原有的氣球?qū)Ш较到y(tǒng)相比,RL 算法改善了飛行過程中的決策時間問題。
谷歌加拿大公司的研究科學(xué)家、論文一作馬克·貝勒馬爾(Marc Bellemare)表示,
通過強化學(xué)習(xí),我們可以根據(jù)數(shù)據(jù)決定該如何操作,AI 不僅可以做出決策,而且可以根據(jù)移動的時間做出實時決策。
Loon:強化學(xué)習(xí)飛行控制器
如果在一個區(qū)域提供完全的網(wǎng)絡(luò)覆蓋,Loon 一次至少要運行 5 到 10 個氣球。如果覆蓋范圍擴大,需要調(diào)用周圍的備用氣球,在空中組建一個更大的網(wǎng)狀網(wǎng)絡(luò)。
在這一過程中,氣球一般會出現(xiàn)以下狀況:一是因電池報廢等因素,導(dǎo)致氣球壽命縮短并自動降落。二是受颶風(fēng)等惡劣天氣影響,氣球被吹出固定服務(wù)區(qū);
三是最關(guān)鍵也是難度最高的氣球?qū)Ш健?/p>
上文已經(jīng)提到過,Loon 的氣球?qū)Ш绞峭ㄟ^球體上下移動,尋找合適的氣流來進行導(dǎo)航。
如下圖(a)氣球通過在不同高度的風(fēng)之間移動來接近它的指定位置。(b)顯示了氣球的飛行線路,藍色圓直徑代表 50 公里,為氣球之間的最佳距離。
但氣流是不穩(wěn)定的東西??匡L(fēng)在天空中移動就像使用一個道路網(wǎng),在那里街道會改變方向、車道數(shù)和速度限制,甚至在不可預(yù)知的時間完全消失。
因此要做到這一點就需要一套更復(fù)雜的算法—強化學(xué)習(xí)。通過訓(xùn)練飛行控制器,RL 可以形成一套控制策略,以處理高維的、異質(zhì)的輸入,并優(yōu)化長期目標。比如,RL 已經(jīng)在 Dota 2 等即時策略性游戲中多次戰(zhàn)勝人類頂級玩家,而且在長遠策略方面表現(xiàn)驚人。
而對于一個好的飛行控制器,需要確保三點:精準且豐富和數(shù)據(jù)集,最低負載消耗以及低計算成本。
在數(shù)據(jù)集方面,研究人員根據(jù)歐洲中期天氣預(yù)報中心(ECMWF)的全球再分析數(shù)據(jù)(ERA5)創(chuàng)建了可信的風(fēng)數(shù)據(jù)集,并通過數(shù)據(jù)集的模型訓(xùn)練重新解釋歷史天氣觀測的結(jié)果。(ERA5 提供了用程序噪聲修改的基準風(fēng),通過產(chǎn)生高分辨率風(fēng)場改變驅(qū)動程序噪聲的隨機種子,可以提高控制器建模誤差的魯棒性。)
在最低負載消耗方面,研究人員將部署控制器的平均功率控制在了 StationSeeker 之下(之前的風(fēng)控制系統(tǒng)),同時使用獎勵r對目標進行了編碼。當(dāng)氣球距離保持在 50 公里范圍內(nèi)時,r=1 為最大值。當(dāng)然這種獎勵也與氣球的狀態(tài)有關(guān),也就是說,它的響應(yīng)隨時間t的變化而提供不同的指示(上升、下降或停留)
當(dāng)系數(shù)小于 1 時,最優(yōu)控制器將使未來回報的預(yù)測折現(xiàn)總和最大化,即“回報”。
其中E表示期望值。Rs表示飛行控制器從初始狀態(tài)形成的長期值。
最后,計算成本主要體現(xiàn)在風(fēng)的測量上,研究人員使用高斯過程將氣球的測量結(jié)果與 ECMWF 的預(yù)報結(jié)果相結(jié)合,將風(fēng)預(yù)報作為先驗平均值。后驗分布的方差量化了不同風(fēng)估計的不確定性。作為控制器的輸入,對氣球正上方和下方的風(fēng)大小和相對方位進行編碼,在 181 個氣壓等級下,范圍為 5 kPa 到 14 kPa。
太平洋高空測試
基于以上 RL 控制器,研究人員在太平洋上空進行了為期 39 天的氣球?qū)Ш綔y試。
從 2019 年 12 月 17 日—2020 年 1 月 25 日,Loon 累計飛行了約 2884 小時。這些數(shù)據(jù)被劃分為 851 個三小時時間,每個時間段作為一個獨立樣本。最終測試結(jié)果顯示,
RL 控制器在平流層內(nèi)飛行的時間更長(TWR50 79% 對 72%;U=850, 410.5,P《10-4);高度控制使用的功率更少(29w 對 33w,U=1048,814,P《10-4)。
與 StationSeeker 相比,在 50 公里射程內(nèi),RL 控制器根據(jù)風(fēng)況使用不同的策略,可以使其在 25-50km 射程內(nèi)花費更多的時間(圖 4b);通過主動移動以返回目標區(qū)域,縮短了偏移時間(圖 4c)。同時也讓它節(jié)省了更多能耗(圖d)最后,RL 控制器利用海拔高度將電池容量過剩的太陽能轉(zhuǎn)化為了勢能(圖 4e)。
這些結(jié)果表明,強化學(xué)習(xí)是解決現(xiàn)實世界中自主控制問題的有效解決方案,在傳統(tǒng)控制方法(StationSeeker)無法滿足要求的情況下,需要創(chuàng)建與真實動態(tài)環(huán)境持續(xù)交互的人工智能體。
責(zé)任編輯:PSY
-
Google
+關(guān)注
關(guān)注
5文章
1754瀏覽量
57380 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11073瀏覽量
102616 -
AI
+關(guān)注
關(guān)注
87文章
29815瀏覽量
268110
發(fā)布評論請先 登錄
相關(guān)推薦
評論