0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

RTThread物聯(lián)網(wǎng)操作系統(tǒng) ? 來(lái)源:未知 ? 2023-02-12 12:35 ? 次閱讀

1. ChatGPT爆火背后:AI芯片迎接算力新挑戰(zhàn)

原文:

https://www.163.com/dy/article/HT7BHN3C05199NPP.html

ChatGPT的出圈走紅為AIGC打開(kāi)全新市場(chǎng)增量,催生了更高的算力需求。

作為人工智能三大核心要素之一,算力也被譽(yù)為人工智能“發(fā)動(dòng)機(jī)”。華泰證券研報(bào)顯示,根據(jù)OpenAI測(cè)算,自2012年以來(lái),全球頭部AI模型訓(xùn)練算力需求3-4個(gè)月翻一番,每年頭部訓(xùn)練模型所需算力增長(zhǎng)幅度高達(dá)10倍。AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限,也對(duì)芯片設(shè)計(jì)廠商提出了更高要求。

由此可見(jiàn),AIGC未來(lái)進(jìn)一步的應(yīng)用和普及離不開(kāi)算力的強(qiáng)勁支撐。受下游算力需求高漲消息影響,2月9日,半導(dǎo)體及元件板塊再度轉(zhuǎn)頭向上,整體上漲4.58%。截至當(dāng)日收盤(pán),半導(dǎo)體及元件板塊近一周漲幅2.53%。

板塊走勢(shì)的分化也體現(xiàn)出市場(chǎng)對(duì)AI芯片的態(tài)度。近日,在接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí),多家AI芯片廠商表示,AIGC等相關(guān)業(yè)務(wù)需要結(jié)合下游最終端應(yīng)用的實(shí)際情況考慮。

“大模型動(dòng)輒千萬(wàn)美元起步的基礎(chǔ)設(shè)施建設(shè)投入和海量的訓(xùn)練數(shù)據(jù)需求,也注定了它極高的研發(fā)門(mén)檻?!卑俣壤鲂痉矫嫦?1世紀(jì)經(jīng)濟(jì)報(bào)道記者指出,“(大模型)對(duì)計(jì)算的要求主要體現(xiàn)在三個(gè)方面,一是算力,二是互聯(lián),三是通用性,對(duì)于昆侖芯來(lái)說(shuō),場(chǎng)景需求一直是架構(gòu)研發(fā)、產(chǎn)品迭代的最重要的‘指南針’?!?/span>

科技新賽道

AIGC(Artificial Intelligence Generated Content)指的是人工智能系統(tǒng)生成的內(nèi)容,是繼 UGC、PGC 之后的新型內(nèi)容創(chuàng)作方式,包括文字、圖像、音頻視頻等。AIGC可以通過(guò)自然語(yǔ)言處理、機(jī)器學(xué)習(xí)計(jì)算機(jī)視覺(jué)等技術(shù)幫助AI系統(tǒng)識(shí)別理解輸入內(nèi)容,并生成“創(chuàng)作”全新的內(nèi)容。

目前,AIGC已在多應(yīng)用領(lǐng)域?qū)崿F(xiàn)落地,2022年更是被AI業(yè)內(nèi)人士稱(chēng)作AIGC“元年”。2022年8月,文本生成圖像模型Stable Diffusion火爆出圈,催生了AI作畫(huà)的熱潮;12月,OpenAI推出的人工智能聊天機(jī)器人模型 ChatGPT ,可以使用大量訓(xùn)練數(shù)據(jù)模擬人類(lèi)語(yǔ)言行為,通過(guò)語(yǔ)義分析生成文本從而與用戶(hù)進(jìn)行自然交互,在全球范圍內(nèi)掀起AIGC的熱潮。

隨著人工智能應(yīng)用向縱深發(fā)展,對(duì)AI模型訓(xùn)練所需要的算力支持提出了更高要求。

作為算力的硬件基石,AI芯片是針對(duì)人工智能算法做了特殊加速設(shè)計(jì)的芯片。信達(dá)證券發(fā)布研究報(bào)告稱(chēng),在技術(shù)架構(gòu)層面,AI芯片可以分為 GPU(圖形處理器)、FPGA(現(xiàn)場(chǎng)可編程門(mén)陣列)、ASIC(專(zhuān)用集成電路)和類(lèi)腦芯片,同時(shí)CPU也可用以執(zhí)行通用AI計(jì)算。

在應(yīng)用層面,AI芯片又可以劃分為云端、邊緣端和終端三個(gè)類(lèi)型,不同場(chǎng)景對(duì)芯片的算力和功耗的要求不同,單一芯片難以滿(mǎn)足實(shí)際應(yīng)用的需求。

在云端層面,由于大多數(shù)AI訓(xùn)練和推理工作負(fù)載都在此進(jìn)行,需要運(yùn)算巨量、復(fù)雜的數(shù)據(jù)信息,因此對(duì)于 AI 芯片的性能和算力要求最高;邊緣端是指處理云端和終端之間的傳輸網(wǎng)絡(luò),承擔(dān)著匯集、分析處理和通信傳輸數(shù)據(jù)的功能,一定程度上分擔(dān)云端的壓力,降低成本、提升效率。

終端AI芯片由于直面下游產(chǎn)品,大多以實(shí)際需求為導(dǎo)向,主要應(yīng)用于消費(fèi)電子、智能駕駛、智能家居和智慧安防等領(lǐng)域,終端產(chǎn)品類(lèi)型和出貨量的增加,也相應(yīng)刺激了對(duì)芯片的需求。

信達(dá)證券研究團(tuán)隊(duì)總結(jié)稱(chēng),AIGC 推動(dòng) AI 產(chǎn)業(yè)化由軟件向硬件切換,半導(dǎo)體+AI 生態(tài)逐漸清晰,AI芯片產(chǎn)品將實(shí)現(xiàn)大規(guī)模落地。據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),我國(guó)人工智能芯片的市場(chǎng)規(guī)模增速驚人,到2024 年,將達(dá)到785 億元。

2. 不出所料,自動(dòng)駕駛向ChatGPT下手了!

原文:

https://mp.weixin.qq.com/s/a5A2mfG8WQElIuo5vT2s7w

ChatGPT 的技術(shù)思路與自動(dòng)駕駛能碰撞出什么樣的火花呢?

去年底,ChatGPT 橫空出世。真實(shí)自然的人機(jī)對(duì)話(huà)、比擬專(zhuān)家的回答以及一本正經(jīng)的胡說(shuō)八道,使它迅速走紅,風(fēng)靡全世界。

不像之前那些換臉、捏臉、詩(shī)歌繪畫(huà)生成等紅極一時(shí)又很快熱度退散的 AIGC 應(yīng)用,ChatGPT 不僅保持了熱度,而且還有全面爆發(fā)的趨勢(shì)。現(xiàn)如今,谷歌、百度的 AI 聊天機(jī)器人已經(jīng)在路上。

比爾蓋茨如此盛贊:「ChatGPT 的意義不亞于 PC 和互聯(lián)網(wǎng)誕生。

為什么呢?

首先,人機(jī)對(duì)話(huà)實(shí)在是剛需。人工智能技術(shù)鼻祖的圖靈所設(shè)計(jì)的「圖靈測(cè)試」,就是試圖通過(guò)人機(jī)對(duì)話(huà)的方式來(lái)檢驗(yàn)人工智能是否已經(jīng)騙過(guò)人類(lèi)。能從人機(jī)問(wèn)題中就能獲得準(zhǔn)確答案,這可比搜索引擎給到一大堆推薦網(wǎng)頁(yè)和答案更貼心了。要知道懶惰乃人類(lèi)進(jìn)步的原動(dòng)力。

其次,ChatGPT 實(shí)在是太能打了。不僅在日常語(yǔ)言當(dāng)中,ChatGPT 能夠像人類(lèi)一樣進(jìn)行聊天對(duì)話(huà),還能生成各種新聞、郵件、論文,甚至進(jìn)行計(jì)算和編寫(xiě)代碼,這簡(jiǎn)直就像小朋友抓到一只「哆啦 A 夢(mèng)」—— 有求必應(yīng)了。

除了看看熱鬧,我們也可以弱弱地問(wèn)一句:ChatGPT 為啥這么能打呢?希望大家可以在原文中找到答案。

3. 為AIoT和邊緣側(cè)AI喂算力的RISC-V

原文:

https://mp.weixin.qq.com/s/qQWahKqVkkS7bToN7-eHQQ

在去年底由晶心科技舉辦的RISC-V CON上,英特爾RISC-V投資部門(mén)的總經(jīng)理Vijay Krishnan闡述了自己的Pathfinder for RISC-V計(jì)劃。通過(guò)搭建這個(gè)平臺(tái),英特爾將助力解決RISC-V軟件開(kāi)發(fā)生態(tài)上的挑戰(zhàn),并表示首先側(cè)重于AIoT和邊緣端市場(chǎng)。

但我們也都知道這一計(jì)劃持續(xù)不到半年就被砍了,可即便如此,RISC-V在AIoT領(lǐng)域的探索也早早就已經(jīng)處于進(jìn)行時(shí)了。針對(duì)AIoT和邊緣側(cè)AI開(kāi)發(fā)的RISC-V芯片、開(kāi)發(fā)板也都紛紛上市,為RISC-V搶占這一市場(chǎng)的份額添磚加瓦。

GreenWave-GAP9

法國(guó)公司GreenWave作為一家面向電池供電IoT設(shè)備市場(chǎng)的廠商,主要產(chǎn)品就是超低功耗的RISC-V應(yīng)用處理器,GAP系列。他們率先推出的GAP8就是一個(gè)用于大規(guī)模智能邊緣設(shè)備部署的IoT應(yīng)用處理器,但由于算力并不高,所以只能負(fù)責(zé)一些占用管理、人臉識(shí)別、關(guān)鍵詞識(shí)別之類(lèi)的簡(jiǎn)單任務(wù)。

而他們的第二代產(chǎn)品GAP9則是一款為T(mén)WS降噪耳機(jī)設(shè)計(jì)的RISC-V芯片,做到超低延遲的同時(shí),使用神經(jīng)網(wǎng)絡(luò)來(lái)完成聲學(xué)場(chǎng)景檢測(cè)、降噪、3D環(huán)繞和ASRC等功能。其實(shí)用于高端TWS耳機(jī)主動(dòng)降噪的低延遲RISC-V早已面世并大規(guī)模出貨了,即中科藍(lán)訊的藍(lán)訊迅龍系列。而GreenWave的GAP9為了進(jìn)一步增加算力,則在其架構(gòu)中塞入了1個(gè)RISC-V控制器核心,9個(gè)RISC-V計(jì)算核心和AI加速器。


嘉楠-勘智K510

嘉楠的勘智K210作為2019年發(fā)布的一款RISC-V芯片,采用了雙核64位CPU的算力,在300mW的功耗下即實(shí)現(xiàn)了1TOPS的算力。而且在神經(jīng)網(wǎng)絡(luò)加速器KPU的助力下,該芯片可以直接在本地處理人臉識(shí)別、圖像識(shí)別等機(jī)器視覺(jué)任務(wù),可廣泛應(yīng)用于門(mén)禁、智能水電表等應(yīng)用中,陸吾智能甚至將其用于XGOmini這樣的四足機(jī)器狗中。

而嘉楠科技于2021年發(fā)布的勘智K510,則是一款定位中高端邊緣AI推理的芯片,將其神經(jīng)網(wǎng)絡(luò)加速器KPU升級(jí)到了2.0版本,不僅降低了芯片功耗,還將算力提升了3倍,單芯片算力高達(dá)2.5TFLOPS,支持INT8和BF16兩種精度,也支持TensorFlow、PyTorch等主流框架。

可以說(shuō),K510的出現(xiàn),進(jìn)一步增加了在AIoT和邊緣側(cè)AI上的算力和精度。而且由于K510還搭載了3D ISP,可以進(jìn)行圖像降噪、畸變矯正等處理任務(wù),對(duì)于AIoT和邊緣側(cè)AI常見(jiàn)的低照度環(huán)境和廣角鏡頭來(lái)說(shuō)起到了決定性的作用。像上面提到的機(jī)器狗應(yīng)用,也可以因?yàn)檫@龐大的算力來(lái)完成更復(fù)雜的手勢(shì)識(shí)別、人體姿態(tài)識(shí)別等工作。

小結(jié)

從RISC-V在AIoT目前的布局情況來(lái)看,產(chǎn)品主要面向TWS、音頻/圖像檢測(cè)與識(shí)別、智能抄表和智能家居等對(duì)AI算量不高的應(yīng)用,但它們?nèi)栽诶^續(xù)推進(jìn)更高的算力和更多的深度學(xué)習(xí)框架支持。相信在優(yōu)秀RISC-V IP核、低功耗、可編程和向量擴(kuò)展等優(yōu)勢(shì)的吸引下,未來(lái)我們能在該領(lǐng)域看到更多的RISC-V產(chǎn)品。

固然RISC-V在AIoT這個(gè)市場(chǎng)已經(jīng)取得了不小的進(jìn)展,也有了與主流的Arm生態(tài)一戰(zhàn)之力,但后者的智能生態(tài)依然是全方位的。在超低功耗的IoT設(shè)備和傳感器應(yīng)用上,RISC-V至少在性能上已經(jīng)不輸于人了。但到了智能設(shè)備、智能網(wǎng)關(guān)、本地服務(wù)器乃至云端,需要的AI算力是成倍提升的,雖然不少RISC-V IP廠商都已經(jīng)開(kāi)始主推AI核心了,但我們?nèi)匀恍枰嗦涞氐腞ISC-V AI處理器。

4. 強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了?清華、北大等聯(lián)合發(fā)布TransformRL綜述

原文:

https://mp.weixin.qq.com/s/v7QJIAy7xctByJZ9lz9viQ

論文地址:

https://arxiv.org/pdf/2301.03044.pdf

強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一種數(shù)學(xué)形式,深度強(qiáng)化學(xué)習(xí)(DRL)近年來(lái)也取得巨大進(jìn)展。然而,樣本效率問(wèn)題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問(wèn)題,一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中,函數(shù)逼近器是非常重要的。然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計(jì)相比,DRL 中的架構(gòu)設(shè)計(jì)問(wèn)題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如,在 DRL 中處理基于高維圖像的輸入,常見(jiàn)的做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測(cè)性(partial observability)圖像的常見(jiàn)做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來(lái),Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能,成為越來(lái)越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長(zhǎng)程(long-range)依賴(lài)關(guān)系進(jìn)行建模,并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā),人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣,希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究,其中自注意力(self-attention)機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后,許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí),以提取實(shí)體之間的關(guān)系,從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí),之前的工作還使用 Transformer 捕獲多時(shí)序依賴(lài),以處理部分可觀測(cè)性問(wèn)題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā),最近的研究表明,Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實(shí)際上,在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn),包括:

  • 強(qiáng)化學(xué)習(xí)智能體(agent)的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性(non-stationarity);

  • 現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過(guò)程中的設(shè)計(jì)選擇高度敏感,包括模型架構(gòu)和模型容量 [Henderson et al., 2018];

  • 基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本,這使得 RL 學(xué)習(xí)過(guò)程中的訓(xùn)練和推理都很昂貴。

例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓(xùn)練性能)取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)(value network)的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展,來(lái)自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer(即 TransformRL)的綜述論文,歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn),并討論了未來(lái)的發(fā)展方向,作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。


論文的總體結(jié)構(gòu)如下:

  • 第 2 章介紹了 RL 和 Transformer 的背景知識(shí),然后簡(jiǎn)要介紹了這兩者是如何結(jié)合在一起的;

  • 第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變,以及長(zhǎng)期以來(lái) RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn);

  • 第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類(lèi),并討論了目前具有代表性的方法;

  • 第 5 章總結(jié)并指出了未來(lái)潛在的研究方向。

5. 首個(gè)快速知識(shí)蒸餾的視覺(jué)框架:ResNet50 80.1%精度,訓(xùn)練加速30%

原文:

https://mp.weixin.qq.com/s/HWVpVOsYTOH98aU0tC_LzA


  • 論文和項(xiàng)目網(wǎng)址:

    http://zhiqiangshen.com/projects/FKD/index.html

  • 代碼:

    https://github.com/szq0214/FKD

知識(shí)蒸餾(KD)自從 2015 年由 Geoffrey Hinton 等人提出之后,在模型壓縮,視覺(jué)分類(lèi)檢測(cè)等領(lǐng)域產(chǎn)生了巨大影響,后續(xù)產(chǎn)生了無(wú)數(shù)相關(guān)變種和擴(kuò)展版本,但是大體上可以分為以下幾類(lèi):vanilla KD,online KD,teacher-free KD 等。最近不少研究表明,一個(gè)最簡(jiǎn)單、樸素的知識(shí)蒸餾策略就可以獲得巨大的性能提升,精度甚至高于很多復(fù)雜的 KD 算法。但是 vanilla KD 有一個(gè)不可避免的缺點(diǎn):每次 iteration 都需要把訓(xùn)練樣本輸入 teacher 前向傳播產(chǎn)生軟標(biāo)簽 (soft label),這樣就導(dǎo)致很大一部分計(jì)算開(kāi)銷(xiāo)花費(fèi)在了遍歷 teacher 模型上面,然而 teacher 的規(guī)模通常會(huì)比 student 大很多,同時(shí) teacher 的權(quán)重在訓(xùn)練過(guò)程中都是固定的,這樣就導(dǎo)致整個(gè)知識(shí)蒸餾框架學(xué)習(xí)效率很低。

針對(duì)這個(gè)問(wèn)題,本文首先分析了為何沒(méi)法直接為每張輸入圖片產(chǎn)生單個(gè)軟標(biāo)簽向量然后在不同 iterations 訓(xùn)練過(guò)程中復(fù)用這個(gè)標(biāo)簽,其根本原因在于視覺(jué)領(lǐng)域模型訓(xùn)練過(guò)程數(shù)據(jù)增強(qiáng)的使用,尤其是 random-resize-cropping 這個(gè)圖像增強(qiáng)策略,導(dǎo)致不同 iteration 產(chǎn)生的輸入樣本即使來(lái)源于同一張圖片也可能來(lái)自不同區(qū)域的采樣,導(dǎo)致該樣本跟單個(gè)軟標(biāo)簽向量在不同 iterations 沒(méi)法很好的匹配。本文基于此,提出了一個(gè)快速知識(shí)蒸餾的設(shè)計(jì),通過(guò)特定的編碼方式來(lái)處理需要的參數(shù),繼而進(jìn)一步存儲(chǔ)復(fù)用軟標(biāo)簽(soft label),與此同時(shí),使用分配區(qū)域坐標(biāo)的策略來(lái)訓(xùn)練目標(biāo)網(wǎng)絡(luò)。通過(guò)這種策略,整個(gè)訓(xùn)練過(guò)程可以做到顯式的 teacher-free,該方法的特點(diǎn)是既快(16%/30% 以上訓(xùn)練加速,對(duì)于集群上數(shù)據(jù)讀取緩慢的缺點(diǎn)尤其友好),又好(使用 ResNet-50 在 ImageNet-1K 上不使用額外數(shù)據(jù)增強(qiáng)可以達(dá)到 80.1% 的精度)。

首先我們來(lái)回顧一下普通的知識(shí)蒸餾結(jié)構(gòu)是如何工作的,如下圖所示:

知識(shí)蒸餾框架包含了一個(gè)預(yù)訓(xùn)練好的 teacher 模型(蒸餾過(guò)程權(quán)重固定),和一個(gè)待學(xué)習(xí)的 student 模型, teacher 用來(lái)產(chǎn)生 soft 的 label 用于監(jiān)督 student 的學(xué)習(xí)??梢钥吹剑@個(gè)框架存在一個(gè)比較明顯的缺點(diǎn):當(dāng) teacher 結(jié)構(gòu)大于 student 的時(shí)候,訓(xùn)練圖像前饋產(chǎn)生的計(jì)算開(kāi)銷(xiāo)已經(jīng)超過(guò) student,然而 teacher 權(quán)重并不是我們學(xué)習(xí)的目標(biāo),導(dǎo)致這種計(jì)算開(kāi)銷(xiāo)本質(zhì)上是 “無(wú)用的”。本文的動(dòng)機(jī)正是在研究如何在知識(shí)蒸餾訓(xùn)練過(guò)程中避免或者說(shuō)重復(fù)利用這種額外的計(jì)算結(jié)果,該文章的解決策略是提前保存每張圖片不同區(qū)域的軟監(jiān)督信號(hào)(regional soft label)在硬盤(pán)上,訓(xùn)練 student 過(guò)程同時(shí)讀取訓(xùn)練圖片和標(biāo)簽文件,從而達(dá)到復(fù)用標(biāo)簽的效果。所以問(wèn)題就變成了:soft label 怎么來(lái)組織和存儲(chǔ)最為有效?請(qǐng)從原文中找到答案。

6. Google Brain提出基于Diffusion的新全景分割算法

原文:

https://mp.weixin.qq.com/s/CXMzZd0JP0XBJzEPhPmLvA

A Generalist Framework for Panoptic Segmentation of Images and Videos

標(biāo)題:

A Generalist Framework for Panoptic Segmentation of Images and Videos

作者:

Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet

原文鏈接:

https://arxiv.org/pdf/2210.06366.pdf

引言

首先回顧一下全景分割的設(shè)定。全景分割(PS,Panoptic Segmentation)的task format不同于經(jīng)典的語(yǔ)義分割,它要求每個(gè)像素點(diǎn)都必須被分配給一個(gè)語(yǔ)義標(biāo)簽(stuff、things中的各個(gè)語(yǔ)義)和一個(gè)實(shí)例id。具有相同標(biāo)簽和id的像素點(diǎn)屬于同一目標(biāo);對(duì)于stuff標(biāo)簽,不需要實(shí)例id。與實(shí)例分割相比,目標(biāo)的分割必須是非重疊的(non-overlapping),因此對(duì)那些每個(gè)目標(biāo)單獨(dú)標(biāo)注一個(gè)區(qū)域是不同的。雖然語(yǔ)義標(biāo)簽的類(lèi)類(lèi)別是先驗(yàn)固定的,但分配給圖像中對(duì)象的實(shí)例 ID 可以在不影響識(shí)別的實(shí)例的情況下進(jìn)行排列。因此,經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)實(shí)例 ID 的神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠?qū)W習(xí)一對(duì)多映射,從單個(gè)圖像到多個(gè)實(shí)例 ID 分配。一對(duì)多映射的學(xué)習(xí)具有挑戰(zhàn)性,傳統(tǒng)方法通常利用涉及對(duì)象檢測(cè)、分割、合并多個(gè)預(yù)測(cè)的多個(gè)階段的管道這有效地將一對(duì)多映射轉(zhuǎn)換為基于識(shí)別匹配的一對(duì)一映射。這篇論文的作者將全景分割任務(wù)制定為條件離散數(shù)據(jù)生成問(wèn)題,如下圖所示。本文是大名鼎鼎的Hinton參與的工作,非常有意思,又是基于diffusion model模式的生成模型來(lái)完成全景分割,將mask其視為一組離散標(biāo)記,以輸入圖像為條件,預(yù)測(cè)得到完整的分割信息。

全景分割的生成式建模非常具有挑戰(zhàn)性,因?yàn)槿把诖a是離散的,或者說(shuō)是有類(lèi)別的,并且模型可能非常大。例如,要生成 512×1024 的全景掩碼,模型必須生成超過(guò) 1M 的離散標(biāo)記(語(yǔ)義標(biāo)簽和實(shí)例標(biāo)簽)。這對(duì)于自回歸模型來(lái)說(shuō)計(jì)算開(kāi)銷(xiāo)是比較大的,因?yàn)?token 本質(zhì)上是順序的,很難隨著輸入數(shù)據(jù)的規(guī)模變化而變化。擴(kuò)散模型更擅長(zhǎng)處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)域而不是離散域。通過(guò)用模擬位表示離散數(shù)據(jù),本文作者表明可以直接在大型全景分割上完成diffusion的訓(xùn)練,而不需要在latent space進(jìn)行學(xué)習(xí)。這樣就使得模型 這對(duì)于自回歸模型來(lái)說(shuō)是昂貴的,因?yàn)樗鼈儽举|(zhì)上是順序的,隨著數(shù)據(jù)輸入的大小縮放不佳。diffusion model很擅長(zhǎng)處理高維數(shù)據(jù),但它們最常應(yīng)用于連續(xù)而非離散域。通過(guò)用模擬位表示離散數(shù)據(jù),論文表明可以直接在大型全景掩模上訓(xùn)練擴(kuò)散模型,而無(wú)需學(xué)習(xí)中間潛在空間。接下來(lái),我們來(lái)介紹本文提出的基于擴(kuò)散的全景分割模型,描述其對(duì)圖像和視頻數(shù)據(jù)集的廣泛實(shí)驗(yàn)。在這樣做的過(guò)程中,論文證明了所提出的方法在類(lèi)似設(shè)置中與最先進(jìn)的方法相比具有競(jìng)爭(zhēng)力,證明了一種新的、通用的全景分割方法。

方法

擴(kuò)散模型采樣是迭代的,因此在推理過(guò)程中必須多次運(yùn)行網(wǎng)絡(luò)的前向傳遞。因此,如上圖,論文的結(jié)構(gòu)主要分為兩個(gè)部分:1)圖像編碼器;2)mask的解碼器。前者將原始像素?cái)?shù)據(jù)映射到高級(jí)表示向量,然后掩模解碼器迭代地讀出全景掩模。

實(shí)驗(yàn)

來(lái)看實(shí)驗(yàn)結(jié)果:

在 MS-COCO 數(shù)據(jù)集上,Pix2Seq-D 在基于 ResNet-50 的主干上的泛化質(zhì)量(PQ)與最先進(jìn)的方法相比有一定的競(jìng)爭(zhēng)力。與最近的其他通用模型如 UViM 相比,本文的模型表現(xiàn)明顯更好,同時(shí)效率更高。


而在無(wú)監(jiān)督數(shù)據(jù)集DAVIS上,也有更優(yōu)的表現(xiàn)。

結(jié)論

本文基于離散全景蒙版的條件生成模型,提出了一種用于圖像和視頻全景分割的新型通用框架。通過(guò)利用強(qiáng)大的Bit Diffusion 模型,我們能夠?qū)Υ罅侩x散token建模,這對(duì)于現(xiàn)有的通用模型來(lái)說(shuō)是困難的。


———————End———————


你可以添加微信:rtthread2020 為好友,注明:公司+姓名,拉進(jìn)RT-Thread官方微信交流群!



愛(ài)我就給我點(diǎn)在看

點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)


原文標(biāo)題:【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RT-Thread
    +關(guān)注

    關(guān)注

    31

    文章

    1239

    瀏覽量

    39437

原文標(biāo)題:【AI簡(jiǎn)報(bào)第20230210期】 ChatGPT爆火背后、為AIoT和邊緣側(cè)AI喂算力的RISC-V

文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    Banana Pi BPI-F3 進(jìn)迭時(shí)空RISC-V架構(gòu)下,AI融合算及其軟件棧實(shí)踐

    面對(duì)未來(lái)大模型(LLM)、AIGC等智能化浪潮的挑戰(zhàn),進(jìn)迭時(shí)空在RISC-V方向全面布局,通過(guò)精心設(shè)計(jì)的RISC-V DSA架構(gòu)以及軟硬一體的優(yōu)化策略,將全力未來(lái)打造高效且易用的AI
    的頭像 發(fā)表于 09-07 14:01 ?929次閱讀
    Banana Pi BPI-F3 進(jìn)迭時(shí)空<b class='flag-5'>RISC-V</b>架構(gòu)下,<b class='flag-5'>AI</b>融合算<b class='flag-5'>力</b>及其軟件棧實(shí)踐

    RISC-V最重要的方向是AI,但如何構(gòu)建RISC-V+AI生態(tài)系統(tǒng)?

    普遍認(rèn)為RISC-V+AI是未來(lái)的大方向。在第四屆滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇上,圓桌論壇環(huán)節(jié)也著重聊到了RISC-V+AI這個(gè)話(huà)題。 ? 隨著AI落地的深入,應(yīng)用方面遇到的挑戰(zhàn)也隨
    的頭像 發(fā)表于 08-19 14:02 ?898次閱讀

    北京大學(xué)謝濤:基于RISC-V構(gòu)建AI的優(yōu)勢(shì)和兩種模式

    電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)第四屆滴水湖中國(guó)RISC-V產(chǎn)業(yè)論壇上,北京大學(xué)講席教授、RISC-V國(guó)際基金會(huì)人工智能與機(jī)器學(xué)習(xí)專(zhuān)委會(huì)主席謝濤教授進(jìn)行了題為《萬(wàn)物智聯(lián)時(shí)代的RISC-V+AI
    的頭像 發(fā)表于 08-19 10:41 ?809次閱讀

    RISC-V適合什么樣的應(yīng)用場(chǎng)景

    解決方案,適用于邊緣計(jì)算、智能攝像頭、智能音箱等場(chǎng)景。 靈活性:RISC-V的開(kāi)放性使得其能夠更容易地與各種AI框架和算法集成,滿(mǎn)足不同的AI應(yīng)用需求。 4. 自動(dòng)駕駛和汽車(chē)電子 定制
    發(fā)表于 07-29 17:16

    RISC-V在中國(guó)的發(fā)展機(jī)遇有哪些場(chǎng)景?

    聯(lián)網(wǎng)市場(chǎng)的重要參與者,擁有龐大的用戶(hù)基數(shù)和豐富的應(yīng)用場(chǎng)景。RISC-V在中國(guó)的發(fā)展將受益于這一市場(chǎng)需求的增長(zhǎng)。 2. 人工智能(AIAI
    發(fā)表于 07-29 17:14

    科華數(shù)據(jù)攜手希姆計(jì)算,推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI快速發(fā)展

    AI服務(wù),滿(mǎn)足各行各業(yè)對(duì)AIAI解決方案的需求。同時(shí),基于希姆計(jì)算的開(kāi)源RISC-V
    的頭像 發(fā)表于 06-30 08:36 ?289次閱讀
    科華數(shù)據(jù)攜手希姆計(jì)算,推動(dòng)國(guó)產(chǎn)<b class='flag-5'>RISC-V</b>開(kāi)源<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>快速發(fā)展

    科華數(shù)據(jù)攜手希姆計(jì)算,推動(dòng)國(guó)產(chǎn)RISC-V開(kāi)源AI快速發(fā)展

    AI服務(wù),滿(mǎn)足各行各業(yè)對(duì)AIAI解決方案的需求。同時(shí),基于希姆計(jì)算的開(kāi)源RISC-V
    的頭像 發(fā)表于 06-26 08:36 ?351次閱讀
    科華數(shù)據(jù)攜手希姆計(jì)算,推動(dòng)國(guó)產(chǎn)<b class='flag-5'>RISC-V</b>開(kāi)源<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>快速發(fā)展

    risc-v多核芯片在AI方面的應(yīng)用

    RISC-V多核芯片能夠更好地適應(yīng)AI算法的不同需求,包括深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等,從而提高芯片的性能和效率,降低成本,使AI邊緣計(jì)算晶片更具競(jìng)爭(zhēng)
    發(fā)表于 04-28 09:20

    解鎖RISC-V技術(shù)力量丨曹英杰:RISC-V與大模型探索

    4月12日,第二“大家來(lái)談芯|解鎖RISC-V技術(shù)力量”在上海臨港新片區(qū)頂科永久會(huì)址舉辦,本期沙龍聚焦RISC-V技術(shù),圍繞AI時(shí)代的RISC-V
    的頭像 發(fā)表于 04-16 08:16 ?472次閱讀
    解鎖<b class='flag-5'>RISC-V</b>技術(shù)力量丨曹英杰:<b class='flag-5'>RISC-V</b>與大模型探索

    RISC-V廠商正在AI領(lǐng)域積極布局!

    、精簡(jiǎn)、可拓展的優(yōu)勢(shì),發(fā)展高性能、低功耗的邊緣側(cè)、端側(cè)AI推理芯片提供了充足空間。 ? AI
    的頭像 發(fā)表于 04-09 00:13 ?4336次閱讀
    <b class='flag-5'>RISC-V</b>廠商正在<b class='flag-5'>AI</b>領(lǐng)域積極布局!

    淺談AI而生的存-體芯片

    大模型之后,存一體獲得了更多的關(guān)注與機(jī)會(huì),其原因之一是因?yàn)榇?b class='flag-5'>算一體芯片的裸相比傳統(tǒng)架構(gòu)
    發(fā)表于 12-06 15:00 ?299次閱讀
    淺談<b class='flag-5'>為</b><b class='flag-5'>AI</b>大<b class='flag-5'>算</b><b class='flag-5'>力</b>而生的存<b class='flag-5'>算</b>-體芯片

    RISC-V內(nèi)核突破百億顆 RVV1.0如何解鎖端側(cè)AI市場(chǎng)應(yīng)用潛能

    ”(南湖)開(kāi)源高性能RISC-V處理器內(nèi)核,其性能已超過(guò)ARM A76;阿里平頭哥發(fā)布的首個(gè)自研RISC-V AI平臺(tái),支持運(yùn)行170余個(gè)主流AI模型,而且下半年還會(huì)發(fā)布與安卓、Web
    發(fā)表于 12-01 13:17

    強(qiáng)勁的AI邊緣計(jì)算盒子# 邊緣計(jì)算

    AI邊緣計(jì)算
    成都華江信息
    發(fā)布于 :2023年11月24日 16:31:06

    RISC-V mcu何時(shí)進(jìn)軍AI

    今天看了篇文章,講述MCU界“六大天王”ST、NXP、Microchip、Renesas、TI、Infineon都在加大布局邊緣AI,這也應(yīng)該是RISC-V MCU 的一次機(jī)遇?。?
    發(fā)表于 11-04 09:58

    英碼科技精彩亮相火爆的IOTE 2023,多面賦能AIoT產(chǎn)業(yè)發(fā)展!

    產(chǎn)品,包括覆蓋多層次的智能工作站(邊緣計(jì)算盒子)、AI加速卡等;同時(shí)向大家展示自研的AI技術(shù)服務(wù)——“深元”0代碼移植工具鏈和創(chuàng)新性的行
    發(fā)表于 09-25 10:03