嵌入式 AI

AI 簡(jiǎn)報(bào) 20230310 期

1. 知存科技再推存算一體芯片，用AI技術(shù)推動(dòng)助聽(tīng)器智能化

原文：

https://mp.weixin.qq.com/s/reQvUTJlOJSqEtHGKL4QbA

2022年3月，知存科技量產(chǎn)的國(guó)際首顆存內(nèi)計(jì)算SoC芯片WTM2101正式投入市場(chǎng)。如今已在端側(cè)實(shí)現(xiàn)商用，提供語(yǔ)音、視頻等AI處理方案并幫助產(chǎn)品實(shí)現(xiàn)10倍以上的能效提升。WTM2101采用40nm工藝，是一顆擁有高算力存內(nèi)計(jì)算核的芯片，相對(duì)于NPU、DSP、MCU計(jì)算平臺(tái)、AI算力提升10-200倍，具備1.8MB權(quán)重、50Gops算力。

顧名思義，存內(nèi)計(jì)算芯片采用存算一體架構(gòu)，區(qū)別于傳統(tǒng)計(jì)算架構(gòu)馮諾伊曼以計(jì)算為中心的設(shè)計(jì)，改為以數(shù)據(jù)存儲(chǔ)為中心的設(shè)計(jì)。由于馮諾伊曼架構(gòu)存在一定的局限性，那就是隨著CPU，或者運(yùn)算單元的運(yùn)算能力提高，數(shù)據(jù)傳輸并沒(méi)有跟上CPU運(yùn)算頻率的同步遞增，這樣就出現(xiàn)存儲(chǔ)墻。

知存科技FAE總監(jiān)陸彤表示，存儲(chǔ)墻會(huì)帶來(lái)兩個(gè)弊端，一是時(shí)延問(wèn)題，因?yàn)橛蓴?shù)據(jù)從memory 搬到計(jì)算單元里是需要時(shí)間的，當(dāng)然也有不同的解決方法，比如采用更快的存儲(chǔ)單元、更寬的數(shù)據(jù)通道，或者是采用分布式的方式進(jìn)行存儲(chǔ)。二是功耗問(wèn)題，預(yù)計(jì)會(huì)占整個(gè)芯片功耗的50%-90%左右。

存算一體架構(gòu)通過(guò)在存儲(chǔ)體上采用不同的技術(shù)，或者叫重新設(shè)計(jì)，讓存儲(chǔ)器件單元能直接完成乘加計(jì)算，也能存儲(chǔ)數(shù)據(jù)，極大程度上解決了存儲(chǔ)墻的問(wèn)題，從而大幅度提升芯片的運(yùn)行效率，突破瓶頸。

WTM2101在助聽(tīng)器領(lǐng)域，能夠提供增益調(diào)整、EDRC等助聽(tīng)基本功能，知存科技FAE總監(jiān)陸彤介紹WTM2101在助聽(tīng)領(lǐng)域更突出的價(jià)值更多還是體現(xiàn)在AI 相關(guān)應(yīng)用上，例如雙麥BF+AI-ENC降噪實(shí)現(xiàn)智能融合降噪，能夠做到11ms延時(shí)、20db降噪。WTM2101還加入了AI通透功能，能夠選擇性通透電視、音樂(lè)等有效聲音。

防嘯叫是助聽(tīng)器的剛需功能，為了實(shí)現(xiàn)該功能，WTM2101除了實(shí)施傳統(tǒng)的嘯叫算法，也添加了NN抗嘯叫算法組合；在健康監(jiān)測(cè)方面，還加入了低功耗NN心率算法，并且實(shí)現(xiàn)了超低功耗標(biāo)準(zhǔn)模式50uA、運(yùn)動(dòng)模式為80uA。

此外，由于助聽(tīng)器應(yīng)用在耳道里面，沒(méi)有什么按鍵或者其他的方式能夠操作，因此自動(dòng)環(huán)境識(shí)別也是助聽(tīng)器產(chǎn)品需要關(guān)注的重點(diǎn)，目前，業(yè)內(nèi)有廠商計(jì)劃采用語(yǔ)音控制的方式實(shí)現(xiàn)，或者基于AI深度學(xué)習(xí)/經(jīng)典算法，進(jìn)行環(huán)境音檢測(cè)。WTM2101加入了關(guān)鍵詞喚醒功能，算力約為10~20Mops?！叭绻麖乃懔ι蟻?lái)看，這些算法需要上百，甚至上G的OPS 算力需求，可能業(yè)內(nèi)其他產(chǎn)品部署起來(lái)會(huì)有算力的壓力。但WTM2101具備50Gops算力，是能夠完成這些工作的”。

在低分辨率下，當(dāng)信噪比到- 10db甚至-5db更低，佩戴者在使用助聽(tīng)器時(shí)就很難區(qū)分語(yǔ)音。而WTM2101具備人聲增強(qiáng)功能，PESQ相對(duì)小算力AI算法和經(jīng)典算法提高0.4和0.5.

據(jù)了解，飛利浦在去年推出飛利浦HearLink30平臺(tái)助聽(tīng)器，引入了多種AI智能技術(shù)。不難發(fā)現(xiàn)，在技術(shù)的成熟下，越來(lái)越多AI技術(shù)的應(yīng)用讓助聽(tīng)器變得更加智能。“AI給助聽(tīng)器帶來(lái)了很大的升級(jí)，AI在智能降噪、去嘯叫和環(huán)境識(shí)別上面有很大優(yōu)勢(shì)”，知存科技相關(guān)負(fù)責(zé)人對(duì)電子發(fā)燒友網(wǎng)表示。目前已有多款助聽(tīng)器不僅僅是助聽(tīng)功能，還具備健康監(jiān)測(cè)等更多功能，降噪功能也越來(lái)越強(qiáng)大。

2. 邊緣人工智能 芯片制造商Hailo推出Hailo-15

原文：

https://mp.weixin.qq.com/s/ClhnJZkU1P9cEGfJ7CZDHA

邊緣人工智能（AI）處理器的先鋒芯片制造商Hailo今天公布了突破性的新型Hailo-15系列高性能視覺(jué)處理器，該系列旨在直接集成到智能攝像機(jī)中，在邊緣提供前所未有的視頻處理和分析。

隨著Hailo-15的推出，該公司正在重新定義智能攝像機(jī)類別，在計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)視頻處理方面設(shè)立新標(biāo)準(zhǔn)，能夠在不同行業(yè)的廣泛應(yīng)用中帶來(lái)突破性的人工智能性能。

利用Hailo-15，智能城市運(yùn)營(yíng)商可以更迅速地檢測(cè)和應(yīng)對(duì)事件；制造商可以提高生產(chǎn)力和機(jī)器正常運(yùn)行時(shí)間；零售商可以保護(hù)供應(yīng)鏈并提高客戶滿意度；交通當(dāng)局可以識(shí)別走失的兒童、事故、放錯(cuò)地方的行李等各種對(duì)象。

"Hailo-15代表著在使邊緣人工智能更加可擴(kuò)展和可負(fù)擔(dān)方面邁出的重要一步。"Hailo首席執(zhí)行官Orr Danon表示，"通過(guò)這次發(fā)布，我們正在利用我們?cè)谝驯蝗驍?shù)百家客戶部署的邊緣解決方案方面的領(lǐng)先地位，我們的人工智能技術(shù)的成熟度以及我們?nèi)娴能浖准?，從而以攝像機(jī)外形尺寸實(shí)現(xiàn)高性能人工智能。"

Hailo-15 VPU系列包括三個(gè)型號(hào)：Hailo-15H、Hailo-15M和Hailo-15，以滿足智能攝像機(jī)制造商和AI應(yīng)用提供商的不同處理需求和價(jià)格點(diǎn)。這個(gè)VPU系列的性能達(dá)到7 TOPS（每秒萬(wàn)億次運(yùn)算）至驚人的20 TOPS，比目前市場(chǎng)上的解決方案高出5倍以上，而價(jià)格相當(dāng)。所有Hailo-15 VPU都支持4K分辨率的多輸入流，將強(qiáng)大的CPU和DSP子系統(tǒng)與Hailo經(jīng)過(guò)現(xiàn)場(chǎng)驗(yàn)證的AI核心相結(jié)合。

通過(guò)在攝像機(jī)中引入優(yōu)異的人工智能功能，Hailo正在滿足市場(chǎng)上對(duì)增強(qiáng)邊緣視頻處理和分析能力的日益增長(zhǎng)的需求。憑借這種無(wú)與倫比的人工智能能力，搭載Hailo-15的攝像機(jī)可以進(jìn)行明顯更多的視頻分析，并行運(yùn)行多個(gè)人工智能任務(wù)，包括更快的高分辨率檢測(cè)，從而能夠識(shí)別更小、更遠(yuǎn)的對(duì)象，并具有更高的準(zhǔn)確性和更少的錯(cuò)誤警報(bào)。

例如，Hailo-15H能夠在高輸入分辨率（1280x1280）下以實(shí)時(shí)傳感器速率運(yùn)行最先進(jìn)的對(duì)象檢測(cè)模型YoloV5M6，或以非凡的700 FPS運(yùn)行行業(yè)分類模型基準(zhǔn)ResNet-50。

通過(guò)這個(gè)高性能人工智能視覺(jué)處理器系列，Hailo率先在攝像機(jī)中使用基于視覺(jué)的transformers進(jìn)行實(shí)時(shí)對(duì)象檢測(cè)。增加的人工智能能力還可用于視頻增強(qiáng)和低光環(huán)境下的更優(yōu)視頻質(zhì)量，實(shí)現(xiàn)視頻穩(wěn)定和高動(dòng)態(tài)范圍性能。

3. AI算力芯片：人工智能核心底座，7年空間13倍，國(guó)產(chǎn)替代之關(guān)鍵

原文：https://baijiahao.baidu.com/s?id=1759514012109489440&wfr=spider&for=pc

還記得這張把谷歌AI搞得團(tuán)團(tuán)轉(zhuǎn)的經(jīng)典梗圖嗎？

每一次科技創(chuàng)新浪潮都是突破某一項(xiàng)生產(chǎn)力要素，從而提升人類生產(chǎn)效率。

人工智能引領(lǐng)著新一輪科技革命，而生成式AI的出現(xiàn)，真正賦予了人工智能大規(guī)模落地的場(chǎng)景，有望在更高層次輔助甚至代替人類工作，提升人類生產(chǎn)效率。

今年，生成式AI代表產(chǎn)品ChatGPT所產(chǎn)生的鯰魚(yú)效應(yīng)持續(xù)發(fā)酵，引發(fā)市場(chǎng)廣泛關(guān)注。

深入了解后能夠發(fā)現(xiàn)，生成式AI競(jìng)爭(zhēng)的焦點(diǎn)主要有兩個(gè)，一是巨大參數(shù)量、超大規(guī)模的AI模型，二是提供超強(qiáng)算力的AI芯片，兩者缺一不可。

市場(chǎng)也逐漸意識(shí)到，人工智能的競(jìng)爭(zhēng)是巨頭之間的競(jìng)爭(zhēng)，巨額研發(fā)投入迫使小公司聚焦于上層應(yīng)用，同時(shí)，底層算力支撐愈發(fā)關(guān)鍵，沒(méi)有扎實(shí)的底盤(pán)，上層建筑皆是空中樓閣。

不僅在人工智能，在整個(gè)數(shù)字經(jīng)濟(jì)當(dāng)中，下游技術(shù)應(yīng)用的實(shí)現(xiàn)，都離不開(kāi)算力。

算力，是國(guó)內(nèi)的短板，而國(guó)際供應(yīng)鏈問(wèn)題愈發(fā)凸顯，算力不足的問(wèn)題可能顯現(xiàn)，不僅對(duì)人工智能有影響，還將影響整個(gè)數(shù)字經(jīng)濟(jì)，所以，算力芯片成為突圍關(guān)鍵點(diǎn)。

AI算力芯片需求激增

AI算力進(jìn)入大模型時(shí)代，大模型的實(shí)現(xiàn)需要強(qiáng)大的算力來(lái)支撐訓(xùn)練和推理過(guò)程。比如Open AI，微軟專門為其打造了一臺(tái)超級(jí)計(jì)算機(jī)，專門用來(lái)在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型

這臺(tái)超級(jí)計(jì)算機(jī)擁有28.5萬(wàn)個(gè)CPU核心，超過(guò)1萬(wàn)顆GPU（英偉達(dá) V100 GPU），按此規(guī)格，如果自建IDC，以英偉達(dá)A100 GPU芯片替代V100 GPU芯片，依照性能換算，大約需要3000顆A100 GPU芯片。

想要了解更多內(nèi)容，請(qǐng)點(diǎn)擊查看原文。

4. 全方位分析大模型參數(shù)高效微調(diào)，清華研究登Nature子刊

原文：

https://mp.weixin.qq.com/s/wHc87AZafnRp8eMFOJxPoA

近年來(lái)，清華大學(xué)計(jì)算機(jī)系孫茂松團(tuán)隊(duì)深入探索語(yǔ)言大模型參數(shù)高效微調(diào)方法的機(jī)理與特性，與校內(nèi)其他相關(guān)團(tuán)隊(duì)合作完成的研究成果 “面向大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的參數(shù)高效微調(diào)”（Parameter-efficient Fine-tuning of Large-scale Pre-trained Language Models）3 月 2 日在《自然?機(jī)器智能》（Nature Machine Intelligence）上發(fā)表。該研究成果由計(jì)算機(jī)系孫茂松、李涓子、唐杰、劉洋、陳鍵飛、劉知遠(yuǎn)和深圳國(guó)際研究生院鄭海濤等團(tuán)隊(duì)師生共同完成，劉知遠(yuǎn)、鄭海濤、孫茂松為該文章的通訊作者，清華大學(xué)計(jì)算機(jī)系博士生丁寧（導(dǎo)師鄭海濤）與秦禹嘉（導(dǎo)師劉知遠(yuǎn)）為該文章的共同第一作者。

論文鏈接：https://www.nature.com/articles/s42256-023-00626-4

OpenDelta 工具包：https://github.com/thunlp/OpenDelta

2018 年以來(lái)，預(yù)訓(xùn)練語(yǔ)言模型 (PLM) 及其 “預(yù)訓(xùn)練 - 微調(diào)” 方法已成為自然語(yǔ)言處理（NLP）任務(wù)的主流范式，該范式先利用大規(guī)模無(wú)標(biāo)注數(shù)據(jù)通過(guò)自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練語(yǔ)言大模型，得到基礎(chǔ)模型，再利用下游任務(wù)的有標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)微調(diào)模型參數(shù)，實(shí)現(xiàn)下游任務(wù)的適配。

隨著技術(shù)的發(fā)展，PLM 已經(jīng)毫無(wú)疑問(wèn)地成為各種 NLP 任務(wù)的基礎(chǔ)架構(gòu)，而且在 PLM 的發(fā)展中，呈現(xiàn)出了一個(gè)似乎不可逆的趨勢(shì)：即模型的規(guī)模越來(lái)越大。更大的模型不僅會(huì)在已知任務(wù)上取得更好的效果，更展現(xiàn)出了完成更復(fù)雜的未知任務(wù)的潛力。

然而，更大的模型也在應(yīng)用上面臨著更大的挑戰(zhàn)，傳統(tǒng)方法對(duì)超大規(guī)模的預(yù)訓(xùn)練模型進(jìn)行全參數(shù)微調(diào)的過(guò)程會(huì)消耗大量的 GPU 計(jì)算資源與存儲(chǔ)資源，巨大的成本令人望而卻步。這種成本也造成了學(xué)術(shù)界中的一種 “慣性”，即研究者僅僅在中小規(guī)模模型上驗(yàn)證自己的方法，而習(xí)慣性地忽略大規(guī)模模型。

在本文的統(tǒng)計(jì)中，我們隨機(jī)選取了 1000 篇來(lái)自最近五個(gè) NLP 會(huì)議的論文，發(fā)現(xiàn)使用預(yù)訓(xùn)練模型已經(jīng)成為了研究的基本范式，但涉及大模型的卻寥寥無(wú)幾（如圖 1 所示）。

在這樣的背景下，一種新的模型適配方案，參數(shù)高效（Parameter-efficient） 方法逐漸受到關(guān)注，與標(biāo)準(zhǔn)全參數(shù)微調(diào)相比，這些方法僅微調(diào)模型參數(shù)的一小部分，而其余部分保持不變，大大降低了計(jì)算和存儲(chǔ)成本，同時(shí)還有著可以媲美全參數(shù)微調(diào)的性能。我們認(rèn)為，這些方法本質(zhì)上都是在一個(gè) “增量”（Delta Paremters）上進(jìn)行調(diào)整，因此將它命名為 Delta Tuning。

在本文中，我們定義和描述了 Delta Tuning 問(wèn)題，并且通過(guò)一個(gè)統(tǒng)一的框架對(duì)以往的研究進(jìn)行梳理回顧。在這個(gè)框架中，現(xiàn)有的 Delta Tuning 方法可以被分為三組：增量式（Addition-based）、指定式（Specification-based）和重參數(shù)化（Reparameterization）的方法。

除去實(shí)踐意義之外，我們認(rèn)為它還具有非常重要的理論意義，Delta Tuning 在某種程度上昭示著大模型的背后機(jī)理，有助于我們進(jìn)一步發(fā)展面向大模型甚至深度神經(jīng)網(wǎng)絡(luò)的理論。為此，我們從優(yōu)化和最優(yōu)控制兩個(gè)角度，提出理論框架去討論 Delta Tuning，以指導(dǎo)后續(xù)的結(jié)構(gòu)和算法設(shè)計(jì)。此外，我們對(duì)代表性方法進(jìn)行了全面的實(shí)驗(yàn)對(duì)比，并在超過(guò) 100 個(gè) NLP 任務(wù)的結(jié)果展示了不同方法的綜合性能比較。實(shí)驗(yàn)結(jié)果涵蓋了對(duì) Delta Tuning 的性能表現(xiàn)、收斂表現(xiàn)、高效性表現(xiàn)、Power of Scale、泛化表現(xiàn)、遷移性表現(xiàn)的研究分析。我們還開(kāi)發(fā)了一個(gè)開(kāi)源工具包 OpenDelta，使從業(yè)者能夠高效、靈活地在 PLM 上實(shí)現(xiàn) Delta Tuning。

方法優(yōu)勢(shì)：

快速訓(xùn)練與存儲(chǔ)空間節(jié)省。Transformer 模型雖然本質(zhì)上是可并行化的，但由于其龐大的規(guī)模，訓(xùn)練起來(lái)非常緩慢。盡管 Delta Tuning 的收斂速度可能比傳統(tǒng)的全參數(shù)微調(diào)慢，但隨著反向傳播期間可微調(diào)參數(shù)的計(jì)算量顯著減少，Delta Tuning 的訓(xùn)練速度也得到了顯著提升。以前的研究已經(jīng)驗(yàn)證了，使用 Adapter 進(jìn)行下游調(diào)優(yōu)可以將訓(xùn)練時(shí)間減少到 40%，同時(shí)保持與全參數(shù)微調(diào)相當(dāng)?shù)男阅堋Ｓ捎谳p量的特性，訓(xùn)練得到的 Delta 參數(shù)還可以節(jié)省存儲(chǔ)空間，從而方便在從業(yè)者之間共享，促進(jìn)知識(shí)遷移。

多任務(wù)學(xué)習(xí)。構(gòu)建通用的人工智能系統(tǒng)一直是研究人員的目標(biāo)。最近，超大型 PLM （例如 GPT-3）已經(jīng)展示了同時(shí)擬合不同數(shù)據(jù)分布和促進(jìn)各種任務(wù)的下游性能的驚人能力。因此，在大規(guī)模預(yù)訓(xùn)練時(shí)代，多任務(wù)學(xué)習(xí)受到越來(lái)越多的關(guān)注。作為全參數(shù)微調(diào)方法的有效替代，Delta Tuning 具有出色的多任務(wù)學(xué)習(xí)能力，同時(shí)保持相對(duì)較低的額外存儲(chǔ)。成功的應(yīng)用包括多語(yǔ)言學(xué)習(xí)、閱讀理解等。此外，Delta Tuning 也有望作為持續(xù)學(xué)習(xí)中災(zāi)難性遺忘的潛在解決方案。在預(yù)訓(xùn)練期間獲得的語(yǔ)言能力存儲(chǔ)在模型的參數(shù)中。因此，當(dāng) PLM 在一系列任務(wù)中按順序進(jìn)行訓(xùn)練時(shí)，在沒(méi)有正則化的情況下更新 PLM 中的所有參數(shù)可能會(huì)導(dǎo)致嚴(yán)重的災(zāi)難性的遺忘。由于 Delta Tuning 僅調(diào)整最小參數(shù)，因此它可能是減輕災(zāi)難性遺忘問(wèn)題的潛在解決方案。

中心化模型服務(wù)和并行計(jì)算。超大型 PLM 通常作為服務(wù)發(fā)布，即用戶通過(guò)與模型提供者公布的 API 交互來(lái)使用大模型，而不是本地存儲(chǔ)大模型?？紤]到用戶和服務(wù)提供商之間難以承受的通信成本，由于其輕量級(jí)的特性，Delta Tuning 顯然是比傳統(tǒng)全參數(shù)微調(diào)更具競(jìng)爭(zhēng)力的選擇。一方面，服務(wù)提供商可以支持訓(xùn)練多個(gè)用戶所需的下游任務(wù)，同時(shí)消耗更少的計(jì)算和存儲(chǔ)空間。此外，考慮到一些 Delta Tuning 算法本質(zhì)上是可并行的（例如 Prompt Tuning 和 Prefix-Tuning 等），因此 Delta Tuning 可以允許在同一個(gè) batch 中并行訓(xùn)練 / 測(cè)試來(lái)自多個(gè)用戶的樣本（In-batch Parallel Computing）。最近的工作還表明，大多數(shù) Delta Tuning 方法，如果本質(zhì)上不能并行化，也可以通過(guò)一些方法修改以支持并行計(jì)算。另一方面，當(dāng)中心的達(dá)模型的梯度對(duì)用戶不可用時(shí)，Delta Tuning 仍然能夠通過(guò)無(wú)梯度的黑盒算法，僅調(diào)用模型推理 API 來(lái)優(yōu)化大型 PLM。

更多的細(xì)節(jié)，請(qǐng)點(diǎn)擊鏈接查看原文。

5. 目標(biāo)檢測(cè)中正負(fù)樣本的問(wèn)題經(jīng)驗(yàn)分析

https://mp.weixin.qq.com/s/9C7mszKErCCoSs0sYB3YcA

1. 什么是正負(fù)樣本？

對(duì)于像YOLO系列的結(jié)構(gòu)，正負(fù)樣本就是feature map上的每一個(gè)grid cell（或者說(shuō)對(duì)應(yīng)的anchor）。

對(duì)于像RCNN系列的結(jié)構(gòu)，RPN階段定義的正負(fù)樣本其實(shí)和YOLO系列一樣，也是每一個(gè)grid cell。RCNN階段定義的正負(fù)樣本是RPN模塊輸出的一個(gè)個(gè)proposals，即感興趣區(qū)域（region of interesting，roi），最后會(huì)用RoIPooling或者RoIAlign對(duì)每一個(gè)proposal提取特征，變成區(qū)域特征，這和grid cell中的特征是不一樣的。

對(duì)于DETR系列，正負(fù)樣本就是Object Queries，與gt是嚴(yán)格的一對(duì)一匹配。而YOLO，RCNN是可以多對(duì)一的匹配。

通常情況下，檢測(cè)問(wèn)題會(huì)涉及到3種不同性質(zhì)的樣本：

正樣本（positive）

對(duì)于positive，一旦判定某個(gè)grid cell或者proposal是正樣本，你就需要對(duì)其負(fù)責(zé)cls+bbox的訓(xùn)練。

忽略樣本（ignore）

ignore最大的用處就是可以處理模棱兩可的樣本，以及影響模型訓(xùn)練的樣本。所以對(duì)于ignore，對(duì)其不負(fù)責(zé)任何訓(xùn)練，或者對(duì)其負(fù)責(zé)bbox的訓(xùn)練，但是不負(fù)責(zé)cls的訓(xùn)練。

負(fù)樣本（negative）

對(duì)于negative，只負(fù)責(zé)cls的訓(xùn)練，不負(fù)責(zé)bbox的訓(xùn)練。

2. 怎么定義哪些是正樣本/ignore/負(fù)樣本

常規(guī)使用的方法：

借助每個(gè)grid cell中人為設(shè)置的anchor，計(jì)算其與所有g(shù)t（ground truth）的iou，通過(guò)iou的信息來(lái)判定每個(gè)grid cell屬于positive/ignore/negative哪種。

以當(dāng)前gt為中心的一定范圍內(nèi)，去判定每個(gè)grid cell屬于哪種樣本。

在具體的自動(dòng)駕駛量產(chǎn)項(xiàng)目中，往往會(huì)根據(jù)實(shí)際需求，比如對(duì)precision和recall的要求，在與gt匹配的邏輯中，會(huì)從類別、大小等角度去考慮，另外還會(huì)考慮特殊標(biāo)記的gt框（hard、dontcare）。

有以下幾個(gè)原則：

數(shù)量少的類別A，為其盡可能匹配適當(dāng)多一點(diǎn)的anchor，數(shù)量多的類別B，為其匹配少量且高質(zhì)量的anchor。這樣做目的是提高A的recall，提高B的precision，保證每個(gè)batch中，各類別間生成的正樣本數(shù)量趨于1：1
為小目標(biāo)匹配高質(zhì)量的anchor，忽略其周圍低質(zhì)量的anchor。這樣做是為了減少小目標(biāo)的誤檢，可能在一定程度上犧牲了召回。
對(duì)于中大目標(biāo)，就要考慮具體那個(gè)類別的數(shù)量了，數(shù)量少的類別匹配多一點(diǎn)，數(shù)量多就少匹配。
對(duì)于特殊標(biāo)記的gt框，如hard、dontcare，如果一些負(fù)樣本和這些hard、dontcare強(qiáng)相關(guān)，那么把這些負(fù)樣本變成ignore，避免讓樣本間產(chǎn)生歧義。

正負(fù)樣本的定義過(guò)程是一個(gè)迭代的過(guò)程，會(huì)根據(jù)模型的實(shí)際訓(xùn)練過(guò)程以及測(cè)試效果來(lái)動(dòng)態(tài)調(diào)整，比如模型對(duì)某個(gè)類recall偏低，那么此時(shí)我們就要增加該類生成正樣本的數(shù)量了。

定義的過(guò)程就是將正負(fù)樣本嚴(yán)格區(qū)分開(kāi)，為后續(xù)的采樣提供方便，如下圖，將從正樣本過(guò)渡到負(fù)樣本的這些樣本歸入ignore。

3. 采樣哪些正負(fù)樣本參與訓(xùn)練

個(gè)人認(rèn)為：該部分是訓(xùn)練檢測(cè)模型最為核心的部分，直接決定模型最后的性能。理解正負(fù)樣本的訓(xùn)練，實(shí)質(zhì)是理解正負(fù)樣本的變化是如何影響precision和recall的。

我們先考慮3個(gè)基本問(wèn)題，對(duì)于某個(gè)類別gt：

假設(shè)我們希望precision=1，不考慮recall，那么屬于該gt的并且參與訓(xùn)練的正負(fù)樣本理想情況會(huì)是什么樣的？

正樣本：數(shù)量越多越好，并且質(zhì)量越高越好。
負(fù)樣本：多樣性越豐富越好，數(shù)量越多越好（實(shí)際已經(jīng)滿足數(shù)量多的情況）。

假設(shè)我們希望recall=1，不考慮precision呢？

正樣本：數(shù)量越多越好。
負(fù)樣本：數(shù)量為0最好。

現(xiàn)在我們希望precision=1， recall=1呢？

正樣本：數(shù)量越多越好，并且質(zhì)量越高越好。
負(fù)樣本：多樣性越豐富越好，并且數(shù)量越多越好。

從以上3個(gè)問(wèn)題分析得到，對(duì)于某個(gè)類別的gt，屬于該gt的正樣本中，數(shù)量和質(zhì)量是矛盾的。數(shù)量越多，那么質(zhì)量必然下降，recall會(huì)偏高，precision會(huì)偏低。反之，數(shù)量越少，質(zhì)量會(huì)高，但是recall會(huì)偏低，precision會(huì)偏高。對(duì)于負(fù)樣本來(lái)說(shuō)，要求它數(shù)量越多，并且多樣性越豐富，這并不矛盾，實(shí)際是可以做到這點(diǎn)。

有人會(huì)問(wèn)，不看mAP嗎？
mAP是綜合衡量了recall從0到1變化的過(guò)程中（實(shí)際recall達(dá)不到1），precision的變化曲線，mAP并不直觀，實(shí)際把mAP當(dāng)做其中一個(gè)衡量指標(biāo)而已。

所以，我們采樣的目標(biāo)就是：

正樣本：質(zhì)量高，數(shù)量適當(dāng)

負(fù)樣本：多樣性越豐富，數(shù)量適當(dāng)（或者說(shuō)是正樣本數(shù)量的n倍，n一般取值[3,10]）

一般情況下，定義的那些正樣本都會(huì)采樣參與訓(xùn)練，負(fù)樣本就隨機(jī)采樣一些去訓(xùn)練。但在訓(xùn)練的過(guò)程中你需要考慮幾點(diǎn)：

定義的那些正樣本，模型真的都能搞定嗎？

在量產(chǎn)級(jí)的數(shù)據(jù)集中，往往會(huì)有百千萬(wàn)量級(jí)的目標(biāo)，雖然在定義正樣本的時(shí)候考慮到了很多因素，但是面對(duì)百千萬(wàn)量級(jí)的目標(biāo)，往往會(huì)存在一定比例的正樣本，模型壓根就學(xué)不會(huì)，訓(xùn)練后期模型loss就在一個(gè)小區(qū)間里震蕩，所以我們就要對(duì)這些樣本做進(jìn)一步處理，把其歸為ignore，減少他們對(duì)模型訓(xùn)練的影響。
對(duì)于FN（漏檢），我們就要根據(jù)具體的需求分析這些FN到底是否需要檢出，如果需要檢出，就需要調(diào)整定義這些FN的正樣本的匹配邏輯，讓其產(chǎn)生適合訓(xùn)練的正樣本。

面對(duì)數(shù)量眾多的負(fù)樣本，怎么針對(duì)性的采樣（適應(yīng)自己的項(xiàng)目）。

其實(shí)在項(xiàng)目前期，負(fù)樣本的采樣可以選擇隨機(jī)，但當(dāng)你進(jìn)行大量路采數(shù)據(jù)測(cè)試后，總結(jié)發(fā)現(xiàn)模型輸出的FP，比如，發(fā)現(xiàn)模型輸出大框背景的頻次偏高，那么這個(gè)時(shí)候我們就要改變隨機(jī)采樣負(fù)樣本的策略，就要針對(duì)性的增加小分辨率feature map上的負(fù)樣本的采樣。如果模型經(jīng)常把特定背景（樹(shù)尖，房屋）檢測(cè)為目標(biāo)，那么我們需要1. 檢查gt的標(biāo)注質(zhì)量。2. 想辦法采樣到這類的負(fù)樣本參與訓(xùn)練。

盡可能保證每個(gè)batch中，類別間采樣的正樣本比例為1:1。

在量產(chǎn)級(jí)數(shù)據(jù)中，因?yàn)槭菍?shí)車采集，往往會(huì)出現(xiàn)類別不均衡現(xiàn)象，隨著數(shù)據(jù)量的不斷增加，這種不均衡會(huì)被嚴(yán)重放大，如果直接采樣全部正樣本采樣訓(xùn)練，模型很可能出現(xiàn)precision和recall偏向類別多的那個(gè)類，比如類A，這個(gè)時(shí)候就需要考慮適當(dāng)降低類A的采樣，同時(shí)考慮適當(dāng)增加類B類C的采樣訓(xùn)練，來(lái)達(dá)成類別間正樣本的比例接近1:1。

所以，正負(fù)樣本的采樣是根據(jù)當(dāng)前模型的檢測(cè)效果來(lái)動(dòng)態(tài)改變優(yōu)化的，但是不管怎么改變，對(duì)正負(fù)樣本的采樣不會(huì)偏離理想狀態(tài)的，只不過(guò)離理想狀態(tài)的距離由自己手頭的數(shù)據(jù)集標(biāo)注質(zhì)量決定。

6. 微軟：多模態(tài)大模型GPT-4就在下周，撞車百度？

原文：

https://mp.weixin.qq.com/s/Se3xzcF6rtgcI7YXYgDZ8Q

我們知道，引爆如今科技界軍備競(jìng)賽的 ChatGPT 是在 GPT-3.5 上改進(jìn)得來(lái)的，OpenAI 很早就預(yù)告 GPT-4 將會(huì)在今年發(fā)布。最近各家大廠爭(zhēng)相入局的行動(dòng)似乎加快了這個(gè)進(jìn)程。

最新消息是，萬(wàn)眾期待的 GPT-4 下周就要推出了：在 3 月 9 日舉行的一場(chǎng)名為「AI in Focus - Digital Kickoff」的線下活動(dòng)中，四名微軟德國(guó)員工展示了 GPT 系列等大型語(yǔ)言模型（LLM）的顛覆性力量，以及 OpenAI 技術(shù)應(yīng)用于 Azure 產(chǎn)品的詳細(xì)信息。

在活動(dòng)中，微軟德國(guó)首席技術(shù)官 Andreas Braun 表示 GPT-4 即將發(fā)布，自從 3 月初多模態(tài)模型 Kosmos-1 發(fā)布以來(lái)，微軟一直在測(cè)試和調(diào)整來(lái)自 OpenAI 的多模態(tài)模型。

GPT-4，下周就出

「我們將在下周推出 GPT-4，它是一個(gè)多模態(tài)的模型，將提供完全不同的可能性 —— 例如視頻（生成能力），」Braun 說(shuō)道，他將語(yǔ)言大模型形容為游戲規(guī)則改變者，因?yàn)槿藗冊(cè)谶@種方法之上讓機(jī)器理解自然語(yǔ)言，機(jī)器就能以統(tǒng)計(jì)方式理解以前只能由人類閱讀和理解的內(nèi)容。

與此同時(shí)，這項(xiàng)技術(shù)已經(jīng)發(fā)展到基本上「適用于所有語(yǔ)言」：你可以用德語(yǔ)提問(wèn)，然后用意大利語(yǔ)得到答案。借助多模態(tài)，微軟和 OpenAI 將使「模型變得全面」。

改變業(yè)界

微軟德國(guó)公司首席執(zhí)行官 Marianne Janik 全面談到了人工智能對(duì)業(yè)界的顛覆性影響。Janik 強(qiáng)調(diào)了人工智能的價(jià)值創(chuàng)造潛力，并表示，當(dāng)前的人工智能發(fā)展和 ChatGPT 是「iPhone 發(fā)布一樣的時(shí)刻」。她表示，這不是要代替人類工作，而是幫助人們以不同于以往的方式完成重復(fù)性任務(wù)。

改變并不一定意味著失業(yè)。Janik 強(qiáng)調(diào)說(shuō)，這意味著「許多專家會(huì)開(kāi)始利用 AI 實(shí)現(xiàn)價(jià)值增長(zhǎng)」。傳統(tǒng)的工作行為正在發(fā)生變化，由于新的可能性出現(xiàn)，也會(huì)產(chǎn)生全新的職業(yè)。她建議公司成立內(nèi)部「能力中心」，培訓(xùn)員工使用人工智能并將想法整合到項(xiàng)目中。

此外，Janik 還強(qiáng)調(diào)，微軟不會(huì)使用客戶的數(shù)據(jù)來(lái)訓(xùn)練模型（但值得注意是，根據(jù) ChatGPT 的政策，這不會(huì)或至少不會(huì)適用于他們的研究合作伙伴 OpenAI）。

實(shí)際用例

微軟的兩位 AI 技術(shù)專家 Clemens Sieber 和 Holger Kenn 提供了關(guān)于 AI 實(shí)際使用的一些信息。他們的團(tuán)隊(duì)目前正在處理具體的用例，他們講解了用例涉及的技術(shù)。

Kenn 解釋了什么是多模態(tài)人工智能，它不僅可以將文本相應(yīng)地翻譯成圖像，還可以翻譯成音樂(lè)和視頻。除了 GPT-3.5 模型之外，他還談到了嵌入，用于模型中文本的內(nèi)部表征。根據(jù) Kenn 的說(shuō)法，「負(fù)責(zé)任」的 AI 已經(jīng)內(nèi)置到微軟的產(chǎn)品中，并且可以通過(guò)云將數(shù)百萬(wàn)個(gè)查詢映射到 API 中。

Clemens Siebler 則用用例說(shuō)明了今天已經(jīng)成為可能的事情，例如可以把電話呼叫的語(yǔ)音直接記錄成文本。根據(jù) Siebler 的說(shuō)法，這可以為微軟在荷蘭的一家大型客戶每天節(jié)省 500 個(gè)工作小時(shí)。該項(xiàng)目的原型是在兩個(gè)小時(shí)內(nèi)創(chuàng)建的，一個(gè)開(kāi)發(fā)人員在兩周內(nèi)完成了該項(xiàng)目。據(jù)他介紹，三個(gè)最常見(jiàn)的用例是回答只有員工才能訪問(wèn)的公司信息、AI 輔助文檔處理和在呼叫中心處理口語(yǔ)的半自動(dòng)化。

微軟表示人們很快就會(huì)與其全新的 AI 工具見(jiàn)面。特別是在編程領(lǐng)域，Codex 和 Copilot 等模型可以更輕松地創(chuàng)建代碼，令人期待。

當(dāng)被問(wèn)及操作可靠性和事實(shí)保真度時(shí)，Siebler 表示 AI 不會(huì)總是正確回答，因此有必要進(jìn)行驗(yàn)證。微軟目前正在創(chuàng)建置信度指標(biāo)來(lái)解決此問(wèn)題。通常，客戶僅在自己的數(shù)據(jù)集上使用 AI 工具，主要用于閱讀理解和查詢庫(kù)存數(shù)據(jù)，在這些情況下，模型已經(jīng)相當(dāng)準(zhǔn)確。然而，模型生成的文本仍然是生成性的，因此不容易驗(yàn)證。Siebler 表示微軟圍繞生成型 AI 建立了一個(gè)反饋循環(huán)，包括贊成和反對(duì)，這是一個(gè)迭代的過(guò)程。

看來(lái)在 AI 大模型的競(jìng)爭(zhēng)中，領(lǐng)先的一方也加快了腳步。微軟在過(guò)去一周左右接連發(fā)布了展示多模態(tài)的語(yǔ)言大模型論文 Kosmos-1 和 Visual ChatGPT，這家公司顯然非常支持多模態(tài)，希望能夠做到使感知與 LLM 保持一致，如此一來(lái)就能讓單個(gè) AI 模型看文字圖片，也能「說(shuō)話」。

微軟的下次 AI 活動(dòng)選在了 3 月 16 日，CEO 薩蒂亞?納德拉將親自上臺(tái)演講，不知他們是否會(huì)在這次活動(dòng)上發(fā)布 GPT-4。有趣的是，微軟的活動(dòng)和百度推出文心一言選在了同一天。

距離 3 月 16 日百度推出類 ChatGPT 聊天機(jī)器人還有一周時(shí)間，最近有報(bào)道稱，百度正在抓緊時(shí)間趕在發(fā)布最后期限前完成任務(wù)。目前看來(lái)，百度打算分階段推出文心一言的各項(xiàng)功能，并首先向部分用戶開(kāi)放公測(cè)。知情人士稱，在春節(jié)假期過(guò)后，李彥宏就要求包括自動(dòng)駕駛部門在內(nèi)的全公司 AI 研究團(tuán)隊(duì)將英偉達(dá) A100 支援給文心一言的開(kāi)發(fā)。

7. 谷歌報(bào)復(fù)性砸出5620億參數(shù)大模型！比ChatGPT更恐怖，機(jī)器人都能用，學(xué)術(shù)圈已刷屏

原文：https://mp.weixin.qq.com/s/Se3xzcF6rtgcI7YXYgDZ8Q

為應(yīng)對(duì)新一輪技術(shù)競(jìng)賽，谷歌還在不斷出后手。

這兩天，一個(gè)名叫PaLM-E的大模型在AI學(xué)術(shù)圈瘋狂刷屏。

它能只需一句話，就讓機(jī)器人去廚房抽屜里拿薯片。即便是中途干擾它，它也會(huì)堅(jiān)持執(zhí)行任務(wù)。

PaLM-E擁有5620億參數(shù)，是GPT-3的三倍多，號(hào)稱史上最大規(guī)模視覺(jué)語(yǔ)言模型。而它背后的打造團(tuán)隊(duì)，正是谷歌和柏林工業(yè)大學(xué)。

作為一個(gè)能處理多模態(tài)信息的大模型，它還兼具非常強(qiáng)的邏輯思維。

比如能從一堆圖片里，判斷出哪個(gè)是能滾動(dòng)的。

還會(huì)看圖做算數(shù)：

有人感慨：

這項(xiàng)工作比ChatGPT離AGI更近一步?。?/p>

而另一邊，微軟其實(shí)也在嘗試ChatGPT指揮機(jī)器人干活。

這么看，谷歌是憑借PaLM-E一步到位了？

邏輯性更強(qiáng)的大模型

PaLM-E是將PaLM和ViT強(qiáng)強(qiáng)聯(lián)合。

5620億的參數(shù)量，其實(shí)就是如上兩個(gè)模型參數(shù)量相加而來(lái)（5400億+220億）。

PaLM是谷歌在22年發(fā)布的語(yǔ)言大模型，它是Pathways架構(gòu)訓(xùn)練出來(lái)的，能通過(guò)“思考過(guò)程提示”獲得更準(zhǔn)確的邏輯推理能力，減少AI生成內(nèi)容中的錯(cuò)誤和胡言亂語(yǔ)。

Pathways是一種稀疏模型架構(gòu)，是谷歌AI這兩年重點(diǎn)發(fā)展方向之一，目標(biāo)就是訓(xùn)練出可執(zhí)行成千上百種任務(wù)的通用模型。

ViT是計(jì)算機(jī)視覺(jué)領(lǐng)域的經(jīng)典工作了，即Vision Transformer。

兩者結(jié)合后，PaLM-E可以處理多模態(tài)信息。包括：

語(yǔ)言
圖像
場(chǎng)景表征
物體表征

通過(guò)加一個(gè)編碼器，模型可以將圖像或傳感器數(shù)據(jù)編碼為一系列與語(yǔ)言標(biāo)記大小相同的向量，將此作為輸入用于下一個(gè)token預(yù)測(cè)，進(jìn)行端到端訓(xùn)練。

具體能力方面，PaLM-E表現(xiàn)出了比較強(qiáng)的邏輯性。

比如給它一張圖片，然后讓它根據(jù)所看到的做出蛋糕。

模型能先判斷出圖像中都有什么，然后分成9步講了該如何制作蛋糕，從最初的磕雞蛋到最后洗碗都包括在內(nèi)。

再次驗(yàn)證大力出奇跡

目前這項(xiàng)研究已引發(fā)非常廣泛的討論。

主要在于以下幾個(gè)方面：

1、一定程度上驗(yàn)證了“大力出奇跡”
2、比ChatGPT更接近AGI？

一方面，作為目前已知的規(guī)模最大的視覺(jué)語(yǔ)言模型，PaLM-E的表現(xiàn)已經(jīng)足夠驚艷了。

去年，DeepMind也發(fā)布過(guò)一個(gè)通才大模型Gota，在604個(gè)不同的任務(wù)上接受了訓(xùn)練。

但當(dāng)時(shí)有很多人認(rèn)為它并不算真正意義上的通用，因?yàn)檠芯繜o(wú)法證明模型在不同任務(wù)之間發(fā)生了正向遷移。

論文作者表示，這或許是因?yàn)槟Ｐ鸵?guī)模還不夠大。

如今，PaLM-E似乎完成了這一論證。

不過(guò)也有聲音擔(dān)心，這是不是把卷參數(shù)從NLP引到了CV圈？

另一方面，是從大趨勢(shì)上來(lái)看。

有人表示，這項(xiàng)工作看上去要比ChatGPT更接近AGI啊。

的確，用ChatGPT還只是提供文字建議，很多具體動(dòng)手的事還要自己來(lái)。

但PaLM-E屬于把大模型能力拉入到具象化層面，AI和物理世界之間的結(jié)界要被打破了。

而且這個(gè)趨勢(shì)顯然也是大家都在琢磨的，微軟前不久也發(fā)布了一項(xiàng)非常相似的工作——讓ChatGPT指揮機(jī)器人。

除此之外，還有很多人表示，這再一次驗(yàn)證了多模態(tài)是未來(lái)。

不過(guò)，這項(xiàng)成果現(xiàn)在只有論文和demo發(fā)布，真正能力有待驗(yàn)證。

此外還有人發(fā)現(xiàn)，模型驅(qū)動(dòng)的機(jī)器人，背后的開(kāi)發(fā)團(tuán)隊(duì)在幾周前被谷歌一鍋端了。。。

———————End———————

RT-Thread線下入門培訓(xùn)

如果你愿意在所在城市協(xié)調(diào)組織活動(dòng)（包括尋找合適場(chǎng)地或主持或宣傳），請(qǐng)掃碼填寫(xiě)以下合作信息，我們將盡快聯(lián)系你；

如果你愿意在所在城市為活動(dòng)提供場(chǎng)地的支持（場(chǎng)地需要有投影等設(shè)備），請(qǐng)掃碼填寫(xiě)以下合作信息，我們將盡快聯(lián)系你；

如果你愿意為活動(dòng)提供禮品/板卡贊助，請(qǐng)掃碼填寫(xiě)以下合作信息，我們將盡快聯(lián)系你；

巡回城市：青島、北京、西安、成都、武漢、鄭州、杭州、深圳

你可以添加微信：rtthread2020 為好友，注明：公司+姓名，拉進(jìn)RT-Thread官方微信交流群！

你也可以把文章轉(zhuǎn)給學(xué)校老師、公司領(lǐng)導(dǎo)等相關(guān)人員，讓RT-Thread可以惠及更多的開(kāi)發(fā)者

原文標(biāo)題：【AI簡(jiǎn)報(bào)20230310】知存科技再推存算一體芯片、微軟：多模態(tài)大模型GPT-4就在下周

文章出處：【微信公眾號(hào)：RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴