1、 OpenAI 引領(lǐng),人工智能進(jìn)入大模型時(shí)代
1.1、 ChatGPT 橫空出世,引領(lǐng)人工智能新浪潮
人工智能歷經(jīng)多年發(fā)展,在諸多領(lǐng)域超越人類。自 1956 年 8 月達(dá)特茅斯會(huì)議上 “人工智能”概念誕生以來,行業(yè)幾經(jīng)起落不斷發(fā)展壯大。臨近新千年的 1997,IBM 深藍(lán)計(jì)算機(jī)打敗國際象棋大師卡斯帕羅夫成為首臺(tái)打敗國際象棋世界冠軍的電腦。 2010 年,谷歌宣布自動(dòng)駕駛汽車計(jì)劃。2012 年卷積神經(jīng)網(wǎng)絡(luò) AlexNet 在大規(guī)模視覺 識(shí)別挑戰(zhàn)賽中以比第二名低 10.8 個(gè)百分點(diǎn)的錯(cuò)誤率奪冠,引發(fā)轟動(dòng),開啟了深度學(xué) 習(xí)黃金時(shí)代。2016 年 DeepMind 公司的 AlphaGo 以 4:1 大比分戰(zhàn)勝當(dāng)時(shí)世界冠軍李 世石,人類將圍棋冠軍也讓與計(jì)算機(jī),掀起人工智能新一輪熱潮。多年以來,像計(jì) 算器超越人類的計(jì)算能力一樣,人工智能在越來越多領(lǐng)域超越人類,并被應(yīng)用到千 行百業(yè),未來將繼續(xù)在更多的領(lǐng)域嶄露頭角,為人類賦能。
ChatGPT 橫空出世,再次引發(fā)人工智能熱潮。2022 年 11 月,ChatGPT 橫空出 世,作為一種應(yīng)用在對(duì)話場(chǎng)景的大語言模型,它可以通過更貼近人的方式與使用者 互動(dòng),可以回答問題、承認(rèn)錯(cuò)誤、挑戰(zhàn)不正確的前提、拒絕不適當(dāng)?shù)恼?qǐng)求,同時(shí)擁 有驚艷的思維鏈推理能力和零樣本下處理問題能力。在理解人類意圖、精準(zhǔn)回答問 題、流暢生成結(jié)果方面遠(yuǎn)超人類預(yù)期,幾乎“無所不能”,引發(fā)網(wǎng)絡(luò)熱潮。據(jù)瑞銀數(shù) 據(jù),ChatGPT 產(chǎn)品推出 2 個(gè)月后用戶數(shù)量即過億,而上一個(gè)現(xiàn)象級(jí)應(yīng)用 TikTok 達(dá)到 1 億用戶花費(fèi)了 9 個(gè)月時(shí)間。微軟將 ChatGPT 整合到其搜索引擎必應(yīng)中后,在 1 個(gè) 多月的時(shí)間內(nèi)讓必應(yīng)日活躍用戶數(shù)過億。
GPT-4 能力進(jìn)一步提升,安全性顯著增強(qiáng)。Open AI 在當(dāng)?shù)貢r(shí)間 2023 年 3 月 14 日發(fā)布了 GPT-3.5(ChatGPT 基于 GPT3.5 開發(fā))的升級(jí)版 GPT-4,性能全面超越 ChatGPT。其具備多模態(tài)能力,可以同時(shí)支持文本和圖像輸入。支持的文本輸入數(shù)量 提升至約 32000 個(gè) tokens,對(duì)應(yīng)約 2.5 萬單詞。性能方面,(1)理解/推理/多語言能 力增強(qiáng),在專業(yè)和學(xué)術(shù)考試中表現(xiàn)突出,全面超越 GPT3.5,通過了統(tǒng)一律師考試的 模擬版本,分?jǐn)?shù)在考生中排名前 10%。(2)理解能力顯著增強(qiáng),可以實(shí)現(xiàn)“看圖說話”, 甚至能夠理解一些幽默的圖片笑話。(3)可靠性相比 GPT3.5 大幅提升 19%。(4)安 全性指標(biāo)相比 GPT3.5 有顯著提升,對(duì)不允許和敏感內(nèi)容的錯(cuò)誤反應(yīng)顯著下降。
1.2、 算法是人工智能的基石,Transformer 逐步成為主流
1.2.1、 始于 NLP,延伸至各領(lǐng)域,Transformer 在人工智能行業(yè)展現(xiàn)統(tǒng)治力
算法是構(gòu)成模型的基石,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)曾為 自然語言處理和圖像處理的領(lǐng)域主流算法。早年人工智能領(lǐng)域常見的算法包含循環(huán) 神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),其中循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)環(huán)節(jié)的輸出與前 面的輸出有關(guān)(有“記憶”),因此可更好的處理序列問題,如文本、股市、翻譯等。 卷積神經(jīng)網(wǎng)絡(luò)則以圖像識(shí)別為核心,通過卷積核進(jìn)行窗口滑動(dòng)來進(jìn)行特征提取,進(jìn) 而實(shí)現(xiàn)圖像識(shí)別等功能。但兩類算法均存在自身的問題,循環(huán)神經(jīng)網(wǎng)絡(luò)并行度低, 計(jì)算效率受限,同時(shí)輸入的數(shù)據(jù)較為龐大時(shí),早期的記憶容易丟失。而卷積神經(jīng)網(wǎng) 絡(luò)由于需要卷積核滑動(dòng)來提取特征,面對(duì)距離較遠(yuǎn)的特征之間的關(guān)系識(shí)別能力有限。
Transformer 結(jié)構(gòu)性能強(qiáng)大一經(jīng)推出迅速得到認(rèn)可。Transformer 在谷歌著名的 論文“Attention is all you need”首次出現(xiàn),其優(yōu)點(diǎn)在于并行度高,精度和性能上均優(yōu) 于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。該算法采用編碼器解碼器(Encoder-Decoder)架構(gòu),編碼器接受 輸入并將其編碼為固定長度的向量,解碼器獲取該向量并將其解碼為輸出序列。該 算法早期被應(yīng)用于翻譯領(lǐng)域,相比傳統(tǒng) RNN 只關(guān)注句子相鄰詞之間的關(guān)系, Transformer 會(huì)將句子中的每個(gè)字與所有單詞進(jìn)行計(jì)算,得出他們之間的相關(guān)度,而 確定該詞在句子里更準(zhǔn)確的意義。因此 Transformer 擁有更優(yōu)的全局信息感知能力。
始于 NLP,逐步延伸到各大應(yīng)用領(lǐng)域。在計(jì)算機(jī)視覺領(lǐng)域,早年卷積神經(jīng)網(wǎng)絡(luò) (CNN)幾乎占據(jù)統(tǒng)治地位,Transformer 出現(xiàn)后,大量基于 Transformer 及 CNN 和 Transformer 算法的結(jié)合體涌現(xiàn),誕生了最初應(yīng)用在圖像識(shí)別領(lǐng)域的 Vision Transformer,應(yīng)用在目標(biāo)檢測(cè)領(lǐng)域的 DETR,應(yīng)用在分割領(lǐng)域的 SETR 等等諸多算法。 此外在其他領(lǐng)域,Transformer 也開始嶄露頭角,觀察 Transformer 有關(guān)的論文,幾年 之內(nèi),其所覆蓋的領(lǐng)域迅速泛化,涵蓋文本、圖像、語音、視頻等。
1.2.2、 大語言模型多基于 Transformer 構(gòu)建,Decoder-Only 系列占優(yōu)
大語言模型形成三大類別,Decoder-Only 系列占優(yōu)。出色的性能讓 Transformer 架構(gòu)已經(jīng)成為各種大語言模型的主干,前文提到 Transformer 結(jié)構(gòu)由編碼器和解碼器 構(gòu)成,而單獨(dú)基于編碼器或者解碼器均可構(gòu)建大語言模型,因此業(yè)內(nèi)形成三類大模 型路線:Decoder-Only(僅解碼器)、Encoder-Only(僅編碼器)、Encoder-Decoder(編 碼器-解碼器)。其中采用 Encoder-Only 的有谷歌的 Bert、微軟的 Deberta 等,其采用 “完形填空”式的預(yù)訓(xùn)練,再根據(jù)所需的應(yīng)用領(lǐng)域用少量標(biāo)注過的數(shù)據(jù)進(jìn)行 Fine-tuning(微調(diào))。采用 Decoder-Only 的有 GPT 等,其采用“預(yù)測(cè)下一個(gè)單詞”的 方式進(jìn)行預(yù)訓(xùn)練,之后通過指令微調(diào)等實(shí)現(xiàn)特定領(lǐng)域功能的激發(fā)。此外也有采用 Encoder-Decoder 架構(gòu)的模型如谷歌的 T5、META 的 Bart、清華大學(xué)的 ChatGLM 等。 值得注意的是當(dāng) GPT3 推出后,大量基于 Decoder-Only 的算法涌現(xiàn)出來,成為主流 的大模型算法構(gòu)建方式。
1.3、 大模型+預(yù)訓(xùn)練+人類反饋微調(diào),大模型蓄勢(shì)待發(fā)
1.3.1、 探求 ChatGPT 的能力來源,尋找構(gòu)建大模型的有效方法
GPT 的能力來源于預(yù)訓(xùn)練+指令微調(diào)+基于人類反饋的強(qiáng)化學(xué)習(xí)。ChatGPT 的前 身為 GPT-3,基于 GPT-3,OpenAI 對(duì)大模型進(jìn)行了諸多探索,開發(fā)出了多個(gè)可應(yīng)用 于不同領(lǐng)域的模型。對(duì)比這些不同的模型,在初代的 GPT-3 上即展現(xiàn)出語言生成、 情景學(xué)習(xí)(in-context learning,遵循給定的示例為新的測(cè)試應(yīng)用生成解決方案)、世 界知識(shí)(事實(shí)性知識(shí)和常識(shí))等能力,而這些能力幾乎都來自于大規(guī)模的預(yù)訓(xùn)練, 通過讓擁有 1750 億參數(shù)的大模型去學(xué)習(xí)包含 3000 億單詞的語料,大模型已經(jīng)具備 了所有的基礎(chǔ)能力。而通過指令微調(diào)(Instruction tuning),幫助大模型“解鎖”特定領(lǐng) 域的能力如遵循指令來實(shí)現(xiàn)問答式的聊天機(jī)器人,或泛化到其他新的任務(wù)領(lǐng)域。而 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,Reinforcement Learning with Human Feedback)則 讓大模型具備了和人類“對(duì)齊”的能力,即給予提問者詳實(shí)、公正的回應(yīng),拒絕不當(dāng) 的問題,拒絕其知識(shí)范圍外的問題等特性。
1.3.2、 大參數(shù)+海量數(shù)據(jù)預(yù)訓(xùn)練+基于人類反饋的微調(diào)構(gòu)成打造大語言模型的要素
大參數(shù)量變帶來質(zhì)變,“涌現(xiàn)”現(xiàn)象帶來大模型能力躍遷。當(dāng)模型規(guī)模較小時(shí), 模型的性能和參數(shù)大致符合比例定律,即模型的性能提升和參數(shù)增長呈現(xiàn)線性關(guān)系, 而當(dāng)參數(shù)量上升到一定程度,模型的性能會(huì)突然躍遷,打破比例定律,實(shí)現(xiàn)質(zhì)的飛 躍,這被稱為模型的“涌現(xiàn)”能力。諸多研究發(fā)現(xiàn),大參數(shù)量,配合海量數(shù)據(jù)訓(xùn)練, 大語言模型在 In-context learning(情景學(xué)習(xí))、Instruct following(指令遵循)、Chain of thought(思維鏈,即可逐步解決問題)方面會(huì)出現(xiàn)“涌現(xiàn)”現(xiàn)象。因此模型擁有 較大參數(shù)量是其擁有超乎想象性能的前提。
海量數(shù)據(jù)預(yù)訓(xùn)練不可或缺。參數(shù)量龐大的大語言模型需要大量覆蓋廣泛內(nèi)容的 高質(zhì)量數(shù)據(jù)。目前的語料庫包含網(wǎng)頁、書籍、對(duì)話、百科、書籍、代碼等。數(shù)據(jù)集 的規(guī)模和質(zhì)量對(duì)模型的性能表現(xiàn)至關(guān)重要,大模型玩家采用獨(dú)特的數(shù)據(jù)訓(xùn)練模型以 增強(qiáng)模型性能。如 Project Gutenberg(古騰堡計(jì)劃)是一個(gè)經(jīng)典的西方文學(xué)數(shù)據(jù)集, 其由超過 70000 本文學(xué)書籍組成,包括小說、詩歌、散文、戲劇、科學(xué)、哲學(xué)等諸 多類型作品,是目前最大的開源藏書之一,被用于 Meta 的大語言模型 LLaMA 以及 英偉達(dá)和微軟聯(lián)合推出的大語言模型 MT-NLG 的訓(xùn)練,而 GPT3 中所使用的 Books1 和 Books3 數(shù)據(jù)集則至今未公開發(fā)布。
恰當(dāng)?shù)哪P臀⒄{(diào)亦尤為重要。預(yù)訓(xùn)練構(gòu)筑模型強(qiáng)大的基礎(chǔ)能力之后,恰當(dāng)?shù)哪?型微調(diào)將賦予模型在特定領(lǐng)域的能力和與人類“對(duì)齊”的能力。在這里,模型調(diào)整 的方法繁多,以 ChatGPT 的訓(xùn)練過程為例,預(yù)訓(xùn)練好的基礎(chǔ)模型進(jìn)一步的訓(xùn)練通常 分為三步:(1)采用人工標(biāo)注好的數(shù)據(jù)來訓(xùn)練模型;(2)通過人類對(duì)模型答案的排 序訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型;(3)使用獎(jiǎng)勵(lì)模型通過強(qiáng)化學(xué)習(xí)的方式訓(xùn)練 ChatGPT。其中 后兩個(gè)步驟稱為 RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))。在 GPT4 的訓(xùn)練過程中,OpenAI 還進(jìn)一步加入了基于規(guī)則的獎(jiǎng)勵(lì)模型(RBRMs)來幫助模型進(jìn)一步生成正確的回答, 拒絕有害內(nèi)容。可以看出模型微調(diào)對(duì)模型最終的效果實(shí)現(xiàn)至關(guān)重要,玩家獨(dú)特的訓(xùn) 練和微調(diào)方法會(huì)讓自己的模型形成獨(dú)特的性能。
1.4、 多模態(tài)成為趨勢(shì),應(yīng)用端千帆競渡,人工智能迎來 iPhone 時(shí)刻
OpenAI 產(chǎn)品一經(jīng)發(fā)布,全球掀起大模型研發(fā)的熱潮,諸多巨頭切入大模型開發(fā) 領(lǐng)域。在模型構(gòu)建方面,ChatGPT 等產(chǎn)品提供良好范式,玩家可基于此方式構(gòu)建自 己的產(chǎn)品。同時(shí)多模態(tài)的大模型已經(jīng)成為玩家們的終極目標(biāo),而隨著圖像、視頻數(shù) 據(jù)的介入,大模型的能力亦將實(shí)現(xiàn)進(jìn)一步提升。在應(yīng)用端,也呈現(xiàn)出繁榮發(fā)展的態(tài) 勢(shì),諸多玩家與大模型廠商合作以求探索新的業(yè)務(wù)和盈利模式。而隨著后期多模態(tài) 等大模型的發(fā)展進(jìn)一步加速,以及變得更準(zhǔn)確、更可靠、更安全;基礎(chǔ)大模型+特定 行業(yè)應(yīng)用的業(yè)務(wù)形式會(huì)逐步鋪開,人工智能賦能千行百業(yè),有望再次引領(lǐng)新的“iphone” 時(shí)刻。
2、 大模型賦能自動(dòng)駕駛,算法、數(shù)據(jù)閉環(huán)、仿真全面受益
2.1、 自動(dòng)駕駛算法、數(shù)據(jù)不斷迭代,長尾問題處理成為關(guān)鍵
自動(dòng)駕駛算法從基于規(guī)則逐步走向神經(jīng)網(wǎng)絡(luò),從模塊化部署走向端到端一體化, Transformer+BEV 逐步成為主流。目前自動(dòng)駕駛算法歷經(jīng)多年演變,呈現(xiàn)出幾大特 點(diǎn)。首先,基于神經(jīng)網(wǎng)絡(luò)的算法逐步替代基于規(guī)則的算法,早年神經(jīng)網(wǎng)絡(luò)主要用于 感知環(huán)節(jié),現(xiàn)在逐步在向規(guī)劃控制環(huán)節(jié)滲透。其次,自動(dòng)駕駛算法在早期以模塊化 部署,每個(gè)模塊擁有獨(dú)立的優(yōu)化目標(biāo),但整體模型的效果未必達(dá)到最優(yōu),因此端到 端的自動(dòng)駕駛解決方案映入人們眼簾,學(xué)界和產(chǎn)業(yè)界均進(jìn)行了諸多探索。最后,我 們看到行業(yè)玩家逐步認(rèn)可 Transformer+BEV 的算法構(gòu)建模式,模型架構(gòu)上逐步走向 趨同,這無疑將推動(dòng)包含芯片在內(nèi)的整個(gè)產(chǎn)業(yè)鏈加速發(fā)展。
長尾問題處理是自動(dòng)駕駛面臨的主要挑戰(zhàn),數(shù)據(jù)驅(qū)動(dòng)提供解藥。當(dāng)前,大部分 算法可以覆蓋主要的行車場(chǎng)景,但駕駛環(huán)境紛繁復(fù)雜,仍有諸多罕見的長尾場(chǎng)景需 要算法識(shí)別和處理,這類場(chǎng)景雖不常見但無法忽視,成為制約自動(dòng)駕駛成熟的主要 瓶頸。行業(yè)通常采用大量的數(shù)據(jù)去訓(xùn)練自動(dòng)駕駛算法,以求讓自動(dòng)駕駛模型成為見 多識(shí)廣的“老司機(jī)”。早期 Waymo 的路測(cè)、特斯拉的影子模式均希望通過獲取大量 數(shù)據(jù)解決長尾問題。馬斯克曾經(jīng)在推特上贊同了實(shí)現(xiàn)超越人類的自動(dòng)駕駛能力至少 需要 100 億公里駕駛數(shù)據(jù)的說法。國內(nèi)毫末智行將數(shù)據(jù)作為“自動(dòng)駕駛能力函數(shù)” 的自變量,認(rèn)為是決定能力發(fā)展的關(guān)鍵。Momenta 在其公眾號(hào)上也表示 L4 要實(shí)現(xiàn)規(guī) ?;?,至少要做到人類司機(jī)的安全水平,最好比人類司機(jī)水平高一個(gè)數(shù)量級(jí),因此 需要至少千億公里的測(cè)試,解決百萬長尾問題。
自動(dòng)駕駛在模型端仍需優(yōu)化,數(shù)據(jù)閉環(huán)、仿真工具仍待完善。自動(dòng)駕駛近年發(fā) 展迅猛,硬件預(yù)埋軟件持續(xù)迭代的風(fēng)潮下,車載算力急劇增長快速普及,但軟件端 功能進(jìn)化滯后于算力。軟件端算法、數(shù)據(jù)閉環(huán)、仿真系統(tǒng)均有待完善。算法領(lǐng)域感 知、預(yù)測(cè)、決策、規(guī)劃模型都在不斷升級(jí)演進(jìn),精度、可靠性均有提升空間。數(shù)據(jù) 閉環(huán)系統(tǒng)方面,伴隨有關(guān)車型量產(chǎn),數(shù)據(jù)的挖掘、標(biāo)注和處理工作量龐大,數(shù)據(jù)閉 環(huán)系統(tǒng)自動(dòng)化高效運(yùn)行決定模型能否由數(shù)據(jù)驅(qū)動(dòng)持續(xù)迭代。仿真環(huán)節(jié),理論上優(yōu)質(zhì) 仿真可替代實(shí)車數(shù)據(jù)收集,降低算法搭建成本并提升迭代速率,但逼真的仿真環(huán)境 的構(gòu)建、諸多的長尾場(chǎng)景的復(fù)現(xiàn)難度大。
2.2、 大模型全面賦能,自動(dòng)駕駛各大環(huán)節(jié)全面受益
蒸餾、剪枝、量化助力大模型在多場(chǎng)景應(yīng)用。通常大型模型采用三種方式壓縮: 蒸餾、剪枝、量化。蒸餾類似于老師教學(xué)生,將一個(gè)大模型或多個(gè)模型集學(xué)到的知 識(shí)遷移到另一個(gè)輕量級(jí)的模型上方便部署。剪枝可理解為將復(fù)雜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)精 簡使其變得輕量化。量化則為直接降低模型中的參數(shù)精度,進(jìn)而實(shí)現(xiàn)模型輕量化。 基于多種模型壓縮的方式,大模型也擁有了加速垂直行業(yè)的基礎(chǔ)。
大模型可在算法、數(shù)據(jù)閉環(huán)、仿真等環(huán)節(jié)全面賦能自動(dòng)駕駛。大模型具有良好 的認(rèn)知和推理性能,作為人工智能最先落地的應(yīng)用領(lǐng)域之一,自動(dòng)駕駛有望得到全 面助力。首先在數(shù)據(jù)閉環(huán)和仿真環(huán)節(jié),大模型的精準(zhǔn)識(shí)別和數(shù)據(jù)挖掘以及數(shù)據(jù)生成 能力可對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)標(biāo)注、以及仿真場(chǎng)景構(gòu)建賦能。其次在模塊化的算法部署 模式下,感知算法、規(guī)控算法亦可受到大模型的加強(qiáng)而實(shí)現(xiàn)感知精度和規(guī)控效果的 提升。最后,端到端的感知決策一體化算法被認(rèn)為是自動(dòng)駕駛算法終局,但面臨諸 多難以解決的問題,比如構(gòu)建適合該算法的仿真換環(huán)境、端到端的數(shù)據(jù)標(biāo)注等,而 在大模型時(shí)代以上問題或不再成為瓶頸,落地指日可待。
2.2.1、 大模型助力數(shù)據(jù)挖掘和自動(dòng)標(biāo)注,數(shù)據(jù)飛輪飛馳推動(dòng)自動(dòng)駕駛落地
在自動(dòng)駕駛的數(shù)據(jù)閉環(huán)體系構(gòu)建過程中存在數(shù)據(jù)挖掘和自動(dòng)標(biāo)注等難點(diǎn)。隨著 量產(chǎn)車型數(shù)量增加,產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長,一方面,高效的利用數(shù)據(jù)實(shí)現(xiàn) 預(yù)期的訓(xùn)練效果要求系統(tǒng)具有數(shù)據(jù)挖掘、處理能力。另一方面,海量數(shù)據(jù)的標(biāo)注帶 來高昂的成本,而部分 3D 場(chǎng)景人工標(biāo)注較為困難,進(jìn)一步限制算法模型迭代和應(yīng)用, 大模型誕生后這兩類問題有望迎刃而解。
數(shù)據(jù)挖掘:百度阿波羅應(yīng)用大模型實(shí)現(xiàn)長尾數(shù)據(jù)挖掘
百度首先利用文字和圖像輸入編碼器預(yù)訓(xùn)練一個(gè)原始模型用來實(shí)現(xiàn)向量搜索, 再利用算法將街景圖像數(shù)據(jù)進(jìn)行物體識(shí)別并定位和分割,經(jīng)過圖像編碼器,形成底 庫;簡單來說就是基于街景建立一個(gè)擁有圖片和文字信息對(duì)應(yīng)的大模型。最后,面 向特定的場(chǎng)景(如快遞車、輪椅、小孩等),可以通過文本、圖像等形式進(jìn)行搜索和 挖掘(類似向量數(shù)據(jù)庫)。進(jìn)而對(duì)自動(dòng)駕駛模型進(jìn)行定制化的訓(xùn)練,大幅提升存量數(shù) 據(jù)的利用效果。
自動(dòng)標(biāo)注:商湯毫末等玩家已經(jīng)推動(dòng)走向落地
商湯科技在大模型加持下,落地?cái)?shù)據(jù)自動(dòng)標(biāo)注服務(wù)商湯明眸。公司多模態(tài)多任 務(wù)通用大模型書生 2.5 擁有強(qiáng)大的語義理解和圖像處理能力,在 ImageNet 分類任務(wù) 開源模型中 Top1 準(zhǔn)確率能超過 90%。基于此公司開發(fā)出商湯明眸自動(dòng)標(biāo)注服務(wù),提 供結(jié)構(gòu)化檢測(cè)等 12 個(gè)行業(yè)專用大模型,涵蓋超 1000 個(gè)不同的 2D、3D 目標(biāo)類別, 大幅降低標(biāo)注成本。
毫末智行開發(fā) DriveGPT,并釋放云端駕駛場(chǎng)景識(shí)別能力。毫末智行訓(xùn)練了 DriveGPT 大模型雪湖·海若,用戶將駕駛場(chǎng)景上傳到云端平臺(tái),平臺(tái)能夠快速將圖 片中所有車道線、交通參與者(行人、自動(dòng)車等)標(biāo)注出來,單幀圖像整體標(biāo)注成 本降低至行業(yè)平均水平的十分之一。
2.2.2、 大模型推動(dòng)算法迭代,感知規(guī)控全賦能
大模型在自動(dòng)駕駛感知端算法的應(yīng)用: 大模型作為車端算法的“老師”,通過“蒸餾(教授)”幫助小模型實(shí)現(xiàn)優(yōu)異的 性能。百度將文心大模型的能力與自動(dòng)駕駛感知技術(shù)結(jié)合,提升車載端側(cè)模型的感 知能力。百度用半監(jiān)督方法通過用 2D 和 3D 數(shù)據(jù)訓(xùn)練出一個(gè)感知大模型。其中“半 監(jiān)督”是指首先利用標(biāo)注好 2D 和 3D 數(shù)據(jù)訓(xùn)練一個(gè)感知大模型,再讓大模型為未標(biāo) 注的 3D 數(shù)據(jù)進(jìn)行標(biāo)注,接著用這些數(shù)據(jù)再次訓(xùn)練感知大模型,多次迭代后,大模型 的感知性能實(shí)現(xiàn)快速提升。應(yīng)用這個(gè)大模型即可實(shí)現(xiàn)對(duì)視覺小模型、多模態(tài)模型感 知能力的加強(qiáng)。
(1)利用大模型賦能增強(qiáng)小模型遠(yuǎn)距離 3D 視覺感知:一方面通過大模型對(duì)圖 像進(jìn)行 3D 標(biāo)注,投送給小模型學(xué)習(xí)。另一方面,在模型中編碼器輸出處、在 2D 和 3D 的頭等位置,進(jìn)行大模型到小模型的蒸餾幫助提升小模型性能。最后全面提升了 小模型的 3D 感知效果。
(2)利用大模型賦能多模態(tài)感知:面向車載端融合視覺激光雷達(dá)數(shù)據(jù)的自動(dòng)駕 駛算法,同樣使用偽標(biāo)注(自動(dòng)標(biāo)注)、并在圖像端和點(diǎn)云端進(jìn)行知識(shí)蒸餾等方式, 全面提升了多模態(tài)模型的感知效果,識(shí)別出了此前沒有識(shí)別出來的綠化帶等信息。
大模型在規(guī)控端應(yīng)用:毫末智行發(fā)布行業(yè)首個(gè) DriveGPT
毫末智行推出 DriveGPT,可實(shí)現(xiàn)城市輔助駕駛、場(chǎng)景脫困、駕駛策略可解釋等 功能。毫末智行在 2023 年 4 月的 AI DAY 上推出了業(yè)界首個(gè) DriveGPT 大模型—— 雪湖·海若。模型訓(xùn)練過程參考 GPT,首先構(gòu)建 1200 億參數(shù)的大模型,預(yù)訓(xùn)練環(huán)節(jié), 將自動(dòng)駕駛空間的信息如車道線、感知環(huán)境等離散化后作為 Token 輸入大模型,再 基于聯(lián)合概率分布生成未來 Token 序列,將 4000 萬公里中合適的數(shù)據(jù)放進(jìn)大模型中。 即將外部環(huán)境作為預(yù)訓(xùn)練數(shù)據(jù)輸入模型,訓(xùn)練模型預(yù)測(cè)未來情景演化的能力。人類 反饋強(qiáng)化學(xué)習(xí)(RLHF)環(huán)節(jié),選取 5 萬條人駕困難場(chǎng)景接管數(shù)據(jù),輸入預(yù)訓(xùn)練模型, 并將模型輸出的行為進(jìn)行排序,進(jìn)行強(qiáng)化訓(xùn)練。同時(shí)在根據(jù)輸入端的提示語及毫末 自動(dòng)駕駛場(chǎng)景庫的樣本訓(xùn)練模型,讓模型學(xué)習(xí)推理關(guān)系。最終訓(xùn)練好的模型,可將 完整的駕駛策略分拆為自動(dòng)駕駛場(chǎng)景的動(dòng)態(tài)識(shí)別過程,進(jìn)而實(shí)現(xiàn)可理解、可解釋的 推理邏輯鏈條。毫末智行的 DriveGPT 大模型將實(shí)現(xiàn)城市 NOH、街景推薦、智能陪 練、場(chǎng)景脫困等功能,云端,大模型將開放接口提供包括智駕能力、駕駛場(chǎng)景識(shí)別 等能力。
2.2.3、 生成海量數(shù)據(jù),大模型助力仿真平臺(tái)及端到端自動(dòng)駕駛模型構(gòu)建
大模型能夠生成海量可訓(xùn)練數(shù)據(jù),推動(dòng)端到端自動(dòng)駕駛模型落地。云驥智行認(rèn) 為自動(dòng)駕駛的終局會(huì)演進(jìn)成為一個(gè)超大規(guī)模的端到端自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò):AD-GPT。而為了實(shí)現(xiàn)它,自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)、海量高價(jià)值數(shù)據(jù)、車端高算力平臺(tái)缺一不可。 這些在模塊化構(gòu)建算法的時(shí)代難以實(shí)現(xiàn),而當(dāng)大模型誕生后,無論在車端一體化模 型的構(gòu)建、還是端到端訓(xùn)練仿真數(shù)據(jù)的生成似乎都觸手可及。究其本源,大模型本 質(zhì)上是對(duì)輸入信息作出反應(yīng),而自動(dòng)駕駛則是這類行為中的一個(gè)子集。
商湯:公司提到,可以用 AIGC 生成真實(shí)的交通場(chǎng)景以及困難樣本來訓(xùn)練自動(dòng) 駕駛系統(tǒng),以多模態(tài)數(shù)據(jù)作為大模型的輸入,提升系統(tǒng)對(duì) Corner Case 場(chǎng)景的感知能 力上限。同時(shí)自動(dòng)駕駛多模態(tài)大模型可做到感知決策一體化集成,在輸出端通過環(huán) 境解碼器可對(duì) 3D 環(huán)境進(jìn)行重建,實(shí)現(xiàn)環(huán)境可視化理解;行為解碼器可生成完整的路 徑規(guī)劃;動(dòng)機(jī)解碼器可用自然語言對(duì)推理過程進(jìn)行描述,使得自動(dòng)駕駛系統(tǒng)變得更 加安全可靠可解釋。
3、 自動(dòng)駕駛漸行漸近,行業(yè)玩家乘風(fēng)起
3.1、 科技巨頭構(gòu)筑自動(dòng)駕駛行業(yè)“安卓”,技術(shù)鴻溝有望縮小
第三方玩家有望通過提供構(gòu)建大模型的工具鏈,打造自動(dòng)駕駛行業(yè)的“安卓系 統(tǒng)”,技術(shù)鴻溝有望縮小。特斯拉全棧自研的自動(dòng)駕駛系統(tǒng),包含算法、數(shù)據(jù)閉環(huán)系 統(tǒng)(自動(dòng)標(biāo)注、仿真、數(shù)據(jù)引擎)等,閉環(huán)的體系構(gòu)成自動(dòng)駕駛行業(yè)的“IOS”,海量的車隊(duì)數(shù)據(jù)形成數(shù)據(jù)壁壘,其他玩家難以復(fù)制。而大模型時(shí)代,諸多第三方科技 巨頭如微軟、英偉達(dá)、百度、商湯等加入自動(dòng)駕駛行列,可通過提供強(qiáng)大的大模型 構(gòu)建能力以及完善的工具鏈幫助整車廠構(gòu)建自己的自動(dòng)駕駛算法和數(shù)據(jù)閉環(huán)系統(tǒng), 同時(shí)依靠大模型的數(shù)據(jù)生成能力彌補(bǔ)與頭部玩家在數(shù)據(jù)領(lǐng)域的差距,從而構(gòu)建自動(dòng) 駕駛領(lǐng)域的“安卓”,快速提升玩家自動(dòng)駕駛能力。
科技巨頭摩拳擦掌,微軟、英偉達(dá)爭相布局,有望加速行業(yè)發(fā)展。我們已經(jīng)看 到,巨頭如微軟、英偉達(dá)在自動(dòng)駕駛領(lǐng)域以及大模型領(lǐng)域都進(jìn)行了深度布局,有望 將二者結(jié)合幫助車企實(shí)現(xiàn)能力飛躍。 微軟:自動(dòng)駕駛方面,微軟通過微軟云可提供覆蓋全球的云計(jì)算和邊緣計(jì)算能 力,借助云上的 PaaS 和 SaaS 軟件可賦能各類算法和應(yīng)用開發(fā)。2021 年,微軟分別 投資通用旗下的自動(dòng)駕駛子公司 Cruise 以及致力于構(gòu)建端到端感知決策一體化算法 的自動(dòng)駕駛創(chuàng)業(yè)公司 Wayve。微軟打造完整的自動(dòng)駕駛開發(fā)支持解決方案,幫助開 發(fā)者將數(shù)據(jù)進(jìn)行導(dǎo)入分析,對(duì)模型進(jìn)行訓(xùn)練仿真。微軟基于虛幻引擎開發(fā)的 AirSim 仿真平臺(tái)在無人機(jī)仿真領(lǐng)域扮演重要角色,該平臺(tái)也同時(shí)可實(shí)現(xiàn)對(duì)無人駕駛汽車的 仿真。大模型方面,微軟云推出了 Azure OpenAI 服務(wù),企業(yè)可獲得對(duì)大模型(含 GPT、Codex、嵌入模型)的訪問權(quán)限并將其應(yīng)用于新的場(chǎng)景如語言、代碼、邏輯、 推理、理解等,同時(shí)也允許客戶微調(diào)生成定制化的模型。而結(jié)合微軟的認(rèn)知搜索, 可以進(jìn)一拓寬大模型的應(yīng)用領(lǐng)域和提升應(yīng)用效果。微軟及 OpenAI 依托強(qiáng)有力的大模 型能力,未來或許能在自動(dòng)駕駛算法、仿真領(lǐng)域擦出新的火花。
英偉達(dá):自動(dòng)駕駛方面,英偉達(dá)在自動(dòng)駕駛領(lǐng)域布局已久,擁有從算法到底層 軟件中間件再到芯片的全棧解決方案。英偉達(dá) DriveSim 仿真平臺(tái)基于虛幻引擎開發(fā),能夠提供核心模擬和渲染引擎,生成逼真的數(shù)據(jù)流,創(chuàng)建各種測(cè)試環(huán)境,模擬暴雨 和暴雪等各種天氣條件,以及不同的路面和地形,還可以模擬白天不同時(shí)間的眩目 強(qiáng)光以及晚上有限的視野,達(dá)到“照片級(jí)逼真且物理精確”的傳感器仿真。DriveSim 還擁有完善的工具鏈支持,如神經(jīng)重建引擎(NER)可以將真實(shí)世界的數(shù)據(jù)直接帶 入仿真中,開發(fā)者可在仿真環(huán)境中修改場(chǎng)景、添加合成對(duì)象,并應(yīng)用隨機(jī)化技術(shù), 大大增加真實(shí)感并加快生產(chǎn)速度。大模型方面,英偉達(dá)進(jìn)一步強(qiáng)化“賣鏟人”地位, 幫助企業(yè)玩家構(gòu)建自己的大模型產(chǎn)品。在 2023 年 GTC 大會(huì)上,英偉達(dá)推出 AI Foundations 云服務(wù),用于幫助客戶構(gòu)建生成式 AI 模型如大語言模型、生物學(xué)模型、 AI 生成式圖像模型等。而英偉達(dá)最新發(fā)布的兩篇文獻(xiàn)更展現(xiàn)了其在生成式 AI 及自 動(dòng)駕駛領(lǐng)域的不懈探索,其中一篇推出了生成式視頻模型 VideoLDM,可生成最高 分辨率 2048*1280,24 幀,最長 4.7 秒的視頻,該模型擁有 41 億個(gè)參數(shù),可實(shí)現(xiàn)文 本生成視頻等功能,在自動(dòng)駕駛領(lǐng)域可生成駕駛場(chǎng)景視頻以實(shí)現(xiàn)對(duì)特定場(chǎng)景的模擬, 也可以從同一個(gè)起始幀生成多個(gè)不同的事件演進(jìn)方向來訓(xùn)練算法。而另一篇文獻(xiàn)則 推出了神經(jīng)場(chǎng)擴(kuò)散模型 NeuralField-LDM,用于復(fù)雜世界開放世界 3D 場(chǎng)景生成,在 現(xiàn)有數(shù)據(jù)集中實(shí)現(xiàn)了最強(qiáng)性能,為高效實(shí)現(xiàn)自動(dòng)駕駛仿真助力。
3.2、 行業(yè)分工加速,成本下降可期
行業(yè)分工加速,自動(dòng)駕駛算法體系成本或迎下降。隨著大模型逐步介入自動(dòng)駕 駛,行業(yè)分工將進(jìn)一步明確。第三方科技巨頭的加持下,整車廠無需大規(guī)模搭建龐 雜的算法、數(shù)據(jù)等整個(gè)閉環(huán)體系的團(tuán)隊(duì),即可擁有比肩全球一線水平的自動(dòng)駕駛算 法模型體系。產(chǎn)業(yè)鏈分工合作,避免“重復(fù)造輪子”,自動(dòng)駕駛的成本有望大幅降低, 滲透率將加速提升。同時(shí),隨著更多自動(dòng)駕駛車型上路,數(shù)據(jù)收集效率和效果也會(huì) 進(jìn)一步提升,反過來推動(dòng)行業(yè)進(jìn)步。
傳感器和芯片加速迭代,自動(dòng)駕駛系統(tǒng)整體成本亦有下降空間。大模型的推進(jìn) 將加速芯片和傳感器迭代,傳感器方面,玩家有望能夠以類似特斯拉的形式構(gòu)建自 動(dòng)駕駛系統(tǒng),進(jìn)而降低成本。算力芯片方面,大模型將進(jìn)一步推升對(duì)芯片算力的需 求。而我們看到在車載高算力芯片領(lǐng)域,無論英偉達(dá)、高通還是本土的地平線、黑 芝麻均明確艙駕融合的芯片是未來的發(fā)展方向。這樣的趨勢(shì)將顯著推動(dòng)自動(dòng)駕駛系 統(tǒng)降本,一方面,艙駕融合芯片通常會(huì)集成座艙、智駕甚至車身控制等域控制器功 能,大幅度縮減物料和線束成本;另一方面,AI 算力如果能在整車芯片層面“池化”, 在座艙、自動(dòng)駕駛兩大功能之間靈活調(diào)用,亦將提升 AI 算力的利用率,車上“冗余” 的算力可大幅縮減。大模型驅(qū)使下,行業(yè)艙駕融合產(chǎn)品上車趨勢(shì)將加速,系統(tǒng)降本 緊隨其后,自動(dòng)駕駛滲透率也獎(jiǎng)隨之提升。
3.3、 大模型開發(fā)者、自動(dòng)駕駛產(chǎn)業(yè)鏈玩家全面受益
3.3.1、 百度 Apollo:自動(dòng)駕駛元老,文心大模型全面賦能
百度在自動(dòng)駕駛領(lǐng)域的探索一馬當(dāng)先,大模型方面,在谷歌推出 Bert 后即開始 投入研發(fā),起步較早,因此對(duì)于大模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用深有心得。最新的 Apollo Day 及文心一言發(fā)布會(huì)上,百度表示將在自動(dòng)駕駛感知算法、圖文監(jiān)督預(yù)訓(xùn) 練下的數(shù)據(jù)挖掘方案兩個(gè)方向推動(dòng)大模型賦能自動(dòng)駕駛,全面助力自動(dòng)駕駛能力提 升。同時(shí)百度亦擁有 Apollo 開放平臺(tái),對(duì)自動(dòng)駕駛?cè)鞒涕_發(fā)體系擁有深厚積累, 并與諸多開發(fā)者形成緊密的互動(dòng),未來有望深度受益本輪技術(shù)變革。
3.3.2、 商湯科技:AI 算法領(lǐng)軍,布局大模型探索自動(dòng)駕駛新機(jī)遇
商湯利用大模型對(duì)小模型進(jìn)行知識(shí)蒸餾,同時(shí)通過自動(dòng)化標(biāo)注實(shí)現(xiàn)感知和決策 端的數(shù)據(jù)閉環(huán)。此外大模型也可以生成困難圖片,解碼 3D 環(huán)境、路徑規(guī)劃、駕駛動(dòng) 機(jī)等使得駕駛行為可解釋。作為傳統(tǒng) AI 算法領(lǐng)域的領(lǐng)軍,公司在自動(dòng)駕駛算法領(lǐng)域 發(fā)力,目前產(chǎn)品已經(jīng)落地多款車型。未來有望持續(xù)受益大模型在自動(dòng)駕駛的應(yīng)用。
3.3.3、 地平線:智駕芯片新星,對(duì)算法的深入理解指引芯片架構(gòu)迭代完美適配需求
公司作為本土智能駕駛芯片領(lǐng)軍,對(duì)算法及大模型理解深入,有望指引公司芯 片迭代以完美適應(yīng)客戶需求。地平線認(rèn)為算法終將走向端到端的形式,因此公司也 在構(gòu)建下一代的面向 Transformer 的統(tǒng)一計(jì)算架構(gòu),而其下一代 BPU 納什架構(gòu)將專 為大參數(shù) Transformer 模型設(shè)計(jì)。地平線在 CVPR 中提出基于 Transformer 的端到端 的自動(dòng)駕駛算法框架,該文章首次在檢測(cè)、跟蹤、預(yù)測(cè)、建圖、軌跡預(yù)測(cè)、端到端 完成自動(dòng)駕駛的算法,這可以讓玩家用海量數(shù)據(jù)去訓(xùn)練整個(gè)自動(dòng)駕駛系統(tǒng)。地平線 認(rèn)為未來需繼續(xù)用大數(shù)據(jù)和大模型無監(jiān)督的預(yù)訓(xùn)練模型讓其學(xué)習(xí)人類駕駛的常識(shí)。 語言模型是給定一個(gè)文本去預(yù)測(cè)下一個(gè)詞的概率,同樣給定當(dāng)前交通環(huán)境/導(dǎo)航地圖/ 駕駛員整個(gè)駕駛行為歷史,模型亦可從大規(guī)模的無監(jiān)督數(shù)據(jù)中學(xué)習(xí),構(gòu)建自回歸的 大語言模型預(yù)測(cè)下一個(gè)駕駛動(dòng)作。
3.3.4、 產(chǎn)業(yè)鏈玩家:自動(dòng)駕駛落地加速,產(chǎn)業(yè)鏈各大環(huán)節(jié)全面受益
隨著自動(dòng)駕駛的全面加速,整個(gè)自動(dòng)駕駛產(chǎn)業(yè)鏈包含域控制器、算法、傳感器 等環(huán)節(jié)亦將加速滲透。
責(zé)任編輯:彭菁
-
人工智能
+關(guān)注
關(guān)注
1789文章
46652瀏覽量
237083 -
模型
+關(guān)注
關(guān)注
1文章
3112瀏覽量
48660 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1546瀏覽量
7359
原文標(biāo)題:智能汽車行業(yè)專題:大模型全面賦能,自動(dòng)駕駛漸行漸近
文章出處:【微信號(hào):AIOT大數(shù)據(jù),微信公眾號(hào):AIOT大數(shù)據(jù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論