0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【AI簡(jiǎn)報(bào)20230707】中國(guó)團(tuán)隊(duì)推出「全球首顆」AI 全自動(dòng)設(shè)計(jì) CPU!重磅,GPT-4 API 全面開放使用!

RTThread物聯(lián)網(wǎng)操作系統(tǒng) ? 來(lái)源:未知 ? 2023-07-07 18:45 ? 次閱讀

1. 僅用 5 小時(shí)!中國(guó)團(tuán)隊(duì)推出「全球首顆」AI 全自動(dòng)設(shè)計(jì) CPU,性能比肩 Intel 486!

原文:https://mp.weixin.qq.com/s/DNBO34Xk2nVwNiEMBjJ-Cg

在這場(chǎng)由 ChatGPT 掀起的 AI 熱潮下,越來(lái)越多人開始看到如今 AI 的強(qiáng)悍:AI 作圖、AI 寫論文、AI 編代碼、AI 預(yù)測(cè)完整人類蛋白質(zhì)組結(jié)構(gòu)、AI 發(fā)現(xiàn)速度提升 70% 的新排序算法……

既然 AI 看似“無(wú)所不能”,許多人便提出了疑問:“那 AI 真的能像人類一樣進(jìn)行設(shè)計(jì)工作嗎?”在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)和生成編碼等方面,AI 確實(shí)表現(xiàn)卓越,但在設(shè)計(jì)這些物體時(shí),總體而言 AI 的搜索空間還相對(duì)較小。

為了探尋 AI 設(shè)計(jì)能力的極限,近日中國(guó)中科院計(jì)算所等機(jī)構(gòu)將目標(biāo)放在了芯片設(shè)計(jì)上,因?yàn)椤八怯?jì)算機(jī)的大腦,也是目前人類所設(shè)計(jì)的世界上最復(fù)雜的設(shè)備之一?!?/span>

結(jié)果,最終數(shù)據(jù)出人意料:中國(guó)中科院計(jì)算所等機(jī)構(gòu)利用 AI 技術(shù),設(shè)計(jì)出了全球首個(gè)無(wú)人工干預(yù)、全自動(dòng)生成的 CPU 晶片“啟蒙 1 號(hào)”——整個(gè)訓(xùn)練過程不到 5 小時(shí),驗(yàn)證測(cè)試準(zhǔn)確性卻能達(dá)到 >99.999999999%!

1. 在無(wú)人干預(yù)的情況下,讓 AI 設(shè)計(jì)出工業(yè)級(jí) CPU

根據(jù)相關(guān)論文《突破機(jī)器設(shè)計(jì)的極限:利用 AI 進(jìn)行自動(dòng)化 CPU 設(shè)計(jì)(Pushing the Limits of Machine Design: Automated CPU Design with AI)》介紹,這場(chǎng)研究的目的是:賦予機(jī)器自主設(shè)計(jì) CPU 的能力,以此探索機(jī)器設(shè)計(jì)的邊界。

“如果機(jī)器能夠在無(wú)人干預(yù)的情況下設(shè)計(jì)出工業(yè)級(jí) CPU,不僅可以顯著提高設(shè)計(jì)效率,還能將機(jī)器設(shè)計(jì)的極限推向接近人類性能的水平,從而推動(dòng)半導(dǎo)體產(chǎn)業(yè)的革命?!闭撐闹羞€補(bǔ)充道:“自行設(shè)計(jì)機(jī)器的能力,即自我設(shè)計(jì),可以作為建立自我進(jìn)化機(jī)器的基礎(chǔ)步驟?!?/span>

有了基本方向后,即要在沒有人工編程的情況下自動(dòng)化 CPU 設(shè)計(jì),團(tuán)隊(duì)研究人員決定通過 AI 技術(shù),直接從“輸入-輸出(IO)”自動(dòng)生成 CPU 設(shè)計(jì),無(wú)需人類工程師手動(dòng)提供任何代碼或自然語(yǔ)言描述。

簡(jiǎn)單來(lái)說,傳統(tǒng) CPU 設(shè)計(jì)需要投入大量人力,包括編寫代碼、設(shè)計(jì)電路邏輯、功能驗(yàn)證和優(yōu)化工作等等。但通過將 CPU 自動(dòng)設(shè)計(jì)問題轉(zhuǎn)化為“滿足輸入-輸出規(guī)范的電路邏輯生成問題”后,只需要測(cè)試用例,便可以直接生成滿足需求的電路邏輯——這使得傳統(tǒng) CPU 設(shè)計(jì)流程中極其耗時(shí)的“邏輯設(shè)計(jì)”和“驗(yàn)證環(huán)節(jié)”,都被省去了。

ff2b84e2-1cb1-11ee-962d-dac502259ad0.png

想順利開啟這樣的自動(dòng)化 CPU 設(shè)計(jì)流程,需要提前對(duì) AI 進(jìn)行訓(xùn)練,包括觀察一系列 CPU 輸入和輸出,因此論文中才強(qiáng)調(diào)該 CPU 的設(shè)計(jì)是“僅從外部輸入-輸出觀察中形成的,并非正式的程序代碼”。

從這些輸入和輸出中,研究人員生成了一個(gè) BSD 二元猜測(cè)圖(Binary Speculation Diagram,簡(jiǎn)稱 BSD)算法,并利用基于蒙特卡羅的擴(kuò)展和布爾函數(shù)的原理,大幅提高了基于 AI 進(jìn)行 CPU 設(shè)計(jì)的準(zhǔn)確性和效率。

2. 可與 Intel 486 系列媲美

通過以上逐步地推敲,一個(gè) CPU 的自動(dòng)化 AI 設(shè)計(jì)流程就成型了:僅用 5 小時(shí)就生成 400 萬(wàn)邏輯門,全球首款無(wú)需人工干預(yù)、全自動(dòng)生成的 CPU 芯片也就此誕生——啟蒙 1 號(hào)。

ff3e9a5a-1cb1-11ee-962d-dac502259ad0.png

據(jù)論文介紹,啟蒙 1 號(hào)基于 RISC-V的 32 位架構(gòu),采用 65nm 工藝,頻率可達(dá) 300MHz,且可運(yùn)行 Linux 操作系統(tǒng)。另?yè)?jù)媒體報(bào)道,相較于現(xiàn)階段 GPT-4 能設(shè)計(jì)的電路規(guī)模,啟蒙 1 號(hào)要大 4000 倍。

ffb565fe-1cb1-11ee-962d-dac502259ad0.png

此外在 Drystone 基準(zhǔn)測(cè)試中,啟蒙 1 號(hào)的性能不僅可比肩由人類設(shè)計(jì)的 Intel 486 系列 CPU,還比 Acorn Archimedes A3010 更快一些。

00f75ac6-1cb2-11ee-962d-dac502259ad0.png更值得一提的是,這顆完全由 AI 設(shè)計(jì)的 32 位 RISC-V CPU,其設(shè)計(jì)周期比人類團(tuán)隊(duì)完成類似 CPU 設(shè)計(jì)的速度,快了近 1000 倍,驗(yàn)證測(cè)試準(zhǔn)確性也能達(dá)到 >99.999999999%。

不過,有些人可能對(duì)于這款由 AI 設(shè)計(jì)的啟蒙 1 號(hào)并不在意,畢竟與它性能相近的 Intel 486 系列 CPU(Intel 80486SX),早已是誕生于上世紀(jì) 1991 年的“老芯片”了。但研究人員對(duì)于啟蒙 1 號(hào)的開發(fā)依舊很自豪:在整個(gè) AI 自動(dòng)化設(shè)計(jì)過程中,他們生成的 BSD 算法,甚至還自主發(fā)現(xiàn)了馮·諾伊曼架構(gòu)(一種將程序指令存儲(chǔ)器和數(shù)據(jù)存儲(chǔ)器合并在一起的電腦設(shè)計(jì)概念結(jié)構(gòu))。

3. 完全由 AI 生成的 CPU 有望超過人類?

平心而論,作為全球首款 AI 自動(dòng)生成的芯片,啟蒙 1 號(hào)的性能和規(guī)模根本無(wú)法與當(dāng)前頂級(jí)的主流 CPU 相比,但正如論文開篇所說,這場(chǎng)實(shí)驗(yàn)本身就不是為了開發(fā)高性能芯片,而是“探索機(jī)器設(shè)計(jì)的邊界”。

讓 AI 從頭開始構(gòu)建一個(gè)新 RISC-V CPU,其背后的真實(shí)意義在于:研究 AI 未來(lái)能否用于減少現(xiàn)有半導(dǎo)體行業(yè)的設(shè)計(jì)和優(yōu)化周期。

如果從這個(gè)角度來(lái)看,此次中國(guó)中科院計(jì)算所等機(jī)構(gòu)進(jìn)行的這項(xiàng)實(shí)驗(yàn),就有了初步的結(jié)論:與傳統(tǒng)人類設(shè)計(jì)的 CPU 相比,啟蒙 1 號(hào)的研發(fā)周期縮短了近 1000 倍,因?yàn)閭鹘y(tǒng) CPU 設(shè)計(jì)流程中耗時(shí)極長(zhǎng)的手動(dòng)編程和驗(yàn)證過程完全被省略了。

“我們的方法改變了傳統(tǒng)的 CPU 設(shè)計(jì)流程,并有可能改革半導(dǎo)體行業(yè)?!痹谡撐牡淖詈螅芯咳藛T對(duì)于由 AI 完全設(shè)計(jì)芯片的未來(lái)做出展望:“除了提供人性化的設(shè)計(jì)能力,這種方法還發(fā)現(xiàn)了人類知識(shí)的馮·諾伊曼架構(gòu),未來(lái)更有可能產(chǎn)生積極的(甚至未知的)架構(gòu)優(yōu)化,這為建立一個(gè)自我進(jìn)化的機(jī)器、并最終擊敗人類設(shè)計(jì)的最新 CPU 提供了一些啟示?!?/span>

即研究人員認(rèn)為,未來(lái)通過不斷迭代 AI 的芯片設(shè)計(jì)方式,完全由 AI 生成的 CPU,或許有望達(dá)到甚至超越由人類設(shè)計(jì)的 CPU。那么對(duì)于這個(gè)說法,你又是否有什么看法嗎?

2. 北大法律大模型ChatLaw火了?。?/h2>

原文:https://mp.weixin.qq.com/s/yFVUh5PqlhNXtJA1NLb5rg

大模型又「爆了」。一個(gè)法律大模型 ChatLaw 登上了知乎熱搜榜榜首。熱度最高時(shí)達(dá)到了 2000 萬(wàn)左右。

這個(gè) ChatLaw 由北大團(tuán)隊(duì)發(fā)布,致力于提供普惠的法律服務(wù)。一方面當(dāng)前全國(guó)執(zhí)業(yè)律師不足,供給遠(yuǎn)遠(yuǎn)小于法律需求;另一方面普通人對(duì)法律知識(shí)和條文存在天然鴻溝,無(wú)法運(yùn)用法律武器保護(hù)自己。

大語(yǔ)言模型最近的崛起正好為普通人以對(duì)話方式咨詢法律相關(guān)問題提供了一個(gè)絕佳契機(jī)。

0114ff40-1cb2-11ee-962d-dac502259ad0.jpg

目前,ChatLaw 共有三個(gè)版本,分別如下:

  • ChatLaw-13B,為學(xué)術(shù) demo 版,基于姜子牙 Ziya-LLaMA-13B-v1 訓(xùn)練而來(lái),中文各項(xiàng)表現(xiàn)很好。但是,邏輯復(fù)雜的法律問答效果不佳,需要用更大參數(shù)的模型來(lái)解決;

  • ChatLaw-33B,也為學(xué)術(shù) demo 版,基于 Anima-33B 訓(xùn)練而來(lái),邏輯推理能力大幅提升。但是,由于 Anima 的中文語(yǔ)料過少,問答時(shí)常會(huì)出現(xiàn)英文數(shù)據(jù);

  • ChatLaw-Text2Vec,使用 93w 條判決案例做成的數(shù)據(jù)集,基于 BERT 訓(xùn)練了一個(gè)相似度匹配模型,可以將用戶提問信息和對(duì)應(yīng)的法條相匹配。根據(jù)官方演示,ChatLaw 支持用戶上傳文件、錄音等法律材料,幫助他們歸納和分析,生成可視化導(dǎo)圖、圖表等。此外,ChatLaw 可以基于事實(shí)生成法律建議、法律文書。該項(xiàng)目在 GitHub 上的 Star 量達(dá)到了 1.1k。

013ed0fe-1cb2-11ee-962d-dac502259ad0.png

官網(wǎng)地址:https://www.chatlaw.cloud/論文地址:https://arxiv.org/pdf/2306.16092.pdfGitHub 地址:https://github.com/PKU-YuanGroup/ChatLaw目前,由于 ChatLaw 項(xiàng)目太過火爆,服務(wù)器暫時(shí)崩潰,算力已達(dá)上限。該團(tuán)隊(duì)正在修復(fù),感興趣的讀者可以在 GitHub 上部署測(cè)試版模型。小編本人也還在內(nèi)測(cè)排隊(duì)中。所以這里先展示一個(gè) ChatLaw 團(tuán)隊(duì)提供的官方對(duì)話示例,關(guān)于日常網(wǎng)購(gòu)時(shí)可能會(huì)遇到的「七天無(wú)理由退貨」問題。不得不說,ChatLaw 回答挺全的。

018e1704-1cb2-11ee-962d-dac502259ad0.png

不過,小編發(fā)現(xiàn),ChatLaw 的學(xué)術(shù) demo 版本可以試用,遺憾的是沒有接入法律咨詢功能,只提供了簡(jiǎn)單的對(duì)話咨詢服務(wù)。這里嘗試問了幾個(gè)問題。

01b5281c-1cb2-11ee-962d-dac502259ad0.png

0213da38-1cb2-11ee-962d-dac502259ad0.png

其實(shí)最近發(fā)布法律大模型的不只有北大一家。上個(gè)月底,冪律智能聯(lián)合智譜 AI 發(fā)布了千億參數(shù)級(jí)法律垂直大模型 PowerLawGLM。據(jù)悉該模型針對(duì)中文法律場(chǎng)景的應(yīng)用效果展現(xiàn)出了獨(dú)特優(yōu)勢(shì)。

ChatLaw 的數(shù)據(jù)來(lái)源、訓(xùn)練框架首先是數(shù)據(jù)組成。ChatLaw 數(shù)據(jù)主要由論壇、新聞、法條、司法解釋、法律咨詢、法考題、判決文書組成,隨后經(jīng)過清洗、數(shù)據(jù)增強(qiáng)等來(lái)構(gòu)造對(duì)話數(shù)據(jù)。同時(shí),通過與北大國(guó)際法學(xué)院、行業(yè)知名律師事務(wù)所進(jìn)行合作,ChatLaw 團(tuán)隊(duì)能夠確保知識(shí)庫(kù)能及時(shí)更新,同時(shí)保證數(shù)據(jù)的專業(yè)性和可靠性。下面我們看看具體示例。

基于法律法規(guī)和司法解釋的構(gòu)建示例:

0258f352-1cb2-11ee-962d-dac502259ad0.png

抓取真實(shí)法律咨詢數(shù)據(jù)示例:

02761464-1cb2-11ee-962d-dac502259ad0.png

律師考試多項(xiàng)選擇題的建構(gòu)示例:

02c9f764-1cb2-11ee-962d-dac502259ad0.png

然后是模型層面。為了訓(xùn)練 ChatLAW,研究團(tuán)隊(duì)在 Ziya-LLaMA-13B 的基礎(chǔ)上使用低秩自適應(yīng) (Low-Rank Adaptation, LoRA) 對(duì)其進(jìn)行了微調(diào)。此外,該研究還引入 self-suggestion 角色,來(lái)緩解模型產(chǎn)生幻覺問題。訓(xùn)練過程在多個(gè) A100 GPU 上進(jìn)行,并借助 deepspeed 進(jìn)一步降低了訓(xùn)練成本。

如下圖為 ChatLAW 架構(gòu)圖,該研究將法律數(shù)據(jù)注入模型,并對(duì)這些知識(shí)進(jìn)行特殊處理和加強(qiáng);與此同時(shí),他們也在推理時(shí)引入多個(gè)模塊,將通識(shí)模型、專業(yè)模型和知識(shí)庫(kù)融為一體。

該研究還在推理中對(duì)模型進(jìn)行了約束,這樣才能確保模型生成正確的法律法規(guī),盡可能減少模型幻覺。

0308dfce-1cb2-11ee-962d-dac502259ad0.png

一開始研究團(tuán)隊(duì)嘗試傳統(tǒng)的軟件開發(fā)方法,如檢索時(shí)采用 MySQL 和 Elasticsearch,但結(jié)果不盡如人意。因而,該研究開始嘗試預(yù)訓(xùn)練 BERT 模型來(lái)進(jìn)行嵌入,然后使用 Faiss 等方法以計(jì)算余弦相似度,提取與用戶查詢相關(guān)的前 k 個(gè)法律法規(guī)。

當(dāng)用戶的問題模糊不清時(shí),這種方法通常會(huì)產(chǎn)生次優(yōu)的結(jié)果。因此,研究者從用戶查詢中提取關(guān)鍵信息,并利用該信息的向量嵌入設(shè)計(jì)算法,以提高匹配準(zhǔn)確性。

由于大型模型在理解用戶查詢方面具有顯著優(yōu)勢(shì),該研究對(duì) LLM 進(jìn)行了微調(diào),以便從用戶查詢中提取關(guān)鍵字。在獲得多個(gè)關(guān)鍵字后,該研究采用算法 1 檢索相關(guān)法律規(guī)定。

0355cd7a-1cb2-11ee-962d-dac502259ad0.png

實(shí)驗(yàn)結(jié)果該研究收集了十余年的國(guó)家司法考試題目,整理出了一個(gè)包含 2000 個(gè)問題及其標(biāo)準(zhǔn)答案的測(cè)試數(shù)據(jù)集,用以衡量模型處理法律選擇題的能力。

然而,研究發(fā)現(xiàn)各個(gè)模型的準(zhǔn)確率普遍偏低。在這種情況下,僅對(duì)準(zhǔn)確率進(jìn)行比較并無(wú)多大意義。因此,該研究借鑒英雄聯(lián)盟的 ELO 匹配機(jī)制,做了一個(gè)模型對(duì)抗的 ELO 機(jī)制,以便更有效地評(píng)估各模型處理法律選擇題的能力。以下分別是 ELO 分?jǐn)?shù)和勝率圖:

03b04098-1cb2-11ee-962d-dac502259ad0.png

通過對(duì)上述實(shí)驗(yàn)結(jié)果的分析,我們可以得出以下觀察結(jié)果

(1)引入與法律相關(guān)的問答和法規(guī)條文的數(shù)據(jù),可以在一定程度上提高模型在選擇題上的表現(xiàn);

(2)加入特定類型任務(wù)的數(shù)據(jù)進(jìn)行訓(xùn)練,模型在該類任務(wù)上的表現(xiàn)會(huì)明顯提升。例如,ChatLaw 模型優(yōu)于 GPT-4 的原因是文中使用了大量的選擇題作為訓(xùn)練數(shù)據(jù);

(3)法律選擇題需要進(jìn)行復(fù)雜的邏輯推理,因此,參數(shù)量更大的模型通常表現(xiàn)更優(yōu)。參考知乎鏈接:

https://www.zhihu.com/question/610072848

3. 理解指向,說出坐標(biāo)!開源模型“Shikra”開啟多模態(tài)大模型“參考對(duì)話”新模式!

原文:https://mp.weixin.qq.com/s/wIkhAcHgqeQ3LA12J6oBnA

在人類的日常交流中,經(jīng)常會(huì)關(guān)注場(chǎng)景中不同的區(qū)域或物體,人們可以通過說話并指向這些區(qū)域來(lái)進(jìn)行高效的信息交換。這種交互模式被稱為參考對(duì)話(Referential Dialogue)。

如果 MLLM 擅長(zhǎng)這項(xiàng)技能,它將帶來(lái)許多令人興奮的應(yīng)用。例如,將其應(yīng)用到 Apple Vision Pro 等混合現(xiàn)實(shí) (XR) 眼鏡中,用戶可以使用視線注視指示任何內(nèi)容與 AI 對(duì)話。同時(shí) AI 也可以通過高亮等形式來(lái)指向某些區(qū)域,實(shí)現(xiàn)與用戶的高效交流。

本文提出的 Shikra 模型,就賦予了 MLLM 這樣的參考對(duì)話能力,既可以理解位置輸入,也可以產(chǎn)生位置輸出。

03cbb0ee-1cb2-11ee-962d-dac502259ad0.png

  • 論文地址:http://arxiv.org/abs/2306.15195

  • 代碼地址:https://github.com/shikras/shikra

Shikra 能夠理解用戶輸入的 point/bounding box,并支持 point/bounding box 的輸出,可以和人類無(wú)縫地進(jìn)行參考對(duì)話。

Shikra 設(shè)計(jì)簡(jiǎn)單直接,采用非拼接式設(shè)計(jì),不需要額外的位置編碼器、前 / 后目標(biāo)檢測(cè)器或外部插件模塊,甚至不需要額外的詞匯表。

wKgaomTYmm2AIE6OAAHOPygJgOc585.png

如上圖所示,Shikra 能夠精確理解用戶輸入的定位區(qū)域,并能在輸出中引用與輸入時(shí)不同的區(qū)域進(jìn)行交流,像人類一樣通過對(duì)話和定位進(jìn)行高效交流。

wKgZomTYmrOAYBqpAAcipdriJ3w205.png

如上圖所示,Shikra 不僅具備 LLM 所有的基本常識(shí),還能夠基于位置信息做出推理。

wKgaomTYmuOAP_lwAAbPknnBy7s758.png

如上圖所示,Shikra 可以對(duì)圖片中正在發(fā)生的事情產(chǎn)生詳細(xì)的描述,并為參考的物體生成準(zhǔn)確的定位。

wKgZomTYmv-ATt8bAAFznkhlZ6c841.png

盡管 Shikra 沒有在 OCR 數(shù)據(jù)集上專門訓(xùn)練,但也具有基本的 OCR 能力。

更多例子

wKgaomTYmzuAXc9LAAH8CuCG3jQ557.pngwKgZomTYm1GAMo6YAAJE-LE0St0082.png其他傳統(tǒng)任務(wù)wKgaomTYm6KAPVClAAtXhzFmg6Y866.png ? ? ?模型架構(gòu)采用 CLIP ViT-L/14 作為視覺主干,Vicuna-7/13B 作為基語(yǔ)言模型,使用一層線性映射連接 CLIP 和 Vicuna 的特征空間。Shikra 直接使用自然語(yǔ)言中的數(shù)字來(lái)表示物體位置,使用 [xmin, ymin, xmax, ymax] 表示邊界框,使用 [xcenter, ycenter] 表示區(qū)域中心點(diǎn),區(qū)域的 xy 坐標(biāo)根據(jù)圖像大小進(jìn)行歸一化。每個(gè)數(shù)字默認(rèn)保留 3 位小數(shù)。這些坐標(biāo)可以出現(xiàn)在模型的輸入和輸出序列中的任何位置。記錄坐標(biāo)的方括號(hào)也自然地出現(xiàn)在句子中。Shikra 在傳統(tǒng) REC、VQA、Caption 任務(wù)上都能取得優(yōu)良表現(xiàn)。同時(shí)在 PointQA-Twice、Point-V7W 等需要理解位置輸入的 VQA 任務(wù)上取得了 SOTA 結(jié)果。

07055c60-1cb2-11ee-962d-dac502259ad0.png

0759c5fc-1cb2-11ee-962d-dac502259ad0.png

0793bc26-1cb2-11ee-962d-dac502259ad0.png

07c8b494-1cb2-11ee-962d-dac502259ad0.png

本文使用 POPE benchmark 評(píng)估了 Shikra 產(chǎn)生幻覺的程度。Shikra 得到了和 InstrcutBLIP 相當(dāng)?shù)慕Y(jié)果,并遠(yuǎn)超近期其他 MLLM。

07f03a3c-1cb2-11ee-962d-dac502259ad0.png思想鏈(CoT),旨在通過在最終答案前添加推理過程以幫助 LLM 回答復(fù)雜的 QA 問題。這一技術(shù)已被廣泛應(yīng)用到自然語(yǔ)言處理的各種任務(wù)中。然而如何在多模態(tài)場(chǎng)景下應(yīng)用 CoT 則尚待研究。尤其因?yàn)槟壳暗?MLLM 還存在嚴(yán)重的幻視問題,CoT 經(jīng)常會(huì)產(chǎn)生幻覺,影響最終答案的正確性。通過在合成數(shù)據(jù)集 CLEVR 上的實(shí)驗(yàn),研究發(fā)現(xiàn),使用帶有位置信息的 CoT 時(shí),可以有效減少模型幻覺提高模型性能。083cfc78-1cb2-11ee-962d-dac502259ad0.png

4. 圖視覺模型崛起 | MobileViG同等精度比MobileNetv2快4倍,同等速度精度高4%!

原文:https://mp.weixin.qq.com/s/gstvrGg2wHnFyTRXd_cT_A

0859d708-1cb2-11ee-962d-dac502259ad0.png

傳統(tǒng)上,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和Vision Transformer(ViT)主導(dǎo)了計(jì)算機(jī)視覺。然而,最近提出的Vision Graph神經(jīng)網(wǎng)絡(luò)(ViG)為探索提供了一條新的途徑。不幸的是,對(duì)于移動(dòng)端應(yīng)用程序來(lái)說,由于將圖像表示為圖結(jié)構(gòu)的開銷,ViG在計(jì)算上是比較耗時(shí)的。

在這項(xiàng)工作中,作者提出了一種新的基于圖的稀疏注意力機(jī)制,即稀疏Vision Graph注意力(SVGA),該機(jī)制是為在移動(dòng)端設(shè)備上運(yùn)行的ViG設(shè)計(jì)的。此外,作者提出了第一個(gè)用于移動(dòng)端設(shè)備上視覺任務(wù)的混合CNN-GNN架構(gòu)MobileViG,該架構(gòu)使用SVGA。

大量實(shí)驗(yàn)表明,MobileViG在圖像分類、目標(biāo)檢測(cè)和實(shí)例分割任務(wù)的準(zhǔn)確性和/或速度方面優(yōu)于現(xiàn)有的ViG模型以及現(xiàn)有的移動(dòng)端CNN和ViT架構(gòu)。作者最快的模型MobileViG-Ti在ImageNet-1K上實(shí)現(xiàn)了75.7%的Top-1準(zhǔn)確率,在iPhone 13 Mini NPU(使用CoreML編譯)上實(shí)現(xiàn)了0.78 ms 的推理延遲,這比MobileNetV2x1.4(1.02 ms ,74.7%Top-1)和MobileNetV2x1.0(0.81 ms ,71.8%Top-1。作者最大的模型MobileViG-B僅用2.30 ms 的延遲就獲得了82.6%的Top-1準(zhǔn)確率,這比類似規(guī)模的EfficientFormer-L3模型(2.77 ms ,82.4%)更快、更準(zhǔn)確。

作者的工作證明,設(shè)計(jì)良好的混合CNN-GNN架構(gòu)可以成為在移動(dòng)端設(shè)備上設(shè)計(jì)快速準(zhǔn)確模型的新探索途徑。

代碼:https://github.com/SLDGroup/MobileViG

1. 簡(jiǎn)介

人工智能(AI)和機(jī)器學(xué)習(xí)(ML)在過去十年中取得了爆炸式的增長(zhǎng)。在計(jì)算機(jī)視覺中,這種增長(zhǎng)背后的關(guān)鍵驅(qū)動(dòng)力是神經(jīng)網(wǎng)絡(luò)的重新出現(xiàn),尤其是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和最近的視覺Transformer。盡管通過反向傳播訓(xùn)練的神經(jīng)網(wǎng)絡(luò)是在20世紀(jì)80年代發(fā)明的,但它們被用于更小規(guī)模的任務(wù),如字符識(shí)別。直到AlexNet被引入ImageNet競(jìng)賽,神經(jīng)網(wǎng)絡(luò)reshape人工智能領(lǐng)域的潛力才得以充分實(shí)現(xiàn)。

CNN架構(gòu)的進(jìn)一步進(jìn)步提高了其準(zhǔn)確性、效率和速度。與CNN架構(gòu)一樣,多層感知器(MLP)架構(gòu)和類MLP架構(gòu)也有望成為通用視覺任務(wù)的Backbone。

盡管神經(jīng)網(wǎng)絡(luò)和MLP已在計(jì)算機(jī)視覺中得到廣泛應(yīng)用,但由于視覺和語(yǔ)言任務(wù)之間的差異,自然語(yǔ)言處理領(lǐng)域使用了遞歸神經(jīng)網(wǎng)絡(luò)(RNN),特別是長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)。盡管LSTM仍在使用,但在NLP任務(wù)中,它們?cè)诤艽蟪潭壬弦驯籘ransformer架構(gòu)所取代。隨著視覺Transformer(ViT)的引入,引入了一種適用于語(yǔ)言和視覺領(lǐng)域的網(wǎng)絡(luò)架構(gòu)。通過將圖像分割成patch嵌入序列,可以將圖像轉(zhuǎn)換為Transformer模塊可用的輸入。與神經(jīng)網(wǎng)絡(luò)或MLP相比,Transformer架構(gòu)的主要優(yōu)勢(shì)之一是其全局感受野,使其能夠從圖像中的遠(yuǎn)距離物體交互中學(xué)習(xí)。

圖神經(jīng)網(wǎng)絡(luò)(GNN)已發(fā)展為在基于圖的結(jié)構(gòu)上運(yùn)行,如生物網(wǎng)絡(luò)、社交網(wǎng)絡(luò)或引文網(wǎng)絡(luò)。GNN甚至被提議用于節(jié)點(diǎn)分類、藥物發(fā)現(xiàn)、欺詐檢測(cè)等任務(wù),以及最近提出的視覺GNN(ViG)的計(jì)算機(jī)視覺任務(wù)。簡(jiǎn)言之,ViG將圖像劃分為多個(gè)patch,然后通過K近鄰(KNN)算法連接這些patch,從而提供了處理類似于ViT的全局目標(biāo)交互的能力。

移動(dòng)端應(yīng)用的計(jì)算機(jī)視覺研究快速增長(zhǎng),導(dǎo)致了使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)空間局部表示和使用Vision Transformer(ViT)學(xué)習(xí)全局表示的混合架構(gòu)。當(dāng)前的ViG模型不適合移動(dòng)端任務(wù),因?yàn)樗鼈冊(cè)谝苿?dòng)端設(shè)備上運(yùn)行時(shí)效率低且速度慢。可以探索從CNN和ViT模型的設(shè)計(jì)中學(xué)到的概念,以確定CNN-GNN混合模型是否能夠提供基于CNN的模型的速度以及基于ViT的模型的準(zhǔn)確性。

在這項(xiàng)工作中,作者研究了用于移動(dòng)端設(shè)備上計(jì)算機(jī)視覺的混合CNN-GNN架構(gòu),并開發(fā)了一種可以與現(xiàn)有高效架構(gòu)競(jìng)爭(zhēng)的基于圖形的注意力機(jī)制。作者的貢獻(xiàn)總結(jié)如下:

  • 作者提出了一種新的基于圖的稀疏注意力方法,用于移動(dòng)端視覺。作者稱作者的注意力方法為稀疏Vision Graph注意力(SVGA)。作者的方法是輕量級(jí)的,因?yàn)榕c以前的方法相比,它不需要重新reshape,并且在圖構(gòu)建中幾乎沒有開銷。

  • 作者使用作者提出的SVGA、最大相對(duì)圖卷積以及來(lái)自移動(dòng)端CNN和移動(dòng)端視覺Transformer架構(gòu)的概念(作者稱之為MobileViG),為視覺任務(wù)提出了一種新的移動(dòng)端CNN-GNN架構(gòu)。

  • 作者提出的模型MobileViG在3個(gè)具有代表性的視覺任務(wù)(ImageNet圖像分類、COCO目標(biāo)檢測(cè)和COCO實(shí)例分割)上的準(zhǔn)確性和/或速度與現(xiàn)有的Vision Graph神經(jīng)網(wǎng)絡(luò)(ViG)、移動(dòng)端卷積神經(jīng)網(wǎng)絡(luò)(CNN)和移動(dòng)端Vision Transformer(ViT)架構(gòu)類似或者更優(yōu)的性能。

據(jù)作者所知,作者是第一個(gè)研究用于移動(dòng)端視覺應(yīng)用的混合CNN-GNN架構(gòu)的算法。作者提出的SVGA注意力方法和MobileViG架構(gòu)為最先進(jìn)的移動(dòng)端架構(gòu)和ViG架構(gòu)開辟了一條新的探索之路。

2. 相關(guān)工作

ViG被提議作為神經(jīng)網(wǎng)絡(luò)和ViT的替代方案,因?yàn)樗軌蛞愿`活的格式表示圖像數(shù)據(jù)。ViG通過使用KNN算法來(lái)表示圖像,其中圖像中的每個(gè)像素都關(guān)注相似的像素。ViG的性能與流行的ViT模型DeiT和SwinTransformer相當(dāng),這表明它值得進(jìn)一步研究。

盡管基于ViT的模型在視覺任務(wù)中取得了成功,但與基于CNN的輕量級(jí)模型相比,它們?nèi)匀惠^慢,相比之下,基于CNN的模型缺乏基于ViT模型的全局感受域。因此,通過提供比基于ViT的模型更快的速度和比基于CNN的模型更高的精度,基于ViG的模型可能是一種可能的解決方案。據(jù)作者所知,目前還沒有關(guān)于移動(dòng)端ViG的作品;然而,在移動(dòng)端CNN和混合模型領(lǐng)域,已有許多工作。作者將移動(dòng)端架構(gòu)設(shè)計(jì)分為兩大類:卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型和混合CNN-ViT模型,它們?nèi)诤狭薈NNs和ViT的元素。

基于CNN架構(gòu)的MobileNetv2和EfficientNet系列是首批在常見圖像任務(wù)中取得成功的移動(dòng)端模型。這些模型輕,推理速度快。然而,純粹基于CNN的模型已經(jīng)被混合模型競(jìng)爭(zhēng)對(duì)手穩(wěn)步取代。

有大量的混合移動(dòng)端模型,包括MobileViTv2、EdgeViT、LeViT和EfficientFormerv2。這些混合模型在圖像分類、目標(biāo)檢測(cè)和實(shí)例分割任務(wù)方面始終優(yōu)于MobileNetv2,但其中一些模型在延遲方面并不總是表現(xiàn)良好。延遲差異可能與包含ViT塊有關(guān),ViT塊在移動(dòng)端硬件上的速度傳統(tǒng)上較慢。

為了改善這種狀況,作者提出了MobileViG,它提供了與MobileNetv2相當(dāng)?shù)乃俣群团cEfficientFormer相當(dāng)?shù)木取?/span>

3. 文本方法

在本節(jié)中,作者將描述SVGA算法,并提供有關(guān)MobileViG架構(gòu)設(shè)計(jì)的詳細(xì)信息。更確切地說,第3.1節(jié)描述了SVGA算法。第3.2節(jié)解釋了作者如何調(diào)整ViG中的Graper模塊來(lái)創(chuàng)建SVGA塊。第3.3節(jié)描述了作者如何將SVGA塊與反向殘差塊結(jié)合起來(lái)進(jìn)行局部處理,以創(chuàng)建MobileViGTi、MobileViG-S、MobileVeg-M和MobileViG-B。

3.1. Sparse Vision Graph Attention

作者提出稀疏Vision Graph注意力(SVGA)作為Vision GNN中KNN圖注意力的一種移動(dòng)端友好的替代方案?;贙NN的圖注意力引入了2個(gè)非移動(dòng)端友好組件,KNN計(jì)算和輸入reshape,作者用SVGA去除了這兩個(gè)組件。

更詳細(xì)地說,每個(gè)輸入圖像都需要KNN計(jì)算,因?yàn)椴荒芴崆爸烂總€(gè)像素的最近鄰居。這產(chǎn)生了一個(gè)具有看似隨機(jī)連接的圖,如圖1a所示。由于KNN的非結(jié)構(gòu)化性質(zhì),KNN的作者將輸入圖像從4D張量reshape為3D張量,使他們能夠正確對(duì)齊連接像素的特征,用于圖卷積。在圖形卷積之后,對(duì)于隨后的卷積層,必須將輸入從3D重新reshape為4D。因此,基于KNN的注意力需要KNN計(jì)算和2次reshape操作,這兩種操作在移動(dòng)端設(shè)備上都是比較耗時(shí)的。

08bbbf72-1cb2-11ee-962d-dac502259ad0.png

為了消除KNN計(jì)算和reshape操作的開銷,SVGA假設(shè)一個(gè)固定圖,其中每個(gè)像素都連接到其行和列中的第K個(gè)像素。例如,給定一個(gè)8×8的圖像和K=2,左上角的像素將連接到其行上的每一個(gè)像素和列下的每一個(gè)像素,如圖1b所示。對(duì)于輸入圖像中的每個(gè)像素重復(fù)這種相同的圖案。由于圖具有固定的結(jié)構(gòu)(即,對(duì)于所有8×8個(gè)輸入圖像,每個(gè)像素都具有相同的連接),因此不必對(duì)輸入圖像進(jìn)行reshape來(lái)執(zhí)行圖卷積。

相反,它可以使用跨越兩個(gè)圖像維度的滾動(dòng)操作來(lái)實(shí)現(xiàn),在算法1中表示為roll-right和roll-down。滾轉(zhuǎn)操作的第一個(gè)參數(shù)是滾轉(zhuǎn)的輸入,第二個(gè)參數(shù)是向右或向下滾轉(zhuǎn)的距離。使用圖1b中K=2的示例,通過向右滾動(dòng)圖像兩次、向右滾動(dòng)四次和向右滾動(dòng)六次,可以將左上角像素與其行中的第二個(gè)像素對(duì)齊。除了向下滾動(dòng)之外,可以對(duì)其列中的每一個(gè)像素執(zhí)行相同的操作。

08f4a490-1cb2-11ee-962d-dac502259ad0.png

請(qǐng)注意,由于每個(gè)像素都以相同的方式連接,因此用于將左上角像素與其連接對(duì)齊的滾動(dòng)操作同時(shí)將圖像中的其他每個(gè)像素與其連接對(duì)準(zhǔn)。在MobileViG中,使用最大相對(duì)圖卷積(MRConv)來(lái)執(zhí)行圖卷積。因此,在每次向右滾動(dòng)和向下滾動(dòng)操作之后,計(jì)算原始輸入圖像和滾動(dòng)版本之間的差,在算法1中表示為Xr和Xc,并且按元素進(jìn)行最大運(yùn)算并存儲(chǔ)在Xj中,也在算法1表示。在完成滾動(dòng)和最大相對(duì)操作之后,執(zhí)行最終的Conv2d。通過這種方法,SVGA將KNN計(jì)算換成了更便宜的滾動(dòng)操作,因此不需要reshape來(lái)執(zhí)行圖卷積。

作者注意到,SVGA避開了KNN的表示靈活性,而傾向于移動(dòng)端友好。

3.2. SVGA Block

作者將SVGA和更新后的MRConv層插入到Vision GNN中提出的捕獲器塊中。給定一個(gè)輸入特征,更新后的圖形處理器表示為

093e6666-1cb2-11ee-962d-dac502259ad0.png

作者還在MRConv步驟中將濾波器組的數(shù)量從4(Vision GNN中使用的值)更改為1,以增加MRConv層的表達(dá)潛力,而不會(huì)顯著增加延遲。更新后的Graper模塊如圖2d所示。

0960c710-1cb2-11ee-962d-dac502259ad0.png

在更新的Graper之后,作者使用了Vision GNN中提出的前饋網(wǎng)絡(luò)(FFN)模塊,如圖2e所示。FFN模塊是一個(gè)兩層MLP,表示為

098cd0b2-1cb2-11ee-962d-dac502259ad0.png

3.3. MobileViG Architecture

圖2a中所示的MobileViG架構(gòu)由卷積Backbone組成,然后是3級(jí)反向殘差塊(MBConv),其擴(kuò)展比為4,用于MobileNetv2中提出的局部處理。在MBConv塊中,作者將ReLU6替換為GeLU,因?yàn)樗驯蛔C明可以提高計(jì)算機(jī)視覺任務(wù)的性能。MBConv塊由1×1卷積加批量歸一化(BN)和GeLU、深度3×3卷積加BN和GeLU組成,最后是1×1卷積加BN和殘差連接,如圖2b所示。

在MBConv塊之后,作者使用一個(gè)Stage的SVGA塊來(lái)捕獲全局信息,如圖2a所示。作者在SVGA塊之后還有一個(gè)卷積頭用于分類。在每個(gè)MBConv階段之后,下采樣步驟將輸入分辨率減半并擴(kuò)展通道維度。每個(gè)階段由多個(gè)MBConv或SVGA塊組成,其中重復(fù)次數(shù)根據(jù)模型大小而變化。

MobileViG-Ti、MobileViG-S、MobileViG-M和MobileViG-B的通道尺寸和每個(gè)階段重復(fù)的塊的數(shù)量可以在表1中看到。

4. 實(shí)驗(yàn)

4.1. 圖像分類

作者使用PyTorch 1.12和Timm庫(kù)實(shí)現(xiàn)了該模型。作者使用8個(gè)NVIDIA A100 GPU來(lái)訓(xùn)練每個(gè)模型,有效批量大小為1024。這些模型是用AdamW優(yōu)化器在ImageNet-1K上從頭開始訓(xùn)練300個(gè)Epoch的。使用余弦退火策略將學(xué)習(xí)率設(shè)置為2e-3。作者使用標(biāo)準(zhǔn)圖像分辨率224×224進(jìn)行訓(xùn)練和測(cè)試。

與DeiT類似,作者使用RegNetY-16GF進(jìn)行知識(shí)蒸餾,Top-1準(zhǔn)確率為82.9%。對(duì)于數(shù)據(jù)擴(kuò)充,作者使用RandAugment、Mixup、Cutmix、隨機(jī)擦除和重復(fù)擴(kuò)充。

作者使用iPhone 13 Mini(iOS 16)在NPU和GPU上測(cè)試延遲。這些模型是用CoreML編譯的,延遲平均超過1000個(gè)預(yù)測(cè)。

如表2所示,對(duì)于類似數(shù)量的參數(shù),MobileViG在準(zhǔn)確性和GPU延遲方面都優(yōu)于Pyramid ViG。例如,對(duì)于3.5 M以下的參數(shù),MobileViG-S在Top-1的精度上與Pyramid-ViG-Ti匹配,同時(shí)速度快2.83倍。此外,在參數(shù)減少0.6 M的情況下,MobileViG-B在Top-1的準(zhǔn)確率上擊敗Pyramid-ViG-S 0.5%,同時(shí)速度快2.08倍。

與表3中的移動(dòng)端模型相比,MobileViG至少在NPU延遲、GPU延遲或準(zhǔn)確性方面始終優(yōu)于所有模型。MobileViG-Ti比MobileNetv2更快,Top-1的準(zhǔn)確率高3.9%。它還與Top-1的EfficientFormerv2相匹配,同時(shí)在NPU和GPU延遲方面略有優(yōu)勢(shì)。

MobileViG-S在NPU延遲方面比EfficientNet-B0快近兩倍,并比Top-1的準(zhǔn)確率高0.5%。與MobileViTv2-1.5相比,MobileViG-M的NPU延遲快3倍以上,GPU延遲快2倍,Top-1精度高0.2%。此外,MobileViG-B比DeiT-S快6倍,能夠在Top-1的精度上擊敗DeiT-S和Swin Tiny。

4.2. 目標(biāo)檢測(cè)和實(shí)例分割

作者在目標(biāo)檢測(cè)和實(shí)例分割任務(wù)上評(píng)估了MobileViG,以進(jìn)一步證明SVGA的潛力。作者在Mask RCNN中集成了MobileViG作為Backbone,并使用MS COCO 2017數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。作者使用PyTorch 1.12和Timm庫(kù)實(shí)現(xiàn)了Backbone,并使用4個(gè)NVIDIA RTX A6000 GPU來(lái)訓(xùn)練作者的模型。

作者使用來(lái)自300個(gè)訓(xùn)練Epoch的預(yù)訓(xùn)練ImageNet-1k權(quán)重初始化模型,使用初始學(xué)習(xí)率為2e-4的AdamW優(yōu)化器,并按照NextViT、EfficientFormer和EfficientFormerV2的過程,以標(biāo)準(zhǔn)分辨率(1333 X 800)訓(xùn)練12個(gè)Epoch的模型。

如表4所示,在相似的模型大小下,MobileViG在目標(biāo)檢測(cè)和/或?qū)嵗指罘矫娴膮?shù)或改進(jìn)的平均精度(AP)方面優(yōu)于ResNet、PoolFormer、EfficientFormer和PVT。中等規(guī)模的模型MobileViG-M模型在目標(biāo)檢測(cè)任務(wù)上獲得41.3 APbox,當(dāng)50IoU時(shí)獲得62.8 APbox, 而當(dāng)IOU75時(shí)獲得45.1 APbox.

MobileViG的設(shè)計(jì)部分靈感來(lái)自Pyramid-ViG、EfficientFormer和MetaFormer的設(shè)計(jì)。在MobileViG中獲得的結(jié)果表明,混合CNN-GNN架構(gòu)是CNN、ViT和混合CNN-ViT設(shè)計(jì)的可行替代方案?;旌螩NN-GNN架構(gòu)可以提供基于CNN的模型的速度以及ViT模型的準(zhǔn)確性,使其成為高精度移動(dòng)端架構(gòu)設(shè)計(jì)的理想候選者。進(jìn)一步探索用于移動(dòng)端計(jì)算機(jī)視覺任務(wù)的混合CNN-GNN架構(gòu)可以改進(jìn)MobileViG概念,并引入新的最先進(jìn)的架構(gòu)。

5. 參考

[1].MobileViG: Graph-Based Sparse Attention for Mobile Vision Applications.

5. 重磅,GPT-4 API 全面開放使用!

原文:https://mp.weixin.qq.com/s/UrRtcvBIVzD_l-SXIjAxPQ

遙想今年 3 月剛推出 GPT-4 的 OpenAI 僅邀請(qǐng)了部分提交申請(qǐng)的開發(fā)者參與測(cè)試。眼瞅 OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman 在當(dāng)時(shí)現(xiàn)場(chǎng)演示“史上最為強(qiáng)大”的 GPT-4 模型,輕松通過一張手繪草圖生成一個(gè)網(wǎng)站、60 秒就能搞定一個(gè)小游戲開發(fā)等這些功能,一眾開發(fā)者卻不能使用。

而就在今天,GPT-4 的適用性進(jìn)一步被拓展。OpenAI 正式發(fā)布 GPT-4 API,現(xiàn)對(duì)所有付費(fèi) API 的開發(fā)者全面開放!

09a9a084-1cb2-11ee-962d-dac502259ad0.png

1. OpenAI 路線圖:本月底前向新開發(fā)者拓展推出 GPT-4

在上線的這四個(gè)月里,相信很多人通過技術(shù)解析論文(https://cdn.openai.com/papers/gpt-4.pdf),對(duì)于 GPT-4 也不太陌生。

09d9d114-1cb2-11ee-962d-dac502259ad0.png

據(jù) OpenAI 透露,自今年 3 月份發(fā)布 GPT-4 以來(lái),數(shù)以百萬(wàn)計(jì)的開發(fā)者要求訪問 GPT-4 API,且利用 GPT-4 的創(chuàng)新產(chǎn)品的范圍每天都在增長(zhǎng)。

與其前身 GPT-3.5 相比,GPT-4 的不同之處在于它增強(qiáng)了生成文本(包括代碼)的能力,同時(shí)還接受圖像和文本輸入。

該模型在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上表現(xiàn)出“人類水平”。此前,OpenAI 研究人員也做過測(cè)試,稱,如果 GPT-4 是一個(gè)僅憑應(yīng)試能力來(lái)判斷的人,它可以進(jìn)入法學(xué)院,而且很可能也能進(jìn)入許多大學(xué)。

0a09ea16-1cb2-11ee-962d-dac502259ad0.jpg

與 OpenAI 以前的 GPT 模型一樣,GPT-4 是使用公開的數(shù)據(jù)進(jìn)行訓(xùn)練的,包括來(lái)自公共網(wǎng)頁(yè)的數(shù)據(jù),以及 OpenAI 授權(quán)的數(shù)據(jù)。從技術(shù)維度上來(lái)看,GPT-4 是一個(gè)基于 Transformer 的模型,經(jīng)過預(yù)訓(xùn)練,可以預(yù)測(cè)文檔中的下一個(gè) token。這個(gè)項(xiàng)目的一個(gè)核心部分是開發(fā)了基礎(chǔ)設(shè)施和優(yōu)化方法。這使 OpenAI 能夠根據(jù)不超過 GPT-4 的 1/1000 的計(jì)算量訓(xùn)練的模型,準(zhǔn)確地預(yù)測(cè) GPT-4 的某些方面的性能。

不過,目前有些遺憾的是,圖像理解能力還沒有提供給所有 OpenAI 用戶。還是像今年 3 月份 OpenAI 宣布的那樣,它只是與其合作伙伴 Be My Eyes 進(jìn)行測(cè)試。截至目前,OpenAI 還沒有表明何時(shí)會(huì)向更廣泛的用戶群開放圖像理解能力。

現(xiàn)如今,所有具有成功付費(fèi)記錄的 API 開發(fā)者都可以訪問具有 8K 上下文的 GPT-4 API,當(dāng)然,這一次還不能訪問 32 K 上下文的。

同時(shí),OpenAI 也有計(jì)劃在本月底向新的開發(fā)者開放訪問權(quán)限,然后根據(jù)計(jì)算的可用性,開始提高速率限制。

值得注意的是,雖然 GPT-4 代表了生成式 AI 模型發(fā)展的一個(gè)重要里程碑,但是這并不意味著它是 100% 完美的。就 GPT-4 而言,它還有可能產(chǎn)生“幻覺”,并理直氣壯地犯一些推理性錯(cuò)誤。

在未來(lái),OpenAI 表示也正在努力為 GPT-4 和 GPT-3.5 Turbo 安全地啟用微調(diào)功能,預(yù)計(jì)這一功能將在今年晚些時(shí)候推出。

2. Chat Completions API

在公告中,OpenAI 還宣布將普遍向開發(fā)者提供 GPT-3.5 Turbo、DALL-E 和 Whisper APIs。

同時(shí)也向開發(fā)者分享了目前廣泛使用的 Chat Completions API 現(xiàn)狀。OpenAI 表示,現(xiàn)在 Chat Completions API 占了其 API GPT 使用量的 97%。

OpenAI 指出,最初的 Completions API 是在 2020 年 6 月推出的,為語(yǔ)言模型進(jìn)行互動(dòng)提供了一個(gè)自由格式的文本提示。

Chat Completions API 的結(jié)構(gòu)化界面(如系統(tǒng)消息、功能調(diào)用)和多輪對(duì)話能力能夠使開發(fā)者能夠建立對(duì)話體驗(yàn)和廣泛的完成任務(wù),同時(shí)降低提示注入攻擊的風(fēng)險(xiǎn),因?yàn)橛脩籼峁┑膬?nèi)容可以從結(jié)構(gòu)上與指令分開。

0a561198-1cb2-11ee-962d-dac502259ad0.png

OpenAI 表示,當(dāng)前也正在彌補(bǔ) Chat Completions API 的幾個(gè)不足之處,例如completion token 的日志概率和增加可引導(dǎo)性,以減少回應(yīng)的 "聊天性"。

3. 舊模型的廢棄

另外,OpenAI 也發(fā)布了舊模型的棄用計(jì)劃。即從 2024 年 1 月 4 日開始,某些舊的 OpenAI 模型,特別是 GPT-3 及其衍生模型都將不再可用,并將被新的 "GPT-3 基礎(chǔ)"模型所取代,新的模型計(jì)算效率會(huì)更高。

根據(jù)公告顯示,具體淘汰的模型包含 Completions API 中的一些舊模型,包含我們熟悉的 davinci:

  • 使用基于 GPT-3 模型(ada、babbage、curie、davinci)的穩(wěn)定模型名稱的應(yīng)用程序?qū)⒃?2024 年 1 月 4 日自動(dòng)升級(jí)到上述的新模型。在未來(lái)幾周內(nèi),通過在 API 調(diào)用中指定以下模型名稱,也可以訪問新模型進(jìn)行早期測(cè)試:ada-002、babbage-002、curie-002、davinci-002。

  • 使用其他舊的完成模型(如 text-davinci-003)的開發(fā)者將需要在 2024 年1月4日之前手動(dòng)升級(jí)他們的集成,在他們的 API 請(qǐng)求的 "模型 "參數(shù)中指定 gpt-3.5-turbo-instruct。gpt-3.5-turbo-instruct 是一個(gè) InstructGPT 風(fēng)格的模型,訓(xùn)練方式與 text-davinci-003 類似。這個(gè)新的模型是 Completions API 中的一個(gè)替代品,并將在未來(lái)幾周內(nèi)提供給早期測(cè)試。

0a7c1dd4-1cb2-11ee-962d-dac502259ad0.png

與此同時(shí),OpenAI 表示,希望在 2024 年 1 月 4 日之后繼續(xù)使用他們的微調(diào)模型的開發(fā)者,需要在新的基于 GPT-3 模型(ada-002、babbag-002、curie-002、davinci-002)或更新后的模型(gpt-3.5-turbo、gpt-4)之上進(jìn)行微調(diào)替換。

隨著 OpenAI 在今年晚些時(shí)候開啟微調(diào)功能,他們將優(yōu)先為以前微調(diào)過舊型號(hào)的用戶提供 GPT-3.5 Turbo 和 GPT-4 微調(diào)服務(wù)。具體原因是,OpenAI 深諳從自己的數(shù)據(jù)上進(jìn)行微調(diào)的模型上遷移是具有挑戰(zhàn)性的,對(duì)此他們會(huì)為「以前微調(diào)過的模型的用戶提供支持,使這種過渡盡可能順利」。

除了淘汰一些 Completions API 舊模型之外,OpenAI 表示,舊的嵌入模型(如 text-search-davinci-doc-001)的用戶也需要在 2024 年 1 月 4 日前遷移到 text-embedding-ada-002。

0a9cd83a-1cb2-11ee-962d-dac502259ad0.png

最后,使用 Edits API 及其相關(guān)模型(如t ext-davinci-edit-001 或 code-davinci-edit-001)的用戶同樣需要在 2024 年 1 月 4 日前遷移到 GPT-3.5 Turbo。Edits API 測(cè)試版是一個(gè)早期的探索性 API,旨在使開發(fā)人員能夠根據(jù)指令返回編輯過的提示版本。

0ac03fa0-1cb2-11ee-962d-dac502259ad0.png

OpenAI 在公告中寫道,“我們認(rèn)識(shí)到這對(duì)使用這些舊型號(hào)的開發(fā)者來(lái)說是一個(gè)重大變化。終止這些模型不是我們輕易做出的決定。我們將承擔(dān)用戶用這些新模式重新嵌入內(nèi)容的財(cái)務(wù)成本?!?/span>

OpenAI 表示將在未來(lái)幾周,與受影響的用戶聯(lián)系,一旦新的模型準(zhǔn)備好進(jìn)行早期測(cè)試,他們也將提供更多信息。

4. 預(yù)告:下周,所有 ChatGPT Plus 用戶可用上代碼解釋器

最為值得期待的是,OpenAI 官方還在 Twitter 上預(yù)告:代碼解釋器將在下周向所有 ChatGPT Plus 用戶開放。

它允許 ChatGPT 運(yùn)行代碼,并且可以選擇訪問用戶上傳的文件。開發(fā)者可以直接要求 ChatGPT 分析數(shù)據(jù)、創(chuàng)建圖表、編輯文件、執(zhí)行數(shù)學(xué)運(yùn)算等。

0ada2d16-1cb2-11ee-962d-dac502259ad0.png

5. 調(diào)用 GPT-4 API 可以做的 10 件事

最后,隨著此次 GPT-4 API 的放開,開發(fā)者再也不用費(fèi)盡心思地購(gòu)買 Plus 服務(wù)了,調(diào)用迄今業(yè)界最為強(qiáng)大的 GPT-4 API,無(wú)疑也讓相關(guān)的應(yīng)用更加智能。

那么,我們到底能用 GPT-4 API 來(lái)做什么,對(duì)此外媒總結(jié)了常見的 10 種用法:

  • 基于 GPT-4 API 的敘事能力,可以快速生成復(fù)雜情節(jié)、人物發(fā)展等小說內(nèi)容,徹底改變文學(xué)創(chuàng)作領(lǐng)域。

  • GPT-4 API 為模擬極其真實(shí)的對(duì)話鋪平了道路,反映了人類交互的真實(shí)性和精確性。

  • GPT-4 API 展現(xiàn)了即時(shí)語(yǔ)言翻譯的能力,有效地彌合了各種語(yǔ)言和文化之間的溝通差距。

  • GPT-4 API 在數(shù)據(jù)分析方面有很強(qiáng)的能力,可以為數(shù)據(jù)分析市場(chǎng)參與者提供了寶貴的洞察力。

  • GPT-4 API 能夠打造與現(xiàn)實(shí)世界動(dòng)態(tài)相呼應(yīng)的高度逼真的虛擬環(huán)境,增強(qiáng)了游戲和虛擬現(xiàn)實(shí)等領(lǐng)域的沉浸感。

  • GPT-4 API 生成復(fù)雜計(jì)算機(jī)代碼的能力,使其成為軟件開發(fā)人員不可或缺的盟友。

  • GPT-4 API 可以解釋和分析醫(yī)療數(shù)據(jù),幫助準(zhǔn)確診斷和預(yù)測(cè)各種健康狀況。

  • 利用其先進(jìn)的語(yǔ)言生成能力,GPT-4 API 可確??焖?、準(zhǔn)確地生成法律文件。

  • GPT-4 API 展示了解釋消費(fèi)者數(shù)據(jù)和生成定制營(yíng)銷內(nèi)容的能力,有效地與目標(biāo)受眾產(chǎn)生共鳴。

  • GPT-4 API 有可能通過分析大量的科學(xué)數(shù)據(jù)來(lái)推動(dòng)科學(xué)創(chuàng)新,在化學(xué)、物理學(xué)和生物學(xué)等不同領(lǐng)域發(fā)現(xiàn)新的見解。

參考:

https://openai.com/blog/gpt-4-api-general-availability

https://dataconomy.com/2023/07/06/gpt-4-api-is-now-generally-available/

———————End——————

RT-Thread線下入門培訓(xùn)

7月 - 上海,南京

1.免費(fèi)2.動(dòng)手實(shí)驗(yàn)+理論3.主辦方免費(fèi)提供開發(fā)板4.自行攜帶電腦,及插線板用于筆記本電腦充電5.參與者需要有C語(yǔ)言單片機(jī)ARM Cortex-M核)基礎(chǔ),請(qǐng)?zhí)崆鞍惭b好RT-Thread Studio 開發(fā)環(huán)境

報(bào)名通道

0b001ff8-1cb2-11ee-962d-dac502259ad0.png

立即掃碼報(bào)名

(報(bào)名成功即可參加)


點(diǎn)擊閱讀原文進(jìn)入官網(wǎng)


原文標(biāo)題:【AI簡(jiǎn)報(bào)20230707】中國(guó)團(tuán)隊(duì)推出「全球首顆」AI 全自動(dòng)設(shè)計(jì) CPU!重磅,GPT-4 API 全面開放使用!

文章出處:【微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • RT-Thread
    +關(guān)注

    關(guān)注

    31

    文章

    1239

    瀏覽量

    39435

原文標(biāo)題:【AI簡(jiǎn)報(bào)20230707】中國(guó)團(tuán)隊(duì)推出「全球首顆」AI 全自動(dòng)設(shè)計(jì) CPU!重磅,GPT-4 API 全面開放使用!

文章出處:【微信號(hào):RTThread,微信公眾號(hào):RTThread物聯(lián)網(wǎng)操作系統(tǒng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    OpenAI API Key獲?。洪_發(fā)人員申請(qǐng)GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語(yǔ)言理解和生成能力,成為了許多開發(fā)者的首選工具。獲取GPT-4 API Key并將其應(yīng)用于項(xiàng)目,如開發(fā)一個(gè)ChatGPT聊天應(yīng)用,不僅是實(shí)踐人工智能技術(shù)
    的頭像 發(fā)表于 06-24 17:40 ?1661次閱讀
    OpenAI <b class='flag-5'>API</b> Key獲?。洪_發(fā)人員申請(qǐng)<b class='flag-5'>GPT-4</b> <b class='flag-5'>API</b> Key教程

    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 API Key使用和多模態(tài)GPT4o API調(diào)用開發(fā)教程!

    API Key、配置環(huán)境、并編寫調(diào)用代碼。 GPT-4o模型: GPT-4o(GPT-4優(yōu)化版)是OpenAI開發(fā)的一款高級(jí)語(yǔ)言模型。與其前身GP
    的頭像 發(fā)表于 06-08 00:33 ?3448次閱讀
    國(guó)內(nèi)直聯(lián)使用ChatGPT 4.0 <b class='flag-5'>API</b> Key使用和多模態(tài)<b class='flag-5'>GPT4</b>o <b class='flag-5'>API</b>調(diào)用開發(fā)教程!

    阿里云發(fā)布通義千問2.5大模型,多項(xiàng)能力超越GPT-4

    阿里云隆重推出了通義千問 2.5 版,宣稱其“技術(shù)進(jìn)步,全面超越GPT-4”,尤其是在中文環(huán)境中的多種任務(wù)(如文本理解、文本生成、知識(shí)問答及生活建議、臨時(shí)聊天及對(duì)話以及安全風(fēng)險(xiǎn)評(píng)估)方面表現(xiàn)出色,超越了
    的頭像 發(fā)表于 05-09 14:17 ?810次閱讀

    微軟Copilot全面更新為OpenAI的GPT-4 Turbo模型

    起初,Copilot作為Bing Chat AI助手推出,初期采用GPT-3.5模型,隨后升級(jí)至GPT-4取得顯著進(jìn)步,如今再次更新至性能卓越的GP
    的頭像 發(fā)表于 03-13 13:42 ?573次閱讀

    新火種AI|秒殺GPT-4,狙殺GPT-5,橫空出世的Claude 3振奮人心!

    GPT-4被拉下神壇, Claude 3很可能對(duì)GPT-4實(shí)現(xiàn)全方位的碾壓 。 Anthropic發(fā)布3個(gè)模型,全方位實(shí)現(xiàn)
    的頭像 發(fā)表于 03-06 22:22 ?496次閱讀
    新火種<b class='flag-5'>AI</b>|秒殺<b class='flag-5'>GPT-4</b>,狙殺<b class='flag-5'>GPT</b>-5,橫空出世的Claude 3振奮人心!

    全球最強(qiáng)大模型易主,GPT-4被超越

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic宣布推出全新的Claude 3系列模型,其中包括最強(qiáng)版Claude 3 Opus。據(jù)該公司稱,Claude 3系列在推理、數(shù)學(xué)、編碼、多語(yǔ)言理解和視覺方面全面超越了包括
    的頭像 發(fā)表于 03-05 09:58 ?527次閱讀

    Anthropic推出Claude 3系列模型,全面超越GPT-4,樹立AI新標(biāo)桿

    近日,AI領(lǐng)域的領(lǐng)軍企業(yè)Anthropic震撼發(fā)布了全新的Claude 3系列模型,該系列模型在多模態(tài)和語(yǔ)言能力等關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能,成功擊敗了此前被廣泛認(rèn)為是全球最強(qiáng)AI模型的GPT-4
    的頭像 發(fā)表于 03-05 09:49 ?548次閱讀

    智譜AI推出新一代基座大模型GLM-4

    智譜AI近日宣布推出新一代基座大模型GLM-4。這一模型在整體性能上相較上一代實(shí)現(xiàn)了大幅提升,其表現(xiàn)已逼近GPT-4。
    的頭像 發(fā)表于 01-17 15:29 ?876次閱讀

    ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

    OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能分析解答 在最近的OpenAI DevDay上,該組織發(fā)布了一項(xiàng)備受期待的公告:推出GPT-4 Turbo,這是對(duì)其突破性AI
    的頭像 發(fā)表于 12-13 09:19 ?938次閱讀
    ChatGPT plus有什么功能?OpenAI 發(fā)布 <b class='flag-5'>GPT-4</b> Turbo 目前我們所知道的功能

    AI觀察 | 今年最火的GPT-4,正在締造科幻版妙手仁心!

    近來(lái),微軟對(duì)于提示工程能力的最新研究 1 (鏈接詳見文末)再次吸引了一眾媒體的目光:“無(wú)需額外微調(diào)、無(wú)需專業(yè)策劃,僅憑提示GPT-4就能化身專家!”報(bào)道中這樣描述道 2 。 基于最新提示策略
    的頭像 發(fā)表于 12-11 08:15 ?391次閱讀
    <b class='flag-5'>AI</b>觀察 | 今年最火的<b class='flag-5'>GPT-4</b>,正在締造科幻版妙手仁心!

    新火種AI|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓GPT-4

    谷歌背水一戰(zhàn),發(fā)布Gemini,狙擊GPT-4
    的頭像 發(fā)表于 12-08 09:09 ?1010次閱讀
    新火種<b class='flag-5'>AI</b>|谷歌深夜發(fā)布復(fù)仇神器Gemini,原生多模態(tài)碾壓<b class='flag-5'>GPT-4</b>?

    GPT4再升級(jí),更強(qiáng)大更便宜!不懂代碼也能生成應(yīng)用,享受分成

    GPT-4 Turbo以及ChatGPT的一系列升級(jí)內(nèi)容。 ? OpenAI自去年底推出ChatGPT之后享譽(yù)全球,近一年來(lái)不斷推進(jìn)技術(shù)和應(yīng)用創(chuàng)新。該公司強(qiáng)調(diào),其今年3月發(fā)布的GPT-4
    的頭像 發(fā)表于 11-14 00:23 ?1804次閱讀

    ?【第20231110期嵌入式AI簡(jiǎn)報(bào)】OpenAI 如何再次讓 AI 圈一夜未眠?

    時(shí)間,就「轟」出了團(tuán)隊(duì)最新的成果 GPT-4 Turbo,后者不僅更快、有更長(zhǎng)的上下文、而且更好的控制。 同時(shí),OpenAI 下調(diào) API 的價(jià)格近 3 倍,降到了 1000 輸入/美分,讓在場(chǎng)開發(fā)
    的頭像 發(fā)表于 11-10 20:25 ?1102次閱讀
    ?【第20231110期嵌入式<b class='flag-5'>AI</b><b class='flag-5'>簡(jiǎn)報(bào)</b>】OpenAI 如何再次讓 <b class='flag-5'>AI</b> 圈一夜未眠?

    OpenAI GPT-4升級(jí)?AI原生應(yīng)用百度地圖AI向?qū)В阂殉晒︻A(yù)判

    北京時(shí)間11月7日凌晨,在OpenAI的首屆開發(fā)者大會(huì)上新模型GPT-4 Turbo發(fā)布,ChatGPT也宣布了一系列升級(jí),在工作人員的現(xiàn)場(chǎng)演示中新版GPT集成了類似助理的AI應(yīng)用,可以為用戶列出
    的頭像 發(fā)表于 11-08 10:12 ?794次閱讀
    OpenAI <b class='flag-5'>GPT-4</b>升級(jí)?<b class='flag-5'>AI</b>原生應(yīng)用百度地圖<b class='flag-5'>AI</b>向?qū)В阂殉晒︻A(yù)判

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3

    ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3 目前OpenAI算是全球大模型的引領(lǐng)者,一舉一動(dòng)都牽動(dòng)著大家的關(guān)注,現(xiàn)在ChatGPT迎來(lái)重磅更新。
    的頭像 發(fā)表于 11-07 18:20 ?2556次閱讀
    ChatGPT<b class='flag-5'>重磅</b>更新 OpenAI發(fā)布<b class='flag-5'>GPT-4</b> Turbo模型價(jià)格大降2/3