0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Transformer流行的背后

Astroys ? 來(lái)源:Astroys ? 2023-08-30 16:57 ? 次閱讀

許多技術(shù)公司都在大肆宣揚(yáng)自己擁有比其他公司更好的處理transformer算法的解決方案。但其實(shí)業(yè)界transformer的基準(zhǔn)測(cè)試尚未推出。

Generative AI(GAI)的蓬勃發(fā)展已經(jīng)顛覆了整個(gè)AI世界,似乎是這樣。

大語(yǔ)言模型(LLM),如ChatGPT所示,大多局限于語(yǔ)言建模和文本生成。但transformer(一種支撐LLM和其他GAI應(yīng)用的總體深度學(xué)習(xí)架構(gòu))提供了一種可用于文本、語(yǔ)音、圖像、3D和視頻等數(shù)據(jù)流或任何傳感數(shù)據(jù)的模型。

Nvidia汽車部門副總裁Danny Shapiro提到了GAI的多功能性,他說(shuō):“AI領(lǐng)域新的神奇之處在于它的無(wú)限性。而我們現(xiàn)在只觸及到了表面。”

與任何新興技術(shù)一樣,硅谷也充斥著科技公司大肆宣揚(yáng)其革命性解決方案的聲音。坊間傳聞,硅谷也在爭(zhēng)相用transformer取代基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型。其中一種猜測(cè)提到了一家robotaxi公司,該公司剛剛淘汰了其內(nèi)部設(shè)計(jì)的汽車芯片,并急于開(kāi)發(fā)一種可以處理transformer的新款芯片。

Quadric是一家機(jī)器學(xué)習(xí)推理IP公司,Untether AI則將其硬件宣傳為是“通用推理加速器”,這兩家公司都在兜售可處理transformer的技術(shù)。Quadric說(shuō)日本的Denso和Megachip是其客戶,而Untether AI則說(shuō)通用是其技術(shù)開(kāi)發(fā)合作方之一。

Quadric的CMO Steve Roddy認(rèn)為,transformer話題“在過(guò)去幾周內(nèi)真正活躍了起來(lái)”。他說(shuō):“顯然,transformer總體上已經(jīng)初具規(guī)模了,因?yàn)槊總€(gè)人都在玩生成式圖像或ChatGPT等等。但到目前為止,LLM類型的東西都是在云端運(yùn)行的,因?yàn)樗鼈兩婕皵?shù)十億個(gè)參數(shù)?!?/p>

Qualcomm因素

??

Roddy說(shuō):“盡管如此,人們現(xiàn)對(duì)‘設(shè)備端(on-device)’的transformer的關(guān)注要迫切得多。他猜測(cè),引發(fā)這一變化的是Qualcomm。Qualcomm上月宣布了其2024年計(jì)劃,即在智能手機(jī)和PC上提供Meta的新聊天工具、基于Llama 2的AI。

Qualcomm表示,其目的是“讓開(kāi)發(fā)者能夠利用Snapdragon平臺(tái)的AI功能,迎來(lái)全新的、令人興奮的GAI應(yīng)用”。Qualcomm的這一聲明讓Roddy和其他行業(yè)玩家感到不安。為什么要等到2024年?

越來(lái)越多的人猜測(cè),Apple可能會(huì)率先采用設(shè)備端的transformer。今年秋季發(fā)布的新款iPhone能否實(shí)現(xiàn)這一目標(biāo)?這是人們無(wú)法證實(shí)的猜測(cè)。

Gartner認(rèn)為,GAI主導(dǎo)了有關(guān)AI的討論,利用ChatGPT等系統(tǒng)以非常實(shí)際的方式提高了開(kāi)發(fā)者和知識(shí)工作者的工作效率,該公司上周宣布,市場(chǎng)趨勢(shì)正在將GAI推向“Hype Cycle中的預(yù)期膨脹高峰”。

cb4f3d18-46db-11ee-a2ef-92fbcf53809c.png

工程咨詢公司BDTI總裁、Edge AI and Vision Alliance創(chuàng)始人Jeff Bier在被問(wèn)及一些公司吹噓的transformer芯片時(shí)持謹(jǐn)慎態(tài)度。他說(shuō):“我們已經(jīng)看到了相當(dāng)可信的說(shuō)法。但我們尚未對(duì)這些說(shuō)法進(jìn)行獨(dú)立驗(yàn)證。就實(shí)際應(yīng)用而言,transformer在很大程度上仍然處于領(lǐng)先地位?!?/p>

BDTI從事處理器基準(zhǔn)測(cè)試(benchmarking)。不過(guò),他說(shuō):“我們還沒(méi)有對(duì)transformer或LLM進(jìn)行任何處理器基準(zhǔn)測(cè)試……我們剛剛收到第一批請(qǐng)求?!?/p>

什么是transformer?

?? 首先,了解transformer模型到底是什么很重要。

在處理輸入流時(shí),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比,transformer模型基于不同算法,使用不同的方法。該模型側(cè)重于“關(guān)系”。

在自然語(yǔ)言處理(如ChatGPT)中,transformer模型(最初應(yīng)用于LLM)是一種神經(jīng)網(wǎng)絡(luò),用于查找和跟蹤輸入句子之間的關(guān)系,從而學(xué)習(xí)上下文和含義。

BDTI的高級(jí)工程師Mihran Touriguian說(shuō):“transformer非常適合查找輸入之間的關(guān)系。即使輸入之間的關(guān)系在時(shí)間或地點(diǎn)上相距甚遠(yuǎn),該模型也能發(fā)揮作用。”

人們對(duì)transformer的興趣之所以如此高漲,是因?yàn)樗鼈兣c輸入流無(wú)關(guān)。Touriguian解釋說(shuō),該模型不僅可以應(yīng)用于語(yǔ)言,還可以應(yīng)用于視頻或被分割成塊的單一大型圖像。

與其他模型相比,transformer的優(yōu)勢(shì)在于能找到圖像中多個(gè)時(shí)間或位置輸入之間的“關(guān)系”。Touriguian指出:“如果你的應(yīng)用中使用了不同類型的傳感器,那么transformer就非常適合。這些‘傳感器’可以是圖像、文本或語(yǔ)音。Transformer非常適合將不同的數(shù)據(jù)流結(jié)合到一個(gè)應(yīng)用中。”

與數(shù)據(jù)類型無(wú)關(guān)

??

以往的神經(jīng)網(wǎng)絡(luò)模型需要單獨(dú)的算法或拓?fù)浣Y(jié)構(gòu)來(lái)處理每種數(shù)據(jù)類型。Touriguian說(shuō):“在后端或前端,你可以將信息組合起來(lái)進(jìn)行預(yù)測(cè)。”

與此相反,“transformer與輸入類型無(wú)關(guān)”,他解釋道?!耙虼耍憧梢詫a(chǎn)生數(shù)據(jù)的多種類型傳感器輸入transformer。transformer基本上可以找到它們之間的關(guān)系,例如語(yǔ)音、圖像和標(biāo)題(文本)之間的關(guān)系?!?/p>

例如,在車載應(yīng)用中,關(guān)鍵的輸入數(shù)據(jù)流來(lái)自各種類型的傳感器,攝像頭、雷達(dá)和激光雷達(dá)都至關(guān)重要。Transformer如果能像承諾的那樣發(fā)揮作用,就能將來(lái)自不同傳感器的信息結(jié)合起來(lái),為汽車提供更好的決策和解決方案。

但,我們還沒(méi)有做到

??????

然而,現(xiàn)實(shí)世界還沒(méi)有實(shí)現(xiàn)這一愿景。要實(shí)現(xiàn)這一目標(biāo),transformer必須先進(jìn)行大量的準(zhǔn)備工作,即對(duì)輸入數(shù)據(jù)進(jìn)行預(yù)處理。Touriguian說(shuō),你需要“對(duì)輸入的類型進(jìn)行規(guī)范化”,這個(gè)過(guò)程被稱為“嵌入(embedding)”,它捕捉并存儲(chǔ)語(yǔ)言或其他數(shù)據(jù)流的意義和關(guān)系。它們是模型比較不同標(biāo)記或數(shù)據(jù)輸入的方式。

Touriguian說(shuō),在神經(jīng)網(wǎng)絡(luò)中,來(lái)自任何傳感器的任何輸入都必須轉(zhuǎn)換為包含一定數(shù)量元素的矢量。這種規(guī)范化是transformer在多種類型傳感器上運(yùn)行的關(guān)鍵步驟。

Transformer面臨的另一個(gè)障礙是其所依賴的龐大的參數(shù)和權(quán)重(數(shù)以億計(jì))。不過(guò),Touriguian表示,最近這些參數(shù)已經(jīng)縮小到與CNN模型相當(dāng)?shù)拇笮?。他補(bǔ)充道,在精度方面,transformer與基于CNN的模型相同或略勝一籌。

然而,值得注意的是,研究人員和開(kāi)發(fā)者已經(jīng)意識(shí)到,通過(guò)結(jié)合CNN和transformer的優(yōu)勢(shì),他們可以取得更好的結(jié)果,Touriguian指出,“CNN部分在圖像上的表現(xiàn)非常出色,因?yàn)镃NN關(guān)注的是相鄰像素之間的關(guān)系。同時(shí),在此基礎(chǔ)上,transformer基本上可以找到這些鄰域與圖像中其他區(qū)域之間的關(guān)系?!?/p>

Transformer在車載領(lǐng)域中的應(yīng)用

????????

Transformer可以應(yīng)用在哪里以及如何應(yīng)用,似乎沒(méi)有限制,從銷售工具、聊天框、翻譯到設(shè)計(jì)/工程、工廠和倉(cāng)儲(chǔ)……

例如,ChatGPT可以在車載中最明顯的應(yīng)用之一,就是讓新手司機(jī)無(wú)需閱讀數(shù)百頁(yè)的使用手冊(cè),就能向汽車問(wèn):“嘿,XX,我該如何換輪胎?”

訓(xùn)練數(shù)據(jù)是另一個(gè)重要的應(yīng)用領(lǐng)域。Nvidia的Shapiro舉例說(shuō),GAI生成合成數(shù)據(jù)的能力可以用來(lái)向汽車的感知系統(tǒng)輸入“一堆停車標(biāo)志的圖像”(有的上面有涂鴉,有的已經(jīng)風(fēng)化、生銹,有的被樹(shù)木遮擋)。

他補(bǔ)充說(shuō),ViT、SwinTransformer、DETR、Perceiver等流行的視覺(jué)transformer目前已廣泛應(yīng)用于自動(dòng)駕駛軟件棧中。此外,GPT等LLM DNN可用于座艙應(yīng)用,以自然、直觀的方式向車內(nèi)的人提供信息。他表示,Nvidia Drive“能夠在車內(nèi)部署運(yùn)行這些復(fù)雜的視覺(jué)transformer和LLM”。

Transformer硬件需要什么?

????????????????????

Bier指出,如今,一些專注于邊緣或嵌入式處理的AI硬件更加專業(yè)化,更偏愛(ài)CNN等成熟模型。另一些則更加靈活,更容易適應(yīng)transformer。

Bier強(qiáng)調(diào)說(shuō):“這種適應(yīng)性取決于兩點(diǎn)。一是架構(gòu)本身。另一個(gè)是支持它的軟件工具和庫(kù)?!?/p>

憑借其GPNPU架構(gòu)Chimera所獨(dú)有的IP,Quadric是一家聲名顯赫的AI IP供應(yīng)商,其架構(gòu)被宣傳為能夠“運(yùn)行任何機(jī)器學(xué)習(xí)圖形,包括最新的視覺(jué)transformer”。

Quadric聲稱,Chimera結(jié)合了神經(jīng)加速器(NPU)和DSP的最佳特性,提供經(jīng)典代碼和圖形代碼的混合。Quadric的Roddy強(qiáng)調(diào)說(shuō),這對(duì)軟件開(kāi)發(fā)者尤為重要,因?yàn)樗麄兿M爸恍杌旌虾推ヅ漕A(yù)構(gòu)建的應(yīng)用代碼構(gòu)件”。

Roddy認(rèn)為,Quadric的優(yōu)勢(shì)在于它能夠運(yùn)行不同的內(nèi)核來(lái)完成不同的任務(wù)(經(jīng)典的DSP代碼任務(wù)、經(jīng)典神經(jīng)網(wǎng)絡(luò)kernel(包括檢測(cè)器和驗(yàn)證器),以及介于兩者之間的類似CPU的任務(wù)),所有這些都可以在Quadric的“單處理器”上完成。Roddy解釋說(shuō):“無(wú)需多個(gè)引擎。實(shí)際只有一個(gè)處理器、一個(gè)執(zhí)行流水線、一個(gè)代碼流,所有這些都編譯在一起。”

這與許多芯片設(shè)計(jì)者對(duì)機(jī)器學(xué)習(xí)出現(xiàn)的反應(yīng)形成了鮮明對(duì)比。他們部署了一大塊NPU加速器,并將新的加速器添加到SoC上已有的DSP和CPU內(nèi)核中。

cb9a114e-46db-11ee-a2ef-92fbcf53809c.jpg

Roddy說(shuō),他們意識(shí)到無(wú)法在CPU或DSP上運(yùn)行最新版本的ResNet(Residual Neural Network),“因?yàn)樗珡?qiáng)大了”。這導(dǎo)致大多數(shù)公司創(chuàng)建了一個(gè)復(fù)雜的架構(gòu),迫使程序員“每年都要進(jìn)行越來(lái)越高的抽象”,并對(duì)每個(gè)塊的內(nèi)存大小和工作負(fù)載分區(qū)進(jìn)行“細(xì)致入微的思考”。結(jié)果導(dǎo)致了漫長(zhǎng)的開(kāi)發(fā)周期。

然后是transformer。

對(duì)于正在努力開(kāi)發(fā)AI硬件的芯片公司來(lái)說(shuō),這無(wú)疑又是一記響亮的耳光。對(duì)于芯片設(shè)計(jì)師和程序員來(lái)說(shuō),本已復(fù)雜的局面變得更加混亂。Quadric說(shuō):“Transformer打破了你對(duì)傳統(tǒng)NPU加速器的認(rèn)知?!?/p>

Quadric認(rèn)為,與以往的神經(jīng)網(wǎng)絡(luò)算法相比,視覺(jué)transformer“在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和構(gòu)件運(yùn)算符方面大不相同”。該公司建議,“如果你的傳統(tǒng)NPU無(wú)法處理視覺(jué)transformer,那么Quadric的GPNPU會(huì)更好”。

DNN以外的數(shù)學(xué)

?????????????????

Untether AI正在宣傳其芯片對(duì)transformer的適應(yīng)性。產(chǎn)品副總裁Bob Beachler說(shuō):“與兩三年前相比,我在視覺(jué)應(yīng)用中看到了更多的transformer式網(wǎng)絡(luò),當(dāng)時(shí)大家都專注于CNN。”

因?yàn)閁ntether AI“一直在研究自然語(yǔ)言處理”,而自然語(yǔ)言處理是一種attention transformer式網(wǎng)絡(luò)。Beachler稱:“我們可以把為自然語(yǔ)言處理投入的相同電路用于基于視覺(jué)的transformer應(yīng)用?!?/p>

當(dāng)被問(wèn)及Untether AI是否只是運(yùn)氣好時(shí),Beacher回避了。他說(shuō),這個(gè)故事的寓意是“不要過(guò)度限制你的AI加速、AI應(yīng)用”。

他指出:“我也看到一些初創(chuàng)公司在嘗試進(jìn)行特定類型的數(shù)學(xué)運(yùn)算、棘手的數(shù)學(xué)變換。當(dāng)你開(kāi)始這樣做時(shí),你可以進(jìn)行大量的數(shù)學(xué)變換,但你也開(kāi)始失去精度。最終,你的芯片可能只能運(yùn)行一次?!?/p>

要設(shè)計(jì)出能處理transformer式算法的處理器,最重要的是什么?

除了在處理器中加入靈活性之外,Beachler還強(qiáng)調(diào),芯片必須處理DNN處理之外所需的所有數(shù)學(xué)運(yùn)算,“比如視頻縮放、激活和邊界框的非最大值抑制。所有這些類型的事情都需要一種更通用的方法”。

BDTI的Bier表示贊同。他說(shuō),需要牢記的一個(gè)關(guān)鍵是,“現(xiàn)實(shí)世界中的大多數(shù)應(yīng)用并不是簡(jiǎn)單地獲取數(shù)據(jù)并將其輸入某種DNN。它們需要使用非神經(jīng)網(wǎng)絡(luò)技術(shù)(如經(jīng)典圖像和信號(hào)處理技術(shù))進(jìn)行某種預(yù)處理。然后,再應(yīng)用一個(gè)或多個(gè)DNN。然后再應(yīng)用額外的經(jīng)典算法,如跟蹤算法?!?/p>

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8353

    瀏覽量

    132315
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5466

    瀏覽量

    120892
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    139

    瀏覽量

    5968

原文標(biāo)題:Transformer流行的背后

文章出處:【微信號(hào):Astroys,微信公眾號(hào):Astroys】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    自動(dòng)駕駛中一直說(shuō)的BEV+Transformer到底是個(gè)啥?

    在很多車企的自動(dòng)駕駛介紹中,都會(huì)聽(tīng)到一個(gè)關(guān)鍵技術(shù),那就是BEV+Transformer,那BEV+Transformer到底是個(gè)啥?為什么很多車企在自動(dòng)駕駛技術(shù)中都十分追捧這項(xiàng)技術(shù)?其實(shí)“BEV
    的頭像 發(fā)表于 11-07 11:19 ?171次閱讀
    自動(dòng)駕駛中一直說(shuō)的BEV+<b class='flag-5'>Transformer</b>到底是個(gè)啥?

    Transformer能代替圖神經(jīng)網(wǎng)絡(luò)嗎

    Transformer作為一種在處理序列數(shù)據(jù)方面表現(xiàn)出色的深度學(xué)習(xí)模型,自其提出以來(lái),已經(jīng)在自然語(yǔ)言處理(NLP)、時(shí)間序列分析等領(lǐng)域取得了顯著的成果。然而,關(guān)于Transformer是否能完全代替圖神經(jīng)網(wǎng)絡(luò)(GNN)的問(wèn)題,需要從多個(gè)維度進(jìn)行深入探討。
    的頭像 發(fā)表于 07-12 14:07 ?355次閱讀

    Transformer語(yǔ)言模型簡(jiǎn)介與實(shí)現(xiàn)過(guò)程

    在自然語(yǔ)言處理(NLP)領(lǐng)域,Transformer模型以其卓越的性能和廣泛的應(yīng)用前景,成為了近年來(lái)最引人注目的技術(shù)之一。Transformer模型由谷歌在2017年提出,并首次應(yīng)用于神經(jīng)機(jī)器翻譯
    的頭像 發(fā)表于 07-10 11:48 ?1121次閱讀

    Transformer架構(gòu)在自然語(yǔ)言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語(yǔ)言處理(NLP)領(lǐng)域取得了顯著的進(jìn)步。其中,Transformer架構(gòu)的提出,為NLP領(lǐng)域帶來(lái)了革命性的變革。本文將深入探討Transformer架構(gòu)的核心思想、組成部分以及在自然語(yǔ)言處理領(lǐng)域的應(yīng)用,旨在幫助讀者全面理解并應(yīng)用這一革命性的
    的頭像 發(fā)表于 07-09 11:42 ?667次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問(wèn)世以來(lái),在自然語(yǔ)言處理(NLP)領(lǐng)域取得了巨大的成功,并成為了許多先進(jìn)模型(如BERT、GPT等)的基礎(chǔ)。本文將深入解讀如何使用PyTorch框架搭建Transformer模型,包括模型的結(jié)構(gòu)、訓(xùn)練過(guò)程、關(guān)鍵組件以及實(shí)現(xiàn)細(xì)節(jié)。
    的頭像 發(fā)表于 07-02 11:41 ?1411次閱讀

    Transformer 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    當(dāng)Transformer模型發(fā)布時(shí),它徹底革新了機(jī)器翻譯領(lǐng)域。雖然最初是為特定任務(wù)設(shè)計(jì)的,但這種革命性的架構(gòu)顯示出它可以輕松適應(yīng)不同的任務(wù)。隨后成為了Transformer一個(gè)標(biāo)準(zhǔn),甚至用于它最
    的頭像 發(fā)表于 07-02 08:27 ?316次閱讀
    <b class='flag-5'>Transformer</b> 能代替圖神經(jīng)網(wǎng)絡(luò)嗎?

    基于Transformer模型的壓縮方法

    基于Transformer架構(gòu)的大型模型在人工智能領(lǐng)域中發(fā)揮著日益重要的作用,特別是在自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域。
    的頭像 發(fā)表于 02-22 16:27 ?598次閱讀
    基于<b class='flag-5'>Transformer</b>模型的壓縮方法

    Transformer壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    隨著人工智能技術(shù)的迅速發(fā)展,Transformer在自然語(yǔ)言處理、機(jī)器翻譯、問(wèn)答系統(tǒng)等領(lǐng)域取得了顯著的性能提升。
    的頭像 發(fā)表于 01-24 14:05 ?1093次閱讀
    <b class='flag-5'>Transformer</b>壓縮部署的前沿技術(shù):RPTQ與PB-LLM

    基于Transformer的多模態(tài)BEV融合方案

    由于大量的相機(jī)和激光雷達(dá)特征以及注意力的二次性質(zhì),將 Transformer 架構(gòu)簡(jiǎn)單地應(yīng)用于相機(jī)-激光雷達(dá)融合問(wèn)題是很困難的。
    發(fā)表于 01-23 11:39 ?705次閱讀
    基于<b class='flag-5'>Transformer</b>的多模態(tài)BEV融合方案

    大語(yǔ)言模型背后Transformer,與CNN和RNN有何不同

    ? 電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近年來(lái),隨著大語(yǔ)言模型的不斷出圈,Transformer這一概念也走進(jìn)了大眾視野。Transformer是一種非常流行的深度學(xué)習(xí)模型,最早于2017年由谷歌
    的頭像 發(fā)表于 12-25 08:36 ?3658次閱讀
    大語(yǔ)言模型<b class='flag-5'>背后</b>的<b class='flag-5'>Transformer</b>,與CNN和RNN有何不同

    更深層的理解視覺(jué)Transformer, 對(duì)視覺(jué)Transformer的剖析

    最后是在ADE20K val上的LeaderBoard,通過(guò)榜單也可以看出,在榜單的前幾名中,Transformer結(jié)構(gòu)依舊占據(jù)是當(dāng)前的主力軍。
    的頭像 發(fā)表于 12-07 09:39 ?721次閱讀
    更深層的理解視覺(jué)<b class='flag-5'>Transformer</b>, 對(duì)視覺(jué)<b class='flag-5'>Transformer</b>的剖析

    探索Transformer Block精簡(jiǎn)的方式

    作者對(duì)Transformer Block移除了各種參數(shù),減少了15%參數(shù)量,提高了15%的訓(xùn)練速度,各個(gè)環(huán)節(jié)都有做充分的實(shí)驗(yàn),但一些經(jīng)驗(yàn)性得到的結(jié)論也并沒(méi)有直接回答一些問(wèn)題(如LN為什么影響收斂速度)。
    發(fā)表于 12-06 09:58 ?529次閱讀
    探索<b class='flag-5'>Transformer</b> Block精簡(jiǎn)的方式

    降低Transformer復(fù)雜度O(N^2)的方法匯總

    首先來(lái)詳細(xì)說(shuō)明為什么Transformer的計(jì)算復(fù)雜度是 。將Transformer中標(biāo)準(zhǔn)的Attention稱為Softmax Attention。令 為長(zhǎng)度為 的序列, 其維度為 , 。 可看作Softmax Attention的輸入。
    的頭像 發(fā)表于 12-04 15:31 ?1049次閱讀
    降低<b class='flag-5'>Transformer</b>復(fù)雜度O(N^2)的方法匯總

    關(guān)于深度學(xué)習(xí)模型Transformer模型的具體實(shí)現(xiàn)方案

    Transformer 本質(zhì)上是一個(gè) Encoder-Decoder 架構(gòu)。因此中間部分的 Transformer 可以分為兩個(gè)部分:編碼組件和解碼組件。
    發(fā)表于 11-17 10:34 ?491次閱讀
    關(guān)于深度學(xué)習(xí)模型<b class='flag-5'>Transformer</b>模型的具體實(shí)現(xiàn)方案

    求助,AD8132諧波測(cè)試電路中的transformer有沒(méi)有推薦型號(hào)?

    AD8132諧波測(cè)試電路中的transformer有沒(méi)有推薦型號(hào)?
    發(fā)表于 11-16 06:15