成年人啪啪视屏免费看,久久国产一級毛片

Helium指令集

這里介紹的是Helium的匯編語言指令集，雖然大部分程序員不會直接使用這些指令，而是通過C語言或者高級語言編程實現(xiàn)，但是了解匯編語言指令集，可以有如下收獲：

在優(yōu)化C代碼時，為了確定其是否被充分地矢量化，能夠?qū)徱暰幾g器的輸出以及熟悉指令集是非常有幫助的。

當(dāng)調(diào)試不能正常工作的代碼時，通過閱讀反匯編代碼去理解每一行發(fā)生了什么，對于尋找代碼的問題是非常有用的。

了解指令集可能有助于編寫高效的代碼，甚至節(jié)省功耗，尤其是在使用原語函數(shù)的情況下。

Helium指令結(jié)構(gòu)和其他Cortex-M處理器中的VFP（浮點）指令結(jié)構(gòu)是相似的。

Helium指令格式如下：

Helium指令都是以字母V開始的，然后跟著如下符號，符合中的{}是可選的，<>是必須出現(xiàn)的：

mod：指令修飾符，可能沒有，也可能是Q（saturating）飽和，H（halving）減半，D（doubling）加倍，R（rounding）四舍五入中的一個。

op：具體操作，例如ADD（相加），SUB（相減），CMP（比較）等。

shape：有些指令中，可以選擇性的指定L（long）或N（narrow），這是 “形態(tài)” 相關(guān)的修飾符。

- L：Long表示輸入元素在操作前會被擴寬。1個8位的元素可能會被擴寬為16位或32位，或者1個16位元素被擴寬為32位。

- N：Narrow表示輸入元素在操作前會被壓縮。

extra：有些指令中的特定修飾符，可能是T（top），B（bottom），A（accumulate），X（exchange）或者V（across）中的一個。

cond：此處指定的條件僅適用于VPT（Predication）模塊?？赡苁荰（Then）或者E（Else）。

.dt：數(shù)據(jù)類型，可能是F（float）浮點，I（integer）整數(shù)，S（signed）有符號，U（unsigned）無符號。

dst：目標(biāo)寄存器，可以是通用寄存器（R）或者矢量寄存器（Q）。

src：源寄存器，可以是通用寄存器（R）或者矢量寄存器（Q）。

rot：旋轉(zhuǎn)，用于一些操作復(fù)數(shù)的指令。

下面給出一條指令示例展示：

VLDRW.U32 Q0, [R0]

該指令中的首字母是V，表示這是一條Helium（或是Neon，或者浮點）指令，LDR表示寄存器從內(nèi)存加載內(nèi)容，W表示按字大小操作，，，都為空，數(shù)據(jù)類型是U32，無符號32位整數(shù)。加載的目標(biāo)是128位寄存器Q0（矢量寄存器），源是標(biāo)量寄存器R0指向的內(nèi)存地址。該指令表示將從R0存儲的地址中加載4個32位寬的數(shù)據(jù)到Q0寄存器中。

Helium指令分類如下：

Helium編程方式

Helium編程方式目前來說，一共4種。

矢量庫

自動矢量化

原語函數(shù)（intrinsics）編程

匯編指令編程

矢量庫

目前，ARM CMSIS DSP和NN是已經(jīng)對Helium優(yōu)化好的Helium矢量庫。使用矢量庫來進行Helium編程，是最簡單的方法。

CMSIS DSP是數(shù)字信號處理函數(shù)庫，具有針對8位整數(shù)，16位整數(shù)，32位整數(shù)和32位浮點數(shù)的不同函數(shù)，提供了豐富的函數(shù)，包括基本數(shù)學(xué)函數(shù)，復(fù)數(shù)數(shù)學(xué)函數(shù)，濾波器函數(shù)，變換函數(shù)，矩陣操作函數(shù)，電機控制函數(shù)，插值函數(shù)，統(tǒng)計函數(shù)等。該庫包含了這些函數(shù)的Helium優(yōu)化版本，并不斷更新迭代中。

CMSIS NN是神經(jīng)網(wǎng)絡(luò)函數(shù)庫，以最小的內(nèi)存開銷針對Cortex-M處理器優(yōu)化的軟件內(nèi)核，同樣地，這些函數(shù)也可以利用Helium得到最優(yōu)性能。

CMSIS矢量庫中的函數(shù)代碼有3個C預(yù)處理器定義來選擇Helium版本。

#define ARM_MATH_HELIUM
#define ARM_MATH_MVEI    //支持整型Helium
#define ARM_MATH_MVEF    //支持浮點型Helium

比如CMSIS DSP中的 arm_clip_f32函數(shù)，可以看到該函數(shù)已經(jīng)使用了Helium原語函數(shù)。

比如CMSIS NN中的arm_nn_lstm_update_cell_state_s16函數(shù)，可以看到該函數(shù)使用了Helium原語函數(shù)。

當(dāng)使用矢量庫的時候，不同編譯器中的MVE設(shè)置

Keil MDK 5（5.38以上版本）

在圖標(biāo)“Options for target”中選擇“Target”頁面中的“Vector Extensions”,通過下拉列表選擇

“Not Used”（不使用helium，即宏ARM_MATH_HELIUM沒有被定義，使用標(biāo)量相關(guān)函數(shù)）。

“Integer”（宏ARM_MATH_HELIUM和ARM_MATH_MVEI被定義，使用整型Helium）。

“Integer + Floating Point” （宏ARM_MATH_HELIUM，ARM_MATH_MVEI和ARM_MATH_MVEF被定義，使用整型和浮點型Helium）。

IAR EWARM（v9.40.1以上版本）

通過右鍵選擇項目名稱后，在 “Options”中的“General Options”頁面下的“32-bit”中的“Advanced SIMD(NEON/HELIUM)”。

勾選（即選中，ARM_MATH_HELIUM，ARM_MATH_MVEI和ARM_MATH_MVEF被定義，使用整型和浮點型Helium）。

不勾選（即不選中），編譯的時候會報“MVE support not enable”錯誤。

e2 studio

e2 studio中可以使用LLVM或者GCC工具鏈，在使用矢量庫的時候，不需要設(shè)置，默認(rèn)是啟用的。如果通過設(shè)置編譯參數(shù)來禁用，編譯的時候會報“MVE support not enable”錯誤。

自動矢量化

自動矢量化就是編譯器在C/C++代碼中自動檢測到可以使用Helium指令并執(zhí)行優(yōu)化的過程。優(yōu)化后的代碼在速度和尺寸方面可能與手工優(yōu)化的匯編代碼或包含原語函數(shù)的C代碼一樣高效，這只需要很少的時間去編寫和調(diào)試代碼，而且無須對目標(biāo)微架構(gòu)有詳細(xì)了解。C代碼也更有可移植性。

如下面的代碼，這是一種很常見的普通寫法，一個for循環(huán)里面做一些邏輯判斷處理。

點擊可查看大圖

通過使用自動矢量化后的反匯編代碼如下，紅色框部分的代碼里面已經(jīng)出現(xiàn)了Helium的匯編指令。

自動矢量化和編譯器的優(yōu)化等級設(shè)置有關(guān)，當(dāng)Arm Complier 6和LLVM編譯器的優(yōu)化等級為-O2或者更高時，自動矢量化默認(rèn)使能，在MDK ArmComplier 6中可以使用“-fno-vectorize”選項可以禁止自動矢量化。當(dāng)優(yōu)化等級為-O1時，自動矢量化默認(rèn)禁止，使用“-fvectorize”選項可以使能自動矢量化，當(dāng)優(yōu)化等級為-O0時，自動矢量化總是被禁止。其他編譯器的行為可能不同，具體可以查閱對應(yīng)的文檔。

原語函數(shù)（intrinsics）編程

原語函數(shù)是允許利用Helium而不必直接編寫匯編代碼的一組C/C++函數(shù)。ACLE文檔中包括Helium原語規(guī)范。目前最新的文檔為mve-2021Q4。原語函數(shù)的實現(xiàn)包含在arm_mve.h文件中。函數(shù)包含簡短的匯編語言部分，它們被內(nèi)聯(lián)到調(diào)用的代碼中。

使用原語函數(shù)有如下優(yōu)點：

程序員能夠直接訪問Helium指令集，這允許編寫充分優(yōu)化的代碼，利用所有Helium特性。

C/C++可用于大多數(shù)代碼，只有當(dāng)需要優(yōu)化而矢量化C編譯器無法執(zhí)行優(yōu)化時，才會使用Helium原語。這就意味著只有在必要時才使用底層代碼。

相比于采用匯編語言編寫的代碼，含有Helium原語的C和C++代碼可以移植到一個新的平臺，僅需要少量修改，甚至無須修改。

使用原語避免了很多與直接使用匯編語言編碼相關(guān)的難點。

原語函數(shù)中，Helium矢量數(shù)據(jù)類型名字模式如下所示，這在“arm_mve.h”中有詳細(xì)定義和描述。

x_t

type：元素類型，可能是int整形，uint無符號整形，float浮點。

size：元素大小，可能是8位，16位，32位。

number_of_lanes：通道總數(shù)?？梢允?6通道，8通道，或者4通道。

如：

uint8x16_t是一個描述16個無符號8位的矢量。

int16x8_t是一個描述8個16位的矢量。

float16x8_t是一個描述4個16位浮點數(shù)（半精度）的矢量。

float32x4_t是一個描述4個32位浮點數(shù)（單精度）的矢量。

注：Helium是128位寄存器，它的元素大小和通道總數(shù)相乘的結(jié)果只能是128，不能是64，也就是說，不支持int8x8_t/uint8x8_t/int16x4_t/uint16x4_t/float16x4_t/float32x2_t數(shù)據(jù)類型。這點和Neon是不同的。Neno可以支持64和128。

Helium矢量數(shù)組結(jié)構(gòu)體類型如下：

xx_t

可以發(fā)現(xiàn)，矢量數(shù)組結(jié)構(gòu)體名字只比單個矢量數(shù)據(jù)類型多了一個length_of_array。它表示一共有幾個helium寄存器組成，即helium寄存器的數(shù)量。在該結(jié)構(gòu)體中，包含一個名為val的元素，此結(jié)構(gòu)體類型映射Helium加載和存儲操作訪問的寄存器，Helium可以用一條指令加載/存儲多達4個寄存器。結(jié)構(gòu)定義示例如下：

struct int16x8x2_t

{

int16x8_t val[2];

};

此結(jié)構(gòu)類型僅由加載、存儲、轉(zhuǎn)置、交織和去交織指令使用；要對實際數(shù)據(jù)執(zhí)行操作，請從各個寄存器中選擇元素。如：.val[0] 和.val[1]。

下圖代碼片段是使用原語函數(shù)進行矢量相乘的例子。

原語編程里面還涉及原語預(yù)測，原語尾部處理等知識，本處不在展開說明，詳細(xì)信息可以訪問arm官網(wǎng)查閱相關(guān)文檔了解和學(xué)習(xí)。

匯編語言編程

在匯編代碼中直接編寫Helium指令是很沒有必要的，通常只會在特殊的場景下才會這樣做。即當(dāng)編程人員可以比編譯器更好地分配寄存器時，比如有太多重寫變量和輸入輸出變量。

下圖所示為復(fù)數(shù)矢量點積的匯編語言代碼。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

處理器

處理器

+關(guān)注

關(guān)注
68

文章
18948

瀏覽量
227386
電機控制

電機控制

+關(guān)注

關(guān)注
3515

文章
1816

瀏覽量
267435
C語言

C語言

+關(guān)注

關(guān)注
180

文章
7575

瀏覽量
134444
LDR

LDR

+關(guān)注

關(guān)注
0

文章
98

瀏覽量
7523
Cortex-M85

Cortex-M85

+關(guān)注

關(guān)注
0

文章
13

瀏覽量
524

原文標(biāo)題：RA8 Cortex-M85 Helium入門指南（2）

文章出處：【微信號：瑞薩MCU小百科，微信公眾號：瑞薩MCU小百科】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

RA8 Cortex-M85 Helium技術(shù)入門指南（1）

瑞薩電子在2023年10月底推出強大的RA8系列MCU，具備突破性的3000 CoreMark，并可滿足客戶應(yīng)用所需的完全確定性、低延遲及實時操作要求。

發(fā)表于 05-14 14:30 ?929次閱讀

<b class='flag-5'>RA8</b> <b class='flag-5'>Cortex-M85</b> <b class='flag-5'>Helium</b>技術(shù)<b class='flag-5'>入門</b><b class='flag-5'>指南</b>（1）

Arm Cortex-M處理器—Cortex-M85介紹

Arm發(fā)布了新一代的Cortex-M處理器，Cortex-M85。簡單粗暴的打個比方：Cortex-M85 ≈ Cortex-M7TrustZoneHelium（

發(fā)表于 07-15 14:59

EK-RA4M2 – 快速入門指南

EK-RA4M2 – 快速入門指南

發(fā)表于 02-03 19:09 ?0次下載

EK-<b class='flag-5'>RA4M2</b> – 快速<b class='flag-5'>入門</b><b class='flag-5'>指南</b>

EK-RA6M2– 快速入門指南

EK-RA6M2 – 快速入門指南

發(fā)表于 07-04 20:54 ?0次下載

EK-<b class='flag-5'>RA6M2</b>– 快速<b class='flag-5'>入門</b><b class='flag-5'>指南</b>

RT-Thread支持瑞薩全新超高性能Arm? Cortex?-M85 MCU

近日瑞薩電子宣布推出業(yè)界首款基于Arm Cortex-M85處理器的 RA8系列MCU，提供卓越的6.39 CoreMark/MHz性能，可滿足工業(yè)自動化、家電、智能家居、消費電子、樓宇/家庭自動化

發(fā)表于 11-02 12:40 ?2071次閱讀

RT-Thread支持瑞薩全新超高性能Arm? <b class='flag-5'>Cortex</b>?-<b class='flag-5'>M85</b> MCU

IAR為瑞薩RA8系列MCU開發(fā)提供支持

嵌入式開發(fā)軟件和服務(wù)的全球領(lǐng)導(dǎo)者IAR今日宣布，其最新發(fā)布的IAR Embedded Workbench for Arm 9.40.2版本中無縫集成了對瑞薩（Renesas）RA8系列MCU的支持，為基于Arm Cortex-M85的R

發(fā)表于 11-02 17:08 ?916次閱讀

業(yè)界首款基于Arm Cortex-M85的超高性能MCU

瑞薩電子重磅發(fā)布了業(yè)界首款基于Arm Cortex-M85處理器的全新超高性能MCU：RA8M1系列微處理器。 RA8系列產(chǎn)品具備業(yè)界卓越的6.39 CoreMark/MHz測試分?jǐn)?shù)，縮小了MCU與MPU之間的性能差距。

發(fā)表于 11-10 09:44 ?441次閱讀

新品發(fā)布 | 瑞薩推出面向圖形顯示應(yīng)用和語音/視覺多模態(tài)AI應(yīng)用的全新RA8 MCU產(chǎn)品群

的各類圖形顯示和語音/視覺多模態(tài)AI要求。所有RA8系列MCU均利用Arm Cortex-M85處理器和Arm的Helium 技術(shù)所帶來的高性能

發(fā)表于 12-15 16:00 ?648次閱讀

瑞薩電子推出全新RA MCU家族產(chǎn)品RA8

瑞薩電子推出的全新RA MCU家族產(chǎn)品RA8，是業(yè)界首款搭載Arm Cortex-M85內(nèi)核超高性能MCU，可滿足工業(yè)自動化、家電、智能家居、消費電子、樓宇/家庭自動化、醫(yī)療和AI領(lǐng)域的各種計算密集型應(yīng)用。

發(fā)表于 12-20 12:25 ?922次閱讀

AMEYA360 | 皇華：瑞薩面向電機控制應(yīng)用推出性能卓越的RA8 MCU

AMEYA360 | 皇華：瑞薩面向電機控制應(yīng)用推出性能卓越的RA8 MCU：全球半導(dǎo)體解決方案供應(yīng)商瑞薩電子今日宣布推出基于Arm? Cortex?-M85處理器的RA8T1微控

發(fā)表于 02-02 16:02 ?410次閱讀

瑞薩電子發(fā)布業(yè)界首款基于Cortex-M85處理器的全新超高性能MCU

去年10月，瑞薩電子重磅發(fā)布了業(yè)界首款基于Cortex-M85處理器的全新超高性能MCU：RA8M1系列微處理器。今年，瑞薩將舉辦RA8巡回技術(shù)研討會。

發(fā)表于 02-26 10:27 ?512次閱讀

Cortex-M85內(nèi)核單片機如何快速上手

2022年4月，Arm推出了全新的MCU級內(nèi)核Cortex-M85。截止目前（2024年2月），Cortex-M85是最新、最強的Cortex-M內(nèi)核。

發(fā)表于 02-29 09:35 ?568次閱讀

業(yè)界首款基于Arm Cortex-M85處理器的MCU

所有RA8系列MCU均利用Arm Cortex-M85處理器和Arm的Helium技術(shù)所帶來的高性能，結(jié)合矢量/SIMD指令集擴展，能夠在數(shù)字信號處理器（DSP）和機器學(xué)習(xí)（ML）的實施方面獲得相比

發(fā)表于 03-05 14:14 ?498次閱讀

瑞薩電子RA家族推出RA8系列高算力通用MCU

瑞薩電子RA家族推出RA8系列高算力通用MCU，是業(yè)界首款基于Arm? Cortex?-M85（CM85）內(nèi)核的32位MCU，主頻高達480

發(fā)表于 04-02 14:14 ?1193次閱讀

RA8 Cortex-M85 Helium入門指南（3）

我們將通過一個RGBA圖像數(shù)據(jù)中的R（紅色），G（綠色），B（藍色）3種色彩通道數(shù)據(jù)分離的例子，介紹使用helium原語函數(shù)的解交織（deinterleaving）功能。

發(fā)表于 05-16 14:33 ?400次閱讀