0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用FPGA進行基本運算及特殊函數(shù)定點運算

FPGA設計論壇 ? 來源:未知 ? 2023-07-19 14:25 ? 次閱讀
wKgaomToD9qAYZlLAAADFPiCFw8514.pngwKgaomToD9qAdcLCAAAAuFYhST8844.png

點擊上方藍字關注我們

wKgaomToD9qAeOjPAAAC9hV8I20530.png

一、前言

FPGA以擅長高速并行數(shù)據(jù)處理而聞名,從有線/無線通信到圖像處理中各種DSP算法,再到現(xiàn)今火爆的AI應用,都離不開卷積、濾波、變換等基本的數(shù)學運算。但由于FPGA的硬件結構和開發(fā)特性使得其對很多算法不友好,之前本人零散地總結和轉載了些基本的數(shù)學運算在FPGA中的實現(xiàn)方式,今天做一個系統(tǒng)的總結歸納。

二、FPGA中的加減乘除

1.硬件資源

Xilinx 7系列的FPGA中有DSP Slice ,叫做“DSP48E1”這一專用硬件資源,這是一個功能強大的計算單元,單就用于基本運算的部分有加減單元和乘法器。詳見參考文獻1.

wKgaomToD9qAQtK4AAAsQOBKNvM985.png

因此可以直接用HDL語言中的加、減、乘符號實現(xiàn)變量與常量間運算操作以及變量與變量間操作。而四則運算中的除法沒有基本的邏輯計算單元可以對應,因此計算除法需要調用除法器IP核。

2.確認數(shù)據(jù)的表示范圍

有符號數(shù):(補碼)-2^(N-1) ~ 2^(N-1)-1 如N = 8,則表示范圍是:-128 ~ 127.

無符號數(shù):0~2^N-1 如N = 8,則表示范圍是:0~255.

定點數(shù):2Q13 范圍是:-4~4-2^(-13) 精度是:2^(-13)

3.結果有效位寬

首先討論結果位寬問題。在FPGA中往往采用定點運算替代浮點運算來降低硬件資源占用率和計算延遲,其中的精髓就是精度與資源的權衡。若按照保留計算結果的全部精度,N bit數(shù)與Mbit數(shù)相加結果需要N+1bit(N>M)。N bit數(shù)與M bit數(shù)相乘之積需要N+M bit。而減法可以轉化為加法,除法則轉換為乘法和加減法的組合。如果操作數(shù)是定點小數(shù),則在滿足以上準則的前提下,A與B相加(A小數(shù)點位數(shù)>B小數(shù)點位數(shù)),結果小數(shù)點位數(shù)與A相同;A與B相乘(小數(shù)點位數(shù)分別為p和q),結果小數(shù)點位數(shù)是p+q。

4.定點運算步驟

然而(話鋒一轉),在大多數(shù)場合下,不需要以上這么多位來保留計算結果,因為我們在進行數(shù)學運算時,已經知道輸入數(shù)據(jù)的大致范圍,一個數(shù)除以1000和除以1結果數(shù)據(jù)所需最小位寬能一樣么?加減運算的操作步驟是先對齊小數(shù)點位數(shù),后加減。而乘法是先計算后取小數(shù)點。這實際上與十進制運算一致,我們看看具體的計算步驟:

整數(shù)之間加減以及乘法的統(tǒng)一步驟:預估結果位寬N --> 按照結果位寬擴展操作數(shù)符號位以防止溢出 --> 運算取低N位。

定點小數(shù)加減運算步驟:預估結果位寬N --> 得到結果小數(shù)點后位數(shù) --> 對齊操作數(shù)整數(shù)位和小數(shù)位,確定擴展位寬M(M≥N) --> 加減運算取低M位。

定點小數(shù)乘法運算步驟:預估結果位寬N --> 得到結果小數(shù)點后位數(shù) --> 擴展操作數(shù)位寬 --> 相乘取低N位

5. 變量與常量運算化簡

以上討論的均是兩變量之間的運算規(guī)則,當然結果位寬及格式準則是適用的。變量與常量的運算的優(yōu)勢在于,可以將乘除法轉換成加減以及移位運算實現(xiàn),從而降低計算復雜度和延遲。當常數(shù)項C為2的整數(shù)次冪(C = 2^p),則乘C等于變量左移p位,除以C等于變量右移p位。幾個在書中看到的幾個簡單示例:A*16 = A <<4  A*20 = A<<4 + A<<2.  A除以2 = A >>1A除以3 = A*(0.25+0.0625+0.0156) = A>>2+A>>4+A>>6A除以5 = A*(0.125+0.0625+0.0156) = A>>3 + A>>4 + A>>6.其中乘法完全等價對應的移位相加操作,而除法的移位代替會損失精度。

三、如何計算特殊函數(shù)

FPGA內部的DSP Slice可以直接進行最基本的加法和乘法運算,但是對于其他比如對數(shù)、指數(shù)、三角函數(shù)、開根號等特殊函數(shù)就無能為力了。這時需要借助算法對這些特殊函數(shù)進行變換和簡化。FPGA實現(xiàn)復雜函數(shù)的常用手段一個是級數(shù)展開,再一個就是CORDIC算法。關于CORDIC的理論知識和具體內容詳見參考文獻2,這里主要闡述CORDIC的IP核調用以及應用示例。CORDIC算法就是通過一定的手段,將很多復雜的特殊函數(shù)變?yōu)橄嗉右莆贿\算,這一點對于硬件芯片實現(xiàn)來說非常友好。CORDIC分為旋轉模式和矢量模式,配合圓周坐標、線性坐標和雙曲線坐標會有六種組合,具體見下表:

wKgaomToD9qAQAwJAALgSKHryco670.png

從表中發(fā)現(xiàn),基本的乘

wKgaomToD9qAJl5xAAFcD_RjxdU100.png

除法、三角函數(shù)、反三角函數(shù)、雙曲函數(shù)、反雙曲函數(shù)、開根號都能夠直接求得,那其他函數(shù)怎么辦?

常見的函數(shù)計算需求基本都能滿足,雖上述變換式對自變量定義域有限制,但同樣可以分析輸入數(shù)據(jù)的取值范圍并利用簡單的數(shù)學變換得到想要的結果。Xilinx同時提供了浮點IP核以及CORDIC IP核,前者調用簡單但占用資源大,延遲高,因此利用CORDIC算法計算函數(shù)是個較好的選擇。

四、CORDIC計算e^x Demo

1. 算法仿真分析

要計算e^x數(shù)值需要讓CORDIC工作在雙曲坐標的旋轉模式下,通過e^x = sinhx+coshx關系式間接求得。首先看下sinh和cosh函數(shù)的曲線,有個直觀認識。

wKgaomToD9uAMmZLAAFF-6ZmYDg769.png

我們用MATLAB毫不費力地驗證一下公式正確性:

wKgaomToD9uAR5UmAADEaSP8HHM443.png

在設計后也同樣要借助MATLAB進行仿真驗證。

2. CORDIC IP核

現(xiàn)在通過查看user guide得知CORDIC IP核的接口及主要特性。

wKgaomToD9uAftduAAEMutKZ7eI359.png

接口包括輸入笛卡爾數(shù)據(jù)輸入通道、相位輸入通道、全局信號以及數(shù)據(jù)輸出通道。該IP核有兩種結構:串行和并行,可根據(jù)數(shù)據(jù)吞吐量需求選擇,并行結構可以每個時鐘輸出一個計算結果。如果計算sinh和cosh,要向phase通道輸入相位信息,X_OUT是cosh(phase),Y_OUT是sinh(phase).輸入phase必須滿足數(shù)據(jù)范圍,否則出現(xiàn)不可預計結果。輸出幀結構及數(shù)據(jù)范圍如下:

wKgaomToD9uAD8hwAACNA7RHLJU174.png

其中輸入數(shù)據(jù)格式為2QN,輸出則是1QN。由于均是有符號數(shù),也就是輸入整數(shù)部分3bit,輸出整數(shù)部分2bit。接下來對IP核進行配置,重點是第一頁,此處將其配置為計算sinh和cosh模式,采用并行優(yōu)化的流水線結構。相位以角度為單位,輸入輸出位寬設置成16bit。

wKgaomToD9uAY256AADbDvWlbBs309.png

3.HDL代碼設計及仿真驗證

設計代碼:
`timescale 1ns / 1ps

module cordic_ex#(parameter DIN_W = 16,
DOUT_W = 16)
(
input clk,
input [DIN_W-1:0] din,//2Q13
input din_vld,

output reg [DOUT_W+1-1:0] dout = 0,//2Q14
output reg dout_vld = 0
);

wire [DOUT_W*2-1 : 0] m_axis_dout_tdata;
wire m_axis_dout_tvalid;
wire signed [DOUT_W-1:0] sinh,cosh;

// ex = sinhx + coshx <1Q14+1Q14 = 2Q14>
always @(posedge clk)begin
dout <= sinh + cosh;
end

assign sinh = m_axis_dout_tdata[DOUT_W*2-1 -:DOUT_W];
assign cosh = m_axis_dout_tdata[DOUT_W-1 -:DOUT_W];

always @(posedge clk)begin
if(m_axis_dout_tvalid)begin
dout_vld <= 1'b1;
end
else
dout_vld <= 0;
end

cordic_0 cordic_cosh_sinh (
.aclk(clk), // input wire aclk
.s_axis_phase_tvalid(din_vld), // input wire s_axis_phase_tvalid
.s_axis_phase_tdata(din), // input wire [15 : 0] s_axis_phase_tdata
.m_axis_dout_tvalid(m_axis_dout_tvalid), // output wire m_axis_dout_tvalid
.m_axis_dout_tdata(m_axis_dout_tdata) // output wire [31 : 0] m_axis_dout_tdata
);

endmodule

cordic_ex

用MATLAB產生兩組數(shù)據(jù),并將角度值定點化后作為設計模塊數(shù)據(jù)激勵:

wKgaomToD9uAGEjaAAI96Vno27o189.png

testbench:
`timescale 1ns / 1ps

module cordic_ex_tb();

parameter CYC = 20;

reg clk;
reg [16-1:0] din;
reg din_vld;

wire signed [17-1:0] dout;
wire dout_vld;

cordic_ex#(.DIN_W(16),
.DOUT_W(16))
uut(
.clk (clk) ,
.din (din) ,//2Q13
.din_vld (din_vld) ,
.dout (dout) ,//2Q14
.dout_vld (dout_vld)
);

initial begin
clk = 1;
forever #(CYC/2) clk = ~clk;
end

initial begin
#1;
din = 0;
din_vld = 0;
#(CYC*10);

din_vld = 1;
din = 16'b0001010000011011;//pi * 1/5
#(CYC*1);
din = 16'b1110011011011110;//-pi * 1/4
#5;
$stop;
end

endmodule

cordic_ex_tb

仿真結果:

wKgaomToD9uASCbRAAChLlKdHqQ793.png

仿真波形表明,計算結果與MATLAB浮點運算相近,滿足一般計算需求。若想提高精度,可以增加CORDIC輸出數(shù)據(jù)位寬。

wKgaomToD9uAW6dsAAAJM7aZU1A388.png

有你想看的精彩 至芯科技-FPGA就業(yè)培訓來襲!你的選擇開啟你的高薪之路!7月12號北京中心開課、歡迎咨詢! 如何在FPGA中實現(xiàn)狀態(tài)機 基于FPGA的電子按鍵密碼鎖設計

wKgaomToD9yAQ4akAABUdafP6GM141.jpg

掃碼加微信邀請您加入FPGA學習交流群

wKgaomToD9yABZesAAACXWrmhKE308.png

歡迎加入至芯科技FPGA微信學習交流群,這里有一群優(yōu)秀的FPGA工程師、學生、老師、這里FPGA技術交流學習氛圍濃厚、相互分享、相互幫助、叫上小伙伴一起加入吧!

點個在看你最好看


原文標題:利用FPGA進行基本運算及特殊函數(shù)定點運算

文章出處:【微信公眾號:FPGA設計論壇】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • FPGA
    +關注

    關注

    1625

    文章

    21620

    瀏覽量

    601238

原文標題:利用FPGA進行基本運算及特殊函數(shù)定點運算

文章出處:【微信號:gh_9d70b445f494,微信公眾號:FPGA設計論壇】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于FPGA的計算器設計

    本文通過FPGA實現(xiàn)8位十進制數(shù)的加、減、乘、除運算,通過矩陣鍵盤輸入數(shù)據(jù)和運算符,矩陣鍵盤的布局圖如下所示。該計算器可以進行連續(xù)運算,當按
    的頭像 發(fā)表于 10-24 14:28 ?229次閱讀
    基于<b class='flag-5'>FPGA</b>的計算器設計

    MATLAB(4)--MATLAB基本運算

    (1)加減運算 若兩矩陣同型,則運算時兩矩陣的相應元素相加減。 若兩矩陣不同型,則MATLAB將給出錯誤信息。 一個標量也可以和矩陣進行加減運算,這時把標量和矩陣的每一個元素
    發(fā)表于 09-06 10:18

    c語言從右到左的運算符有哪些

    以下是一些主要的從右到左運算的C語言運算符: 函數(shù)調用運算符 ( () ):當您調用一個函數(shù)時,參數(shù)列表是從右到左
    的頭像 發(fā)表于 08-20 11:39 ?602次閱讀

    請問sdk里面有支持bignum運算函數(shù)嗎?

    sdk里面有支持bignum運算函數(shù)嗎?
    發(fā)表于 07-12 08:08

    FPGA設計經驗之圖像處理

    優(yōu)勢最關鍵的就是:FPGA進行實時流水線運算,能達到最高的實時性。因此在一些對實時性要求非常高的應用領域,做圖像處理基本就只能用FPGA。例如在一些分選設備中圖像處理基本上用的都是
    發(fā)表于 06-12 16:26

    請問stm8如何進行floa和long運算?

    求助: stm8用到floa和long運算,運行時發(fā)現(xiàn)有問題, 請問各位, stm8如何進行floa和long運算?
    發(fā)表于 04-29 07:28

    優(yōu)秀的Verilog/FPGA開源項目-浮點運算器(FPU)介紹

    浮點運算器(英文:floating point unit,簡稱FPU)是計算機系統(tǒng)的一部分,它是專門用來進行浮點數(shù)運算的(CPU中也叫ALU)。
    的頭像 發(fā)表于 04-26 11:27 ?2778次閱讀
    優(yōu)秀的Verilog/<b class='flag-5'>FPGA</b>開源項目-浮點<b class='flag-5'>運算</b>器(FPU)介紹

    運算放大器的工作原理和基本電路 使用運算放大器的電路設計

    運算放大器(Operational Amplifier,簡稱OP、OPA、OPAMP、運放)是具有很高放大倍數(shù)的電路單元,通常結合反饋網(wǎng)絡共同組成某種功能模塊。它是一種帶有特殊耦合電路及反饋的放大器
    的頭像 發(fā)表于 02-25 16:43 ?5303次閱讀
    <b class='flag-5'>運算</b>放大器的工作原理和基本電路 使用<b class='flag-5'>運算</b>放大器的電路設計

    加法運算電路和減法運算電路的區(qū)別

    加法運算的電路如下圖所示,輸出電壓為若干個輸入電壓的比例和
    的頭像 發(fā)表于 02-19 09:52 ?6477次閱讀
    加法<b class='flag-5'>運算</b>電路和減法<b class='flag-5'>運算</b>電路的區(qū)別

    運算放大電路是什么?

    運算放大電路是一種基本的電子電路,使用運算放大器作為核心元件。運算放大電路通常用于信號處理、濾波、放大、比較和數(shù)學運算等應用。
    的頭像 發(fā)表于 01-19 09:20 ?808次閱讀
    <b class='flag-5'>運算</b>放大電路是什么?

    stm32f407浮點運算速度

    支持硬件浮點運算單元(FPU),可以提供快速和高效的浮點運算性能。本文將詳細介紹 STM32F407 的浮點運算速度。 浮點運算是很多應用中常用的一種
    的頭像 發(fā)表于 01-04 10:58 ?3200次閱讀

    浮點LMS算法的FPGA實現(xiàn)

    運算運算步驟遠比定點運算繁瑣,運算速度慢且所需硬件資源大大增加,因此基于浮點運算的LMS算法的
    的頭像 發(fā)表于 12-21 16:40 ?700次閱讀

    IBM展示新量子運算芯片及量子運算系統(tǒng)

    IBM展示了一款新的量子運算芯片Heron和量子運算系統(tǒng)Quantum System Two,該公司希望這款芯片和機器能在10年后成為更大系統(tǒng)的基石。據(jù)悉,量子運算系統(tǒng)Quantum System Two將搭載3個Heron量子
    的頭像 發(fā)表于 12-05 10:27 ?525次閱讀

    邏輯運算符兩側運算對象的數(shù)據(jù)類型是

    邏輯運算符是編程中常用的運算符之一,用于判斷兩個表達式之間的關系,并返回布爾值結果。在邏輯運算中,兩側運算對象的數(shù)據(jù)類型可以是任意類型。 首先,我們需要了解邏輯
    的頭像 發(fā)表于 11-30 14:15 ?1613次閱讀

    探索邊緣運算:從核心原理到關鍵的邊緣運算電腦

    ?邊緣運算(Edge Computing)是一種分布式的運算架構,允許在數(shù)據(jù)產生的源頭進行快速的分析和處理,以確保實時快速的響應。這與過去數(shù)據(jù)完全依賴于云端或數(shù)據(jù)中心的集中式運算策略形
    的頭像 發(fā)表于 11-29 15:46 ?258次閱讀
    探索邊緣<b class='flag-5'>運算</b>:從核心原理到關鍵的邊緣<b class='flag-5'>運算</b>電腦