基于分布式算法的可重构FFT处理器的功率和面积最小化

阿玛^*和Vishal R

印度浦那大学SavitribaiPhule电子与电信工程系

*通讯作者:: 阿玛
电子与电信工程系
SavitribaiPhule，普纳大学，印度。
电子邮件: (电子邮件保护)

收到日期:12/12/2015;接受日期:19/03/2016;发表日期:28/04/2016

摘要

快速傅里叶变换是信号处理中最重要的频率分析方法之一。它有不同的用途，例如图像处理、医疗领域、通信系统、光谱分析等。蝴蝶是FFT的基本元素。本文采用分布式算法实现了蝴蝶模块。分布式算术无倍增器技术使蝶形元件在功率和面积方面都更加高效。蝴蝶元件是可重构FFT处理器的重要组成部分。数据采用单精度表示。采用IEEE 754标准来表示浮点数。

关键字

数字信号处理(DSP)，复乘法器，分布式算法，FFTs。

介绍

快傅里叶变换s是DFT的计算，它降低了乘法和加法等操作的复杂性。DFT和FFT的结果是相同的，唯一的区别是它将删除不必要的操作。它利用了后面提到的旋转项的周期性。

x(n)的FFT计算由以下公式给出

在哪里这就是所谓的旋转因子。

X (n)=输入序列

X (k)=输出序列

采用无乘法器的分布式算法，既节省了功率又节省了面积。1]。它成立于1974年。与分布式算法相比，传统的吠陀法FFT计算需要更高的功率和面积[2]。在DA中，它只需要加法器和移位器来进行运算，而不是使用乘法器块。DA的基本优点是实现了现场可编程门阵列和专用集成电路设计的功能。它利用了查找表的优点。可重构技术是指我们可以在不干扰硬件的情况下使用开关来选择基数点。它增加了灵活性[3.]。

一种通用的低功耗可重构架构，在面积和功耗方面具有较高的效率，适用于大多数静止图像压缩标准，电信协议及自动控制[4]。

Backgound研究

在DIF(离散时间)和DIF(离散频率)两种算法中，DIF主要用于FFT的实现。这个radix2 DIF FFT算法首先将样本分为两组[5]。直到两个样本之间的唯一计算。这两点DFT被称为蝴蝶块。蝴蝶是FFT计算的基本块[6]。图表如下(图1）.

图1:蝴蝶块。

（1)

(2)

其中x和y是输入信号。蝶式实现在硅面积和功率方面是节省铅的。本文的主要目的是实现可用于可重构FFT体系结构的高效蝶形设计。采用分布式蝶式设计算术实施技术[7]。在此架构中，分布式算法仅用于蝴蝶实现，而不是整个FFT架构[8]。对于蝴蝶的设计，它需要两个32位输入(16+16)和一个旋转因子。这些数字用标准IEEE 754格式的16位浮点数表示。如果这个数大于或小于，我们就不能用二进制形式表示这个数。在浮点数表示法中消除了二进制数表示法的这种限制。因此，我们更喜欢浮点表示法。IEEE 754不是像科学记数法那样使用以10为基数和10的幂，而是使用二进制分数和被认为是2的幂的指数。使用IEEE 754格式的浮点表示如下(图2）.

图2:浮点表示法使用IEEE 754格式。

给定的数字采用规范化形式，其中符号位、5位指数和10位尾数，包括1位隐藏位(11位尾数)。在计算中总是要考虑隐藏位。传统FFT中的乘法需要更大的功率，在DA完全消除的情况下[9]。旋转因子乘法是FFT计算的主要关键任务，在基于LUT的方法中，查找表是根据输入准备的，然后经过适当的位调整和移位，这些LUT是基于位组合访问的。

设计与实现

使用16位浮点数(虚数和实数分开)图3显示位操作发生在数据的16位虚部和实部和虚部。符号位选择要考虑的LUT集。

图3:操作流程。

5位指数位用于通过适当的偏置来平衡数字，然后开始根据虚数和实数的尾数位组合从lut中获取twiddles。这些尾数位是在将指数较小的尾数位移位一定数量的指数之差后得到的。这一点在下面的例子中有更详细的解释[10]。

设DAA应用于浮点蝶形模块。让我们重写蝴蝶模方程1和2

其中x和y是输入序列，是复数。

因此

X = xr+ jxi (3)

Y = yr+ jyi (4)

Xr, yr =实部

(5)

(6)

(7)

数据的每个实部和虚部都是16位IEEE 754单精度浮点数。

从3到4

令xr-yr = u1, xi-yi = U2

（8）

(9)

式(8)和式(9)用DAA实现，16位单精度浮点数由

S=符号位1位

M=尾数10位

E=偏置指数5位，其值由

(10)

M1和M2是U1和U2的11位尾数，隐藏位总是1，因此E1=E2=E

(11)

类似的

(12)

括号内的值是根据下面所示的查找表计算的(表1）.

M1n	M2n	附近地区的价值
0	0	0
0	1	Wi
1	0	或者说是
1	1	或者说是+ Wi

表1:实数计算的LUT (s1和s2为负)。

LUT的值根据符号位的变化而变化。实部通过使用缩放累加器来计算，该累加器将尾数的每个位的LUT值累加起来。虚部计算也采用了类似的方法。

基于Da的蝴蝶架构

公式11和12的软件实现如下所示。使用Xilinx软件实现，在Verilog (图4）.

engineering-technology-DA-butterfly-using-Xilinx-Software

图4:利用Xilinx软件对DA蝴蝶进行仿真。

结果及讨论

以DA为基础的蝶形单元作为唯一具有巨大诱惑力的特点节电在Cadence RTL编译器中显示区域功率，在Modelsim中观察到定时响应(图5和表2）.

engineering-technology-Area-power-reports

图5:来自Cadence RTL编译器的区域和功率报告。

以DA为基础的蝶形单元作为唯一具有极大节电的诱人特点，观察了其面积功率和时序响应。的内容表2，很明显，对于相同的操作参考频率，DA被证明比基于吠陀的方法和传统使用的乘法器更节能。蝴蝶装置的工作频率为88.33兆赫(图6）.

engineering-and-technology-Butterfly-output

图6:基于尾数位组合的蝴蝶输出与计算。

	传统的	吠陀	达
权力	14.2兆瓦	7.2兆瓦	4.8兆瓦
细胞	16353	12612	6612
区域	207.6毫米²	223.92毫米²	102.42毫米²
频率	88.33兆赫	88.33兆赫	88.33兆赫

表2:对比Cadence RTL编译器的区域和功率报告。

结论

总结本文的目的，分布式算术基于吠陀的乘法比吠陀乘法节能28-30%，与传统乘法相比，它超出了可比水平。加器和移位器是硬件的主要部分，使用的不同单元数量相对较少。未来的工作范围是实现FFT的整个体系结构。

参考文献

Berkeman A，等。一种基于分布式算法的低逻辑深度复杂乘法器。IEEE。2000; 35:656 - 659。
白色的SA。分布式算法在数字信号处理中的应用综述。IEEE。1989; 6:4-19。
基于DA的可重构FIR数字滤波器的高效FPGA和ASIC实现。IEEE。2014; 61:511 - 515。
Melnikoff S J，等。在FPGA上实现简单的连续语音识别系统。FCCM, IEEE。2002.
Das A，等等。基于新型分布式算法的分裂基FFT高效VLSI架构。IJSCE。2013; 3:264 - 671。
Mactaggart IR和Jack MA。采用分布式算法的base -2 FFT蝴蝶处理器。IEEE。1983;19:43-44。
分布式算术FIR滤波器v9.0。Xilinx产品规范2005.
桑切斯马，等。基于面积和功率估计的FPGA FFT架构自动设计空间探索。IEEE。2006; 127 - 134。
惠特灵乔丹。使用查找表进行常数系数乘法。超大规模集成电路信号处理学报。2004; 36:7-15,
Rupp CR，等。NAPA自适应处理体系结构。IEEE。1998; 28-37。