关键字 |
单路延迟反馈,位并行乘法器,低功耗。 |
介绍 |
由于通信系统的普及,傅里叶变换仍然是无线电传输和移动通信的研究和发展课题之一。然而,离散傅里叶变换在实时信号处理系统中的运算,如何及时得到运算结果是非常重要的。因此,快速傅里叶变换(FFT)是适合的选择,因为计算复杂度从O(N2)降低到O(N log N)。实现了高速性能和硬件性能的降低。 |
高吞吐量和低功耗是FFT硬件发展的主要趋势。流水线结构是高通量FFT处理器最常见的选择。流水线FFT硬件架构的实现方法有很多。它们可以分为三种架构,即多路延迟换向器(MDC)、单路延迟反馈(SDF)和单路延迟换向器(SDC)。与三种管道体系结构相比,SDF体系结构最适合FFT实现。它的优点是:(1)SDF体系结构非常简单,可以实现不同长度的FFT; (2) SDF体系结构所需的寄存器比MDC和SDC体系结构少;SDF体系结构的控制单元较其他结构简单。 |
A.离散傅里叶变换 |
离散傅里叶变换(DFT)是现代数字信号处理(DSP)和通信中的一项非常重要的技术,特别是在正交频率解调复用(OFDM)系统中的应用,如IEEE 802.11a/g、全球互操作性微波接入(WiMAX)、长期演进(LTE)和地面数字视频广播(DVB-T)。然而,DFT是计算密集型的,具有O(N2)的时间复杂度。快速傅里叶变换(FFT)是由Cooley和Tukey提出的,用于有效地将时间复杂度降低到O (N log 2N),其中N表示FFT的大小。 |
在硬件实现方面,提出了各种FFT处理器。这些实现主要可以分为基于内存的架构风格和管道架构风格。基于内存的架构被广泛应用于FFT处理器的设计,也被称为单处理单元(PE)方法。这种设计风格通常由一个主PE和几个内存单元组成,因此硬件成本和功耗都比其他架构风格低。但是,这种架构风格存在延迟长、吞吐量低、不能并行化等问题。另一方面,管道体系结构风格可以以可接受的硬件开销为代价,摆脱上述风格的缺点。单路径延迟反馈(SDF)管道FFT具有占用内存空间少(约N-1个延迟元素)、乘法计算利用率小于50%、控制单元设计简单等优点。这种实现有利于低功耗设计,特别是在便携式DSP设备中的应用。基于这些原因,本工作采用SDF管道FFT。然而,FFT计算往往需要将具有不同旋转因子的输入信号相乘才能得到一个结果,这需要较大的ROM来存储所需的旋转因子,从而导致较高的硬件成本。 Therefore, to throw off these ROM’s for area-efficient consideration. |
B.COMPLEX乘数 |
处理器中使用的复杂乘法器是通过移位和添加操作实现的。因此,处理器只使用一个双输入数字乘法器,不需要任何ROM作为系数的内部存储。然而,所提出的复杂乘法器带来的低速度和较高的硬件成本是回报。为了进一步提高之前工作的功耗和芯片面积,本文针对FFT/IFFT处理器提出了一种高效、低功耗的base -2流水线架构。所提出的体系结构包括一个可重构的复常数乘法器和位并行复乘法器,而不是使用ROM来存储旋转因子,这适用于2次方基风格的FFT/IFFT处理器。 |
方法 |
A.正交频分复用 |
OFDM是正交频分复用(Orthogonal Frequency Division Multiplexing)的缩写,描述了一种将单个数据流分布在大量载波上进行并行传输的数字调制方案。这些载波被称为信号的子载波。在频域中,它们围绕一个中心射频载波等距分布,因此N个子载波中的第N个子载波的频率fn, RF可以表示为 |
|
fd为子载波之间的频率间隔,fc为OFDM信号的中心频率。 |
在基带中,我们获得 |
|
其中fn为第n个子载波的基带频率。 |
子载波exp(2*Pi*n*fd*t)构建了一个正交函数集,因此得名调制。这些子载波中的每一个都是单独调制的。调制符号是通过使用传统的PSK或QAM映射对二进制数据进行编码而产生的。让我们假设我们想要在N = 64个QPSK调制子载波(N = -32, -31…)上同时传输128位。+ 31)。例如,索引为-32的子载波可以携带第一对比特,索引为-31的子载波可以携带第二对比特,依此类推。最后两位位将被分配给索引为+31的子载波。 |
因此,在一个OFDM符号中,每个子载波都有自己的相位pn和幅值an。整个基带信号是这样的: |
|
其中nmin和nmax设置n的范围。 |
我们可以将此解释为对OFDM符号进行离散傅里叶变换(DFT)来生成。因此,离散时域信号不是真正调制所有64个子载波,而是通过对s应用长度为n的逆DFT来计算。结果是一系列代表信号的一个周期的样本,该周期与所需的OFDM符号具有相同的频谱。采样频率为fs = N*fd。计算序列的一个周期产生s中包含的所有幅值和相位信息。因此OFDM符号持续时间最小为 |
|
如果选择N为2的幂,则可以使用快速傅里叶反变换(FFT)来代替更耗时的DFT。请注意,DFT是为在时域和频域具有周期性的信号定义的。通过(数字)基带滤波消除混叠谱。因此,有必要在DFT频谱的高端和低端留下一些空白空间,以便滤波器切入。因此,在N个最大可能子载波中,只有一个子集会被实际调制,其他子载波的振幅为零。 |
B. twiddle因子 |
在快速傅里叶变换(FFT)算法中,旋转因子是在算法过程中与数据相乘的任何三角常数系数,“旋转因子”最初是指Cooley-Tukey FFT算法蝴蝶运算中的复数乘法常数的根,用于递归地组合较小的离散傅里叶变换。这仍然是该术语最常见的含义,但它也可以用于FFT中任何与数据无关的乘法常数。 |
质数因子FFT算法是一种不寻常的情况,在这种情况下,FFT可以在没有旋转因子的情况下执行,只适用于变换大小的限制因子分解。 |
C.离散傅里叶变换 |
|
{Xk}是周期性的 |
由于{Xk}被采样,{xn}也必须是周期性的 |
从物理角度来看,两者都以周期N重复,需要O(N2)操作。 |
D.制图的成本 |
不同类型用子问题代价来平衡映射 |
(i)基数为2 |
子问题是微不足道的(只有和和和差) |
•映射需要旋转因子(大量的乘法) |
(二)质因数算法 |
•子问题是具有共素数长度的dft(代价高昂) |
•映射平凡(没有算术运算) |
E.fft处理器内存系统架构 |
与大多数DSP算法一样,FFT会频繁地访问内存中的数据。FFT是在O(log N)阶段计算的,其中N是变换的长度,是FFT分解的基数。每个阶段需要对所有N个数据字进行读写。 |
1)单内存:最简单的内存系统架构是单内存架构,如图1所示,其中至少有N个字的内存通过双向数据总线连接到处理器。一般来说,对于FFT的log N阶段,数据从内存中读取和写入一次。 |
2)双内存:双内存架构将两个大小为N的内存放在连接到处理器的独立总线上,如图2所示。数据从一个内存开始,从内存“乒乓”到内存log N次,直到计算转换。霍尼韦尔DASP处理器和夏普LH9124处理器采用双内存架构。 |
3)管道:对于使用管道架构的处理器,一系列较小的内存取代了-word内存(ies)。无论是物理上还是逻辑上,都有log N个阶段。图3显示了处理器和缓冲存储器如何交错以及通过管道结构的数据流。通常,-word内存位于管道的一端,内存大小随着后续阶段的增加而增加,最后的内存大小为size。Logic Corp. (LSI) L64280 FFT处理器、Heand Torkelson设计的FFT处理器和Bidet等人设计的FFT处理器都采用了流水线架构。 |
4)阵列:使用阵列架构的处理器由许多具有本地缓冲区的独立处理元素组成,通过某种类型的网络相互连接,如图4所示。Cobra FFT处理器采用阵列架构,由多个芯片组成,每个芯片包含一个处理器和一个本地缓冲区。O 'Brien等人设计的FFT处理器采用阵列式架构,在单个芯片上有四个数据路径和四个存储库。 |
现有的系统 |
复乘子函数是FFT处理器的主要功能块,采用正则符号数字(CSD)表示法设计复乘子函数。在Xilinx Virtex- 4 fpga上实现了16位16点流水线FFT处理器。实现的最大时钟频率为196.8 MHz,利用了49152个切片中的310个和98304个查找表中的241个。另外还实现了16位64点流水线FFT处理器。实现的最大时钟频率为111.2 MHz,利用了49152个切片中的1303个和98304个查找表中的2065个。与传统的复乘法器相比,计算结果表明该设计在Virtex-4上提高了效率。 |
高吞吐量和低功耗是FFT硬件发展的主要趋势。流水线结构是高通量FFT处理器最常见的选择。各种信号的字长根据各自的信噪比(SNR)要求最小化。为确定最优字长,将含有高斯噪声的输入波形输入FFT,并采用定点算法实现。得到频域FFT输出信号,计算输出信噪比。CORDIC算法由于其效率检测器旋转的特点,已被用于FFT处理器的旋转因子乘法运算。在本小节中,我们评估和比较了CORDIC和复杂乘法器在相位旋转中的性能和复杂性。常规CORDIC算法为基数- 2cordic,基数-2=4 CORDIC为提高运算速度,减少25%微旋转阶段的工作。该芯片所使用的复乘数由3次乘法和5次加法组成。为了便于比较,我们将所有算法的精度都设置为16位。为了避免舍入误差传播,在基于cordic的架构的数据路径上分配了19位。 |
A.修正复乘数 |
传统的复乘法需要四个乘法器和两个加法器。(x+xi) (y+yi)=(x.y+xi.yi) (x.y+ x.y) |
流水线FFT处理器采用传统的复乘子结构,其性能取决于复乘子的算术运算。为了提高整体运算速度,减少面积和功耗,高效地实现复杂乘法器是非常重要的。复乘法器采用正则符号数字(CSD)表示法实现,因为它比传统的复乘法器减少了大量的硬件。CSD单元由许多移位器和加法器组成。它用于在一个因子为常数时实现乘法运算。CSD单元用于构造一个复乘法器。由于数字的CSD表示包含范围内可能的最小非零位数(-4/ 3,4 /3),图2中用于复杂乘法计算的CSD块需要更少的加法器,因此功耗和面积可以减少约33% |
B.HARDWARE实现 |
在Xilinx Virtex-4 xc4vlx100上实现了一种16点管道基-2 SDF FFT的设计。实现的最大时钟频率为196.8MHz。它利用了49152个切片中的310个和98304个查找表中的241个。64点管道基数-22 SDF FFT也在XilinxVirtex-4 xc4vlx100上实现。它实现了111.182MHz的最大时钟频率,并利用了49152个切片中的1303个,98304个查找表中的2065个。由于布斯乘法器的高效,它被广泛应用于实现传统的复乘法器。将在[10]的Xilinx FPGA上实现的复乘法器与我们的复乘法器进行比较,可以得到改进的复乘法器性能。电路的效率由单位面积的吞吐量(MHz /CLB)来量化。对比如表所示。 |
提出了系统 |
基于内存的架构被广泛应用于FFT处理器的设计,也被称为单处理单元(PE)方法。这种设计风格通常由一个主PE和几个内存单元组成,因此硬件成本和功耗都比其他架构风格低。但是,这种架构风格存在延迟长、吞吐量低、不能并行化等问题。另一方面,管道体系结构风格可以以可接受的硬件开销为代价,摆脱上述风格的缺点。 |
为了改进之前在功耗降低方面的工作,我们提出了一种低功耗的基2 64点管道FFT/IFFT处理器。所提出的架构由三种不同类型的处理元件(PEs)、一个复常数乘法器、延迟线(DL)缓冲器(由一个内有数字的矩形所示)和一些用于计算IFFT的额外处理单元组成。在这里,额外处理单元的共轭很容易实现,它只取复值虚数部分的2 '补。这个被64分的模块可以用一个桶移位器代替。 |
此外,对于复常数乘法器,本文提出了一种新的可重构复常数乘法器,以消除旋转因子ROM。这种新的乘法器结构成为减小FFT/IFFT处理器芯片面积和功耗的关键组件。 |
A.处理要素 |
基于基-2 FFT算法,使用了三种处理元素(PE3, PE2, PE1)。这三种PE类型的功能分别对应于每一种蝴蝶。首先,PE3级仅实现简单的基-2蝶形结构,并作为PE2级和PE1级的子模块。在图中,Iin和Iout分别是输入和输出数据的实部。Qin和Qout分别表示输入和输出数据的图像部分。类似地,DL_Iin和DL_Iout表示DL缓冲区输入和输出的实部,DL_Qin和DL_Qout分别表示图像部分。 |
对于PE2阶段,需要计算乘以-j或1。请注意,乘以-1实际上是对其输入值取2的补。PE1阶段的计算比pe2阶段复杂,pe2阶段负责计算-j, W的乘法NN / 8和WN3 n / 8分别自WN3 n / 8= = - j WNN / 8它可以由W的乘积得到NN / k首先,然后乘以-j,或者与之前的计算相反。因此,所设计的硬件利用这种级联计算和多路复用器来实现PE1级所有必要的计算。这种方法还可以为计算W节省一个位并行乘法器NN / k这进一步形成了低成本的硬件。 |
B.位并行乘法器 |
1/√2的乘法可以用位并行乘法器代替字长乘法器和平方根计算来减小芯片面积。以2为幂的位并行运算由, |
|
位并行倍增器的电路图如图7所示。由此产生的电路使用了三次添加和三次桶移位操作。用W实现复乘法NN / 8使用基2蝴蝶结构,其两个输出通常乘以1/√2如图8所示。该电路刚用于PE1级。 |
C.可重构复常数乘数 |
计算W i的可重构低复杂度复常数乘法器64,如图9所示。该复杂乘法器的结构也采用了级联方案,实现了低成本的硬件。这里,两个输入信号(Iin和Iout)和两个输出信号(Qin和Qout)的意义与PE1阶段的信号相同。 |
该电路负责旋转因子wi64的乘法运算,也是我们FFT/IFFT处理器的重要电路。字长乘法器采用低误差定宽修正Booth乘法器,降低硬件成本。表2列出了i1-i8和q1-q8的系数值,可以用来综合我们提出的64点FFT处理器所需的整个旋转因子。 |
结论 |
本文介绍了一种用于OFDM应用的新型无rom、低功耗管道64点FFT/IFFT处理器。我们设计了一种可重构的复常数乘子,使旋转因子ROM的大小大大缩小,特别是不需要ROM。结果表明,与现有设计相比,本设计具有较低的硬件成本和功耗。当然,我们提出的方案也可以适用于高点FFT应用程序,具有较小的尺寸宽因子ROM。它可以作为一个强大的FFT/IFFT处理器在许多其他无线通信系统。 |
表格一览 |
|
|
表1 |
表2 |
|
数字一览 |
|
|
|
|
|
图1 |
图2 |
图3 |
图4 |
图5 |
|
|
|
|
图6 |
图7 |
图8 |
图9 |
|
参考文献 |
- IEEE标准802.11a, 1999,“无线局域网介质访问控制(MAC)和物理层(PHY)规范:5 GHz频段的高速物理层”。
- IEEE 802.16, IEEE固定宽带无线接入系统空中接口标准,电气和电子工程师协会,2004年6月。
- GPP LTE,“进化的通用地面无线电接入(E-UTRA);物理信道和调制" 3GPP TS 36.211 v8.5.0, 2008-12。
- ETSI,数字视频广播(DVB);数字地面电视的帧结构,信道编码和调制,“ETSI EN 300 744 v1.4.1, 2001。
- J. W. Cooley和J. W. Tukey,“复杂傅里叶级数的机器计算算法”,数学。第一版。,vol. 19, pp. 297- 301, Apr. 1965
- Minhyeok Shin和Hanho Lee,“用于超宽带应用的高速四并行基24 FFT/IFFT处理器”,发表于《IEEE Int》。计算机协会。电路与系统,2008,pp. 960-963
- 叶文昌,任建伟,“高速和低功耗的分频基FFT”,电子工程学报,vol. 51, no. 1。3,第864- 874页,2003年3月。
|