一个低功率管线式FFT /传输线为OFDM应用处理器

m .茉莉花
Asst.教授,Bharath大学印度钦奈

文摘

产生多个副载波正交频分复用(OFDM)通常需要一个快速傅里叶逆变换(传输线)。本文提出的高效实现管道为OFDM应用FFT /传输线处理器。本设计采用单路径延迟反馈提出硬件架构风格。消除只读记忆(ROM)用于存储抚弄因素,应用提出的体系结构可重构复杂的乘数和位并行乘法器实现ROM-less FFT /传输线处理器,因此消耗功率低于现有的工作

关键字

单路径延迟反馈,位并行乘法器,低功率。

介绍

由于通信系统的流行,傅里叶变换仍然是研究和发展主题之一的无线电传输和移动通信。然而,对于离散傅里叶变换的操作实时信号处理系统,得到运行结果是很重要的。因此,快速傅里叶变换(FFT)是选择适合这个目的由于计算复杂度是O (N2)降低到O (N log N)。可以达到减少高速性能和硬件。

FFT硬件发展的主要趋势是朝着高吞吐量和低功耗。流水线结构高通量FFT处理器是最常见的选择。提出了很多方法来实现流水线FFT硬件架构。它们可以分为三种类型,即多个路径延迟换向器(MDC)单一路径延迟反馈(SDF)和单一路径延迟整流署的架构。与三个管道架构相比,自卫队架构是最适合FFT的实现。它的优点是(我),自卫队架构很简单实现FFT长度不同,(ii),需要注册在自卫队架构小于MDC和署的架构,(iii)。自卫队架构的控制单元比其他人要容易得多。

答:离散傅里叶变换

离散傅里叶变换(DFT)是一个非常重要的技术在现代数字信号处理(DSP)和电信,尤其是应用在正交频解调多路复用(OFDM)系统中,例如IEEE 802.11 a / g的微波存取全球互操作性(WiMAX),长期演进(LTE)和数字视频Broadcasting-Terrestrial(优质)。然而,DFT计算密集型和时间复杂度为O (N2)。快速傅里叶变换(FFT)是地中海和图基提出的有效地降低时间复杂度O (N日志2 N),其中N表示FFT的大小。

对于硬件实现,各种FFT处理器。这些实现可以主要分为基于内存和管道架构风格。设计一个基于内存架构是广泛采用FFT处理器,也被称为单处理元素(PE)的方法。这种设计风格通常是由一个主要体育和几个内存单元,因此硬件成本和功耗都低于其他建筑风格。然而,这种建筑风格一直延迟,吞吐量较低,并且不能并行。另一方面,管道架构风格可以摆脱上述风格的缺点,在一个可接受的成本硬件开销。单一路径延迟反馈(SDF)管道FFT是好的在其需要更少的内存空间(n - 1延迟元素)和它的乘法计算利用率不到50%,以及其控制单元容易设计。这样的实现有利于低功耗设计,尤其是应用在便携式DSP设备。基于这些原因,自卫队管道采用FFT在这工作。然而,FFT计算往往需要将输入信号与不同的旋转因素的结果,从而导致更高的硬件成本,因为大尺寸的罗需要存储想要玩弄的因素。 Therefore, to throw off these ROM’s for area-efficient consideration.

B。复杂的乘数

复杂的乘数与shift-and-add处理器实现使用操作。因此,处理器只使用两个输入数字乘法器和不需要任何ROM的内部存储系数。然而,低速度和更高的硬件成本提出了复杂造成的乘数是回报。为了进一步提高以前作品的功耗和芯片面积,本文提出了一种有效的radix-2管道架构与FFT /传输线处理器的低功耗。建议的体系结构包括一个可重构复杂常数乘法器和位并行复杂乘数,而不是使用只读存储器的存储抚弄因素,这是适合的2的幂基数风格FFT /传输线处理器。

方法

正交频分复用

OFDM是正交频分复用的缩写,并描述了数字调制方案,分配一个数据流并行传输大量的运营商。这些航空公司被称为的副载波信号。在频域中,它们是等距的中央有一个射频载波,第N个副载波的频率fn,射频N可以表示为

f_d副载波之间的频率间隔,fc OFDM信号的中心频率。

在基带,我们获得

fn在哪里的基带频率n副载波。

副载波exp(2 *π* n * fd * t)构建一个正交函数集,因此调制的名称。这些分别是副载波调制。调制符号的结果从使用传统相移键控编码二进制数据或QAM映射。让我们假设我们想上同时传输128位N = 64 QPSK调制副载波(N = -32, -31……+ 31)。然后例如副载波-32指数可能携带第一对位,副载波与指数-31年将第二条,等等。最后两位将被分配到副载波索引+ 31。

所以,在一个OFDM符号,每个副载波都有自己的阶段pn和振幅。整个基带信号是这样的:

,nmin nmax为n设置范围。

我们可以解释这是离散傅里叶变换(DFT)的OFDM符号生成。因此,而不是真正modulatingall 64副载波,离散时域信号通过应用到s逆DFT计算长度为n的结果是一系列的样品,表示一个周期的信号相同的谱所需的OFDM符号。fs = N * fd采样频率。一个周期的系列计算收益率中包含所有的振幅和相位信息。因此最低OFDM符号持续时间

如果N是选择是2的幂,逆快速傅里叶变换(FFT)可以用来代替耗时DFT越多。注意,DFT定义为信号周期在时域以及频域。别名光谱通过(数字)基带滤波消除。因此,有必要留一些空白空间在高、低DFT谱年代末为过滤器来减少。因此,只有一个子集的N最大可能实际上会副载波调制,其他零振幅。

b .捻系数

捻系数,快速傅里叶变换(FFT)算法,是任何的三角常系数乘算法的数据在“玩弄因素”最初指的是root-ofunity复杂乘法常量的蝴蝶操作Cooley-Tukey FFT算法,用于递归地把较小的离散傅里叶变换。这仍然是一项最常见的意义,但它也可以用于任何data-independent乘法FFT常数。

素因子FFT算法是一个不寻常的情况下,可以不执行一个FFT抚弄因素,只有分解变换大小的限制。

c .离散傅里叶变换

{Xk}是周期性的

因为{Xk}是抽样,{xn}也必须定期

从物理的角度来看,都是重复周期N和需要O (N²)操作。

d .映射的成本

不同类型映射和子问题成本之间保持平衡

在radix-2 (i)

•子问题是微不足道的(只有总和和差异)

•映射需要抚弄因素(大量繁殖)

(2)在质数因子的算法

•子问题是阶与互质长度(昂贵的)

•映射微不足道(没有算术运算)

E。FFT处理器存储系统架构

像大多数的DSP算法、FFT的频繁访问的数据在内存中。FFT的计算O (log N)阶段,其中N是变换的长度和FFT分解的基数。每个阶段需要所有N数据的读和写单词。

1)单记忆:最简单的记忆系统架构是单个内存体系结构,如图1所示,至少N字的内存是双向数据总线连接到一个处理器。一般来说,数据读取和写回内存一次FFT的o (log N)阶段。

2)双重记忆:二重记忆架构两个地方的记忆大小为N在不同总线连接到一个处理器,如图2所示。数据在一个记忆和“乒乓”开始从内存到内存日志N次,直到转换计算。霍尼韦尔DASP处理器和锋利的LH9124处理器使用二重记忆架构。

3)管道:使用管道架构处理器,一系列更小的记忆替换单词记忆。物理或逻辑,有o (log N)阶段。图3显示了处理器和缓冲记忆交错以及通过管道结构的数据流。通常情况下,一个单词记忆是在管道的一端,和内存大小增加后续阶段,最终的内存的大小。逻辑(LSI corp .) L64280 FFT处理器,由他与Torkelson FFT处理器的设计,FFT处理器的坐浴盆等人使用管道架构。

4)数组:处理器使用数组结构是由许多独立的处理元素与本地缓冲区,通过某种类型的网络互联,如图4中所示。眼镜蛇FFT处理器使用数组结构和由多个芯片,每个包含一个处理器和一个本地缓冲区。O ' brien的FFT处理器等人使用一个array-style架构与四个数据路径和四个记忆银行在一个芯片上。

现有的系统

签署的轮唱的数字(CSD)表示用于设计的功能复杂的乘数,即FFT处理器的主要功能块。处理器的一个16位16级管道FFT在Xilinx Virtex - 4 fpga实现。达到最高时钟频率为196.8 MHz,利用310 49152片和241 98304查找表。另一个管道16位64点FFT处理器也意识到。达到最高时钟频率为111.2 MHz,利用1303 49152片和2065 98304查找表。与传统的复杂的乘数,派生的结果显示该设计对Virtex-4提高效率。

FFT硬件发展的主要趋势是朝着高吞吐量和低功耗。流水线结构高通量FFT处理器是最常见的选择。各种信号的单词长度最小化根据各自的信噪比(信噪比)的要求。决定最优字长、输入波形与高斯噪声与定点FFT算法实现。得到频域FFT输出信号和输出信噪比(信噪比)计算。CORDIC算法已被用于抚弄乘法因子FFT处理器因其效率invector旋转。在本小节中,我们评估和比较的性能和复杂度CORDIC和复杂的相位旋转的乘数。传统CORDIC算法指的是radix-2CORDIC, radix-2 = 4 CORDIC指的是工作,提高操作速度和减少25%的micro-rotation阶段。中使用的复杂的乘数添加芯片包括三个乘法和五个小孩做一个公平的比较,我们在所有算法精度设置为16位。为了避免舍入误差传播,19位分配的数据路径CORDIC-based架构。

答:修改复杂的乘数

传统的复杂的乘法这个架构需要四个乘数和两个小蝰蛇。(x + xi) (y +易)= (x.y + xi.yi) (xi.y + x.yi)

传统复杂的乘法器结构的管道FFT处理器,其性能取决于复杂的算术运算乘数。提高整体运行速度,减少面积和功耗,有效实现复杂的乘数是非常重要的。签署的轮唱的数字(CSD)表示为实现复杂的乘数,因为它选择收益率显著减少硬件比较与传统复杂的乘数,CSD单元由许多换档器和蛇。它是用来实现乘法时,一个因素是常数。CSD单元用于构造复杂的乘数。自的CSD表示包含可能的最低数量的零比特数的范围(4/3,4/3),复杂的乘法计算的CSD块在图2中需要更少的资金投入,因此可以减少功耗和面积约为33%

B。硬件实现

16级的设计管道radix-2自卫队FFT实现在Xilinx Virtex-4 xc4vlx100。达到最大时钟频率为196.8 mhz。它利用310 of49152片和241年98304查表。64 - pointpipeline radix-22自卫队FFT也意识到XilinxVirtex-4 xc4vlx100。它达到最大时钟频率为111.182 mhz,利用1303 49152片,2065 98304查找表。由于展位乘数的效率,它广泛应用于实现传统复杂的乘数。比较Xilinx FPGA上的实现复杂的乘数[10]与我们复杂的乘数效应,提高表演呈现复杂的乘数。电路的效率量化单位吞吐量的区域(MHz / CLB)。比较如表所示。

提出了系统

设计一个基于内存架构是广泛采用FFT处理器,也被称为单处理元素(PE)的方法。这种设计风格通常是由一个主要体育和几个内存单元,因此硬件成本和功耗都低于其他建筑风格。然而,这种建筑风格一直延迟,吞吐量较低,并且不能并行。另一方面,管道架构风格可以ridoff上述风格的缺点,在一个可接受的成本硬件开销。

为了提高之前的工作功率降低,我们提出一个radix-2管道64点FFT /传输线与低功耗处理器。拟议的架构是由三种不同类型的处理元素(PEs),一个复杂的常数乘法器,延迟线(DL)缓冲区(如图所示的矩形内数量),和一些额外的处理单元计算传输线。这里,共轭的额外的处理单元很容易实现,只需要2 'scomplement虚部的一个复杂的价值。thedivided -到- 64模块可以用一桶移器代替。

此外,对于一个复杂的常数乘法器,在这里提出了一种新型可重构复杂常数乘法器消除twiddle-factor罗这个新的乘法结构因此成为关键组件在减少我们的芯片面积和功耗提出了FFT处理器/传输线。

答:处理元素

基于radix-2 FFT算法,三种类型的处理元素(PE3、PE2 PE1)使用。这三个体育的功能类型对应于每一个蝴蝶。首先,PE3阶段是用来实现一个简单的radix-2蝴蝶结构,并作为PE2和PE1阶段的子模块。在图中,虚构和Iout真正的部分输入和输出数据,分别。秦和Qout表示图像的输入和输出数据,分别。同样,DL_Iin和DL_Iout代表真正的输入和输出部分的DL缓冲区,和DL_Qin DL_Qout的图像部分,分别。

至于PE2阶段,它需要计算乘法- j或1。注意,乘法1实际上是把2的补的输入值。在PE1阶段,计算更复杂的比thePE2阶段,负责计算乘法- j, W_N^{N / 8}和W_N^{3 n / 8}分别从W_N^{3 n / 8}= = - j W_N^{N / 8}它可以由W的乘法_N^{N / k}第一,然后乘以- j或反向的计算。因此,设计的硬件利用这种级联计算和多路复用器实现PE1阶段的所有必要的计算。这种方式还可以省下一位并行乘法器计算W_N^{N / k}进一步形成一个低成本的硬件。

b位并行乘法器

1 /√2的乘法可以使用一位并行乘法器来代替这个词长度乘数和平方根评价减少芯片面积。位并行操作的2是由,

位并行乘法器的线路图见图7。由此产生的电路使用三个添加和三个桶转移操作。实现复杂的乘法的W_N^{N / 8}一般使用radix-2蝴蝶结构与它的两个输出乘以1 /√2是图8所示。这条赛道刚刚PE1阶段使用。

c .可重构复杂的常数因子

一个可重构低复杂常数乘数计算W i^64年提出如Fig.9所示。这种结构的复杂乘数也采用级联方案实现低成本的硬件。在这里,两个输入信号的意义(含和Iout)和两个输出信号(秦和Qout)一样的信号在PE1阶段。

这个电路负责计算乘法的捻系数W i64,这也是一个重要的FFT /传输线处理器的电路。字长乘数低误差采用一个固定宽度的修改布斯乘数用于硬件成本降低。系数值i1-i8 q1-q8列在表2中,可以用来合成整个抚弄因素需要在计划的64点FFT处理器。

结论

小说ROM-less和低功耗管道64点FFT /传输线处理器为OFDM应用程序被描述。我们设计了一种可重构复杂常数乘数的大小twiddle-factor罗明显减少,特别是不需要罗。这一结果表明,这种设计拥有较低的硬件成本和功耗相比现有的。当然,我们的方案也可以适应至高点FFT应用,规模较低oft widdle-factor罗。它可以作为一个强大的FFT /传输线处理器在许多其他无线通信系统。

表乍一看


表1	表2

数据乍一看


图1	图2	图3	图4	图5

图6	图7	图8	图9

引用

IEEE Std 802.11, 1999,“无线局域网介质访问控制(MAC)和物理层(体育)规格:高速5 GHz物理层的乐队。”

IEEE 802.16, IEEE标准空气界面固定宽带无线接入系统,电气和电子工程师,协会Inc ., 2004年6月。

GPP LTE,“进化通用陆地电台访问(进阶);物理通道和调制”3 gpp TS 36.211 v8.5.0, 2008 - 12所示。

ETSI”,数字视频广播(DVB);帧结构、信道编码和调制数字地面电视,“ETSI EN 300 744 v1.4.1, 2001。

j·w·厄尔和j·w·图基”机的算法计算复杂的傅里叶级数,”数学。第一版。,vol. 19, pp. 297- 301, Apr. 1965

Minhyeok Shin Hanho李,“高速4个并行Radix-24 FFT /传输线处理器对于超宽频应用程序,”在Proc, IEEE Int。电脑。电路与系统,2008年,页960 - 963

Wen-Chang Yeh和Chein-Wei珍”,高速和低功耗splitradix FFT IEEE SignalProcessing, 51卷,没有。3,第874 - 864页,2003年3月。