通用CSLA的改进体系结构设计

Shaik。firoz岜沙¹，普拉文·库玛尔², P。Yugender^3.

印度库尔努尔大学史丹利史蒂芬工程技术学院欧洲经委会系研究生[VLSI]。
印度库尔努尔大学史丹利史蒂芬工程技术学院ECE系助理教授。
印度海得拉巴马拉雷迪工程技术学院欧洲经委会系助理教授。

摘要

进位选择加法器(CSLA)，提供了最快的添加性能之一。从CSLA的结构来看，CSLA显然有减小面积和功耗的空间。最近提出了一种新的CSLA加法器，它能在保持低功耗和小面积的同时执行快速加法。在此基础上开发了8-、16-、32-和64-b平方根CSLA (SQRT CSLA)体系结构，并与常规的SQRT CSLA体系结构进行了比较。本工作主要是实现128位低功耗、高效面积进位选择加法器。与常规的SQRT CSLA相比，所提出的设计减小了面积和功率，仅略微增加了延迟。这项工作评估了所提出的设计在延迟、面积、功率和产品方面的性能，并通过0.18- mμ CMOS工艺技术的定制设计和布局进行手工设计。结果分析表明，该CSLA结构优于常规的SQRT CSLA结构。所提出的设计是使用verilog HDL开发的。利用Xilinx ISE模拟器进行综合和仿真，并使用modelsim进行验证。

关键字

专用集成电路(ASIC)，高效面积CSLA，低功耗

介绍

当我们绘制框图或电路图时，我们定义了一个输入或输出。然而快速硬件是门或其他东西，我们在电路中有一个信号的传输将有一个有限的延迟，这个时间被定义为传播延迟，当然取决于信号路径的长度，一旦门启动开关传输开始。当我们想要设计快速电路或快速系统时，我们必须寻求一些解决方案。在超大规模集成电路(VLSI)系统设计中，面积和功率效率高的高速数据路径逻辑系统的设计是最重要的研究领域之一。在数字加法器中，加法的速度受进位运算在加法器中传播所需时间的限制。初等加法器中每个位位置的和仅在前一个位位置被求和并且进位传播到下一个位置之后才按顺序生成。

CSLA在许多计算系统中都是通过独立生成多个载波，然后选择一个载波生成和来缓解载波传播时延的问题。然而，CSLA的面积效率不高，因为它使用多对纹波进位加法器(RCA)来生成部分和进位，考虑进位输入Cin=1和Cin=0，然后由多路复用器(mux)选择最终的和和进位。

本工作的基本思想是在常规CSLA中使用二进制到超1转换器(BEC)来代替Cin=1的RCA，以达到更低的面积和功耗[2]~[4]。这种BEC逻辑的主要优势在于，与n位全加法器(FA)结构相比，逻辑门的数量较少。BEC逻辑的细节将在第三节中讨论。

本摘要的结构如下。第二节介绍了基本加法器块的时延和面积评估方法。第三部分详细介绍了BEC逻辑的结构和功能。选择SQRT CSLA与提议的设计进行比较，因为它具有更均衡的延迟，并且需要更低的功率和面积。第四节和第五节分别介绍了常规和改进的SQRT CSLA的延迟和面积评估方法。第六部分对ASIC的实施细节和结果进行了分析。最后，在第七部分对工作进行了总结。

基本加法器块的延迟和面积评估方法

异或门的与、或和逆变器(AOI)实现如图1所示。虚线之间的门正在并行执行操作，每个门的数字表示表示由该门造成的延迟。

延迟和面积评估方法认为所有门都由与、或和逆变器组成，每个门的延迟等于1个单元，面积等于1个单元。然后，我们将逻辑块的最长路径中产生最大延迟的门数相加。区域评估是通过计算每个逻辑块所需的AOI门的总数来完成的。基于这种方法，计算了2:1 mux、半加法器(Half adder, HA)和FA的CSLA加法器块，并将其列在表I中。

BEC

如上所述，这项工作的主要思想是使用BEC代替Cin=1的RCA，以减少常规CSLA的面积和功耗。为了取代n位RCA，需要一个n+1位的BEC。6-b BEC的结构如图2所示。

图3说明了如何使用6位BEC和mux来获得CSLA的基本函数。12:6 mux的一个输入是它的输入(B5,B4,B3, B2, B1和B0)，另一个输入是BEC输出。这将并行地产生两个可能的部分结果，mux用于根据控制信号Cin选择BEC输出或直接输入。BEC逻辑的重要性源于在设计具有大比特数的CSLA时，硅面积的大幅缩减。6位BEC的布尔表达式被列出为(注意函数符号~ NOT，&AND，^XOR)

X0 = ~ b0

X1 = b0 ^ b1

X2 = b2 ^ (b0 & b1)

X3 = b3 ^ (b0 & b1 & b2)

X4 = b4 ^ (b0 & b1 & b2 & b3)

X5 = b5 ^ (b0 & b1 & b2 & b3 & b4)

常规128-b SQRT csla的延迟和面积评估方法

128-b regular SQRT CSLA的结构如图4所示。它有16组不同大小的RCA。前五组的时延和面积计算如图5所示，其中[]中的数字指定了时延值，如sum2需要10个门时延。导致评估的步骤如下。

1)组2[见图5(a)]有两组2-b RCA。根据表I的延迟值考虑，6:3 mux的选择输入c1[time(t)=7]到达时间早于S3[t=8]，晚于s2[t =6]，故sum3[t = 11]为S3与mux的和[t=3]， sum2 [t=10]为c1与mux的和。

2)除group2外，多路选择输入的到达时间总是大于RCA的数据输出的到达时间。因此，确定group3到group5的时延，分别为:

{c6;Sum [6: 4]} = c3[t =10]+mux

{10大;Sum [10: 7]} = c6[t = 13] + mux

{cout;Sum [15: 11]} = c10[t = 16] + mux。

3) group2中的2-b RCA，其中一组Cin=1有2个FA，另一组Cin=0有1个FA和1个HA。根据表I的面积计数，确定group2的门计数总数如下:

门数= 57 (FA + HA + MUX)。

FA = 39 (3 * 13)

Ha =6(1 * 6)

Mux = 12 (3 * 4)

4)同样，计算常规SQRT CSLA中其他组的估计最大延迟和面积。

改进的128- b SQRT csla的延迟和面积评估方法

采用BEC for RCA (Cin =1)优化面积和功率的128-b SQRT CSLA结构如图6所示。我们再次将结构的前16位分为5组。各组的时延和面积估计如图7所示。这里给出了导致评估的步骤。

1)组2[见图7(a)]有一个2-b RCA，在Cin=0时有1个FA和1个HA，而不是另一个2-b RCA (Cin= 1)，使用3- b BEC，在2-b RCA的输出上增加1。

根据表I的延迟值考虑，6:3 mux的选择输入C1[time(t)=7]到达时间早于S3[t=9]和C3[t=10]，晚于S2[t=4]，因此sum3和最终C3 (mux输出)分别依赖于S3和mux，部分C3 (mux输入)和mux。sum2依赖于C1和mux。

2)对于其余组，多路选择输入的到达时间总是大于BEC组的数据输入的到达时间。因此，其余组的延迟取决于多路选择输入的到达时间和多路延迟。

3)第2组面积计数确定如下:

门数= 43(FA+HA+MUX+BEC)

FA = 13 (1 * 13)

哈= 6 (1 * 6)

And = 1

Not = 1

MUX = 12 (3 * 4)

Xor = 10(2*5)。

4)同样，计算修改后的SQRT CSLA中其他组的估计最大延迟和面积。这种SQRT CSLA比常规的SQRT CSLA节省了113个登机门区域，仅增加了11个登机门延迟。为了进一步评估性能，我们采用了ASIC实现和仿真。

Asic实施结果

本设计采用Verilog- HDL语言开发，采用TSMC 0.18 um技术的典型库在Cadence RTL编译器中合成。合成的Verilog网络列表和它们各自的设计约束文件(SDC)被导入到Cadence SoC Encounter中，并用于从标准单元格和放置和路由[7]生成自动布局。寄生提取使用Encounter的Native RC提取工具进行，提取的寄生RC (SPEF格式)被回注到Encounter平台的通用定时引擎中进行静态定时分析。对于加法器的每个字大小，常规和修改后的SQRT CSLA都遵循类似的设计流程。表II给出了两种CSLA结构在时延、面积和功率方面的仿真结果。面积为设计单元的总面积，总功率为漏电流、内部功率和开关功率之和。图8(a)显示了小区面积、总功率、功率延迟乘积和面积延迟乘积随比特大小的减小百分比。图8(b)中还绘制了延迟开销的百分比。很明显，8-、16-、32-、64-、128-b拟议的SQRT CSLA面积分别减少了9.7%、15%、16.7%和17.4%。总功耗也呈现出类似的趋势，功耗随比特大小分别减少7.6%、10.56%、13.63%和15.46%。 Interestingly, the delay overhead also exhibits a similarly decreasing trend with bit size. The delay overhead for the 8, 16, and 32-b is 14%, 9.8%, and 6.7% respectively, whereas for the 64-b it reduces to only 3.76%. The power–delay product of the proposed 8-b is higher than that of the regular SQRT CSLA by 5.2% and the area-delay product is lower by 2.9%. However, the power-delay product of the proposed 16-b SQRT CSLA reduces by 1.76% and for the 32-b and 64-b by as much as 8.18%, and 12.28% respectively. Similarly the area-delay product of the proposed design for 16-, 32-, and 64-b is also reduced by 6.7%, 11%, and 14.4% respectively .

结论

本文提出了一种简单的减小SQRT CSLA架构面积和功耗的方法。这种工作减少了门的数量，在减少面积和总功率方面提供了很大的优势。对比结果表明，改进后的SQRT CSLA时延略大(仅为3.76%)，但64-b改进后的SQRT CSLA的面积和功率分别显著降低了17.4%和15.4%。

该设计的功率延迟乘积和面积延迟乘积显示了16-、32-和64-b尺寸的减小，这表明该方法是成功的，而不仅仅是功率和面积延迟的权衡。因此，改进后的CSLA架构是低面积，低功耗，简单和高效的VLSI硬件实现。测试修改后的128-b SQRT CSLA的设计将是有趣的。

表格一览


表1	表2

数字一览


图1	图2	图3	图4


图5	图6	图7	图8

参考文献

O. J. Bedrij，“进位选择加法器”愤怒的反式。电子。第一版。，第340-344页，1962。

B. Ramkumar, H.M. Kittur和p.m. Kannan，“改进的快速进位保存加法器的ASIC实现”欧元。j .科学。Res。，第42卷，no。1, pp. 53-58,2010。

蔡志勇和m.j. Hsiao，“使用单纹波进位加法器的进位选择加法器”，电子。列托人。，第34卷，no。22，页2101-2103,1998年10月。

Y. Kim和l - s。“64位减面积进位选择加法器”电子。列托人。，第37卷，no。10，页614-615,2001年5月。

j·m·拉贝数字集成电路——设计的视角。上马鞍河，新泽西州:Prentice-Hall, 2001。

Y. He, C. H. Chang和J. Gu，“用于低功耗应用的区域高效64位平方根进位选择加法器”，在Proc. IEEE Int。计算机协会。电路系统。， 2005, vol. 4, pp. 4082-4085。

Cadence，“遭遇用户指南”，版本6.2.4,2008年3月。