ISSN ONLINE(2319-8753)PRINT(2347-6710)
sunithaMss一号BharatGHEGDE2深akakumarNHEGDE2
|
相关文章at普梅德,学者谷歌 |
访问更多相关文章科技创新研究国际杂志
建设低功率高速系统近年来一直有需求,因为移动通信计算技术快速增长算术逻辑单元几乎全部计算机和处理机的核心组件这项工作涉及基于3项ALU结构的3项16位处理器的设计和比较ALU架构因消费者需求而异,牢记成本、速度和功率比较占用面积、速度和电量消耗方面首创ALU设计经济化设计,不复杂低功率二级设计高速低功率模型使用CARLACs和Vedic乘法广义并行性见诸于中第三方设计面向低功率和紧凑度并使用前缀加法器和Booth乘法RISC处理器设计还包含内存设计并开发同值编码,这些编码也包含在这项工作中。基于循环卷积的典型RISC程序已全部实施以比较为目的结果证明ALU2速度最快,耗电量也少得多比ALU1快15%,但也占用20%以上面积ALU3占用面积比ALU1低30%,是低功率模型ALU1虽然性能适中,但最易设计
关键字 |
ALU,RISC处理器,管道破解器,Vedic乘子,卷积 |
导 言 |
ALU架构对定时权消散和面积有严重影响ALU分权主要取决于架构时间和面积取决于使用电路类型实施ALU组件电池技术的发展速度不同于微电子技术设计师面临高速高通量小硅面积等约束并同时低功率耗故需适当选择ALU架构多函数可由ALU执行,但基本算术加法减法乘法分法和简单布尔运算法,如逻辑和移动运算法继续是核心运算法ALU从输入寄存器或存储器加载数据基于控制单元控件信号类型,它执行数据期望计算并最后存储输出寄存器控制单元负责处理数据在这些寄存器、ALU和内存间移动RISC处理器设计时使用小但强指令集,目的是增加处理器吞吐量RISC处理器的主要特征是它支持单循环操作的能力,这意味着指令取自指令存储器最大速度存储器这项工作的意图是创建RISC处理器功能单元作为VerilogHDL[1]中的构件设计不同的ALU结构后,我们结合存储器和寄存器集成性能全称RISC处理器不同的ALU设计通过执行循环卷积验证本文也讨论为此目的设计ocode其余论文组织如下第二节简要描述3ALU架构设计第三节描述RISC处理器设计卷积程序实施见第四节FPGA实施和结果见第五节第六节总结论文 |
二.设计ALU艺术 |
ALU1(经济型)建构过程简单化,不标注强权、延迟或面积约束由Ripple递增器组成(16位数)并配满加法慢加法,因为每个阶段都等待前一运出乘法乘法数组乘法增速比迭代加法高,但仍不最优nxx乘法需要n2和门,n半加法和nxn2全加法ALU2(高速低功率)使用并行约束构建ahead添加器使用由运量生成和传播术语组成,这些术语用于预算运量,从而提高速度[2]硬件复杂性非常高,从结果中可见一斑故居大面积Vedic乘法使用Urdava Triangbhyamsutra并已知常规Vedic乘法硬件有一些限制因此,为克服这些限制,新颖方法使用独树++3结构添加部分生成产品[3]2x2乘法搭建基本门使用图一显示的sutra后用它创建四轮驱动乘法扩展成16x16乘法从结果中可以看到,速度和面积使用该乘数可观化为高速数字信号处理应用的可行设计 |
ALU3(低功率压缩)设计前缀加法被认为是高速低功率加法中最优使用Jsklansky前缀加法结构延迟点为log2N[4]与CLA相比,硬件速度更快复杂度也较低 |
乘法使用Fig4[5]显示的Booth乘法实现慢比其他乘法和顺序设计本身16时边缘完成乘法操作,使用异性模块时钟比系统时钟快20倍使用#time延时报表实现因为它基于迭代算法,使用硬件少得多虚拟时钟使用 PLL |
分化器设计基于迭代减法块图分解器显示在Fig5拆分器本工作用16比特乘8比特[6] |
轮值操作由桶移位器处理2:1多维器,图6显示最快速最简单方法 |
逻辑单元不单列模块,但使用语句和内置函数共8逻辑运算可实现,比特重置为特殊运算方便全机处理器运算 内存必不可缺双端 SRAM模拟存储处理数据,ROM类存储器还嵌入存储指令集代码存储于此并操作时取出status/flag寄存器硬件寄存器内存处理器状态信息本设计使用Fig7显示的背带/背带、负带、溢出、等值和零标 |
状态寄存器单个比特隐含或明文读写机码指令执行处理器 |
三.设计风险处理器 |
实现标量提高性能的尝试已产生各种设计方法,使CPU不线性化并发行为实现增强并行性最简单方法之一是在前指令完成执行前开始指令取码解码几乎所有现代通用CPUs使用这种简单技术即指令管线[7]图8显示三相管道结构 |
控制单元坐标计算机系统组件指令操作其他单元提供定时控制信号所有计算机资源均由CU管理控制单元为有限状态机,输入指令寄存器、状态寄存器(部分由状态输出填充)和当前周期主要状态在当前设计中,不同的组合块,如加法器、乘法器、逻辑器或移位器视OFcode逻辑选择数据取自的相应登记册由CU选择 |
图10显示控制单元细节,包括解码指令并编码所有三种模型的结果[8][9] |
设计Opcode结构见图11 |
设计Opcode结构见图11 |
八大通用寄存器从R0到R7都用于帮助程序执行集合指令存储存储指令集详细描述见Fig12号 |
有8个寄存器 3比特Opcode足以解决算术运算需要2个输入寄存器和1或2个目的地寄存器,12比特留作相同使用不论哪里不需要, 都引入了特殊比特 |
注册器长16位元,Len(4)表示位数移转或旋转 |
微博12(a)-(c)详细指令集 |
分支指令通常从常用指令取出控制时中断管道为了避免发生这种情况,我们使用另一种新手法Verilog编程仿佛硬件按分支指令单独操作,在取文件阶段查找下一步指令不取出并避免延迟或破解 |
从Fig 13流图中可以看出,在抓取阶段查找分支指令后,停止进一步取用并基于分支指令Opcode执行适当动作 |
例举,当偏移模式位设置时, PC取偏移跳转或指令从子程序型返回时, PC值适当修改分支定位像推送和零时,流程中断2时周期,以便前指令完成执行并更新相应的标志结构高效信号处理应用 |
四.变量程序实现 |
ALU是DSP和ASIC核心,用于比较、卷积、相关和数字滤波ALU组合各种算术和逻辑运算成单单元设计ALU后,验证和验证性能的必要性本身即强制规定。DSP处理程序基本努力滤波应用需要线性或循环卷积以输入方式实现正因如此,RISC设计并准备对处理器实施循环卷积 |
Fig.14说明卷积法 |
基于算法,RISC汇编程序如表1所示写法存储在ROM内Opcode执行时取出程序分解三个数的两个序列 |
V级FPGA实现和结果 |
设计用VerilogHDL实现Xilinx-ISE工具模拟合成使用目标设备SPARTAN-6FPGA基于45NM技术在此项目中,我们使用目标技术并执行位置和路线操作系统验证内建定时分析器用于速度比较X-Power分析程序处理权限分析FPGA设计区数取自设计摘要 |
表态3乘数比较 |
表2比较Aders设计特征确认CLA高速表3显示乘法参数与占用最小面积和Vedic速度最快的隔间对比分片器:设计有125LUT,耗用0.01W和延迟112.6ns桶移位器:设计68LUT耗用0.004W和延迟11.4ns双端端口RAM:我们的设计只有32字内存,合成RTL512注册并使用41IOBsROM:我们的设计只有32字内存,合成RTL使用8LUTs和22IOBs |
图15显示3ALU参数比较 |
六.结论和范围未来工作 |
ALU1结构简单化,不标注权或延迟或面积约束模块性能本身不是优先级,而精度和定价最优使用这些结构低价计算产品 低成本控制器等使用ALU2(Vedic)通用高端产品,满足高速低功耗和中位占用等现代需求并行性在这些结构中最有效使用,这些结构有Corpt-Lookahead加法器和Videc乘法高速处理器、移动应用处理器和信号处理设备(镜像)、台式PC等使用ALU3设计复杂焦点是减少架构区速度和功率下降芯片大小也是现代设计的一个主要关注点,因为产品规模缩小多应用都渴望这种产品,而三种约束中任何一个比其他约束优先。传感器应用是这些服务于军事和其他目的的最好例子观察结构变换并获取多样分解结果组合可确定修改,以获取更好的结果前缀加法器可用作乘法块,Videc乘法使用后会变成高速低功率设计,并标出最小面积需求继续前行使用像Kogge-Stone加法等复杂前缀可提高性能基于牛顿拉斐逊等算法的分治器可实现更高速度执行,而不是相继执行下一步重大步骤是设计处理器编译程序并实现PCB设计这绝对需要软件专业知识和电路设计过程知识 |
引用 |
|