石头:2229 - 371 x
Namita耆那教徒的 M.Tech (VLSI) Mewar大学Chittorgarh (Raj)。印度 |
通讯作者:Namita Jain,电子邮件:namitajain2000@gmail.com |
相关文章Pubmed,谷歌学者 |
访问更多的相关文章全球研究计算机科学杂志》上
正常的时钟不适用策略以非常高的频率信号完整性问题。高速电路的速度最终取决于与之相关的I / O电路。本文描述了一个比较不同的时钟策略,给出了应用范围。1970 - 1990年期间,盖茨将如此缓慢,数字信号实际上看起来像1和0。模拟建模的信号传播并不是必要的。速度今天的简单的、被动的元素系统即,电线,PC板痕迹,连接器和芯片包——组成一个整体的信号延迟的重要组成部分。这些元素进一步引起故障,重置,逻辑错误等问题。随着设计推向更高的运营速度。反水雷舰高性能板,和系统互连设计必须指定和驱动电气要求:(1)满足设置和保存时间和保证信号完整性(2)避免设计/设计/验证迭代(3)确保低制造成本和高可靠性传统信号技术,称为共同的时钟(CC)信号(支持通过引用),依赖于一个单一的系统时钟分发到所有公共汽车代理作为一个共同的参考。所有事务执行latch-to-latch使用这个共同的时钟参考。 Trace propagation delays are governed by trace length. Trace lengths are often governed by the thermal solution. As speeds increase, heat sinks get larger and force components farther away from each other, which limit the speed of a common-clock bus design. Source-Synchronous clocking refers to the technique of sourcing a clock along with the data. Specifically, the timing of unidirectional data signals is referenced to a clock (often called the strobe) sourced by the same device that generates those signals, and not to a global clock (i.e. generated by a bus master). A reason that source-synchronous clocking is useful is that it has been observed that all of the circuits within a given semiconductor device experience roughly the same process-voltage-temperature (PVT) variation. This means signal propagation delay experienced by the data through a device tracks the delay experienced by the clock through that same device over PVT A more radical approach for reducing the clocking overhead is to eliminate the clock entirely. Such designs are called self-timed designs. Self-timed systems provide completion information along with their data values. This completion information controls the sequencing of data through the machine and can be encoded in the data (true self-timing) or can be generated by using delay-matching circuits.
关键字 |
时钟;策略;锁相环;I / O电路 |
介绍 |
高速输入/输出电路与技术越来越重要尺度来提高系统频带宽度和降低功耗,死区和系统成本。一旦主要用于串行物理、高速I / O电路迅速成为所有intra-system连接的技术选择。高速I / O强度——大量碎使芯片超过1 Tb / s的I / O带宽。此外,per-pin带宽尺度与设备速度、atA¯≈20%。随着这一趋势的继续,芯片与许多数百20 Gb / s I / Os将在2010年是可行的。 |
高速I / o使用入射波信号中检测到信号时第一遍历的信号线(入射波)和吸收终止接收。这使得规模的数据带宽晶体管性能、独立的线的长度。在高数据速率,几位可能是在运输途中一次——管线式沿着线的长度。相比之下,传统的I / O de -迹象,例如,LVCMOS,带宽有限的信号线路的长度而不是晶体管性能。没有匹配的终端,这些I / O系统必须打电话多次往返的信号线de -可靠地发送一个比特。他们的数据带宽与线的长度、独立于晶体管的性能超过半数的许多系统的功耗今天是I / O能力,和权力的一部分由于I / O正在增加。逻辑函数尺度的动态功率α3(门长度尺度α),而I / O的一部分权力天平只有α,因为一定量的电流必须交付给一个负载匹配的线路阻抗,有效地检测到信号。mini -妈妈当前每个I / O几乎是常数,需要独立的比特率;因此高速I / Os提供更多带宽固定的权力。此外,所需的额外力量建立一个复杂的高速I / O通常与α3鳞片,像核心逻辑。 Thus, a better process technology not only enables a higher bandwidth per channel but also reduces the energy consumed per bit. |
有两种基本的挑战持续高速I / o扩展:带限信道和时间的不确定性。随着数据速率的增加,信道带宽,是有限的频率相关损失(FDL)通道。可以可靠地减少传播的距离信号与信号带宽的平方根电缆(集肤效应占主导地位)和线性信号带宽的电路板(介电吸收占主导地位)。均衡可以取消——依赖频率衰减的一部分。然而,衰减的大小最终是一个限制因素。当衰减水平增加,必须注意避免近端串音,在遗留系统正在成为一个重要的问题。 |
随着信号利率规模,高速I / O的时间抖动必须减少一点时间或保持一个常数分数单位时间(UI)。电源噪声、衬底噪声和热噪声是最重要的贡献者时钟抖动。幸运的是,我们的分析表明,通过增加参考时钟频率和投入更大的I / O地区时钟电路,定时抖动可以与一些时间尺度。总的来说,似乎不存在主要障碍实现40 Gb / s信号率/板,底板,和短途电缆(数万米)。因此信号率应该继续与晶体管性能规模至少这速度。 |
本文的其余部分更详细地描述了高速I / O电路。第二部分描述了一个典型的高速I / O的体系结构和它的一些组件的细节。第三节论述了当前最先进的高速I / O技术和未来的通道衰减和时钟抖动带来的挑战。 |
一个典型的高速I / O |
顶层架构: |
图1显示了一个典型的高速I / O1群。发射机将从核心逻辑n位并行数据转换成一个微不足道的流,然后2:1盖茨多路复用器两个符号每个时钟周期精确的时间。re-timer确保数据正确定位的多路复用。可以实现多路复用率更高更多的时钟阶段进一步减少频率要求。然而,在多路复用系统之间的相位失配不同的时钟阶段结果的确定性抖动序列化数据。为了避免这种情况,可以调整时间的数据完整率时钟在最终的输出驱动程序之前,以牺牲更高的功耗和低数据率[2]。一个伪随机比特序列(PRBS)发电机通常建在速度测试。 |
银行接收样品的取样器的位流均匀间隔的时钟阶段直接de-multiplex数据,宽松的频率要求。这种多相方法遭受同样的确定性抖动问题作为其对应的发射机。时钟回收装置调整时钟相位将中间的数据样本的细胞。调整是由采样中心(标记为C)的采样和边缘(取样器标记E)的每一个细胞。过渡,边缘样本的值决定是否早期或late2采样时钟。2比特的数据采样恢复使用到一个n位并行数据适合数字逻辑。 |
带宽限制: |
带宽可实现的信号系统受到衰减,干扰和抖动。这些因素在概念图2的眼图。由数据波形折叠成一个符号,一个眼图显示了信号幅度的变化(伏特-年龄噪声)和时间(抖动)细胞。中间的矩形代表眼睛打开,必须超出接收者抖动加上aperture3比接收灵敏度高。,稍后通知¯≥tr +助教+你,,结核病是一点时间,tr上升时间,助教是接收孔径,和你,都是总时间不确定性的系统[4]。大多数系统的主要组件是你,,主要由时钟抖动,导致码间干扰(ISI)和相声。 |
输入补偿通常是接收机灵敏度的最大组成部分。如图数字校准计划可以取消这个偏移量与数字削减在启动时电流源训练[6][11]。用这种方法,抵消减少> 100 mV < 10 mV。 |
时钟乘数: |
乘数增加参考时钟的时钟的复用率。两个常见的实现是一个锁相环(PLL),如图4所示,和一个多航行迟延锁定环(MDLL),如图5所示。在锁相环中,反馈环路的带宽应该高拒绝自low-jitter参考时钟振荡器抖动通常是提供(例如,从晶体)。然而在实践中,锁相环的带宽是有限的,大约5%的参考时钟频率由于延迟在循环[9][14]。相比之下,一个MDLL,如图5所示,定期注入清洁参考时钟振荡器重置每一参考时钟周期相位误差[5][12]。在这个实现中,脉冲星生成一个使脉冲的多路复用器(这样干净的参考时钟可以混合)和相位检测器(这样每个参考时钟周期只有一个振荡器边缘比较)。 |
图6说明了锁相环的反应和MDLL频移(或坡道阶段),这是一个常见的时钟产生电路测试的抖动性能自供应噪声表现出类似的行为。抖动在锁相环ac -堆积,直到循环能够回应。峰值抖动幅度和时间发生大约环路带宽成反比。相比之下,干净的参考时钟重置MDLL每一参考时钟周期的抖动。锯齿的峰值衰减随着循环逐渐纠正的频率偏移量。它可以表明,即使带宽上限,一个锁相环展览的两倍多峰值抖动幅度与MDLL相比,不需要一个高环路带宽达到低抖动。 |
时钟恢复: |
时钟恢复块决定位置。在这个例子中,一个信号通道只能在一个方向上。同时在两个方向上进行的双向信号允许信号流在一个频道,但是不会在本文中讨论,因为它很少遇到。采样时钟。一个锁相环锁定接收机的输入通常用于这个函数。与时钟乘数发射机,high-jitter接收机输入需要低环路带宽,在冲突与振荡器抖动被拒绝。dual-loop方法,使用高带宽时钟乘数乘以low-jitter参考时钟和一个单独的低带宽循环用于接收机输入跟踪,会删除这个折衷[19]。 |
大多数dual-loop系统使用一个一阶接收机跟踪环路,如第一个虚线框,如图7所示。二进制相位检测器的早/晚迹象经过一个阶段过滤器来减少噪音由于输入抖动。滤波器的输出通过定时控制采样时钟相位的游标,时钟乘法器输出的相位变化。准同步输入,这导致相位滞后,如果循环太慢跟踪输入,或徘徊阶段,如果循环过快过滤输入抖动,或两者兼而有之。二阶接收机跟踪环路消除这些相位误差估计输入信号的频率。 |
频率跟踪回路,第二个虚线框,如图7所示,集成阶段的输出滤波器的频率来估计接收信号并发送的流/ dn信号来补偿任何参考时钟频率的偏移。这使得一个缓慢循环用于过滤输入抖动不会引起相位滞后[13]。使用数字实现的优势是,许多循环参数,如相位滤波器的长度和频率滤波器,可以可编程(例如,抖动过滤最大化或最小化锁定时间)。此外,数字控制时机游标可以轻松绕过允许灵活的定位采样时钟的测试目的。 |
均衡: |
皮肤效应、介电吸收和不连续导致渠道表现出频率相关损失(FDL)。一个脉冲代表不仅被通道衰减,传播出去,引起ISI。图8显示了频率响应和6.25 GB / s底板信道的脉冲响应。存在大量的三军情报局在相邻采样点脉冲响应(垂直网格线间距为采样点,160 ps除外)。 |
过滤器,或均衡器,逆通道响应可以用来抵消FDL。常用的滤波器是一个离散时间symbol-spaced冷杉过滤器。通常是在发射机实现(发射机预加重),直流输出不同的水龙头的求和[3][11]。图8显示了4-tap滤波器的效果(1主要利用和3 post-cursor水龙头)在频域和时域上相同的底板通道。因为部分可用的发射机电流分配均衡水龙头,实际上发射机预加重变弱低频组件实现平谱——所有。预加重,ISI的数量明显减少。如图8所示,它打开了一个完全封闭的眼睛(PRBS 23模式)。 |
有时是有益的均衡器接收机。虽然可以使用离散时间冷杉的方法,但它是更复杂的比发射机,强调从高速采样,乘法和加法的模拟值是必需的。另一种方法是一个活跃的高通滤波器,如图9所示[6]。这个电路的增益与频率上升电容器de -变性折痕的来源。均衡增益通过可变电阻可以调整。 |
未来的挑战 |
门的长度是由α缩放(每年约20%的速度),门延时也随着α和晶体管ωT尺度1 /α。信号带宽可以规模为1 /α如果时间不确定性,由时钟抖动和通道干扰能以同样的速度。本节探讨时钟抖动的可伸缩性,并讨论如何改善信道干扰通过电路级和系统级技术。仔细的电路和系统设计,我们预计持续强劲的带宽——trical信号板,底板,在电缆规模至少40 Gb / s。I / O能源每一点规模预计将αtoα2在不久的将来,但最终将由α是有限的。相比之下,每个函数转换能量,为数字逻辑α3尺度。结果,权力的I / O系统在可预见的未来将会增加。 |
可伸缩性的时钟抖动: |
CMOS反相器环形振荡器的分析表明,时钟抖动可以与α规模如果更高的使用参考时钟频率和百分比的增加I / O区域和力量致力于时钟的一代。我们调查的影响三个最重要的噪声来源:电源噪声、衬底噪声和热噪声。 |
电源噪声:k电源电压变化百分比导致k变化百分比CMOS环形振荡器的时期。假定供给噪声仍然是一个常数的供应,如果参考时钟频率重新电源常数,p p抖动都将保持不变,因为利率和抖动的时间积累是固定的。换句话说,抖动的比例——折痕的一点时间。为了改善这个问题,我们可以增加供应干扰抑制和/或增加参考时钟频率。 |
本地供应的规定,如图10所示,通常用于隔离关键电路[11]。片上数字交换往往产生大量供应噪音。噪音抑制的一阶近似,这种类型的调节器正比于C1和C2。因此,拒绝总是可以改善供应区域。它也提高了过程只要C1的面积缩放比α2慢。多相振荡器,然而,延迟的面积元素常常需要保持不变保持相位失配一个固定比例的时间。在这种情况下,C1的面积与扩展过程必须增加,提高供应被拒绝。码率振荡器在这方面是有利的,因为它不依赖于匹配产生精确的时钟延迟阶段阶段。晶体的频率参考厚度是有限的,不能将规模和半导体技术一样积极。由于芯片上的LC振荡器展示一个更好的抖动性能,它有利于把参考时钟的中频全球芯片上的LC振荡器和使用局部环振荡器来生成最终的高频时钟每当集成或可调谐性是一个问题。 Fortunately, the Q of on-chip inductors is improving with the availability of more metal layers in advanced CMOS processes. |
与更高的参考时钟频率和更好的结合提供噪音抑制,抖动引起电源噪声应继续规模与时间在可预见的未来。 |
衬底噪声:也主要由数字交换引起的,是一个高度集成的应用程序中的主要问题。幸运的是,过程疗法现在现成减少其影响。例如,现在许多流程提供深NWELL隔离一次电流的芯片。最近的研究已经证明比50分贝衰减衬底噪声只有200μm epi的分离过程[8]。明智地使用这个结构应该保持衬底噪声可以忽略的影响等敏感电路时钟生成器。 |
热噪声:与供应和衬底噪声的大小可以减弱外部,device4热噪声是内在的。N-stage CMOS环形振荡器的均方根抖动时放置在一个锁相环或MDLL [10] [15] f0的振荡器的频率。锁相环,τLis 1/2πfL, fL环路带宽。MDLL,τL 1 / fref, fref参考时钟频率。Γ脉冲敏感函数(安全部队),决定了噪声脉冲振荡器的敏感性[10]。前充足,噪声发生的边缘时钟产生的抖动比山峰。它可以表明Γrms尺度α1.5由于尖锐边缘在更高的频率。CVsw最多电荷swing和决定振荡器节点可以移动的难易程度。它与α2鳞片。 |
i2 /Δf热噪声的数量在一个节点和re - n电源与scaling5差不多的。这一分析表明,尽管时钟周期尺度asα,rms抖动尺度作为一个固定的参考时钟频率和αα如果参考时钟频率尺度在同一时间。此外,增加延迟的宽度元素改善抖动平方根的方式由于swing收取更高费用。 |
比较是有益的抖动的大小引起的热噪声,噪声引起的供应。 |
最近测量0.25μm 1.33 GHz的CMOS环形振荡器显示thermal-noise-induced 111.5 dBc / Hz的相位噪声1 MHz抵消从承运人[10]。为MDLL乘法10倍,这大约转化为均方根抖动的0.173 ps的参考时钟周期。p p抖动的< 10−15概率是2.77 ps。相比之下,5%的噪声提供20 dB电源排斥导致大约37 ps p p抖动。总之,通过增加参考时钟频率和增加振荡器宽度,thermal-noise-induced抖动应该规模和时间。此外,在高度集成的应用程序中,热噪声可能会重新主要在可预见的未来的影响几乎可以忽略不计。 |
渠道: |
芯片之间的高速I / o通常使用在印刷电路板上,跨越connectorized底板,和短距离电缆(数万米)。FDL (dB)尺度与带宽线性典型的电路板,介电吸收占主导地位,作为电缆的√(带宽,皮肤效应占主导地位。此外,不连续可以造成重大FDL除了这些基本损失机制。虽然均衡可以摧毁这些通道的光谱,总衰减以及外部干扰最终会限制可实现的比特率。在本节中,我们专注于底板的渠道,因为他们是最具挑战性的衰减和相声。 |
许多系统(如交换机和路由器),带宽是通过逐步更换卡片升级现有的底板。这些遗留底板,适合速度要求在设计的时候,常常会表现出非常高的衰减和很低的信号,干扰比率(先生)随着比特率增加。图11显示了ISI的累积分布函数(CDFs), 8相声侵略者,总(ISI +相声)这样一个底板(同一通道如图8)运行在6.25 Gb / s。的右边停在接收到的脉冲幅度的阴谋。因此,有些错误的概率由于特殊的干扰与y轴曲线的交点。尽管使用4-tap均衡器,比特误码率(BER)在10−7仍高得令人无法接受。 |
减少信号干扰比最好的管理通过结合电路级和系统级的改进。目前,大多数高速I / o使用2-tap线性滤波器,通过试验和错误或手动调节通道的分析。长过滤器需要进一步消除ISI,自适应均衡,利用系数是由硬件优化,成为一个关键需求[20]。它不仅可以不再需要用户干预往往是耗时的,但也提高了均衡的有效性包括包的影响和终止non-idealities迷失在测量s参数或眼睛。非线性滤波器,如判决反馈均衡器(DFE),可以进一步提高幅度均衡信号没有放大相声。相比之下,高通线性滤波器常用于平衡通道明显放大了高通相声。 |
因为通道反应变弱而相声放大在高频区,派遣更多的比特单位通过多层次信号带宽是一个有吸引力的方式来管理这个问题[7]。图12比较二进制和4层眼图的符号率相同。水平的眼睛开放4层信号小于二进制信号由于有限的转换速率。此外,其垂直眼开不到1/3的二进制信号由于噪声电压的中级(Vn)。多层次信号通常需要额外的开销带宽,以确保足够的有用transitions6存在时钟恢复。多层次的具体利益需要模拟信号在每个通道的基础上,执行一个分析类似如图11所示。然而,一个有用的经验法则是,先生必须增加至少12 dB的八度音阶从1/4到1/2 4层信号的比特率是有利的。 |
小心除了电路系统设计需要创新水平维持连续带宽扩展。例如,通过存根通常导致FDL比预期更糟的皮肤效应和介电损耗由于四分之一波长共振。Back-drilling,通过删除未使用的部分,提供了一个成本有效的方式推动这个共振[18]。没有回来,钻井,180密耳厚FR4底板通过存根创建一个共振通过大小约为5 GHz典型。 |
相声在大多数系统的主要来源是背板连接器。新的连接器正在介绍与地面盾牌完全围绕每个信号对减少相声。信号相反的方向流动相互隔离,以避免影厅跨说话,更有害于自远端串音干扰不减毒的全部长度随着信号通道。相声耦合小于-50分贝已经演示了一个典型的底板与这些改进[18][17]。 |
与50 mV接收机灵敏度可以在商业高速I / o, 26 dB的FDL 1/2比特率可以容忍一个典型1 V p p输入。使用上面提到的技术,随着低损耗层压制品,< 20 dB的FDL 10 GHz一直在证明完全connectorized底板频道70厘米。10 Gb / s数据传输没有任何均衡已经证明,和20 Gb / s数据传输简单2-tap预加重现在可能[17][16]。与进一步的投资,实现< 30 dB FDL 20 GHz和一米并非遥不可及。再加上进一步处理和电路改进接收机灵敏度,抖动,和均衡,应该使一个40 GB / s收发器/底板在未来。当然,这些好处不能被完全实现,除非整个系统,包括底板、完全升级。 |
当前最先进的和未来趋势: |
图显示,生产后的带宽——平面渠道自1999年以来每两年增加一倍。3.125 Gb / s频道现在司空见惯和6.25 Gb / s和10 Gb / s通道已经被证明是[6][21]。很明显,这带宽增长趋势是不可持续的,因为设备速度只有每3 - 4年翻一倍。技术,如多级团体最终只提供一次性带宽增加。自1999年以来,I / O技术已经赶上半导体技术,使超摩尔定律的带宽可能的趋势。象征的实际限制高速I / o的时间大约是2 FO4(扇出4逆变器延迟)。在0.13μm CMOS技术,这个极限是7 Gb / s(或12 Gb / s 4层信号)。预计每通道的背板带宽增长将由半导体有限扩展超出10 Gb / s和至少40 Gb / s当通道缺陷——关键的瓶颈。 |
高速I / O每一点能源最终将发射机输出驱动的限制,需要至少一个恒流克服固定信道噪声和更高的损失。因此,传输每一点能量尺度为α。基于CMOS反相器的多相时钟乘法器,每一点能量也尺度α自栅极电容必须增加晶体管规模不匹配。码率振荡器,匹配是少一个问题,每一点能量尺度α3。其余的电路,包括收发数据路径和数字时钟恢复单元、数字逻辑,因此α3规模。结果,每一点能量为一个高速I / O预计规模为αα2在不久的将来,但最终将由α是有限的。相比之下,能量转换为一个数字逻辑函数尺度α3。这α2不同比例增长抵消了集成。G = 1 /α3更多核心逻辑带宽是集成在一个芯片(保持总堆芯功率不变),租金的规则表明,只有我= G2/3 = 1 /α2将需要更多的I / O带宽,消耗1 /α倍I / O的力量。I / O能力比堆芯功率芯片将因此增加1 /α与技术扩展。 |
结论 |
不存在任何时钟策略可以被视为适合高速,每种策略都有其优点和缺点。例如源同步时钟提供了一个极好的时钟策略对PVT变异因为以及时钟派生的数据来源相同,但是使用源同步时钟的一个缺点是创建一个单独的clock-domain接收设备,即生成的闪光灯的clock-domain传输设备。这闪光灯clock-domain更经常不同步的核心时钟域接收设备。接收的数据的正确操作与其他数据已经存在的设备,一个额外的同步逻辑阶段需要接收的数据转移到的核心clock-domain接收设备。这一阶段往往能发现与源代码同步逻辑。这通常导致更大系统的复杂性而globally-clocked系统。CML策略使用的动态功耗更但它增强了静态功耗与CMOS逻辑。 |
引用 |
|