收稿日期:2023-10-12
DOI:10.19850/j.cnki.2096-4706.2024.04.013
摘? 要:在當今高度數(shù)字化和計算密集型的環(huán)境下,設(shè)計出高速和低功耗的加法器,例如進位選擇加法器(Carry Select Adder, CSLA)是至關(guān)重要的。基于此提出一種改進共享布爾邏輯進位選擇加法器。與現(xiàn)有設(shè)計相比,該設(shè)計在犧牲部分功耗和速度的基礎(chǔ)上,減少了晶體管數(shù)量。該設(shè)計采用TSMC65 nm工藝在Cadence中實現(xiàn)了4位的設(shè)計。仿真結(jié)果顯示,相對于Fast Adder Module-2(FAM2)進位選擇加法器,該方案的晶體管數(shù)量、功耗和功耗延時積分別降低了8.91%、8.13%和6.02%。
關(guān)鍵詞:進位選擇加法器;晶體管數(shù)量;功耗;延遲
中圖分類號:TP332.2;TP391.9 文獻標識碼:A 文章編號:2096-4706(2024)04-0061-05
Design of an Improved Shared Boolean Logic Carry Select Adder
WU Shenglin
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan? 232001, China)
Abstract: In today's highly digitized and computationally intensive environment, it is crucial to design high-speed and low-power adders, such as Carry Select Adders (CSLA). Based on this, an improved shared Boolean logic Carry Select Adder is proposed. Compared to existing designs, this design reduces the number of transistors on the basis of sacrificing some power consumption and speed. This design utilizes TSMC65 nm technology to achieve 4-bit design in Cadence. The simulation results show that compared to the Fast Adder Module-2 (FAM2) Carry Select Adder, this scheme reduces the number of transistors, power consumption, and power consumption delay product by 8.91%, 8.13%, and 6.02%, respectively.
Keywords: Carry Select Adder; the number of transistors; power consumption; delay
0? 引? 言
隨著超大規(guī)模集成電路(Very Large Scale Integration, VLSI)系統(tǒng)在消費電子產(chǎn)品和便攜式設(shè)備中的持續(xù)進步,迫切需要解決的挑戰(zhàn)之一是實現(xiàn)高速計算、低功耗和小面積開銷。這種需求不僅僅源自我們?nèi)粘K褂玫闹悄苁謾C、平板電腦,還延伸至醫(yī)療設(shè)備、智能家居系統(tǒng)以及各種便攜式智能設(shè)備。在如今高度數(shù)字化和計算密集型的環(huán)境下,一個巧妙設(shè)計的高速低功耗加法器成為VLSI系統(tǒng)設(shè)計中的關(guān)鍵挑戰(zhàn)。加法器被認為是包含算術(shù)模塊的基本單元,在計算中扮演著不可或缺的角色。它主要用于實現(xiàn)二進制加法,但其重要性不僅限于此。實際上,許多算術(shù)運算,包括減法、乘法、除法和濾波等,都需要加法器的參與。因此,加法器在整個算術(shù)模塊中具有至關(guān)重要的地位。然而,由于加法器的重要性,提高它的性能成為迫切需求。在現(xiàn)代VLSI系統(tǒng)中,尤其是在中央處理器(Central Processing Unit, CPU)和圖形處理器(Graphics Processing Unit, GPU)等系統(tǒng)中,高速和低功耗的加法器設(shè)計變得尤為關(guān)鍵。一個高速低功耗的加法器不僅能夠顯著提升整個算術(shù)邏輯單元(Arithmetic and Logic Unit, ALU)的性能,還能夠為整個CPU和GPU等系統(tǒng)的性能帶來質(zhì)的提升。不止如此,在如今的數(shù)字化世界中,高性能的VLSI系統(tǒng)已經(jīng)無處不在,尤其是在人工智能(Artificial Intelligence, AI)訓練中,處理大量數(shù)據(jù)的需求愈發(fā)迫切。因此,加法器的性能不僅關(guān)系到特定功能的實現(xiàn),也影響到整個系統(tǒng)的性能和穩(wěn)定性。在這個背景下,提高加法器的性能,特別是在保持高速和低功耗的前提下提高加法器的性能,已經(jīng)成為VLSI系統(tǒng)設(shè)計的重中之重。其中,行波進位加法器(Ripple Carry Adder, RCA)是一種基本的加法器,它由多個全加法器(Full Adder, FA)組成。雖然它在面積和功耗方面相對較小,但它的關(guān)鍵路徑延遲較高[1]。為了克服這一缺陷,研究者們提出了一些新的結(jié)構(gòu),旨在降低延遲,提高整體性能。超前進位加法器(Carry-Lookahead Adder, CLA)、并行前綴加法器(Parallel-Prefix Adder, PPA)引入了大規(guī)模的組合邏輯,以降低延遲。盡管這種方法在延遲方面取得了進展,但也帶來了額外的面積開銷和功耗[2]。另外,為了降低延遲,進位跳越加法器(Carry Skip Adder, CSKA)采用了一種并聯(lián)連接多個全加法器的設(shè)計。這種并行結(jié)構(gòu)在一定程度上減小了延遲,但在加法器電路中引入了跳躍邏輯,導致了額外的功耗[3]。這些不同的結(jié)構(gòu),各自在性能和功耗方面有所權(quán)衡,提供了在特定應用場景下選擇適當結(jié)構(gòu)的靈活性。在現(xiàn)代集成電路設(shè)計中,選擇最合適的加法器結(jié)構(gòu)對整體性能至關(guān)重要。
在1962年, Bedrij提出了傳統(tǒng)進位選擇加法器(Conventional Carry Select Adder, Con-CSLA)的設(shè)計方案。這個設(shè)計采用了多級體系結(jié)構(gòu),由多個短位寬的單級CSLA級聯(lián)而成。它的每級都包括兩個RCA模塊和一個二路選擇器(2 to 1 Multiplexer)模塊,相較于RCA,其運算速度更快。圖1展示了一個4位Con-CSLA電路的原理圖,更加直觀地呈現(xiàn)了這個設(shè)計的內(nèi)部結(jié)構(gòu)。在這個原理圖中,An和Bn(n = 0,1,2,…)分別代表了第n位的被加數(shù)和第n位的加數(shù)。而Cn和Sn(n = 0,1,2,…)則分別代表了第n位的進位輸出和第n位的本位和。Si, n和Ci, n分別表示了初始進位為i(i =“0”或“1”)時,第n位的本位和以及進位。這兩個RCA模塊的結(jié)果將會輸入到一個MUX(Multiplexer)模塊中。Cin被用作這個模塊的選擇信號,以控制這個模塊輸出最終的加法結(jié)果。這兩個RCA模塊并行地執(zhí)行加法,每個單獨的CSLA級也在并行地執(zhí)行操作。因此,Con-CSLA的設(shè)計顯著降低了延遲。100位的Con-CSLA相比于RCA,其延遲只有RCA的1/20。但由于該設(shè)計中電路中存在兩組RCA模塊,導致Con-CSLA的面積和功耗相對較高[4]。為了提高進位選擇加法器的性能,研究者們采用了多種新的設(shè)計方案。這些新設(shè)計引入了更簡單的電路替代Con-CSLA中的第二個RCA塊,包括加一電路、BEC(Binary to Excess-1 Converter)電路和ZFC(Zero Finding Circuit)電路。這些方法的提出使得CSLA的性能得到了改善,特別是在處理大規(guī)模數(shù)據(jù)和高速計算方面表現(xiàn)出色。同時,其他研究文獻中提出的CSLA結(jié)構(gòu)也通過邏輯優(yōu)化提高了整體性能[5-11]。
圖1? 傳統(tǒng)進位選擇加法器
1? 共享布爾邏輯進位選擇加法器
共享布爾邏輯進位選擇加法器(Common Boolean Logic Carry Select Adder, CBL-CSLA)與傳統(tǒng)的CSLA不同,CBL-CSLA采用了一種共享公共布爾邏輯的策略,而不是簡單地通過替換硬件結(jié)構(gòu)來提高性能。這一新方法的引入提供了更為高效的設(shè)計思路。通過這種方式,CBL-CSLA成功減少了晶體管的使用數(shù)量,降低了功耗,并且使功耗-延遲積(Power-Delay Product, PDP)下降。邏輯表達式(1)可以用來解釋CBL的工作原理,圖2描述了4位CBL-CSLA的原理圖。
如果第i位的輸入進位Ci-1 = 0,則Sn = An ⊕ Bn,Cn = An · Bn,否則:
(1)
為了提前計算輸入進位,CBL-CSLA引入了一個創(chuàng)新的設(shè)計,包括一個或門和一個與門,用于進位傳播路徑。通過這個設(shè)計能夠事先確認輸入的進位值,進而根據(jù)MUX的選擇確定輸出進位。這一特性使得CBL-CSLA能夠在進位生成電路和求和生成電路之間實現(xiàn)并行操作,極大地提高了其計算效率。在CBL-CSLA的設(shè)計中,進位生成電路由或門和與門來驅(qū)動,而求和生成電路則由異或門和反相器組成。這種設(shè)計使得CBL-CSLA在延遲方面略有優(yōu)勢,尤其是在相對短位寬的加法計算中。與傳統(tǒng)的RCA相比,CBL-CSLA的性能有所提升。不同于Con-CSLA需要額外的RCA模塊來完成任務(wù),CBL-CSLA無須這樣的設(shè)計,從而減少了晶體管的數(shù)量和功耗。這一設(shè)計上的巧妙之處在于,它保持了高性能的同時,減少了冗余的硬件結(jié)構(gòu),使得電路設(shè)計更為精簡。然而,需要注意的是,雖然CBL-CSLA在短位寬加法中具有速度優(yōu)勢,但在處理長位寬的加法時,其并行路徑相對較短,導致速度慢于Con-CSLA。這種權(quán)衡是一個設(shè)計上的挑戰(zhàn),需要根據(jù)具體的應用場景和需求做出權(quán)衡和選擇[7]。
2? 改進的共享布爾邏輯進位選擇加法器
在共享布爾邏輯進位選擇加法器的設(shè)計中,常常需要大量串聯(lián)的二路選擇器。如果采用不復原的二路選擇器,隨著串聯(lián)級數(shù)的增加,這些不復原的二路選擇器的驅(qū)動能力會逐漸下降,影響整體性能。為了解決這個問題,提高電路的魯棒性和抗噪性,以及確保電路的安全性,通常使用全復原邏輯來設(shè)計這些二路選擇器[12]。全復原邏輯的二路選擇器晶體管級電路如圖3所示。在圖3(a)中,展示了一個典型的二路選擇器,而圖3(b)則是相應的反向二路選擇器。很明顯,一個二路選擇器由一個反相二路選擇器和一個反相器串聯(lián)而成。這種設(shè)計方案的背后是為了確保電路在高度串聯(lián)的情況下依然能夠維持較強的信號驅(qū)動能力。確保信號在整個電路中的傳輸質(zhì)量。需要強調(diào)的是,這種全復原邏輯的設(shè)計不僅僅是為了提高驅(qū)動能力,同時也是為了提高電路的穩(wěn)定性和可靠性。
在現(xiàn)代VLSI系統(tǒng)中,這種設(shè)計策略被廣泛應用,因為它能夠有效地解決在大規(guī)模集成電路中信號傳輸面臨的挑戰(zhàn),特別是在高度串聯(lián)的情況下。因此,全復原邏輯的采用不僅僅是一種技術(shù)選擇,更是一種對電路性能和穩(wěn)定性負責任的設(shè)計決策。
注意式(1),每一位的可能的本位和都是相反的,因此在選擇每一位的本位和時,傳統(tǒng)的設(shè)計通常使用二路選擇器。然而,本文提出了一種更為高效的方法,即采用反相二路選擇器。這樣的設(shè)計策略在每一位的本位和選擇中不僅能夠保持信號的穩(wěn)定性,同時能夠顯著減少晶體管的數(shù)量。相比傳統(tǒng)設(shè)計,減少了4.16%的晶體管數(shù)量。這不僅意味著在實際制造中可以節(jié)省成本,同時相對于串聯(lián)不復原的二路選擇器,提高了電路的可靠性。這種設(shè)計的優(yōu)勢不僅僅體現(xiàn)在晶體管數(shù)量的減少上,同時也在功耗和延遲方面具有顯著的改善。采用全復原反相二路選擇器,信號傳輸更為穩(wěn)定,降低了功耗。而相對較短的傳輸路徑也使得延遲得到有效控制。這意味著,新設(shè)計不僅在性能上更為出色,而且在實際應用中能夠更好地滿足高速、低功耗的需求。圖4是提出的改進共享布爾邏輯進位選擇加法器的原理圖。
3? 仿真結(jié)果
采用Cadence工具(包括Virtuoso和Spectre)進行模擬實驗。在這個過程中,首先驗證了每個電路的功能,并計算了它們的關(guān)鍵路徑延遲和平均功耗,這是評估性能的關(guān)鍵指標。模擬實驗使用了TSMC 65 nm工藝和典型的NMOS和PMOS(TT)工藝角,設(shè)置標準電源電壓為1.2 V,工作溫度為27 ℃,頻率設(shè)定為500 MHz。為了計算功耗,采用了隨機選擇的1 024個輸入向量,并將它們饋送到每個CSLA電路中。通過這樣的操作,得到了1 024個功耗值,然后取其平均值作為CSLA的平均功耗。這個過程確保了對CSLA性能有全面的了解,尤其是在不同輸入條件下的表現(xiàn)。在模擬過程中,Cadence記錄了每個輸入電路的瞬時總功耗曲線。基于這些數(shù)據(jù),使用Cadence內(nèi)置的計算工具來精確計算每個結(jié)構(gòu)的平均功耗。在電路的設(shè)計中,需要特別關(guān)注進位從最低有效位(LSB)向最高有效位(MSB)傳播的過程,因為這個過程中產(chǎn)生了關(guān)鍵路徑延遲。理論上,傳播延遲指的是輸入信號從穿過VDD/2點過渡到輸出信號同樣穿過VDD/2點所需的最大時間[12]。這個時間是由計算工具計算得出的。仿真過程如圖5所示,該圖展示了在進行仿真實驗時,各個輸入向量下的關(guān)鍵路徑延遲和功耗的計算過程。由這些精細的分析計算出關(guān)于CSLA性能參數(shù)的詳細信息,從而與其他新電路結(jié)構(gòu)進行對比,分析出不同電路的優(yōu)劣所在。
圖6展示了上述所有4位CSLA的延遲、功耗、晶體管數(shù)量和PDP。通過詳細的模擬和分析,得出了關(guān)于這些CSLA性能的全面數(shù)據(jù),這對于進一步的電路優(yōu)化和設(shè)計改進提供了有力的支持。這些數(shù)據(jù)不僅僅是對現(xiàn)有設(shè)計的驗證,同時也為未來的研究和實際應用提供了有益的參考。在表1中,負數(shù)表示改進的結(jié)構(gòu)相較于其他進位選擇加法器在性能參數(shù)上有所改善,而正數(shù)則表示相較于其他結(jié)構(gòu),性能參數(shù)有所負優(yōu)化。從表格中可以清晰地看到,改進共享布爾邏輯進位選擇加法器相比于未改進的共享布爾邏輯進位選擇加法器在晶體管數(shù)量方面減少了4.17%。同時,其延遲降低了4.62%,功耗降低了9.38%,PDP降低了13.57%。相較于綜合性能最差的傳統(tǒng)進位選擇加法器,改進的設(shè)計在晶體管數(shù)量上減少了27.56%。此外,延遲降低了25.93%,功耗降低了33.17%,PDP降低了49.9%。在表中綜合性能最好的FAM2進位選擇加法器方面,改進的設(shè)計以增加2.30%的延遲為代價,在晶體管數(shù)量、功耗和功耗延遲積方面分別降低了8.91%、8.13%、6.02%。
4? 結(jié)? 論
本文提出了一種改進共享布爾邏輯進位選擇加法器的設(shè)計,通過優(yōu)化共享布爾邏輯進位選擇加法器的結(jié)構(gòu),采用反向二路選擇器替代二路選擇器,以減少功耗和晶體管數(shù)量。這項改進的設(shè)計在性能方面取得了顯著的成果。與FAM2進位選擇加法器相比,改進的結(jié)構(gòu)在晶體管數(shù)量、功耗和功耗延遲積方面分別降低了8.91%、8.13%和6.02%。這種改進通過引入反向二路選擇器,成功地改善了加法器的性能,同時在維持設(shè)計的基本功能的前提下,實現(xiàn)了晶體管數(shù)量、功耗、功耗延遲積的三重優(yōu)化。
參考文獻:
[1] KOREN I. Computer Arithmetic Algorithms: 2nd Edition [M].Natick:A K Peters/CRC Press,2002.
[2] BAI P A,LAXMI M V. Design of 128- bit Kogge-Stone Low Power Parallel Prefix VLSI Adder for High Speed Arithmetic Circuits [J].International Journal of Engineering and Advanced Technology(IJEAT),2013,2(6):415-418.
[3] DURAIVEL N,PAULCHAMY B. Simulation and performance analysis of 15 Nm FinFET based carry skip adder [J].Computational Intelligence,2020,37(2):799-818.
[4] BEDRIJ O J. Carry-Select Adder [J].IRE Transactions on Electronic Computers,1962,11(3):340-346.
[5] TYAGI A. A Reduced-Area Scheme for Carry-Select Adders [J].IEEE Transactions on Computers,1993,42(10):1163-1170.
[6] KANDULA B S,VASAVI K P,PRABHA P I S,et al. Area Efficient VLSI Architecture for Square Root Carry Select Adder Using Zero Finding Logic [J].Procedia Computer Science,2016,89:640-650.
[7] WEY I C,HO C C,LIN Y S,et al. An Area-Efficient Carry Select Adder Design by Sharing the Common Boolean Logic Term [C]//Proceedings of the International MultiConference of Engineers and Computer Scientists 2012 Vol II.Hong Kong:International Association of Engineers,2012:1091-1094.
[8] RUDPOSHTI M A,VALINATAJ M. High-speed and low-cost carry select adders utilizing new optimized add-one circuit and multiplexer-based logic [J].Integration,2021,79:61-72.
[9] MOHANTY B K,PATEL S K. Area–delay–power efficient carry-select adder [J].IEEE Transactions on Circuits and Systems II:Express Briefs,2014,61(6):418-422.
[10] KUMAR G K,BALAJI N. Reconfigurable delay optimized carry select adder [C]//2017 International Conference on Innovations in Electrical,Electronics,Instrumentation and Media Technology (ICEEIMT).Coimbatore:IEEE,2017:123-127.
[11] NAM M,CHOI Y,CHO K,et al. High-speed and energy efficient carry select adder (CSLA) dominated by carry generation logic [J].Microelectronics Journal,2018,79:70-78.
[12] WESTE N H E,HARRIS D M. CMOS VLSI DESIGN: A Circuits and Systems Perspective:4th ed [M].Boston:Addison-Wesley,2010.
作者簡介:吳盛林(1999—),男,漢族,安徽銅陵人,碩士在讀,研究方向:進位選擇加法器的高性能設(shè)計。