張平
對(duì)電源供電的需求,在功耗1W的智能手機(jī)處理器和200W級(jí)別的高性能服務(wù)器處理器上同樣存在,甚至對(duì)功耗高達(dá)15kW的處理器也是如此。為了保證處理器能夠運(yùn)行在設(shè)計(jì)頻率下并發(fā)揮正常性能,現(xiàn)代處理器中的每個(gè)晶體管和相關(guān)電路都需要運(yùn)行在合適的電壓下。如果電壓太低,那么處理器的速度就會(huì)降低,數(shù)據(jù)計(jì)算可能會(huì)出錯(cuò),這會(huì)影響處理器的穩(wěn)定性,甚至出現(xiàn)故障。
由于硅的特性,在現(xiàn)有工藝下處理器大多工作在1V左右的電壓下。如果采用FinFET或者其他先進(jìn)技術(shù)的處理器,額定電壓范圍一般在650mV~1.2V之間。創(chuàng)新的電路設(shè)計(jì)可以使用接近晶體管閾值電壓的電源電壓,英特爾近期產(chǎn)品采用的閾值電壓證明了這一點(diǎn)。一個(gè)非常重要的技術(shù)特性是:開關(guān)電路(比如處理器)的功耗與電壓的平方成正比,因此降低電壓對(duì)提升能耗比效率非常關(guān)鍵。這會(huì)導(dǎo)致一個(gè)兩難的情況:電壓需要足夠高以避免出錯(cuò),但是又不能太高,這樣會(huì)導(dǎo)致功耗無法控制。
另外在1V左右的電壓下,如何處理如此巨大的電流也是一個(gè)難題。目前高端服務(wù)器處理器的功耗在200W左右,這意味著處理器和相關(guān)配套電路需接受200A的電流才能正常工作。當(dāng)然對(duì)現(xiàn)代處理器而言,由于不同的電壓域和電源域的存在,實(shí)際情況還要復(fù)雜很多。但有一個(gè)數(shù)據(jù)是非常明確的,就是在功耗基本不變的情況下,降低電壓意味著增大電流。如果將200W處理器的工作電壓降低至0.75V,那么相應(yīng)的工作電流則會(huì)提升至267A。不僅如此,對(duì)一些規(guī)模更大的芯片比如GPU而言,其TD P功耗更高,可達(dá)450W~600W,因此其電流數(shù)值更為夸張。
在傳輸電能時(shí),一般會(huì)使用較高的電壓和較低的電流,這是因?yàn)檩^低的電流可以降低線路電阻的損耗,這也在很大程度上降低了成本以及電阻帶來的熱量。電阻熱損失和電流的平方成正比,因此增加電壓減少電流會(huì)降低電阻熱損失,這也是目前高壓輸電和特高壓輸電的原理之一。一些大型數(shù)據(jù)中心在服務(wù)器內(nèi)部的電壓是12V,只有一些新的數(shù)據(jù)中心使用48V傳輸電能以提高效率,尤其是那些功耗非常高的產(chǎn)品。
上述所有因素形成了現(xiàn)代處理器供電所需要面臨的綜合問題:在整個(gè)系統(tǒng)中既要以較高電壓運(yùn)輸電能以維持較高的傳輸效率,還需要轉(zhuǎn)換至一個(gè)較低且又不那么低的電壓并保持穩(wěn)定,以維持處理器計(jì)算的穩(wěn)定和可靠。由于各種物理?xiàng)l件限制,人們不得不在狹窄的區(qū)域內(nèi)輾轉(zhuǎn)騰挪,以獲取最好的供電效果。
處理器所需要的供電網(wǎng)絡(luò)
對(duì)于處理器來說,供電所需要的網(wǎng)絡(luò)是一個(gè)完整的系統(tǒng),從主電源開始一直延伸至處理器的供電模塊,最終抵達(dá)每個(gè)需要執(zhí)行計(jì)算的晶體管。對(duì)臺(tái)式機(jī)而言,這個(gè)轉(zhuǎn)換過程是從110V或者220V的交流電轉(zhuǎn)換為12V的直流電,電流將從主板的電源接口分配至所有部件。對(duì)手機(jī)或者筆記本電腦而言,情況比較復(fù)雜,比如這些設(shè)備往往會(huì)使用3.7V的直流輸出,因此不存在交流到直流的轉(zhuǎn)換,只是電壓的提升(或者降低)。但考慮到電流在12V時(shí)最高可達(dá)20A~30A,因此這里的直流降壓效率相比從高壓的交流電轉(zhuǎn)換至直流電要低一些。
對(duì)于標(biāo)準(zhǔn)處理器而言,電壓調(diào)節(jié)模塊(VRM)的轉(zhuǎn)換電壓約為1V。V R M一般被放置在靠近處理器的地方,這樣電源傳輸大多使用的是主板上的12V信號(hào),較高的電壓會(huì)降低損耗。1V電源在主板上只傳輸很短的距離,從主板上處理器電源轉(zhuǎn)換模塊出發(fā),通過處理器接口的一組凸點(diǎn)(或者處理器上的針腳)進(jìn)入處理器本身。處理器包含一個(gè)從凸點(diǎn)伸出的電源網(wǎng),并使用各種金屬互聯(lián)層向處理器上的晶體管輸送電源。主板電壓調(diào)節(jié)器的速度相當(dāng)慢,工作頻率在1M H z左右,這意味著V R M只能每微秒調(diào)整一次輸出電壓。
基于英特爾的系統(tǒng)遵循同樣的原則,但在電力輸送方面多了一個(gè)特殊的處理階段。這就是英特爾在很多處理器中集成的FI VR或全集成電壓調(diào)節(jié)器。FIVR或者類似功能的部件被集成在處理器內(nèi)部,并向不同塊的幾十個(gè)電源軌提供電能。從Haswell開始,大多數(shù)服務(wù)器處理器都使用了FIVR,同期的Haswell和Broadwell客戶端處理器也同樣開始使用FIVR,直到前不久的Ice Lake和Tiger Lake。在這些系統(tǒng)中,主板VRM將12V(或48V)信號(hào)轉(zhuǎn)換為約1.8V,從V R M傳輸,穿過主板、插座和處理器引腳,進(jìn)入FIVR。FIVR負(fù)責(zé)電源轉(zhuǎn)換的最后階段,最終將電壓從1.8V左右降至1V左右,這取決于特定模塊的電源軌的參數(shù)。值得注意的是,Skylake和其衍生處理器產(chǎn)品不使用FIVR。
FIVR有一個(gè)顯著的優(yōu)點(diǎn),從主板V R M輸送到處理器的電壓大約是傳統(tǒng)系統(tǒng)的兩倍。使用更高的電壓可以在相同功耗下使電流降低至之前的一半,這不但可以減少電源引腳的數(shù)量,還能夠在一定程度上提高效率。缺點(diǎn)是電壓轉(zhuǎn)換從來都不是100%有效的,即使FIVR效率再高,它的電壓降低也會(huì)帶來一些功耗損失和額外的熱能。在這里,降低電能傳輸損失和降低電能轉(zhuǎn)換損失之間存在一個(gè)平衡點(diǎn),這在很大程度上取決于具體的情況。對(duì)于功率較高的處理器來說,由于電流需求巨大,因此降低電能傳輸損失帶來的能源節(jié)省更為明顯,反之則降低電能轉(zhuǎn)換損失更為重要。此外,由于集成在C P U中并采用較高級(jí)的工藝,F(xiàn)IVR的速度非??臁墓ぷ黝l率為140M H z,比主板的VRM快兩個(gè)數(shù)量級(jí)。
還不夠快的供電電路
FI VR采用如此高的頻率運(yùn)作,其背后的原因是現(xiàn)代處理器電源傳輸所面臨的最大挑戰(zhàn),那就是傳統(tǒng)專注于穩(wěn)態(tài)功率和熱特性(如TDP)的功耗、電源工作思路,很大程度上低估了電源傳輸問題的嚴(yán)重性。舉例來說,現(xiàn)代處理器是動(dòng)態(tài)的,它們的行為會(huì)根據(jù)工作負(fù)載而改變。當(dāng)單個(gè)晶體管開關(guān)時(shí),它需要相對(duì)較小的電流。然而,如果許多晶體管同時(shí)開關(guān),總的電流消耗會(huì)變得很大,并在片上電源上產(chǎn)生噪音。在CPU或GPU這樣大規(guī)模、高頻率芯片中,晶體管的開關(guān)數(shù)量在不同周期中會(huì)有很大變化。當(dāng)CPU內(nèi)核開始執(zhí)行AVX512乘積運(yùn)算時(shí),其耗電量要比簡單執(zhí)行整數(shù)運(yùn)算大得多。同樣,動(dòng)態(tài)電壓和頻率調(diào)整系統(tǒng)(DVFS)將根據(jù)工作負(fù)載或操作條件的變化,即時(shí)改變處理器頻率和電壓。這些突然出現(xiàn)的電流峰值會(huì)導(dǎo)致電壓暫時(shí)下降。