在GTC2016(GPU技術(shù)大會)上,NVIDIA Pascal(帕斯卡)架構(gòu)首款GPU:Tesla P100驚艷全場。可惜,P100不是針對游戲玩家和臺式機推出的,而是用于科學計算等專業(yè)領(lǐng)域。隨著GTX1080的問世,Pascal才算與游戲玩家有了親密接觸的機會。那么,GTX1080是如何延續(xù)強者之路的?
Tesla P100的驚鴻一瞥
作為最早亮相的Pascal GPU,Tesla P100是由該架構(gòu)中的頂級核芯“GP100”簡化而來,擁有超過150億個晶體管,內(nèi)建3584個CUDA單元和224個紋理單元(標準的GP100核芯應(yīng)該有3840個CUDA單元和240個紋理單元),在HBM2顯存的加持下帶寬可達到驚人的720GB/s??上В琓esla P100并不面向民用市場(圖1)。如果你有興趣染指的話,則需購買129000美元的DGX-1盒(圖2),并忍受其3200W的功率……很不靠譜對嗎?
還好,NVIDIA針對民用市場還準備了Pascal架構(gòu)的中端核芯“GP104”,并將其“塞進”了全新一代顯卡GTX1080的身上。對所有發(fā)燒級游戲玩家而言,NVIDIA GTX1080無疑是現(xiàn)階段的夢想之芯。接下來,我們就一起看看GTX1080的進化之路。
先從16nm制程工藝談起
對于CPU和GPU這種芯片來說,增加晶體管數(shù)量就是提升性能的最有效手段。但是,NVIDIA在過去4年中一直在沿用28nm FinFET制程工藝,GeForce 900系列早已將該工藝的潛力挖掘到了頭,很難再有突破。換句話說,28nm工藝已經(jīng)無法滿足NVIDIA新一代Pascal GPU的設(shè)計需求了。
很難理解?那我們就不妨回顧一下手機領(lǐng)域的高通上代旗艦驍龍810處理器,這顆CPU就是因為采用了和其架構(gòu)不匹配的20nm制程工藝而出現(xiàn)了包括發(fā)熱異常、頻繁降頻在內(nèi)的各種問題,最終成為高通史上最失敗的CPU之一。痛定思痛之后,高通為新一代驍龍820找來了三星14nm LPP工藝助陣,重新找回來作為一線處理器的尊嚴。
NVIDIA也是如此。為了解決新一代Pascal GPU的后顧之憂,NVIDIA選擇了臺積電的16nm FinFET Plus(又稱“16FF+”)與其搭配。我們熟悉的蘋果A9、麒麟950/955、麒麟650等手機處理器也都是16nm FinFET Plus的“客戶”。按照臺積電的說法,16nm FinFET Plus工藝相比28nm HPM可提升65%的性能或減少70%的能耗。
言歸正傳。作為NVIDIA GTX1080的核芯(圖3),“GP104”在16nm FinFET Plus工藝的幫助下,硬是在比GTX980還要小的封裝面積(芯片表面積)里塞進了接近TITAN X和GTX980 Ti的晶體管數(shù)量(表1)。
與此同時,GTX1080的核心頻率也有了大幅提升,加速頻率較GTX980提高了40%以上。最令人驚喜的是,GTX1080在晶體管數(shù)量翻番且核心頻率猛增之后,它的TDP功耗竟然只比GTX980高了15W,遠遠低于TITAN X和GTX980 Ti的250W,這意味著GTX1080只需外接一個8pin的電源線即可穩(wěn)定運行(圖4)。
以上種種改進,就是16nm FinFET Plus工藝帶來的增益“BUFF”。至此,你還敢小看工藝對芯片性能的影響嗎?
由內(nèi)之外的進化之路
細心的用戶可能發(fā)現(xiàn)了,和NVIDIA TITAN X/ GTX980 Ti相比,GTX1080的CUDA、紋理單元和光柵單元的數(shù)量上都不占優(yōu)勢。那么,它在性能上又能擊敗看似更強悍的TITAN X/ GTX980 Ti嗎?在談及性能之前,我們還是應(yīng)該先了解一下GTX1080在工藝之外的改進之處。
核芯架構(gòu)層面的優(yōu)化
我們可以將“GP104”理解為上代“GM204”的優(yōu)化版。它們都是由4組“GPC”(圖形處理簇)和顯存控制器組成,但差別卻體現(xiàn)在:
1.“GM204”的每組GPC包含4個“SMM”(計算單元組),每個SMM集成了128個CUDA單元和8個紋理單元(圖5);
2.“GP104”取消了SMM概念,并將其改名為“TPC”(圖6),它包含Polymorph 4.0(幾何引擎)和SM(CUDA單元簇)等。同時,“GP104”的每組GPC包含5個TPC,每個TPC同樣集成128個CUDA單元和8個紋理單元(圖7);
3.“GP104”的顯存控制器從“GM204”時期的4個位寬為64bit的顯存控制器改為了8個位寬為32bit的顯存控制器,每個顯存控制器配備了8個光柵單元,與顯存接口一一對應(yīng)。這項細化賦予了GP104更靈活的存儲資源調(diào)度能力,并與其顯存效能的提升息息相關(guān)。
因此,一個完整的“GP104”核芯就包含了2560個CUDA單元(4×5×128)、160個紋理單元(4×5×8)、64個光柵單元(8×8)以及256bit顯存位寬(8×32)。
根據(jù)木桶原理,GPU核心頻率是由無數(shù)設(shè)計電路中速度最慢的那一路徑?jīng)Q定的。NVIDIA此次鉆了“牛角尖”,找到并攻克了那條速度最慢的設(shè)計電路,因此將GP104的核心頻率提升到了驚人的1733MHz,將上代顯卡遠遠拋在身后,確保每一瓦電力都能發(fā)揮其最大性能。NVIDIA還曾表示,GP104結(jié)合全新的GPU Boost 3.0技術(shù),其超頻幅度可達1800MHz甚至更高,如此一來就大大降低了日后超頻版GTX1080的設(shè)計門檻。
GDDR5X彌補HBM 2顯存遺憾
GTX1080最令人遺憾之處就是沒能加入對HBM 2顯存的支持。作為彌補,NVIDIA引入了全新的“GDDR5X”顯存的概念(圖8),并改善了GPU和顯存芯片之間的信號通路。作為GDDR5的改良版,GDDR5X的運行速率從7Gbps提升到了10Gbps,總體帶寬可達320GB/s,較GTX 980顯卡的224GB/s提升43%,甚至足以媲美384bit位寬的TITAN X和GTX980 Ti了。
與此同時,GTX1080的無損顯存壓縮技術(shù)也得以升級,改進了2∶1壓縮效率,新增了4∶1和8∶1壓縮算法,進一步提升了顯存性能。
新技術(shù)和新特性的改良
NVIDIA對GTX1080還是很用心的,不僅想盡一切辦法提升性能,還對其進行了諸多新技術(shù)和新特性的改良。
更進一步的VR體驗
毫無疑問,GTX1080絕對是未來高端VR PC的首選顯卡,而它在VR方面的改進也沒有讓我們失望。比如,GTX1080支持同步多投影引擎(SMP,Simultaneous Multi-Projection)技術(shù),在三聯(lián)屏輸出的過程中,SMP技術(shù)可根據(jù)屏幕兩側(cè)的傾斜角度將正確視覺邏輯中的物體和形變投射進來(圖9),讓用戶余光看到的是猶如真實世界中的窗口。
SMP在時下新興的VR體驗上的作用更加明顯:VR所傳遞的圖像是類似魚眼效果的矩形畫面(只有中央位置的圖像實際有效),SMP可以進一步省略掉畫面邊緣不必要的渲染內(nèi)容以節(jié)省資源提升幀數(shù)(圖10)。同時,SMP還可以通過新的算法生成左右眼睛所看到的圖像,省略掉其中大量的重復運算,理論上具有雙倍于Maxwell顯卡的效能。
值得一提的是,GTX1080支持全新的VR音頻及VR物理加速,前者可以模擬聲音在虛擬場景內(nèi)的互動映射,實現(xiàn)類似現(xiàn)實中聲音碰到障礙物反射時的真實音效;后者則可以在游戲中加速布料、流體、火焰、發(fā)毛等物理運動特效,展示更為真實的效果。
此外,GTX1080還對異步運算進行了改良,可快速高效地并行處理多任務(wù),做到動態(tài)負載平衡,以及像素級別的任務(wù)“搶占”,執(zhí)行效率大幅提升。而我們常用的GPU物理加速、音頻處理、渲染幀的后期處理,以及VR異步時間扭曲算法都能因異步運算獲益。
走進游戲世界的Ansel功能
如今限制VR發(fā)展的最大瓶頸之一就是內(nèi)容匱乏,那么作為普通用戶,我們是否能夠簡單輕松地創(chuàng)建VR內(nèi)容?GTX1080的答案是,OK!
NVIDIA針對GTX1080開發(fā)出了Ansel截圖功能,不要被“截圖”兩個字蒙蔽,這個功能可以顛覆傳統(tǒng)意義的畫面抓??!簡單來說,玩家在游戲中可以使用Ansel截圖功能定格“游戲世界”,然后可以隨意切換方位和角度抓取游戲世界內(nèi)的畫面(圖11)。通過它,我們甚至可以截取VR全景照片(圖12),然后借助一些手機VR設(shè)備就能欣賞沉浸式的VR游戲場景了。
需要注意的是,Ansel截圖需要具體游戲的支持,游戲開發(fā)商需要將Ansel集成到游戲程序當中去才能實現(xiàn)猶如“上帝視角”的截圖功能。
GTX1080還有一些細節(jié)功能上的改進,比如避免顯示撕裂情況發(fā)生的Fast SYNC技術(shù)、更高性能的SLI連接橋設(shè)計(圖13)、GPU Boost 3.0技術(shù)等等。接下來,我們就要揭開GTX1080的性能之謎,看看它與上代旗艦之間的較量。
令人欣喜的性能表現(xiàn)
雖然GTX1080的CUDA、光柵、紋理單元數(shù)量和顯存位寬不如TITAN X和GTX980 Ti,雖然GTX1080的TDP功耗只比GTX980增加了15W,但這些都阻擋不住其出色的性能表現(xiàn):在所有的測試項目中(表2),都將TITAN X和GTX980 Ti甩到了后面,甚至已經(jīng)看不到GTX980的影子了。
作為Pascal GPU家族中首款上市的產(chǎn)品,GTX1080的性能表現(xiàn)只能用驚艷來形容(圖15)。無論是看似較低的TDP、看著薄弱的8pin供電、少于GM200的CUDA單元數(shù)量,都沒能成為它大幅領(lǐng)先于上代旗艦顯卡的瓶頸所在,Pascal GP104的動力著實讓人熱血澎湃。
可惜,GTX1080公版價格高達5399元,在缺乏競爭對手的大環(huán)境下,短期內(nèi)我們也無法指望它的價格能降下來。所以對絕大多數(shù)非發(fā)燒級游戲玩家而言,不妨將目光投向NVIDIA Pascal GPU家族中的“次子”,GTX1070身上。據(jù)悉,GTX1070的價格可能只有GTX1080的一半,但性能卻足以媲美甚至超越GTX TITAN X!
感受到Pascal GPU的強悍,我們更期待它能盡快入駐筆記本身上,讓移動顯卡的性能可以更進一步,至少要讓筆記本也能擁有足夠駕馭未來VR體驗的性能吧?