田汝佳,蔣 林,鄧軍勇,張雪婷
(西安郵電大學(xué) 電子工程學(xué)院,西安 710121)
圖形處理器(Graphics Processing Unit,GPU)的發(fā)展可劃分為工作站、個(gè)人電腦、移動(dòng)設(shè)備三個(gè)階段.近年來,智能手機(jī)和平板電腦等移動(dòng)設(shè)備帶來的產(chǎn)業(yè)革命不斷升溫,移動(dòng)電子產(chǎn)品的發(fā)展趨勢(shì)極為迅猛.根據(jù)App Annie & IDC發(fā)布的2016年度回顧報(bào)告表明游戲、視頻、即時(shí)通信等顯示類應(yīng)用位于手機(jī)應(yīng)用排行榜之首.因此,每年大量的移動(dòng)設(shè)備對(duì)高質(zhì)量圖形渲染的迫切需求也成為移動(dòng)圖形處理器發(fā)展及研究的內(nèi)在驅(qū)動(dòng).相比于桌面GPU,由于自身功耗和帶寬等方面的限制,移動(dòng)GPU以較低的運(yùn)算成本實(shí)現(xiàn)高性能、高質(zhì)量的圖形效果逐步成為設(shè)計(jì)的重點(diǎn)之一[1,2].為了在顯示區(qū)域觀察到預(yù)期場(chǎng)景,無論圖形渲染流水線采用固定流水線、可編程流水線或者統(tǒng)一著色器結(jié)構(gòu)[3],都需要進(jìn)行一系列的坐標(biāo)系變換,即把世界坐標(biāo)系中3D圖形的位置坐標(biāo)映射到用于顯示的屏幕坐標(biāo)系中,包括幾何變換、投影變換、裁剪變換、齊次坐標(biāo)變換和視口變換空間坐標(biāo)變換過程.視口變換是3D圖形處理中進(jìn)行坐標(biāo)變換的最后階段,是整個(gè)渲染管線中必不可少的處理環(huán)節(jié),用于實(shí)現(xiàn)將經(jīng)齊次坐標(biāo)變換后的圖元頂點(diǎn)坐標(biāo)變換為屏幕中視口矩形內(nèi)的坐標(biāo).
傳統(tǒng)的視口變換多采用專用結(jié)構(gòu),文獻(xiàn)[4]中采用硬件結(jié)構(gòu)實(shí)現(xiàn)了視口變換,其特點(diǎn)是采用一種簡單的RISC處理器實(shí)現(xiàn)視口變換的可編程.當(dāng)前,面向不同應(yīng)用的圖形處理器正朝著高性能、多種API兼容的方向迅速發(fā)展,眾多效率不一的圖形渲染算法使圖形處理具有高度靈活性,如何根據(jù)實(shí)際需求動(dòng)態(tài)獲取最優(yōu)性能是圖形處理器設(shè)計(jì)面臨的瓶頸問題之一.因此,為了滿足移動(dòng)GPU以較低運(yùn)算成本及可重構(gòu)方式來實(shí)現(xiàn)視口變換的需求,本文從視口變換算法原理出發(fā),推導(dǎo)了視口變換算法,發(fā)現(xiàn)算法對(duì)三角形圖元X、Y、Z坐標(biāo)進(jìn)行變換時(shí)無數(shù)據(jù)相關(guān)性,滿足陣列結(jié)構(gòu)的并行化映射條件[5].在此基礎(chǔ)上,采用輕核處理元陣列,通過基礎(chǔ)的算數(shù)運(yùn)算(加、減等)與邏輯運(yùn)算(與、或、非、跳轉(zhuǎn)等)的動(dòng)態(tài)重構(gòu),提出了一種基于可重構(gòu)陣列結(jié)構(gòu)的視口變換單元的硬件并行化實(shí)現(xiàn)方案,并在FPGA開發(fā)板上完成了硬件原型測(cè)試,結(jié)果表明本文實(shí)現(xiàn)的可重構(gòu)視口變換方案,在與專用硬件實(shí)現(xiàn)性能相當(dāng)?shù)耐瑫r(shí),提高了電路的靈活性.
本文結(jié)構(gòu)如下:第1部分描述了可重構(gòu)陣列結(jié)構(gòu),包括單個(gè)輕核處理元的硬件結(jié)構(gòu)和處理元之間的數(shù)據(jù)交互訪問機(jī)制;第2部分詳細(xì)推導(dǎo)了視口變換算法,得出了判定公式,并基于計(jì)算過程中各數(shù)據(jù)之間的數(shù)據(jù)無關(guān)性,提出一種基于可重構(gòu)陣列處理器的視口變換單元(Viewport Transformation Unit,VTU)結(jié)構(gòu);第3部分基于Xilinx的FPGA芯片XC6VLX760T完成了原型系統(tǒng)實(shí)現(xiàn)及測(cè)試;最后是總結(jié)與展望.
本文采用的可重構(gòu)陣列結(jié)構(gòu),是由4×4個(gè)輕核處理單元(Thin-Core Processing Element,TCPE)組成的一個(gè)陣列處理器簇(Processing Element Group,PEG).其中,單個(gè)PE由一個(gè)指令RAM、一個(gè)數(shù)據(jù)RAM、一個(gè)指令譯碼寄存器、譯碼單元、寄存器文件(RegFile)、PC控制器、運(yùn)算單元和一個(gè)鄰接互連控制器組成.PE的指令集有算數(shù)運(yùn)算、邏輯運(yùn)算、分支控制等指令[6].圖1給出了單個(gè)PE的微體系結(jié)構(gòu)圖.
圖1 PE的微體系結(jié)構(gòu)框圖Fig.1 Microarchitecture block diagram of PE
陣列處理器中PE間的數(shù)據(jù)交互通過鄰接互連和共享存儲(chǔ)訪問兩種機(jī)制實(shí)現(xiàn),相鄰PE之間的數(shù)據(jù)交互采用鄰接互連機(jī)制通過共享寄存器完成[7];不相鄰PE之間的數(shù)據(jù)交互采用共享訪問機(jī)制通過訪問共享兩級(jí)交換結(jié)構(gòu)的4×4個(gè)分布隨機(jī)訪問存儲(chǔ)器(Random Access Memory,RAM)的方法實(shí)現(xiàn).圖2給出了可重構(gòu)PE陣列的結(jié)構(gòu)示意圖,其中帶箭頭直線部分表示鄰接互連通信時(shí)數(shù)據(jù)通路,通過PE間共享寄存器進(jìn)行數(shù)據(jù)交換;帶RAM雙向箭頭及交叉互連長直線部分為陣列處理器簇內(nèi)的兩級(jí)交換結(jié)構(gòu),每個(gè)PE均可實(shí)現(xiàn)本地RAM的優(yōu)先訪問以及4×4個(gè)分布式RAM的共享訪問.
可重構(gòu)陣列結(jié)構(gòu)利用可編程PE通過加載存儲(chǔ)在指令RAM中的指令或由全局控制器傳遞并存儲(chǔ)在RAM中的實(shí)時(shí)指令實(shí)現(xiàn)多次重復(fù)配置邏輯狀態(tài)的特性實(shí)現(xiàn)實(shí)時(shí)電路重構(gòu).在運(yùn)行時(shí)可根據(jù)需要下發(fā)指令動(dòng)態(tài)改變系統(tǒng)的電路結(jié)構(gòu),使PE矩陣可以運(yùn)行在數(shù)據(jù)流模式下,從而使電路兼具靈活、硬件資源可復(fù)用、并行計(jì)算及降低功耗等優(yōu)良性能.
圖2 可重構(gòu)PE陣列結(jié)構(gòu)圖Fig.2 Reconfigurable PE array structure diagram
在算法實(shí)現(xiàn)的應(yīng)用中,與基于CUDA(Compute Unified Device Architecture)實(shí)現(xiàn)通用計(jì)算和圖形渲染算法[8,9]相比,可重構(gòu)陣列與CUDA在算法的并行計(jì)算上都是基于多核結(jié)構(gòu)實(shí)現(xiàn),且都可通過快速的共享內(nèi)存有效地共享數(shù)據(jù).此外,本文采用的可重構(gòu)陣列結(jié)構(gòu)通過鄰接互連機(jī)制解決了CUDA架構(gòu)在執(zhí)行計(jì)算過程中相鄰處理塊間無法進(jìn)行數(shù)據(jù)交互的問題.
在計(jì)算機(jī)圖形學(xué)中,視口定義了一個(gè)繪制圖形的矩形窗口區(qū)域[10].視口用窗口坐標(biāo)來測(cè)量,窗口坐標(biāo)反映了屏幕上的像素相對(duì)于窗口左下角的位置.視口決定了顯示到屏幕上的圖形的位置和大小,同一屏幕上可以定義多個(gè)視口,用來顯示不同的圖形信息[11].
OpenGL函數(shù)庫中的void glViewport(GLint x,GLint y,GLsizei width,GLsizei height)函數(shù)指定了屏幕中視口矩形的原點(diǎn)即視口矩形左下角點(diǎn)的坐標(biāo)(x0,y0),以及寬度w和高度h.其中width和height值主要用于對(duì)三角形圖元頂點(diǎn)坐標(biāo)中X,Y坐標(biāo)進(jìn)行視口變換.與X和Y窗口坐標(biāo)不同,在OpenGL中Z坐標(biāo)總是被認(rèn)為位于0.0~0.1的范圍之間,函數(shù)Void glDepthRange(GLclampd near,GLclampd far)為Z坐標(biāo)定義了一種編碼形式.其中,near和far值表示經(jīng)過調(diào)整后可以存儲(chǔ)在深度緩沖區(qū)中的最小值和最大值,在默認(rèn)情況下初始值分別是0.0和1.0,且范圍被限定在[0,1]之間[11].
因此,歸一化圖形頂點(diǎn)坐標(biāo)與視口坐標(biāo)的變換等式有:
(1)
即視口變換矩陣可以表示為:
(2)
其中視口矩陣的參數(shù)由函數(shù)glViewport和glDepthRange參數(shù)指定.
基于上述視口變換算法的分析,本文提出一種基于可重構(gòu)陣列處理器的視口變換單元(Viewport Transformation Unit,VTU)結(jié)構(gòu).圖3給出了視口變換單元硬件結(jié)構(gòu)框圖.其中Din是上一流水級(jí)送來的圖形命令及數(shù)據(jù)信息;Vin是上一級(jí)向本級(jí)傳送數(shù)據(jù)的數(shù)據(jù)有效信號(hào);Rin是本級(jí)可以接收上一級(jí)輸出的握手響應(yīng)信號(hào);Dout是向下一級(jí)輸出的圖形命令及數(shù)據(jù)信息;Vout是本級(jí)向下一級(jí)傳送數(shù)據(jù)的數(shù)據(jù)有效信號(hào);Rout是下一級(jí)可以接收本級(jí)輸出的握手響應(yīng)信號(hào).
圖3 視口變換單元硬件結(jié)構(gòu)框圖Fig.3 Hardware structure diagram of VTU
VTU主要包含圖形命令譯碼模塊、存儲(chǔ)參數(shù)寄存器模塊、齊次坐標(biāo)變換模塊和視口變換計(jì)算模塊.其中視口變換計(jì)算模塊是VTU單元的核心,其主要功能就是將經(jīng)過齊次坐標(biāo)變換的圖元頂點(diǎn)坐標(biāo)與視口矩陣相乘.
VTU具體處理流程如下:接收來自上一級(jí)流水線的Din輸入,并分別存入圖形命令寄存器和數(shù)據(jù)寄存器中,然后對(duì)圖形命令進(jìn)行譯碼,根據(jù)譯碼結(jié)果對(duì)數(shù)據(jù)進(jìn)行相關(guān)的存儲(chǔ)和處理.當(dāng)接收到glViewport命令,存儲(chǔ)參數(shù)x、y、w和h,用于對(duì)圖元頂點(diǎn)坐標(biāo)X和坐標(biāo)Y的變換;當(dāng)接收到glDepthRange命令,存儲(chǔ)參數(shù)n和f,用于對(duì)坐標(biāo)Z的變換;當(dāng)接收到glPushAttrib命令,將指定的屬性信息組(即參數(shù)x、y、w、h、n和f)壓入堆棧,由于下級(jí)流水也需要通過該命令來進(jìn)行壓棧操作,所以本級(jí)需要將該命令傳給下級(jí)然后返回接收數(shù)據(jù);當(dāng)接收到glPopAttrib命令,將屬性組參數(shù)彈出堆棧,恢復(fù)glPushAttrib保存的屬性組信息,由于下級(jí)流水也需要通過該命令來進(jìn)行出棧操作,所以本級(jí)需要將該命令傳給下級(jí)然后返回并接收數(shù)據(jù);當(dāng)接收到glRasterPos和glVertex命令時(shí),將光柵位置坐標(biāo)和頂點(diǎn)坐標(biāo)屬性分別進(jìn)行齊次坐標(biāo)變換和視口變換,之后將處理完的屏幕坐標(biāo)發(fā)送給下一級(jí),發(fā)送完成返回并接收新命令.
根據(jù)可重構(gòu)陣列結(jié)構(gòu)的指令集、處理器數(shù)據(jù)位寬、寄存器與存儲(chǔ)結(jié)構(gòu)等特點(diǎn),為滿足GPU數(shù)據(jù)處理的精度要求,將并行化實(shí)現(xiàn)分為以下三個(gè)步驟:數(shù)據(jù)準(zhǔn)備與拆分、進(jìn)行矩陣計(jì)算以及計(jì)算結(jié)果的轉(zhuǎn)儲(chǔ)與輸出.
3.3.1 數(shù)據(jù)準(zhǔn)備與拆分
為了將VTU中的規(guī)范后的三角形圖元頂點(diǎn)坐標(biāo)數(shù)據(jù)并行的傳輸?shù)疥嚵刑幚砟K中,本文充分利用了可重構(gòu)陣列處理器的鄰接互聯(lián)數(shù)據(jù)交互機(jī)制,通過陣列處理器外圍PE的共享寄存器將坐標(biāo)數(shù)據(jù)通過直接賦值共享寄存器的方式將數(shù)據(jù)并行送入陣列處理單元.具體實(shí)現(xiàn)方式為:圖元頂點(diǎn)的X坐標(biāo)及視口矩形的寬W連續(xù)賦值給PE10的R5共享寄存器,圖元頂點(diǎn)的Y坐標(biāo)及視口矩形的高H連續(xù)賦值給PE01的R6共享寄存器,圖元頂點(diǎn)的Z坐標(biāo)及視口變換的深度信息f,n連續(xù)賦值給PE02的R6共享寄存器,視口矩形的左下角坐標(biāo)x0,y0連續(xù)賦值給PE23的R3共享寄存器.圖4給出了數(shù)據(jù)傳輸?shù)氖疽鈭D.
圖4 PEG接收數(shù)據(jù)示意圖Fig.4 Receive data schematic diagram of PEG
由于可重構(gòu)陣列處理器的數(shù)據(jù)位寬為32位,所要處理的頂點(diǎn)數(shù)據(jù)也為32位,為了避免乘法計(jì)算時(shí)出現(xiàn)溢出錯(cuò)誤.同時(shí),為了簡化乘法運(yùn)算,提高計(jì)算效率,根據(jù)陣列處理器的特點(diǎn),對(duì)數(shù)據(jù)采用圖5和圖6兩種方式進(jìn)行拆分,然后對(duì)每部分進(jìn)行乘法處理,最終將每部分的計(jì)算結(jié)果通過移位加的方式拼接成正確結(jié)果.
3.3.2 矩陣計(jì)算
圖5 第一種數(shù)據(jù)拆分形式Fig.5 First form of data split
圖6 第二種數(shù)據(jù)拆分形式Fig.6 Second form of data split
視口矩陣中存在大量0元素,為了優(yōu)化計(jì)算,節(jié)約計(jì)算成本,在計(jì)算映射時(shí)只執(zhí)行有效元素的計(jì)算.圖7給出了視口變換矩陣與三角形圖元頂點(diǎn)坐標(biāo)相乘時(shí)的整體映射過程,其中,根據(jù)輕核處理元精簡指令集的特點(diǎn),每個(gè)設(shè)計(jì)乘法計(jì)算的PE通過循環(huán)移位加的方式實(shí)現(xiàn)乘法功能.最終陣列處理器中14個(gè)PE用于矩陣乘法映射,PE33用于部分結(jié)果的轉(zhuǎn)儲(chǔ)和輸出,PE32空閑不做任何處理.
圖7 視口矩陣算法整體映射圖Fig.7 Overall mapping diagram of viewport matrix algorithm
3.3.3 結(jié)果的轉(zhuǎn)儲(chǔ)與輸出
為了測(cè)試本文所提出方法的正確性和可行性,將本文中所實(shí)現(xiàn)的方法接入文獻(xiàn)[4]所提的結(jié)構(gòu)中,選用Xilinx的FPGA芯片XC6VLX760對(duì)本文所提出的方法進(jìn)行原型驗(yàn)證實(shí)現(xiàn).實(shí)現(xiàn)流程為首先下載硬件配置文件到FPGA中運(yùn)行,然后通過上位機(jī)編譯軟件OpenGL程序,最終觀察通過VGA輸出到顯示器上的圖像來判斷所提方案的正確性.
圖8 FPGA平臺(tái)輸出結(jié)果 圖9 VS2013平臺(tái)運(yùn)行結(jié)果
最終輸出結(jié)果與在軟件VS2013平臺(tái)運(yùn)行結(jié)果一致,正確完成了渲染流水線中視口變換功能.圖8給出了FPGA平臺(tái)輸出結(jié)果,圖9給出了VS2013平臺(tái)的運(yùn)行結(jié)果.
用XILINX ISE14.7對(duì)VTU進(jìn)行綜合,器件選用XC6VLX760-1ff1760.綜合后,可重構(gòu)VTU實(shí)現(xiàn)方案最大工作頻率可以達(dá)到160.65MHz.具體器件資源占用情況由表1給出.
表1 XC6VLX760T邏輯資源占用統(tǒng)計(jì)表Table 1 Logic resource utilization of XC6VLX760T
表2 VTU性能對(duì)比Table 2 Performance comparison of VTU
在相同的FPGA開發(fā)板上進(jìn)行原型驗(yàn)證,與文獻(xiàn)[4]中采用傳統(tǒng)采用專用硬件電路實(shí)現(xiàn)視口變換單元相比,表2給兩種不同視口變換單元實(shí)現(xiàn)的性能對(duì)比數(shù)據(jù),本文實(shí)現(xiàn)的可重構(gòu)視口變換單元,在與專用硬件實(shí)現(xiàn)性能相當(dāng)?shù)耐瑫r(shí),提高了電路的靈活性,為移動(dòng)圖形處理器的靈活性設(shè)計(jì)提供了思路.
為了充分提高移動(dòng)圖形處理器的靈活性特點(diǎn),本文根據(jù)可重構(gòu)陣列結(jié)構(gòu),提出了一種可重構(gòu)視口變換單元的設(shè)計(jì),用可重構(gòu)的方式靈活的實(shí)現(xiàn)了3D圖形渲染流水線中視口變換的功能.在Xilinx的Virtex6系列FPGA開發(fā)板上進(jìn)行原型實(shí)現(xiàn),并對(duì)glViewport函數(shù)的不同參數(shù)情況進(jìn)行了測(cè)試.實(shí)驗(yàn)結(jié)果表明,本文所提出的可重構(gòu)視口變換單元并行化映射實(shí)現(xiàn)方法,能夠正確將規(guī)范化的齊次坐標(biāo)映射到顯示在屏幕視區(qū)上的坐標(biāo),在對(duì)不同參數(shù)情況進(jìn)行正確變換的同時(shí),與專用硬件實(shí)現(xiàn)性能相當(dāng),但靈活性大大提高,且更加實(shí)用.
:
[1] Jiao Ji-ye,Li Tao,Du Hui-min,et al.State of the art and development of mobile graphics processing unit[J].Journal of Computer-Aided Design & Computer Graphics,2015,27(6):1005-1016.
[2] Tunjic B.Computer graphics on mobile devices[J].Vienna University of Technology,2012.
[3] Patney A,Tzeng S,Seitz K A,et al.Piko:a framework for authoring programmable graphics pipelines[J].Acm Transactions on Graphics,2015,34(4):1-13.
[4] Deng Jun-yong,Li Tao,Jiang Lin,et al.Design and implementation of the graphics accelerator oriented to OpenGL[J].Journal of Xidian University,2015,42(6):124-130.
[5] Shen Xu-bang,Sun Lu.The unification research for computing paradigm[J].Chinese Journal of Computers,2014,37(7):1435-1444.
[6] Lv Qing,Jiang Lin,Deng Jun-yong,et al.A reconfigurable array structure for logarithmic and exponential functions[J].Microelectronics & Computer,2016,33(10):28-31+35.
[7] Jiang Lin,Wang Xing-jun,Liu Zhen-tao,et al.Reconfigurable array processor modeling based on systemC[J].Journal of Xi′an University of Posts and Telecommunications,2016,21(3):73-78.
[8] Zhao Jie-yi,Tang Min,Tong Ruo-feng.CUDA based shadow volume algorithm for subdivision surfaces[J].Journal of Zhejiang University(Engineering Science),2012,46(7):1301-1306.
[9] Cai W,Zhou X,Cui X.Optimization of a GPU implementation of multi-dimensional RF pulse design algorithm[C].Bioinformatics and Biomedical Engineering,(iCBBE)2011 5th International Conference on.IEEE,2011:1-4.
[10] Gao Teng-fei,Zeng Chao-yang,Hao Gang-tao,et al.Simulation of space target iamge sequence based on OpenGL[J].Computer Engineering and Design,2014,35(11):3946-3950.
[11] Shreiner D,Bill The Khronos OpenGL ARB Working Group.OpenGL programming guide:the official guide to learning OpenGL,versions 3.0 and 3.1[M].Pearson Education,2009.
附中文參考文獻(xiàn):
[1] 焦繼業(yè),李 濤,杜慧敏,等.移動(dòng)圖形處理器的現(xiàn)狀、技術(shù)及其發(fā)展[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2015,27(6):1005-1016.
[4] 鄧軍勇,李 濤,蔣 林,等.面向OpenGL的圖形加速器設(shè)計(jì)與實(shí)現(xiàn)[J].西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,42(6):124-130.
[5] 沈緒榜,孫 璐.計(jì)算模式的統(tǒng)一研究[J].計(jì)算機(jī)學(xué)報(bào),2014,37(7):1435-1444.
[6] 呂 青,蔣 林,鄧軍勇,等.面向?qū)?shù)與指數(shù)函數(shù)的可重構(gòu)陣列結(jié)構(gòu)[J].微電子學(xué)與計(jì)算機(jī),2016,33(10):28-31+35.
[7] 蔣 林,王杏軍,劉鎮(zhèn)弢,等.基于SystemC的可重構(gòu)陣列處理器模型[J].西安郵電大學(xué)學(xué)報(bào),2016,21(3):73-78.
[8] 趙杰伊,唐 敏,童若鋒.基于CUDA的細(xì)分曲面陰影體算法[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2012,46(7):1301-1306.
[10] 高騰飛,曾朝陽,郝剛濤,等.基于OpenGL的空間目標(biāo)圖像序列仿真[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(11):3946-3950.