李杰 劉灝 馬恩財(cái) 劉明鋒
摘要:圖形處理器(Graphic Processing Unit),簡稱GPU,是針對(duì)多線程程序?qū)ν掏铝窟M(jìn)行優(yōu)化的處理器,在硬件設(shè)計(jì)上屬于眾核架構(gòu),非常適合于大規(guī)模并行計(jì)算任務(wù)。JPEG圖像壓縮作為計(jì)算密集型的矩陣數(shù)據(jù)運(yùn)算,用GPU技術(shù)對(duì)JPEG算法進(jìn)行實(shí)現(xiàn),能充分發(fā)揮GPU的并行處理能力,極大提高編碼效率。
關(guān)鍵詞:GPU;CUDA;JPEG
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)26-6158-03
1 概述
在計(jì)算機(jī)系統(tǒng)中,GPU起初用于計(jì)算機(jī)圖像的加速,為了適應(yīng)圖形圖像應(yīng)用中并行度高且計(jì)算量大的需要,優(yōu)化硬件架構(gòu),相比CPU具有更多的流水線和內(nèi)存吞吐量,使其非常適合于大規(guī)模并行計(jì)算[1]。CUDA 是NVIDIA推出的統(tǒng)一計(jì)算設(shè)備架構(gòu),是一種將GPU作為數(shù)據(jù)并行計(jì)算設(shè)備的軟硬件體系,CUDA采用類C語言編程,掌握并行算法就可以控制GPU進(jìn)行并行運(yùn)算開發(fā)[2]。
2 CUDA編程方法
CUDA包含CUDA指令集架構(gòu)以及GPU內(nèi)部的并行計(jì)算引擎,使GPU能夠解決復(fù)雜的計(jì)算問題[3][4]。GPU相當(dāng)于擁有成千上百個(gè)核的CPU,對(duì)于并行計(jì)算任務(wù),通過CUDA將相同計(jì)算邏輯的任務(wù)封裝成kernel,然后控制所有的核同時(shí)運(yùn)行kernel,就能展現(xiàn)GPU的高性能多任務(wù)并行處理能力。
4 結(jié)束語
本文用1024*1024大小的圖像對(duì)程序進(jìn)行測(cè)試。硬件平臺(tái):GPU為NVIDIA GT630;CPU為intel Q9550。軟件平臺(tái):VS2008、CUDA3.2版驅(qū)動(dòng)和工具開發(fā)包。運(yùn)算時(shí)間測(cè)試結(jié)果如表1所示??梢钥闯觯琂PEG壓縮算法在CPU和GPU兩種不同平臺(tái)的實(shí)現(xiàn)上速度差別非常明顯,GPU運(yùn)算占有極大的速度優(yōu)勢(shì);同時(shí)由于圖像文件較大,主機(jī)和GPU設(shè)備的數(shù)據(jù)傳輸占用時(shí)間較多,相對(duì)拖后了GPU帶來的并行運(yùn)算速度優(yōu)勢(shì)。
在序列圖像持續(xù)產(chǎn)生的環(huán)境中,只要在兩幀圖像的間隔內(nèi)完成數(shù)據(jù)傳輸和壓縮過程,就可顯著降低序列圖像的數(shù)據(jù)流量,當(dāng)壓縮數(shù)據(jù)流小于硬盤寫入帶寬時(shí),就可實(shí)現(xiàn)圖像數(shù)據(jù)流的無失幀寫入硬盤。由此可見,JPEG算法在GPU平臺(tái)進(jìn)行實(shí)現(xiàn),可以應(yīng)用在高速圖像采集存儲(chǔ)領(lǐng)域。
參考文獻(xiàn):
[1] 王澤寰.GPU并行計(jì)算編程技術(shù)介紹[J].科研信息化技術(shù)與應(yīng)用,2013(4):81-87.
[2] 張舒.GPU高性能運(yùn)算之CUDA[M].北京:中國水利水電出版社,2009.
[3] 桑德斯.GPU高性能編程CUDA實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2011.
[4] 鄧仰東.NVIDIA CUDA超大規(guī)模并行程序設(shè)計(jì)訓(xùn)練課程[Z].清華大學(xué),2008:10-200.
[5] 程思遠(yuǎn).CUDA并行數(shù)據(jù)壓縮技術(shù)研究[J].電腦知識(shí)與技術(shù),2011(5):1035-1036.
[6] 岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2007.
[7] 吳嘉慧.JPEG圖像解碼方案[J].現(xiàn)代計(jì)算機(jī),2007(3):49-53.
[8] 郭靜.基于CUDA的快速圖像壓縮[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(14):3302-3304.