国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可重構(gòu)處理器的AVS高清解碼探究

2012-10-26 13:34趙靜周莉喻慶東陳杰
關(guān)鍵詞:宏塊像素點(diǎn)解碼

趙靜,周莉,喻慶東,陳杰

(中國(guó)科學(xué)院微電子研究所,北京100029)

可重構(gòu)是處理器領(lǐng)域的一種前沿技術(shù),已開(kāi)始應(yīng)用于多媒體高清視頻解碼[2],一些研究成果也已經(jīng)證明[5-7]:粗粒度的可重構(gòu)處理器,能有效提高多媒體系統(tǒng)的性能.AVS標(biāo)準(zhǔn)由中國(guó)數(shù)字音視頻編解碼標(biāo)準(zhǔn)工作組提出,是中國(guó)第一個(gè)自主知識(shí)產(chǎn)權(quán)的視頻編解碼協(xié)議[1].目前市場(chǎng)上存在的AVS解碼方案,主要有2種:1)通用處理器(GPP),但即使是多核,也很難滿足高清應(yīng)用的性能要求;2)通過(guò)專用集成電路(ASIC)對(duì)關(guān)鍵算法進(jìn)行硬件加速,再與通用處理器協(xié)同工作的 SoC解決方案[3-4],這種方案在AVS高清市場(chǎng)得到廣泛應(yīng)用,但ASIC靈活性差,研發(fā)周期長(zhǎng),成本高等缺點(diǎn)也不容忽視.應(yīng)用可重構(gòu)技術(shù)來(lái)實(shí)現(xiàn)AVS解碼,具有很大的靈活性,并且達(dá)到了很好的性能,是一種值得探索的新思路.

1 AVS標(biāo)準(zhǔn)概述和Remus平臺(tái)介紹

1.1 AVS 標(biāo)準(zhǔn)概述

圖1所示為AVS視頻解碼的流程.AVS標(biāo)準(zhǔn)采用了與H.264相似的框架,比MPEG-2達(dá)到了更好的壓縮性能.AVS采用了經(jīng)典的多媒體處理算法,包括2D-VLD熵解碼、DCT變換、運(yùn)動(dòng)補(bǔ)償、幀內(nèi)預(yù)測(cè)、環(huán)路濾波,并對(duì)每種算法分別進(jìn)行了優(yōu)化,在壓縮效率略遜于H.264的條件下,大大降低了復(fù)雜度.

1.2 Remus平臺(tái)架構(gòu)介紹

Remus是由863項(xiàng)目可重構(gòu)工作組研發(fā)的基于粗粒度可重構(gòu)技術(shù)的處理平臺(tái).圖2是Remus目前的體系架構(gòu),其主要功能模塊包括,可重構(gòu)處理器核RPU0(reconfigurable processing unit)和RPU1、主控ARM7、微處理器陣列uPA、熵解碼模塊EnD(entropy decoder)以及其他輔助模塊和總線.可重構(gòu)處理器的最大優(yōu)勢(shì)體現(xiàn)在大量規(guī)則運(yùn)算,尤其是循環(huán)運(yùn)算.因此,在運(yùn)算復(fù)雜度極高的多媒體處理領(lǐng)域,可重構(gòu)處理器有巨大的潛在應(yīng)用市場(chǎng).

圖1 AVS視頻解碼流程Fig.1 Decoding flow of AVS standard(video)

圖2 Remus架構(gòu)Fig.2 The architecture of Remus

1.2.1 可重構(gòu)陣列結(jié)構(gòu)

可重構(gòu)處理器核RPU高并行度的運(yùn)算能力,主要是由其內(nèi)部的運(yùn)算陣列實(shí)現(xiàn)的,每個(gè)RPU包含4個(gè)8×8規(guī)模的處理陣列PEA(processing element array),PEA是RPU完成一個(gè)算法所需的最小功能模塊.每個(gè)PEA的結(jié)構(gòu)如圖3所示.

除了用來(lái)實(shí)現(xiàn)運(yùn)算功能的8行8列的運(yùn)算陣列,每個(gè)PEA8×8中還包括一個(gè)與64個(gè)PE處理單元相對(duì)應(yīng)的臨時(shí)寄存器陣列Temp_reg8×8,用來(lái)暫存一些中間結(jié)果,輔助提高運(yùn)算陣列的并行性.可重構(gòu)陣列以行為基本單位,每行的PE單元在同一周期得到結(jié)果,在下一周期將得到的結(jié)果送至下一行PE.

圖3 PEA8×8的結(jié)構(gòu)Fig.3 The architecture of PEA8 ×8

1.2.2 陣列中的處理單元PE

運(yùn)算陣列中的每個(gè)PE單元以通用處理器中的ALU結(jié)構(gòu)為基礎(chǔ),添加一些邏輯運(yùn)算,關(guān)系運(yùn)算等使其功能更完備.如圖4所示.輸出寄存器用于存放運(yùn)算結(jié)果,臨時(shí)寄存器用于存放中間數(shù)據(jù).運(yùn)算單元的輸入、輸出和算子都是可配的,臨時(shí)寄存器的輸入和輸出也是可配的.運(yùn)算單元和臨時(shí)寄存器單元的輸入可來(lái)自輸入FIFO,常數(shù)寄存器,上一行PE的結(jié)果,輸出可傳到下一行PE繼續(xù)運(yùn)算,也可送至輸出FIFO進(jìn)行輸出,表示運(yùn)算結(jié)束.

圖4 PE單元的結(jié)構(gòu)Fig.4 The architecture of PE

1.2.3 處理器RPU的工作模式

用來(lái)配置PE陣列完成一個(gè)特定算法的文件稱為配置文件(context),在一個(gè)任務(wù)執(zhí)行之前,執(zhí)行該任務(wù)所需的配置文件會(huì)預(yù)先存儲(chǔ)在內(nèi)部存儲(chǔ)器GCCM(global core context memory)中,所需的常數(shù)會(huì)從常數(shù)存儲(chǔ)器CM(constant memory)中載入2個(gè)常數(shù)寄存器,這些常數(shù)可被配置為運(yùn)算單元的輸入.在任務(wù)的執(zhí)行過(guò)程中,RPU會(huì)根據(jù)為控制陣列uPA的配置字,通過(guò)配置接口CI(context interface)動(dòng)態(tài)調(diào)度存儲(chǔ)器中的配置信息,來(lái)完成一個(gè)個(gè)子算法,從而完成整個(gè)任務(wù).

2 處理器核RPU上的算法映射

可重構(gòu)技術(shù)在大量規(guī)整運(yùn)算中特別是循環(huán)運(yùn)算中,顯示了的強(qiáng)大優(yōu)勢(shì).在AVS解碼過(guò)程中,逆離散余弦變換(IDCT)、運(yùn)動(dòng)補(bǔ)償(MC)、幀內(nèi)預(yù)測(cè)、環(huán)路濾波這幾種算法的運(yùn)算量,占到整個(gè)解碼過(guò)程的80%以上.把這幾種算法映射到RPU上,將會(huì)顯著提高解碼性能.

2.1 IDCT

IDCT是能充分發(fā)揮可重構(gòu)陣列優(yōu)勢(shì)的一種最典型的算法.AVS采用8×8大小的IDCT變換,通過(guò)行變換和列變換,將編碼產(chǎn)生的殘差從頻域重新變?yōu)榭沼蛐畔ⅲ?].圖5是根據(jù)IDCT行變換算法抽象出來(lái)的數(shù)據(jù)流圖(DFG).DFG圖是算法到運(yùn)算陣列映射的一種清晰明了的表示方法,根據(jù)算法的DFG圖很容易得到相應(yīng)的配置信息.

圖5 IDCT的DFG圖Fig.5 DFG of IDCT

圖5中的數(shù)組a表示8×8塊頻域數(shù)據(jù)的一行,數(shù)組b表示行變換的結(jié)果.在陣列運(yùn)算的第1個(gè)周期,a[1]、a[7]、a[3]和 a[5]從輸入FIFO 進(jìn)入陣列參與運(yùn)算;第2個(gè)周期,第1行PE單元的運(yùn)算結(jié)果到達(dá)第2行PE,參與第2行PE單元的運(yùn)算,同時(shí),a[2]、a[6]進(jìn)入PE陣列第2行其余空閑 PE 單元;第3個(gè)周期,第3行PE接受第2行的結(jié)果繼續(xù)運(yùn)算,a[0]和 a[4]進(jìn)入陣列;從第 4 個(gè)周期開(kāi)始,PE單元的輸入都來(lái)自上一行PE單元或常數(shù)寄存器,直到第8個(gè)時(shí)鐘周期,8×8塊中一行數(shù)據(jù)的行變換結(jié)束,到達(dá)輸出FIFO.列變換可采用與行變換相同的DFG圖,只需載入不同的常數(shù).

事實(shí)上,在第1個(gè)周期即可把輸入數(shù)據(jù)a[2]、a[6]、a[0]和 a[4]存入臨時(shí)寄存器陣列,于是從第2周期開(kāi)始,參加運(yùn)算的數(shù)據(jù)都可來(lái)自上一行PE的結(jié)果.這樣做的好處是,在8×8塊的第1行數(shù)據(jù)運(yùn)算到第2周期的時(shí)候,即可把塊中第2行數(shù)據(jù)導(dǎo)入陣列開(kāi)始運(yùn)算,而不造成行與行之間相互干擾.這樣,算法中8次循環(huán)運(yùn)算,就轉(zhuǎn)化成了陣列中的八級(jí)流水處理,流水線之間間隔一個(gè)周期.完成一個(gè)塊的行變換所需的運(yùn)算時(shí)間為16個(gè)周期(8+8).這樣的高并行度運(yùn)算甚至比ASIC性能更高[5].

2.2 運(yùn)動(dòng)補(bǔ)償(MC)

運(yùn)動(dòng)補(bǔ)償是把參考?jí)K的數(shù)據(jù)進(jìn)行插值濾波,得到當(dāng)前塊的預(yù)測(cè)值,運(yùn)算量占到AVS視頻解碼的50%以上.圖6中大寫字母表示整像素點(diǎn),整像素之間是分像素點(diǎn),AVS亮度預(yù)測(cè)采用1/4預(yù)測(cè)精度,因而共有16種位置.樣點(diǎn)位置不同,插值的規(guī)則也不同:整數(shù)像素?zé)o需插值;1/2像素采用四抽頭濾波器F1(-1,5,5,-1)對(duì)距其最近的4個(gè)整數(shù)像素點(diǎn)進(jìn)行插值,1/4像素點(diǎn)采用四抽頭濾波器 F2(1,7,7,1)對(duì)距其最近的1/2像素點(diǎn)插值.色度像素預(yù)測(cè)精度是1/8,采用雙線性插值.

一個(gè)8×8塊的MC,通常由一個(gè)大于8×8的參考?jí)K插值得到.以圖6中亮度分量的1/2像素點(diǎn)b為例,其插值過(guò)程由以下2個(gè)公式完成:

完成此位置的一個(gè)8×8塊需要一個(gè)8×11的參考?jí)K.圖7為以像素點(diǎn)b為代表的8×8塊一行像素插值的DFG圖.同樣,第1周期所需的數(shù)據(jù)全部進(jìn)入陣列,第2周期開(kāi)始下一行,形成高效流水.完成這樣一個(gè)8×8塊的插值運(yùn)算,只需要14個(gè)周期.

圖6 樣點(diǎn)的不同位置Fig.6 Different positions of pixels

單從以上的例子來(lái)看,基于可重構(gòu)的MC比現(xiàn)有的提出的方法性能提高數(shù)倍之多[3-4,8-10].然而,這只是一種最簡(jiǎn)單的情況,根據(jù)像素點(diǎn)的位置不同,插值的復(fù)雜度上升,給陣列運(yùn)算也帶來(lái)一定的挑戰(zhàn).例如圖6中像素點(diǎn)i所在的8×8塊的插值運(yùn)算,需要一個(gè)11×12的參考?jí)K.這樣的一個(gè)塊在陣列中完成插值需要以下過(guò)程:

1)把參考?jí)K轉(zhuǎn)置,以便步驟2)的流水順利進(jìn)行;

2)對(duì)整數(shù)樣點(diǎn) A、D、H、K用F1插值濾波,得到1/2樣點(diǎn)h及相應(yīng)位置的像素;

3)將步驟(2)得到的結(jié)果轉(zhuǎn)置,以使步驟(4)順利進(jìn)行;

4)將步驟對(duì)bb、h、m、cc用 F1插值濾波,得到 j及與其位置相應(yīng)的像素;

5)對(duì) gg、h、j、m 用 F2濾波插值得到 i.

步驟2)、4)、5)均采取與圖7相似的DFG圖.而轉(zhuǎn)置用陣列的直通和輸入輸出地址配置實(shí)現(xiàn).在這種情況下,完成一個(gè)塊的插值將需要5套配置信息順次執(zhí)行,加上數(shù)據(jù)在輸出和輸入FIFO之間傳輸需要的時(shí)間,對(duì)于這個(gè)位置的樣點(diǎn),從第1次進(jìn)入陣列運(yùn)算,到完成一個(gè)8×8塊的插值,需要至少113個(gè)周期,而在雙向預(yù)測(cè)并且前后向都是這個(gè)位置的像素點(diǎn)時(shí),完成一個(gè)8×8塊的運(yùn)動(dòng)補(bǔ)償則需要至少236個(gè)周期.

可見(jiàn),同ASIC實(shí)現(xiàn)相類似,在視頻解碼中運(yùn)算量最大的MC仍然是影響性能的關(guān)鍵.不同的是,ASIC實(shí)現(xiàn)中,各個(gè)位置的像素點(diǎn)插值所需的時(shí)鐘周期相差不大,而在可重構(gòu)處理器中,不同位置的像素點(diǎn),根據(jù)其運(yùn)算復(fù)雜度,實(shí)現(xiàn)性能也有著顯著的差別.但是即使在最壞的情況下,可重構(gòu)實(shí)現(xiàn)的MC性能仍與ASIC實(shí)現(xiàn)相當(dāng).而對(duì)于部分碼流,平均性能甚至超過(guò)ASIC實(shí)現(xiàn).

圖7 像素點(diǎn)b插值的DFG圖Fig.7 The interpolation DFG of sampleb

2.3 幀內(nèi)預(yù)測(cè)

AVS幀內(nèi)預(yù)測(cè)以8×8塊為單位進(jìn)行[1].由于幀內(nèi)預(yù)測(cè)模式較多,并且根據(jù)宏塊和塊的位置不同,預(yù)測(cè)所采用的像素也不同,從而導(dǎo)致分支較多[11].但是具體到每個(gè)分支,運(yùn)算量并不大.圖8是DC預(yù)測(cè)模式下的一個(gè)DFG圖,它表示只有8×8塊左邊像素可用而上邊像素不可用時(shí),根據(jù)左邊像素c[1]~ c[8]和左下角像素的可用性(left_down_valid)得到8×8塊預(yù)測(cè)值的過(guò)程.

圖中前4個(gè)周期是對(duì)塊左邊的像素進(jìn)行濾波,后4個(gè)周期里利用運(yùn)算單元的直通運(yùn)算和寄存器陣列將前面的濾波結(jié)果復(fù)制成8行8列的塊.整個(gè)8×8塊預(yù)測(cè)的運(yùn)算時(shí)間是7個(gè)周期,是一種非常高效的預(yù)測(cè)方式.

因此,在幀內(nèi)預(yù)測(cè)時(shí),可以將每個(gè)分支抽象出來(lái)作為一個(gè)子算法進(jìn)行映射,而由微控制陣列uPA來(lái)承擔(dān)控制任務(wù),根據(jù)不同的分支指定RPU分別執(zhí)行不同情況下的子算法.子算法劃分越細(xì),RPU執(zhí)行效率越高.

圖8 DC預(yù)測(cè)其中一種情況的DFG圖Fig.8 DFG of DC-prediction on a given situation

2.4 環(huán)路濾波

環(huán)路濾波是為了去除編碼時(shí)產(chǎn)生的塊效應(yīng),運(yùn)算復(fù)雜度和控制復(fù)雜度都相對(duì)較高[12],并不是一個(gè)典型的適合可重構(gòu)陣列的算法,然而可重構(gòu)陣列支持的一些邏輯運(yùn)算,可以通過(guò)算法優(yōu)化,將控制分支設(shè)法用邏輯運(yùn)算的方式來(lái)實(shí)現(xiàn).圖9是邊界強(qiáng)度為2時(shí)的亮度塊邊界濾波的DFG圖,以此為例來(lái)說(shuō)明這種映射過(guò)程.

圖9中的算子comp?A:B表示:如果正上方的PE輸出結(jié)果不為0則當(dāng)前PE結(jié)果為A,否則結(jié)果為B.這個(gè)算子與關(guān)系運(yùn)算相結(jié)合,很好的解決了陣列不擅長(zhǎng)的選擇分支運(yùn)算,使得陣列靈活性更好.6個(gè)周期完成邊界兩邊6個(gè)像素的濾波,在高效流水情況下完成一條8×8塊的垂直邊的濾波需要14個(gè)周期.水平邊則要加上使流水線順利進(jìn)行的轉(zhuǎn)置運(yùn)算,復(fù)雜度相對(duì)較高,即使這樣,仍取得了相當(dāng)高的性能.

圖9 環(huán)路濾波(bs=2)DFG圖Fig.9 DFG of deblocking(bs=2)

3 解碼過(guò)程的并行化設(shè)計(jì)

在AVS解碼流程中,除了可在RPU上執(zhí)行的運(yùn)算密集型的算法,還有部分控制密集型的算法,主要集中在熵解碼,在Remus系統(tǒng)中熵解碼的任務(wù)由EnD模塊來(lái)承擔(dān).微控制器陣列uPA則承擔(dān)著配置RPU,指定其執(zhí)行的具體配置信息的任務(wù).

3.1 解碼流程

系統(tǒng)在主控ARM7的控制下開(kāi)始解碼,熵解碼模塊EnD根據(jù)ARM7指定的碼流地址,通過(guò)EMI從外部的存儲(chǔ)器中讀取碼流進(jìn)行序列參數(shù)集和圖像參數(shù)集的解析,并由ARM7讀取解析值.

在圖像參數(shù)解析完畢之后,由EnD、uPA和RPU進(jìn)行宏塊級(jí)的解碼.EnD進(jìn)行熵解碼并將結(jié)果以宏塊為單位進(jìn)行組織,每個(gè)宏塊的信息分成兩部分,一部分是殘差信息,放入存儲(chǔ)器,另一部分是宏塊預(yù)測(cè)信息,送到微控制器陣列uPA,再由uPA解析得到的宏塊預(yù)測(cè)信息,對(duì)RPU進(jìn)行相應(yīng)的配置,而RPU0和RPU1則在uPA的配置下,完成以下工作:

1)從存儲(chǔ)器中讀取殘差數(shù)據(jù),進(jìn)行IDCT;

2)從存儲(chǔ)器中讀取參考像素,進(jìn)行幀內(nèi)預(yù)測(cè),或者幀間預(yù)測(cè);

3)將預(yù)測(cè)結(jié)果和殘差相加進(jìn)行重建;

4)對(duì)重建結(jié)果進(jìn)行環(huán)路濾波,并將結(jié)果送出.

圖10是EnD、uPA、RPU0和RPU1進(jìn)行宏塊級(jí)流水處理的示意圖,其中RPU0用來(lái)處理亮度數(shù)據(jù)而RPU1處理色度數(shù)據(jù).

圖10 宏塊級(jí)流水示意Fig.10 Stream line of MB

3.2 陣列運(yùn)算的并行化設(shè)計(jì)

在宏塊解碼的過(guò)程中,由于算法之間和宏塊之間的數(shù)據(jù)依賴性,因此在RPU中各個(gè)陣列的運(yùn)算需要有一定的同步控制.

圖11是RPU0和RPU1分別在解碼幀內(nèi)和幀間預(yù)測(cè)的宏塊時(shí),PE陣列并行示意圖.MB0和MB1分別為幀內(nèi)和幀間預(yù)測(cè)的宏塊.對(duì)于亮度塊來(lái)說(shuō),幀內(nèi)預(yù)測(cè)時(shí)后面的塊要用到前面塊的重建結(jié)果,只能順序執(zhí)行4個(gè)塊的幀內(nèi)預(yù)測(cè)和重建,由RPU0中第1個(gè)陣列PEA0來(lái)執(zhí)行這個(gè)過(guò)程,其余3個(gè)陣列空閑,4個(gè)塊全部重建之后,再由4個(gè)陣列分別完成4個(gè)塊的邊界濾波.而幀間預(yù)測(cè)時(shí),4個(gè)亮度塊可以獨(dú)立讀取各自的參考數(shù)據(jù)并且獨(dú)立進(jìn)行插值運(yùn)算,這時(shí)RPU0中的4個(gè)PEA可并行完成4個(gè)亮度塊的IDCT,插值,重建和邊界濾波.可見(jiàn)幀間預(yù)測(cè)時(shí)亮度塊解碼的并行度更高.雖然幀內(nèi)預(yù)測(cè)并行度比較低,但是每個(gè)塊進(jìn)行幀內(nèi)預(yù)測(cè)時(shí)的運(yùn)算量都不大,因而不會(huì)成為性能的瓶頸.

假設(shè)碼流色度模式4:2:0,對(duì)于2個(gè)色度塊,不存在數(shù)據(jù)依賴性,可由RPU1中的2個(gè)陣列完成IDCT,另外2個(gè)陣列同時(shí)進(jìn)行預(yù)測(cè),結(jié)束之后再相加重建,最后由2個(gè)陣列分別完成2個(gè)塊的邊界濾波.色度運(yùn)算量要比亮度小,因而亮度塊的解碼是影響性能的關(guān)鍵.

圖11 RPU并行化運(yùn)算Fig.11 Parallel execution of RPU

4 仿真結(jié)果和性能統(tǒng)計(jì)

本文分析了理想狀態(tài)下數(shù)據(jù)在進(jìn)入陣列后的運(yùn)算周期數(shù),但是綜合考慮外部數(shù)據(jù)存取時(shí)間和內(nèi)部數(shù)據(jù)傳輸時(shí)間以及配置信息載入時(shí)間,實(shí)際情況會(huì)比理想情況有所下降.另外,對(duì)于不同的宏塊,解碼所需的周期數(shù)會(huì)有比較大的差異,特別是對(duì)于幀間預(yù)測(cè)的宏塊,因而,可重構(gòu)系統(tǒng)解碼的性能應(yīng)以碼流中各種宏塊解碼的平均性能為主要依據(jù).

目前已有的基于可重構(gòu)系統(tǒng)的AVS解碼方案還很少,因而選取一些ASIC實(shí)現(xiàn)方案作為比較.表1為可重構(gòu)方案在各個(gè)算法中的性能統(tǒng)計(jì),以及文獻(xiàn)[4]方案的性能.文獻(xiàn)中的高清解碼系統(tǒng)是將幾種算法作流水處理,因而降低了對(duì)每種算法實(shí)現(xiàn)的性能要求,而可重構(gòu)系統(tǒng)的并行處理,對(duì)每種算法有更高的加速比.

通過(guò)對(duì)foreman等20個(gè)經(jīng)典碼流的仿真測(cè)試,在200 MHz的工作頻率下,可重構(gòu)系統(tǒng)解碼1080 p的高清碼流可達(dá)30 f/s的實(shí)時(shí)效果,圖像清晰穩(wěn)定.圖12(a)和(b)分別為VCS仿真結(jié)果中I幀和B幀具有典型代表性的一段,時(shí)鐘周期為20 ns,基本每個(gè)宏塊均可以在766個(gè)周期以內(nèi)解碼完畢.

表1 RPU中各種算法性能及與文獻(xiàn)[4]的比較Table 1 Performance of the algorithm s in RPU and the com parison with referenne literature[4]

圖12 仿真結(jié)果截圖Fig.12 Simulation results

5 結(jié)束語(yǔ)

可重構(gòu)系統(tǒng)保持了很好的通用性,若要實(shí)現(xiàn)其他視頻標(biāo)準(zhǔn),不需更換硬件,只需改變配置信息和控制軟件即可.根據(jù)算法映射分析可以看出,可重構(gòu)技術(shù)在大量規(guī)整的運(yùn)算中確實(shí)有顯著的優(yōu)勢(shì),而仿真結(jié)果也表明可重構(gòu)系統(tǒng)在保持通用性的情況下,可以達(dá)到與ASIC相匹敵的性能.

同時(shí),可重構(gòu)作為一種前沿技術(shù),還有很大研發(fā)空間.進(jìn)一步加強(qiáng)其靈活性,可使其在ASIC和通用處理器之間取得更好的平衡,在多媒體處理領(lǐng)域,發(fā)揮更大的潛力.

[1]高文,黃鐵軍,吳楓,等.GB/T 20090.2-2006,AVS workgroup.information technology-advanced audio video coding standard,part2:video[S].中國(guó)標(biāo)準(zhǔn)出版社,2006.

[2]GAMESAN M K A,SINGH S,MAY F,et al.H.264 decoder at HD resolution on a coarse grain dynamically reconfigurable architecture[C]//International Conference in Field Programmable Logic and Applications.2007,[s.l.],2007:467-471.

[3]LIU Wei.A Soc design for AVS video decoding[C] //IEEE Pacific-Asia Workshop on Computational Intelligence and Industrial Application.[s.l.],2008:700-703.

[4]JIA H,ZHANG P,WEN Gao.An AVS HDTV video decoder architecture employing efficient HW/SW partitioning[J].IEEE Transactions on Consumer Electronics,2006,52(4):1447-1453.

[5]SINGH H.Morphosys:an integrated reconfigurable system for data-parallel and computation-intensive applications[J].IEEE Trans Computers,2000,49(5):465-481.

[6]BEREKVICM.Mapping of video compression algorithms on the ADRES coarse-grain reconfigurable array[C] //MSP7 Workshop on Multimedia and Stream Processors.Barcelona,2005:47-52.

[7]XPP-IIIprocessor overview white paper[EB/OL].[2007-09-03].http:∥www.pactxpp.com.

[8]ZHENG JH,DENG L,ZHANG P,et al.An efficient VLSIarchitecture for motion compensation of AVS HDTV decoder[J].Journal of Computer Science and Technology,2006,21:370-377.

[9]WAN Yi,LU Yu.Highly parallel implementation of subpixel interpolation for AVSHD decoder[J].Journal of Zhejiang University:Science A,2008,9(12):1638-1643.

[10]黃玄,陳杰,李霞,等.AVS高清視頻幀間補(bǔ)償結(jié)構(gòu)與電路實(shí)現(xiàn)[J].電子科技大學(xué)學(xué)報(bào),2009,38(2):202-206.HUANG Xuan,CHEN Jie,LI Xia,et al.Architecture and VLSI implementation of inter compensator for AVS HDTV application[J].Journal of University of Electronic Science and Technology,2009,38(2):202-206.

[11]WANG Zheng,LIU Peilin.Analysis of AVS intra-prediction technology and its implementation by hardware[J].Computer Engineering and Applications,2006,42(19):80-83.

[12]CHIEN Chengan,CHANG Hsiucheng,GUO Jiunin.A high throughput deblocking filter design supporting multiple video coding standards[C]//IEEE International Symposium on Digital Object Identifier 2009.[s.l.],2009:2377-2380.

猜你喜歡
宏塊像素點(diǎn)解碼
《解碼萬(wàn)噸站》
基于局部相似性的特征匹配篩選算法
解碼eUCP2.0
NAD C368解碼/放大器一體機(jī)
Quad(國(guó)都)Vena解碼/放大器一體機(jī)
基于5×5鄰域像素點(diǎn)相關(guān)性的劃痕修復(fù)算法
基于canvas的前端數(shù)據(jù)加密
基于逐像素點(diǎn)深度卷積網(wǎng)絡(luò)分割模型的上皮和間質(zhì)組織分割
基于選擇特征宏塊的快速視頻穩(wěn)像
基于宏塊合并的H.264模式選擇算法