雷 紅,韓建文
(瓊州學(xué)院,海南 三亞 572022)
人類與生俱來就擁有高水平的信號處理能力,可以對從外界接收到的各種信息進行加工處理,從而達到正確表達的目的。通過聽覺和視覺識別語音和圖像信號是人類接收信息的主要方式,而語音和圖像信號的處理也是人類智能的主要特點。現(xiàn)代信息技術(shù)快速發(fā)展,作為其三大基礎(chǔ)技術(shù)之一的信號處理技術(shù)日益受到眾多專家學(xué)者的重視。信號處理技術(shù)主要就是計算機技術(shù),它是信息技術(shù)系統(tǒng)的大腦,沒有大腦對信號進行處理,就不可能形成反應(yīng)迅速、精確的信息控制系統(tǒng)。因此,國內(nèi)外的許多研究課題都熱衷于各種信號的處理技術(shù),信號處理技術(shù)已經(jīng)在很多領(lǐng)域有了有效的利用,其自身也產(chǎn)生了許多分支,語音信號處理和圖像信號處理就是其中較為熱門的方面。本文就是對這兩者的幾個方面進行簡單的分析比較。
人類的肺部排出的空氣產(chǎn)生氣流,激勵不同區(qū)域的聲道,經(jīng)由聲道、喉、嘴組成的發(fā)生器官產(chǎn)生語音,形成各種各樣的聲音。音素是組成語音的基本單位,語音規(guī)則控制著音素之間的排列方式,語音信號就是由音素及其之間的過渡組成的,是指攜帶著有關(guān)信息的語音聲波。語音信號分為電信號和光信號,分別是由“聲-電”轉(zhuǎn)換和“聲-光”轉(zhuǎn)換得到的。語音信號一般采用參數(shù)表示和波形表示來進行離散表示,參數(shù)表示是指在對語音進行采樣及量化后,對其進行更深層的處理從而得到該語音模型的各類參數(shù),語音信號就用這些參數(shù)來表示,參數(shù)一般分為聲道參數(shù)和激勵參數(shù)兩大類。波形表示則相對簡單,就是經(jīng)過采樣和量化之后保存的模擬信號。
圖像信號是指通過攝像管和它的相關(guān)電路將需要傳送的、明暗不同的圖像分解成的相對應(yīng)的強弱程度不同的電壓或電流。而在圖像信號傳送同時為了保證收發(fā)端同步以及只在掃描正程傳送圖像信號,必須加入由攝像機或同步機產(chǎn)生的行場消隱信號和同步信號。[1]行場消隱脈沖的作用是截止回掃時的電子束,行同步脈沖的作用是嚴格保證收發(fā)端同步掃描,這些脈沖信號和圖像分解成的電流或電壓一起組成系統(tǒng)需要處理的圖像信號。
語音和圖像各有其明顯的特征。首先,語音信號為時變信號,是非平穩(wěn)型的,但在極短的時間內(nèi)又具有平穩(wěn)的特點。語音能夠分為濁音和清音兩類,濁音的語音信號具有明顯的時域周期和共振峰結(jié)構(gòu)頻域,在低頻段有大部分能量集中,可以很容易使用濾波器提取,而清音沒有時域周期和頻域特征,與噪音很難區(qū)分。而圖像信號是二維信號,是反映光線強度的,信息量大,特征也明顯。無論是黑白二值圖像,還是彩色圖像或亮灰級灰度圖像,其頻譜都介于一定范圍內(nèi),幅度通常為非負有限值。圖像信息的高頻部分是決定圖像細節(jié)和邊緣的內(nèi)容,低頻部分則是圖像形狀、亮度的決定區(qū)域。語音和圖像信號的異同點主要表現(xiàn)在:第一,來源與歸宿。圖像是世界上客觀景物轉(zhuǎn)換而來,語音則是人類發(fā)聲系統(tǒng)產(chǎn)生的,但它們都可以通過人工合成;語音由人類聽覺接收,圖像則由視覺,但都要經(jīng)過大腦處理。第二,維度。圖像是二維信號,語音則是一維的,但它們都可以用相應(yīng)的轉(zhuǎn)換域或頻率域表示。第三,信號帶寬。圖像信號帶寬可達到6.5MHz,語音信號帶寬只能介于10Hz-20kHz之間,兩者數(shù)字化后的數(shù)據(jù)量相差極大。第四,相關(guān)感覺機制。語音信號的產(chǎn)生接收涉及人的發(fā)音機制及聽覺機制,圖像信號只與視覺有關(guān),但兩者都可以建立信源模型和信宿模型。第五,信號冗余類型。語音信號的主要冗余為樣本間相關(guān)性、濁音段周期性、有限聲道形狀變化速率、靜止系數(shù)、共振峰及不均勻的傳輸碼分布概率。圖像信號冗余主要來源于內(nèi)部相似性數(shù)據(jù)、內(nèi)部結(jié)構(gòu)特點、不均勻分布得代碼符號概率及自相似性的圖像結(jié)構(gòu)等等。
作為使用得最為頻繁的兩種信息形式,圖像和語音比起圖表、數(shù)據(jù)、文本等信息更加生動形象,內(nèi)容頁更為豐富。語音和圖像具有明顯的差別,它們的編碼、加密一般是分開進行的。
一般說來,語音編碼即是語音壓縮處理,語音編碼分為三種,即參數(shù)編碼、波形編碼及混合編碼。[2]參數(shù)編碼,其壓縮信號的方法是借助人類發(fā)音系統(tǒng)特性來實現(xiàn)的,就是建立一個語音信號特定聲學(xué)模型,提取和編碼模型的各種參數(shù),盡可能使重建語音信號的可懂度和自然度達到最高水平。波形編碼,它的壓縮處理方式比較簡單,就是把語音信號看作波形信號進行處理,要盡可能保持重建語音與原語音在波形形狀上保持一致?;旌暇幋a顧名思義,即是將上述兩種編碼方式結(jié)合在一起,在使用波形編碼的同時使用參數(shù)編碼,擁有波形編碼的高質(zhì)量和參數(shù)編碼的高速率雙重優(yōu)點。而圖像編碼經(jīng)過幾十年的發(fā)展,涌現(xiàn)了很多的編碼技術(shù)種類,如PCM、矢量編碼、運動補償?shù)腄PCMDCT混合編碼、分行編碼、區(qū)域基編碼、知識基編碼以及物理基編碼等等,其中前三種編碼方式是屬于波形編碼范疇的,而分行編碼與參數(shù)編碼類似,而后面三種編碼方法則屬于新型的編碼技術(shù)了。語音編碼和圖像編碼有許多通用編碼技術(shù),如變換編碼、子帶編碼、預(yù)測編碼等等,兩者的編碼方式都可以大致分為模型基編碼、波形基編碼和混合編碼三類,且兩者編碼環(huán)節(jié)都是從預(yù)處理到核心編碼模塊,再到熵編碼,過程大致相同。
網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的快速發(fā)展,加速了數(shù)字圖像在政治、軍事、經(jīng)濟等眾多領(lǐng)域的發(fā)展,促使圖像數(shù)據(jù)安全成為信息安全的重點課題。許多用于加密圖像的專門方法不斷被提出,以加密圖像信號中有無圖像壓縮來分類,圖像加密可以分為有圖像壓縮的加密、無圖像壓縮的加密和壓縮圖像的部分加密三種方法。[3]圖像信號可以利用置亂圖像的相位譜、置亂圖像編碼數(shù)據(jù)等技術(shù)進行加密。語音信號加密的方法在很早之前就有研究,在通信中具有極其重要的作用。根據(jù)不同的語音信號處理方式,加密方法分為數(shù)字語音加密及模擬語音加密兩種,加密技術(shù)有時域置亂、頻域置亂、二維置亂、振幅置亂技術(shù)。圖像信號與語音信號的加密方法在模式上有很多區(qū)別,比如置亂內(nèi)容不同,置亂模式不同,但很多技術(shù)在加密圖像信號和語音信號上是通用的,比如盲源分離技術(shù)、小波變換技術(shù),信號加密的基本原理也相通,都是利用置亂及遮掩等手段實現(xiàn)的。
總之,人類的信息處理模式具有十分重要的研究價值,如果可以從大腦計算的理論和方法上突破,研究其處理信息的機理,就可以實現(xiàn)計算機模擬人類大腦的功能。而圖像和語音的信號處理技術(shù),即是這項研究的重點所在,對它們的處理模式和處理方法等進行比較,旨在找出這兩者的異同點,從而更有針對性地對其進行研究發(fā)展,通過各種處理系統(tǒng)的合理設(shè)計,使這兩者的處理途徑和處理模式有效地配合,開發(fā)出統(tǒng)一進行語音信號和圖像信號處理的系統(tǒng)。這將大大促進人工智能系統(tǒng)的發(fā)展,拓展計算機應(yīng)用范圍,具有非常大的研究價值。
[1]張杰,龍子夜.語音信號處理中基頻提取算法綜述[J].電子科技大學(xué)學(xué)報.2010(S1):13-14
[2]許麗群,馬馳,王睿杰.時頻分析在語音信號處理中的應(yīng)用[J].科學(xué)技術(shù)與工程.2011(21):35-36
[3]唐玲,程建.小波變換在語音信號處理上的應(yīng)用[J].四川理工學(xué)院學(xué)報(自然科學(xué)版).2012(01):7-8
[4]劉金亨.基于小波變換的遙感圖像處理研究[J].重慶大學(xué) .2011(03):56-57
[5]杜廣超,楊凱,王勝濤.語音編碼和圖像編碼比較研究[J].兵工自動化 .2008(07):28-29