石光明,高大化,楊旻曦,謝雪梅,董明皓,李雷達(dá),于 凱
(1.西安電子科技大學(xué)人工智能學(xué)院,陜西西安 710071;2.鵬城實(shí)驗(yàn)室,廣東深圳 518055;3.西安電子科技大學(xué)生命科學(xué)技術(shù)學(xué)院,陜西西安 710071)
憑借著豐富的感官和發(fā)達(dá)的大腦,人類能對(duì)多模態(tài)信號(hào)進(jìn)行處理分析,從而形成生存優(yōu)勢,并在溝通、交流和通信基礎(chǔ)上形成了現(xiàn)代社會(huì),以比特?cái)?shù)據(jù)為基礎(chǔ)的信息處理與通信技術(shù)更是將人類帶入了信息社會(huì).但隨著人工智能技術(shù)的發(fā)展,大量智能體(本文中的智能體是包括人在內(nèi)的智慧性系統(tǒng),如會(huì)決策的機(jī)器人)之間(如人-機(jī)、機(jī)-機(jī)之間)產(chǎn)生了巨大而頻繁的信息傳遞需求,這給以比特?cái)?shù)據(jù)為基礎(chǔ)的信息處理與通信技術(shù)帶來了巨大挑戰(zhàn).以視頻通信為例,使用目前最新的視頻編碼方法H265傳輸單路4K/30幀的視頻就需要40 Mbps的帶寬,使用5G的終端設(shè)備仍然無法同時(shí)傳輸幾十路視頻以滿足大型線上會(huì)議場景下的交互需求.因此,探尋并建立一套突破比特?cái)?shù)據(jù)局限的新型信息處理技術(shù)具有時(shí)代意義.其中,如何找到一種更高效、更自然的信息表達(dá)方法是開展新型信息處理技術(shù)研究的基礎(chǔ).
通常,人類處理和傳遞信息時(shí)并不是以精準(zhǔn)傳遞數(shù)據(jù)信號(hào)為主,而是以傳遞語義(語言中包含的意思)為首要目的,這對(duì)智能體而言相當(dāng)高效和自然.事實(shí)上,從遠(yuǎn)古至今,人類近距離交互一直使用的是聲波.盡管聲波帶寬有限,但相比遠(yuǎn)古人類之間交流、處理的信息量,現(xiàn)代人類之間交流的信息量多了很多,而交流所用的聲波帶寬資源并沒有增加,增加的是人類對(duì)語義的表達(dá)與理解能力.近年來,國內(nèi)外學(xué)者已經(jīng)對(duì)語義在信息處理和通信中的應(yīng)用展開了大量的研究.在人工智能領(lǐng)域,直接從信號(hào)中提取所需信息的過程被稱為語義識(shí)別.對(duì)以語言文字為代表的離散符號(hào)所承載的語義的研究主要分為兩類:(1)借鑒自然語言的語法規(guī)則,構(gòu)建描述語義的離散符號(hào)系統(tǒng).該思路下的早期工作是由文獻(xiàn)[1]首先提出的框架邏輯.隨后Baader等人提出了更為完善且更適合計(jì)算機(jī)處理的描述邏輯[2].近年來,隨著數(shù)據(jù)和算力的發(fā)展,基于知識(shí)圖譜[3]、事理圖譜[4]等靈活的離散圖數(shù)據(jù)結(jié)構(gòu)的語義存儲(chǔ)方法和基于圖神經(jīng)網(wǎng)絡(luò)[5,6]的數(shù)據(jù)挖掘方法被廣泛應(yīng)用于學(xué)界和業(yè)界;(2)基于語料數(shù)據(jù),構(gòu)建反映語言規(guī)則的語言模型.在早期,學(xué)界主要使用條件隨機(jī)場[7]、貝葉斯網(wǎng)絡(luò)[8]等概率模型對(duì)語言進(jìn)行建模.隨著深度學(xué)習(xí)的發(fā)展,從早期的句子順序建模[9,10]到詞語嵌入式表示[11],到基于注意力的大型跨任務(wù)模型[12,13],越來越多的基于深度模型的語言模型被提出,并逐漸成為離散語義研究的主流方法.而對(duì)以圖像為代表的連續(xù)信號(hào)所承載的語義研究主要分為三類:(1)建立信號(hào)和語義概念的直接映射.Lowe提出一種設(shè)計(jì)語義不變性的模板,并通過模板匹配進(jìn)行圖像識(shí)別方法[14].Pedro等人在文獻(xiàn)[15]中提出利用深度模型識(shí)別出的圖像中語義概念明確的部件,進(jìn)而綜合得到整體目標(biāo)的檢測結(jié)果.Koh等人在文獻(xiàn)[16]中提出一種先使用深度模型預(yù)測圖像中包含的語義概念,再由分類器做出判斷的可解釋圖像分類方法.(2)融合離散符號(hào)表示的語義先驗(yàn).Lu等人提出了一種結(jié)合人類語言先驗(yàn)的視覺關(guān)系檢測方法[17].該方法用深度神經(jīng)網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)得到的圖像特征和詞向量表示的人類語言先驗(yàn)知識(shí)融合,實(shí)現(xiàn)了對(duì)圖像中物體之間的關(guān)系的檢測.Wang等人通過語義嵌入和知識(shí)圖譜實(shí)現(xiàn)了零樣本識(shí)別[18].該方法利用圖卷積神經(jīng)網(wǎng)絡(luò),將知識(shí)圖譜表示的圖像類別知識(shí)映射到語義空間.然后融合圖像特征和語義向量,實(shí)現(xiàn)對(duì)訓(xùn)練時(shí)沒有見過的類別的圖像進(jìn)行識(shí)別.(3)分析數(shù)據(jù)在表征空間中的分布.Caron等人在文獻(xiàn)[19]中提出了一種通過在表征空間上進(jìn)行數(shù)據(jù)聚類實(shí)現(xiàn)無監(jiān)督圖像分類的方法.Li等人在文獻(xiàn)[20]中基于數(shù)據(jù)在表征空間上的聚類中心,為每個(gè)類別構(gòu)建多個(gè)原型,再將待測數(shù)據(jù)和原型匹配得到分類結(jié)果.
然而,不論是傳統(tǒng)機(jī)器學(xué)習(xí)方法還是深度學(xué)習(xí)方法,由于語義似乎只可意會(huì)不可言傳,雖然學(xué)者們在研究中大量涉及了語義及其應(yīng)用,但并沒有從物理和數(shù)學(xué)等方面對(duì)語義進(jìn)行刻畫、表達(dá)、度量和計(jì)算,導(dǎo)致其無法兼顧可解釋性和泛化性,這是造成當(dāng)今的信息處理與通信技術(shù)是非語義模式的重要原因之一.在本文中,我們提出了一種多模態(tài)信號(hào)的語義刻畫和度量的數(shù)學(xué)描述.我們首先依據(jù)信息科學(xué)和神經(jīng)科學(xué)相關(guān)結(jié)論,給出了具有模塊化、多模態(tài)、層級(jí)化特點(diǎn)的語義刻畫方法,包括基于語義基元的表達(dá)方法和語義計(jì)算模型;接著,在語義刻畫的基礎(chǔ)上,給出了語義空間、語義相似度、語義距離和語義度量的數(shù)學(xué)描述;最后,為了驗(yàn)證所提信號(hào)語義的刻畫和度量的可行性和有效性,我們在MNIST(Mixed National Institute of Standards and Technology database)手寫數(shù)字識(shí)別和水聲目標(biāo)識(shí)別兩個(gè)應(yīng)用中進(jìn)行了實(shí)驗(yàn),獲得了比傳統(tǒng)深度學(xué)習(xí)更好的性能.
“語義(semantic)”一詞在人工智能領(lǐng)域被廣為使用,被用于指代信號(hào)中的可理解含義的表征,如語義分割[21]、語義分析[22]、語義理解[23],甚至語義計(jì)算[24].然而,此類表征都是高維張量或者文本,存在著可解釋性差,泛化能力差的問題,制約了通用模型的產(chǎn)生.目前為止,對(duì)信號(hào)中語義的直觀且通用的數(shù)學(xué)描述仍然是一個(gè)極具挑戰(zhàn)性的難題,還沒有有效的解決思路.其原因之一是語義基本內(nèi)涵不易定義從而難以度量;原因之二是人們對(duì)語義的產(chǎn)生機(jī)理和過程不了解.而信息科學(xué)和神經(jīng)科學(xué)的一些工作對(duì)語義基本內(nèi)涵和語義產(chǎn)生的機(jī)理過程的探尋有著重要借鑒價(jià)值.因此本節(jié)將分別介紹信息科學(xué)和神經(jīng)科學(xué)對(duì)語義的相關(guān)研究,并以此總結(jié)出語義的特點(diǎn),為第3節(jié)中的信號(hào)語義的刻畫和度量的數(shù)學(xué)描述奠定基礎(chǔ).
信息論的創(chuàng)始人Shannon在其奠定現(xiàn)代信息論基礎(chǔ)的論文文獻(xiàn)[25]中率先提到語義層面的信息交互問題.Shannon在其之后出版的《通信的數(shù)學(xué)理論》[26]一書中指出,語義問題關(guān)心的是收信者對(duì)信息的理解是否與發(fā)信者想表達(dá)的含義一致或接近.并將通信問題歸為三個(gè)層面:(1)技術(shù)問題:通信符號(hào)如何準(zhǔn)確地進(jìn)行傳輸?(2)語義問題:傳輸?shù)姆?hào)如何精確地傳達(dá)含義?(3)效用問題:收到的含義如何以期望的方式有效地影響行為?不同于符號(hào)層面只關(guān)注經(jīng)過符號(hào)編碼調(diào)制的信號(hào)載波是否正確傳輸,語義層面的信息交互是需要交互雙方能夠理解信號(hào)中的內(nèi)容或含義,從而提取其中的信息.語義層面的信息也不再是由符號(hào)的熵簡單定義,而是通過接受信號(hào)前后的語義差異性定義,即,先從對(duì)方的信號(hào)中感知出語義,然后與自己的已知語義對(duì)比,如果存在差異,這個(gè)差異就是信息.在Shannon之后的學(xué)者在語義信息理論框架下的語義刻畫與度量展開討論,并率先開展了基于語義而非比特?cái)?shù)據(jù)的通信方法的探究.Guler等人[27]提出了一種語義誤差,作為語義信息準(zhǔn)確性的衡量標(biāo)準(zhǔn),用于計(jì)算交互雙方語義的偏差距離.Bao等人[28]進(jìn)一步指出在進(jìn)行語義信息交互過程中,交互雙方需要具有共有知識(shí)儲(chǔ)備,才能進(jìn)行順暢的語義交流.Basu等人[29]提出了語義容量的概念,并指出語義容量等于信息源的平均語義熵,確立了語義壓縮的下界.此外Willems等人[30]研究了語義編碼,使用語義相似性指導(dǎo)機(jī)器學(xué)習(xí)算法的優(yōu)化,實(shí)現(xiàn)了數(shù)據(jù)間關(guān)系的更緊湊表示.目前信息科學(xué)對(duì)語義的研究主要是以信息論中關(guān)于不確定性的論述為基礎(chǔ),將香農(nóng)信息論對(duì)比特的理論遷移至語義,形成了以語義符號(hào)為基礎(chǔ)的語義信息論.由此,我們認(rèn)為信號(hào)語義具有模塊性.在節(jié)3中,我們將使用有限個(gè)預(yù)定義了語義的信號(hào)作為語義符號(hào)構(gòu)成信號(hào)語義刻畫的基礎(chǔ).
Hubel和Wiesel[31]發(fā)現(xiàn)大腦視覺皮層中存在相同圖像特征選擇性和相同感受野位置的眾多神經(jīng)細(xì)胞,以垂直于大腦表面的方式排列成柱狀結(jié)構(gòu),稱為神經(jīng)元功能柱(functional column).同一個(gè)功能柱內(nèi)所有的神經(jīng)細(xì)胞都編碼了相同的視覺信息,它們只對(duì)某一種視覺特征發(fā)生反應(yīng),從而形成該種視覺特征的基本單位.類似神經(jīng)元功能柱的模塊化結(jié)構(gòu)在大腦中有著不同尺度的體現(xiàn).以視覺神經(jīng)信號(hào)傳輸過程為例(如圖1).
圖1 視覺語義形成過程示意圖
視覺語義的產(chǎn)生源自視網(wǎng)膜,并終止于大腦[32],其中語義以稀疏的皮質(zhì)區(qū)域和連接模式的形式呈現(xiàn).該過程分層次地涉及基于低級(jí)感官的處理,并且可以分為三個(gè)級(jí)別[33].處理的初始級(jí)別發(fā)生在視網(wǎng)膜上,該過程將視網(wǎng)膜上的光的模式傳輸為編碼的電信號(hào),然后傳輸?shù)酱竽X中.中級(jí)處理通過將視覺世界分為屬于對(duì)象的輪廓和表面并將這些元素與背景隔離,從而參與視覺圖元的識(shí)別.在此階段,視覺信息處理依賴于功能柱[34],它表示一個(gè)單元,其中包含大腦皮層中一組神經(jīng)元中任何給定的感受野的完整神經(jīng)元集合[35].柱狀組織假說是目前最廣泛用于解釋信息皮質(zhì)處理的方法[36].上層涉及對(duì)象識(shí)別,其核心是語義的分類,表現(xiàn)為連續(xù)語義空間向大腦皮層表面區(qū)域的一種映射[32].因此,一個(gè)語義由大腦中的多個(gè)子系統(tǒng)表示,這一現(xiàn)象可以被稱為大腦區(qū)域網(wǎng)絡(luò)[33,37].Huth和Gallant等人使用了功能性磁共振成像(functional Magnetic Resonance Imaging,fMRI),利用有聲讀物故事以及來自計(jì)算語言學(xué)的機(jī)器學(xué)習(xí)算法,以探討如何將語義映射到相應(yīng)激活的大腦皮質(zhì)區(qū)域[38].由此產(chǎn)生的圖譜表明,語義系統(tǒng)是復(fù)雜的層級(jí)表現(xiàn)模式,在主體內(nèi)相對(duì)穩(wěn)定,并且在個(gè)體之間分布基本一致[38].由此,我們認(rèn)為信號(hào)語義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn).在第3節(jié)中,我們將使用語義計(jì)算模擬神經(jīng)信號(hào)隨著尺度提升而逐漸抽象的過程,對(duì)基礎(chǔ)語義進(jìn)行抽象、調(diào)整、拓展等延伸操作,使其具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn).
鑒于信號(hào)語義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn),我們將從基于基元的基礎(chǔ)語義定義和基于語義計(jì)算的語義延伸兩個(gè)方面對(duì)語義進(jìn)行刻畫.
3.1.1 基礎(chǔ)語義
設(shè)δ表示一個(gè)基礎(chǔ)的語義,如語義“黑色”.那么語義“黑色”存在不同模態(tài)下的信號(hào)語義基元,如聲音模態(tài)fδ(t)為“Hēi”這一聲音信號(hào),圖色模態(tài)Fδ(x,y)為圖片“■”,文字模態(tài)sδ為中文詞“黑”.此時(shí),可定義語義δ:={fδ(t),F(xiàn)δ(x,y),sδ,…},其中fδ,F(xiàn)δ,sδ等分別對(duì)應(yīng)一維、二維、離散符號(hào)等模態(tài)空間中的某個(gè)由基元表示的語義特征函數(shù).δ集合內(nèi)的元素在語義層面是相互等價(jià)的,即fδ的語義是δ,F(xiàn)δ的語義是δ,sδ的語義也是δ,換句話說它們之間可以相互表達(dá)或標(biāo)注.例如,“黑”(文本),“Hēi”(聲音),“■”(圖色)這三者是不同的信號(hào)模態(tài),它們之間建立了語義等價(jià)概念.看到“黑”文字符號(hào),就能發(fā)音“Hēi”,腦中也能產(chǎn)生黑色影像.對(duì)應(yīng)在英語語系中,同樣的語義可以用“Black”(文本)、“[bl?k]”(聲音)、“■”(圖色)來約定相互等價(jià)的語義.
更一般地,如果語義有N個(gè)模態(tài),則可進(jìn)一步定義其語義為:
其中在模態(tài)Θi上定義的特征函數(shù)的集合為FΘi=
選擇合適的語義基元對(duì)于定義基礎(chǔ)語義而言十分關(guān)鍵.在實(shí)際應(yīng)用中,可根據(jù)具體應(yīng)用場景,通過專家手工設(shè)計(jì)或數(shù)據(jù)學(xué)習(xí)得到.當(dāng)人類知識(shí)可靠時(shí),通過專家手工設(shè)計(jì)基元.比如對(duì)語義“人的軀體”,可以根據(jù)人類知識(shí)手工設(shè)計(jì)頭、手、腿、軀干等人體部件作為語義基元.當(dāng)人類知識(shí)不可靠時(shí),則需要收集足夠的表達(dá)某個(gè)語義的數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法獲取基元.例如建立語義“木質(zhì)紋理”,則可收集足夠的木質(zhì)材料的圖像數(shù)據(jù),然后利用主成分分析等算法提取基元.
3.1.2 語義計(jì)算
眾所周知,智能體會(huì)對(duì)語義進(jìn)行擴(kuò)充、融合、提升和凝練,為此我們定義了滿足這些操作的語義計(jì)算方法.人在學(xué)習(xí)的過程中,會(huì)不斷地對(duì)現(xiàn)有的語義進(jìn)行擴(kuò)充,從計(jì)算角度看,這種語義內(nèi)涵的擴(kuò)充稱為語義加法.語義加法有兩種情況:一是語義中拓展若干新的特征函數(shù),即語義與特征函數(shù)集合相加;二是兩個(gè)語義融合為新的、更全面的語義,即語義與語義相加.
3.1.2.1 語義加法
(1)語義與特征函數(shù)集合相加
語義與特征函數(shù)集合相加主要用于對(duì)某一語義具有屬性的細(xì)化或擴(kuò)充.用S1={F1Θ1,F(xiàn)1Θ2,…,F(xiàn)1ΘN}表示一個(gè)語義,用F={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN}表示一個(gè)特征函數(shù)的集合.那么語義和特征函數(shù)集合的加法可以定義為:
其中,F(xiàn)1Θ1∪FΘ1表示兩個(gè)集合之間的并集操作.我們通過上式將語義和特征函數(shù)的集合表示為所有子空間內(nèi)集合的并集.因此,這種加法是不會(huì)產(chǎn)生新的特征函數(shù)的.需要指出的是,特征函數(shù)集合F={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN}和語義的定義形式相同,因此該操作也可以用來實(shí)現(xiàn)兩個(gè)語義概念的合并,而不會(huì)產(chǎn)生新的特征函數(shù).
通過語義和特征函數(shù)集合之間的加法可以描述人在學(xué)習(xí)外語時(shí)語義的變化過程.對(duì)于3.1.1小節(jié)中定義的 語 義“黑”可 以 表 示 為S={FΘs,F(xiàn)Θν,F(xiàn)Θc}.其 中FΘs,F(xiàn)Θν,F(xiàn)Θc分別表示聲音、圖像、符號(hào)語義模態(tài)的特征函數(shù)集合.我們假設(shè)智能體只懂漢語,即聲音模態(tài)的特征函數(shù)集合FΘs={FChn}只記錄了漢語讀音“Hēi”.而通過學(xué)習(xí)英文中單詞black的發(fā)音“[bl?k]”F={FΘs|FΘs={FEng}}之后,語義“黑”就可以通過式(2)所述的語義和特征函數(shù)集合之間的加法進(jìn)行擴(kuò)展,得到S={FΘs,F(xiàn)Θν,F(xiàn)Θc},F(xiàn)Θs={FChn,F(xiàn)Eng}.
(2)語義與語義相加
語義和語義相加用于融合語義特征,產(chǎn)生新的特征函數(shù),從而形成新的語義,其定義為:
其中fusion(F1Θ1,F(xiàn)2Θ1|Θ1)表示同一個(gè)模態(tài)內(nèi)的兩個(gè)特征函數(shù)集合之間進(jìn)行特征融合:
通過語義間加法可以描述光線或者顏料的顏色組合過程.若仿照3.1.1小節(jié)分別定義光的三原色紅、綠、藍(lán)的語義.則可以根據(jù)式(5)對(duì)三原色的語義中的圖像模態(tài)的特征函數(shù)進(jìn)行融合,得到新的顏色的圖像特征函數(shù).而若將式(5)中的特征融合函數(shù)設(shè)定為三項(xiàng)加權(quán)求和,就可以得到任意顏色.
由于語義與語義相加需要在兩個(gè)集合間組合計(jì)算,因此計(jì)算復(fù)雜度較高.在實(shí)際應(yīng)用中,如果連續(xù)使用語義與語義相加,將會(huì)導(dǎo)致語義特征函數(shù)集合的規(guī)模快速擴(kuò)大,進(jìn)而引發(fā)組合爆炸問題.語義與語義相加產(chǎn)生的大量同一模態(tài)的語義特征函數(shù)構(gòu)成了一個(gè)語義子空間的一組過完備原子,其中一些語義特征函數(shù)可以由其他特征函數(shù)近似線性表示,即存在冗余.因此,在完成語義與語義相加的操作后,可以采用聚類等方式對(duì)新的特征函數(shù)集合進(jìn)行去冗余,從而縮減語義特征函數(shù)集合的規(guī)模,從而避免組合爆炸.
3.1.2.2 語義乘法
(1)語義的數(shù)乘
人在學(xué)習(xí)的過程中,會(huì)根據(jù)新總結(jié)的經(jīng)驗(yàn)在已有概念的基礎(chǔ)上進(jìn)行調(diào)整.在語義計(jì)算的框架中,我們定義語義的數(shù)乘來描述這種語義概念的權(quán)重調(diào)整:
其中,c={c11,c12,…,cNn}表示每個(gè)特征函數(shù)對(duì)應(yīng)的數(shù)乘的常數(shù),F(xiàn)ki和cki表示模態(tài)Θk下的第i個(gè)特征函數(shù)及其對(duì)應(yīng)的常數(shù).
通過語義的數(shù)乘可以描述語言環(huán)境發(fā)生變化時(shí),人對(duì)語義做出的調(diào)整.一個(gè)懂得中英雙語的人在國內(nèi)生活時(shí)間長了之后,對(duì)中文發(fā)音更加敏感.當(dāng)語言環(huán)境再次改變的時(shí)候,則根據(jù)式(6)再做出相應(yīng)的調(diào)整.
(2)語義的直積
聯(lián)想、抽象能力是人類智慧重要的組成部分.面對(duì)不同的概念,將其關(guān)聯(lián)起來,組合成更高一級(jí)的語義,便是聯(lián)想、抽象能力的本質(zhì).通過之前對(duì)語義的定義,可以把聯(lián)想抽象能力理解為從低級(jí)語義生成更高一級(jí)語義的過程.語義本質(zhì)上是特征函數(shù)的集合,因此使用直積來表示這種過程:
其中,最右項(xiàng)表示規(guī)則R指導(dǎo)下的兩個(gè)集合之間的笛卡爾乘積(Cartesian product).此處引入規(guī)則R是為了減少?zèng)]有意義的模態(tài)之間的組合,從而減少笛卡爾乘積運(yùn)算后集合的規(guī)模,以避免發(fā)生組合爆炸問題.比如,我們可以定義聲音模態(tài)Θ1和圖像模態(tài)Θ2進(jìn)行組合,其他的模態(tài)將不參與組合,此時(shí)笛卡爾乘積的結(jié)果便只有{(F1Θ1,F(xiàn)2Θ1),(F1Θ1,F(xiàn)2Θ2),(F1Θ2,F(xiàn)2Θ1),(F1Θ2,F(xiàn)2Θ2)}四種組合結(jié)果.需要注意的是,此處的組合是有向組合,即一般情況下(F1Θ1,F(xiàn)2Θ1)≠(F2Θ1,F(xiàn)1Θ1),則:這樣的規(guī)定可以表示一定的因果、先后次序,更加豐富語義的表達(dá)能力.需要進(jìn)一步指出的是,模態(tài)組合的結(jié)果是生成新的模態(tài),例如{(F1Θ1,F(xiàn)2Θ1),(F1Θ1,F(xiàn)2Θ2),(F1Θ2,F(xiàn)2Θ1),(F1Θ2,F(xiàn)2Θ2)}就 生成了四種新的高維模態(tài),即{(Θ1,Θ1),(Θ1,Θ2),(Θ2,Θ1),(Θ2,Θ2)}.在 新 的 高 維 模態(tài)下,將同樣按照笛卡爾乘積的形式生成高維特征函數(shù):
用語義直積可以描述我們根據(jù)所學(xué)聲母韻母組合成漢語拼音的過程.例如,我們在學(xué)習(xí)漢語拼音時(shí),會(huì)區(qū)分聲母和韻母,分開學(xué)習(xí),然后再將聲母韻母按一定規(guī)則組合起來,就能形成所有的漢語拼音.從語義角度理解,我們可以首先定義所有聲母和韻母的語義分別為S1,S2.然后將式(7)中的規(guī)則定義為僅限聲音模態(tài)直積,對(duì)S1,S2進(jìn)行組合.接著依照式(8),根據(jù)拼音的組合規(guī)則,只保留聲母在前韻母在后的組合結(jié)果.最后依照式(9),將聲母和韻母的特征函數(shù)直積成拼音的特征函數(shù).
由于語義與語義相加需要在兩個(gè)集合間組合計(jì)算,因此計(jì)算復(fù)雜度較高.在實(shí)際應(yīng)用中,需要去除新產(chǎn)生的高維特征函數(shù)集合中的冗余.由于新產(chǎn)生的高維特征函數(shù)是由兩個(gè)屬于不同語義子空間的特征函數(shù)組合而成,不便直接使用聚類等方法去除冗余.因此,可以先通過主成分分析等方法先對(duì)高維特征函數(shù)進(jìn)行降維,再在低維特征空間上通過聚類去除冗余.
在本小節(jié)中,我們將以語義為元素,給出了語義空間的數(shù)學(xué)描述,并基于語義空間提出了語義相似度、語義距離和語義度量的數(shù)學(xué)描述.
3.2.1 語義空間
若δ(i)為一個(gè)具體的語義,把所有的語義用集合S:={δ(i)}表示,就構(gòu)成了語義空間,其中每一種模態(tài)特征信號(hào)的集合為對(duì)應(yīng)的模態(tài)子空間.同一個(gè)模態(tài)特征信號(hào)組成一個(gè)語義子空間.語義空間是由多個(gè)不同模態(tài)信號(hào)的子空間組成.在任何類型模態(tài)信號(hào)中,定義那些不再細(xì)分的基本特征函數(shù)為語義基元.語義基元能夠支撐這類模態(tài)信號(hào)的語義子空間,當(dāng)然這些語義基元可以按不同的時(shí)空關(guān)系組合或融合再次形成高層次含義或概念的語義符號(hào),這種融合可以逐級(jí)提升[39].一個(gè)語義的特征函數(shù)是由相應(yīng)的子空間的多個(gè)語義基元結(jié)構(gòu)化組合而成.例如,在視覺空間,一些基本的點(diǎn)、線、面、曲線、圓、三角形、四邊形等是視覺空間的語義基元,組成視覺語義子空間的基函數(shù).圓、三角和線可再次融合形成某一類物體的語義符號(hào),不同復(fù)雜程度的基函數(shù)代表不同層級(jí)的語義特征函數(shù).這個(gè)語義也可能用聽覺模態(tài)子空間的基函數(shù),例如拼音的聲母和韻母的發(fā)音.整個(gè)語義空間由相互表示等價(jià)含義的多個(gè)模態(tài)信號(hào)子空間組成,如圖2所示.
圖2 語義空間示意圖
3.2.2 語義特征譜
在某個(gè)模態(tài)對(duì)應(yīng)的語義子空間中,假設(shè)人工設(shè)計(jì)或?qū)W習(xí)到的特征函數(shù)用一個(gè)點(diǎn)表示,則在此子空間的眾多特征函數(shù)就是一個(gè)點(diǎn)陣圖,它們呈現(xiàn)有序結(jié)構(gòu).一維特征函數(shù)點(diǎn)陣呈現(xiàn)的是時(shí)間先后的一維序列結(jié)構(gòu),可以用矢量表示;二維特征函數(shù)點(diǎn)陣呈現(xiàn)二維圖像結(jié)構(gòu),可以用矩陣表示;高維特征函數(shù)點(diǎn)陣呈現(xiàn)高維圖結(jié)構(gòu).這些結(jié)構(gòu)都稱為語義特征序.
如在一維聲波語義子空間,預(yù)先定義一維基元特征函數(shù)集合{f1(t),f2(t),f3(t),…,fn(t)},集合中的每一個(gè)元素為一個(gè)基元,它們是一個(gè)個(gè)特定連續(xù)的基本聲波.某個(gè)語義在聲波子空間可以由一維聲波信號(hào)sv表示:
其中,ωi是對(duì)應(yīng)特征的強(qiáng)度系數(shù),即為sv的特征譜;ti是對(duì)應(yīng)特征的時(shí)延,即為sv的特征序.又如在二維圖像模態(tài)的語義子空間,其語義基元的特征函數(shù)集合為{F1(x,y),F(xiàn)2(x,y),F(xiàn)3(x,y),…,F(xiàn)n(x,y)},每個(gè)基元的特征函數(shù)都對(duì)應(yīng)一個(gè)特定的二維圖像.某個(gè)語義可以在圖像子空間用二維圖像信號(hào)sp表示:
其中,ωi是對(duì)應(yīng)特征的強(qiáng)度系數(shù),即為sp的特征譜;(xi,yi)是對(duì)應(yīng)特征的空間結(jié)構(gòu)點(diǎn)集,即為sp的特征序.
3.2.3 語義之間的距離
前面已經(jīng)給出了語義子空間的概念,并指出語義是由不同語義子空間中定義的若干特征函數(shù)描述的.在同一個(gè)子空間中的特征函數(shù)很容易定義距離;而屬于不同子空間的特征函數(shù)由于物理意義不同,無法定義距離.因此語義之間的距離可以定義為所有子空間內(nèi)特征函數(shù)距離的集合.如果它們之間不存在相同的語義子空間,則表明這兩者語義距離無窮大;如果存在部分相同的語義子空間,則它們之間的語義距離定義為語義子空間距離的集合.對(duì)于語義子空間集合Θ={Θ1,Θ2,…,ΘN},其中在子空間Θi上定義的特征函數(shù)的集合為FΘi={F(1)Θi,F(xiàn)(2)Θi,…,F(xiàn)(ni)Θi}.于是任意兩個(gè)語義可以記 為S1={F1Θ1,F(xiàn)1Θ2,…,F(xiàn)1ΘN}和 語 義S2={F2Θ1,F(xiàn)2Θ2,…,F(xiàn)2ΘN},其中F1Θi,F(xiàn)2Θi?FΘi,i=1,2,…,N.由此,語義之間的距離定義為一個(gè)集合:
其中每個(gè)元素表示兩個(gè)語義在語義子空間Θi下的特征函數(shù)集合之間的距離.需要指出的是,當(dāng)兩個(gè)語義特征函數(shù)集合是同一模態(tài)時(shí),他們之間的距離便具有意義,而與其所屬的語義無關(guān).距離可定義為:
其中,Na和Nb分別為F1Θi和F2Θi中特征函數(shù)的個(gè)數(shù),兩個(gè)特征函數(shù)之間的距離度量dis(·)如下:
其中,dim(Θi)為語義子空間Θi的維數(shù),p為閔可夫斯基距離(Minkowski distance)的參數(shù),其取值應(yīng)根據(jù)具體應(yīng)用而定.
需要說明的是,當(dāng)任意一個(gè)集合為空集時(shí),距離定義為無窮大:
這里,語義的距離是一個(gè)集合Ds={d1,d2,…,dN|di=dis(F1Θi,F(xiàn)2Θi)}.
3.2.4 語義之間的相似度
與語義之間的距離定義類似,可以定義語義之間的相似度集合:
其中每個(gè)元素表示兩個(gè)語義在語義子空間Θi下的特征函數(shù)集合之間的相似度.要定義特征函數(shù)集合之間的相似度,就需要先明確兩個(gè)特征函數(shù)之間的相似度sim(a,b|Θi)=sim(F(a)Θi,F(xiàn)(b)Θi).特征函數(shù)之間的相似度可以有很多定義方式,例如:采用人工標(biāo)注的方式,對(duì)所有特征函數(shù)兩兩之間的相似度進(jìn)行一個(gè)預(yù)設(shè);或者采用神經(jīng)網(wǎng)絡(luò)模型預(yù)測相似度.此處,我們給出最通用的定義方法,采用特征函數(shù)之間的閔可夫斯基距離的倒數(shù)作為特征函數(shù)之間的相似度:
其中,dim(Θi)為語義子空間Θi的維數(shù),p為閔可夫斯基距離(Minkowski distance)的參數(shù),其取值應(yīng)根據(jù)具體應(yīng)用而定;表示特征函數(shù)的第k維;ε為一個(gè)很小的數(shù),避免除法錯(cuò)誤.基于特征函數(shù)之間的相似度,我們給出集合之間的相似度的計(jì)算公式:
其中,|·|表示集合的長度.通過該式,我們將集合間的相似度定義為兩個(gè)集合中所有特征函數(shù)兩兩之間相似度的平均值.同樣,當(dāng)任意一個(gè)集合為空集時(shí),相似度定義為0:
3.2.5 信號(hào)的語義度量
人在理解一種新事物的時(shí)候,往往使用我們熟知的各個(gè)屬性對(duì)其進(jìn)行衡量.有了前述語義定義之后,我們可以把這個(gè)過程看作是求一個(gè)信號(hào)在各個(gè)語義上的投影,從而實(shí)現(xiàn)信號(hào)的語義度量.設(shè)語義S={FΘ1,F(xiàn)Θ2,…,F(xiàn)ΘN},其中在子空間Θi特征函數(shù)的集合為對(duì)應(yīng)的特征譜為定 義 在 該 子 空 間 的 度 量,則其在整個(gè)語義空間的度量定義為:
為了說明語義這一核心概念的有效性和可行性,本節(jié)基于本文提出的語義度量和計(jì)算方法,分別在MNIST手寫數(shù)字圖像分類和水聲目標(biāo)識(shí)別任務(wù)上進(jìn)行了仿真驗(yàn)證.
目前,大多數(shù)機(jī)器學(xué)習(xí)方法都是基于數(shù)據(jù)驅(qū)動(dòng)的,需要使用大量樣本數(shù)據(jù),消耗大量算力對(duì)模型進(jìn)行訓(xùn)練后,才能用于圖像分類與識(shí)別.針對(duì)此問題,本文提出了:(1)基于人類知識(shí)和語義計(jì)算的語義符號(hào)庫構(gòu)建方法;(2)基于語義度量的識(shí)別網(wǎng)絡(luò)(總體框圖如圖3所示).其主要思路是首先利用人類知識(shí)從樣本中抽取語義,然后通過語義計(jì)算構(gòu)建語義符號(hào)庫;在識(shí)別過程中,結(jié)合語義符號(hào)庫,通過識(shí)別網(wǎng)絡(luò)對(duì)待識(shí)別圖像進(jìn)行語義度量,完成識(shí)別過程.
圖3 基于語義度量和計(jì)算的圖像識(shí)別框架
該方法的優(yōu)勢在于只需要使用少量圖像樣本構(gòu)建語義符號(hào)庫,不需要對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練或僅需少量訓(xùn)練,即可用于圖像識(shí)別.在MNIST數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明本文方法遠(yuǎn)優(yōu)于數(shù)據(jù)驅(qū)動(dòng)的卷積神經(jīng)網(wǎng)絡(luò)[40];并且訓(xùn)練數(shù)據(jù)量越小,效果差異越大.
4.1.1 語義符號(hào)庫的構(gòu)建
基于人類知識(shí)和語義計(jì)算的手寫數(shù)字語義符號(hào)庫構(gòu)建方法如圖4所示.
圖4 基于人類知識(shí)和語義計(jì)算的手寫數(shù)字語義符號(hào)庫構(gòu)建方法流程圖
第1步,根據(jù)人類知識(shí)設(shè)計(jì)出手寫數(shù)字的基礎(chǔ)語義基元.通過分析MNIST圖像總結(jié)出手寫數(shù)字的筆畫可以拆解成各個(gè)方向上的短弧線,據(jù)此設(shè)計(jì)出如圖4中所示的基礎(chǔ)語義基元集合其中每個(gè)基元都可以用11×11的矩陣來表示.
第2步,通過仿射變換和語義間加法對(duì)基礎(chǔ)語義基元進(jìn)行組合和擴(kuò)充,進(jìn)而得到特征函數(shù).具體過程是,先通過仿射變換對(duì)基礎(chǔ)語義基元集合進(jìn)行擴(kuò)充,這種經(jīng)過仿射變換之后的基元可以在幾何形變后保持相同的語義,提升了泛化性.然后再將變換后的基元利用式(3)所示進(jìn)行語義相加,得到候選特征函數(shù)F=
第3步,使用語義乘法(如式(9)所示)計(jì)算出語義樣本對(duì)應(yīng)的圖像語義空間下的特征函數(shù).首先以篩選出的特征函數(shù)作為卷積核,對(duì)語義樣本進(jìn)行卷積得到式(11)定義的特征譜集合.接著根據(jù)像素點(diǎn)空間近鄰關(guān)系作為式(7)中的組合規(guī)則R,按照式(9)進(jìn)行語義乘法,得到圖結(jié)構(gòu)的高維特征函數(shù).然后對(duì)該圖進(jìn)行圖傅里葉變換,將高維特征函數(shù)轉(zhuǎn)換為圖像語義空間下的特征函 數(shù)最后將特征函數(shù)按照式(1)構(gòu)成集合,便得到了每張圖像的語義.
第4步,根據(jù)MNIST數(shù)據(jù)集中對(duì)所選語義樣本的類別標(biāo)注,將同一類別的所有圖像語義特征函數(shù)定義為一個(gè)語義空間,同樣根據(jù)式(1)便完成了描述手寫數(shù)字類別的語義符號(hào)庫的構(gòu)建,即
4.1.2 基于語義度量的圖像識(shí)別
在完成語義符號(hào)庫的構(gòu)建之后,便可基于語義度量方法對(duì)圖像進(jìn)行識(shí)別.首先,將待識(shí)別圖像通過語義符號(hào)庫中的特征函數(shù)卷積得到式(3)中的特征譜,再經(jīng)過語義乘法和圖傅里葉變換方法計(jì)算出圖像特征向量fI∈R(WgHgC).然后,按照3.2.5節(jié)介紹的方法,根據(jù)符號(hào)語義庫S中的K個(gè)子語義,對(duì)圖像特征向量按照式(20)進(jìn)行語義度量得到K個(gè)標(biāo)量,組成語義向量fF∈RK.最后通過計(jì)算語義向量的softmax得到圖像類別的預(yù)測概率向量,完成手寫體數(shù)字的識(shí)別.
4.1.3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)在MNIST數(shù)據(jù)集上將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和本文方法進(jìn)行了對(duì)比.用于對(duì)比的CNN由4個(gè)3×3的卷積層和一個(gè)全連接層組成.對(duì)比實(shí)驗(yàn)針對(duì)不同訓(xùn)練數(shù)據(jù)量計(jì)算了兩種方法的測試準(zhǔn)確率,對(duì)比結(jié)果如表1所示.其中nshot代表每一類使用n張圖片進(jìn)行訓(xùn)練.
表1 本文方法和卷積神經(jīng)網(wǎng)絡(luò)在不同數(shù)據(jù)量下的對(duì)比
根據(jù)表1實(shí)驗(yàn)結(jié)果,我們可以得出如下結(jié)論:(1)在使用相同訓(xùn)練數(shù)據(jù)量條件下,本文的識(shí)別方法均優(yōu)于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò).更進(jìn)一步,本文方法比使用10倍數(shù)據(jù)量的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率更高.這表明了本文所提圖像識(shí)別方法的有效性,從而驗(yàn)證了語義定義、度量與計(jì)算的可行性;(2)在1-shot到100-shot時(shí),本文方法的準(zhǔn)確率比傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率高20%以上,隨著數(shù)據(jù)量增加,兩者之間的性能差異逐漸縮短.這是因?yàn)楫?dāng)訓(xùn)練數(shù)據(jù)較少時(shí),語義知識(shí)發(fā)揮主要作用;當(dāng)訓(xùn)練數(shù)據(jù)逐步增加時(shí),數(shù)據(jù)驅(qū)動(dòng)模型將逐步接近知識(shí)驅(qū)動(dòng)模型的效果.從這個(gè)角度講,基于語義的知識(shí)驅(qū)動(dòng)模型更適合用于訓(xùn)練數(shù)據(jù)缺乏的場景.
為了進(jìn)一步驗(yàn)證本文所提出的語義度量方法的有效性,我們又將語義的概念用于水聲目標(biāo)的識(shí)別.水下聲音信號(hào)受到海洋背景噪聲大、海況復(fù)雜、季節(jié)變化等多方面因素的影響,可用于有效識(shí)別的特征少,識(shí)別難度大.現(xiàn)有的水聲信號(hào)識(shí)別方法主要基于譜分析法,識(shí)別過程沒有明確的語義,因此識(shí)別的精度有限.基于本文所提出的語義概念,我們首先定義幾種具有語義屬性的水聲信號(hào)基元表達(dá),在此基礎(chǔ)上構(gòu)建用于水聲信號(hào)識(shí)別的語義知識(shí)圖譜,然后借助于圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network,GCN)進(jìn)行語義基元間的關(guān)聯(lián)推理,進(jìn)而獲得更高層次的語義表達(dá),實(shí)現(xiàn)基于語義推理的水聲信號(hào)識(shí)別.
本實(shí)驗(yàn)的目標(biāo)針對(duì)三類艦船的水聲信號(hào)進(jìn)行識(shí)別.實(shí)驗(yàn)中,我們首先定義了6種水聲的語義基元特征,具體如表2所示.
表2 水聲信號(hào)識(shí)別的語義基元定義
利用語義基元間的先驗(yàn)知識(shí),構(gòu)建圖5所示的知識(shí)圖譜,利用圖卷積網(wǎng)絡(luò)進(jìn)行語義基元間的關(guān)系推理.在三類水聲信號(hào)的分類問題上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,三類水聲信號(hào)的樣本數(shù)分別為112、136和153.實(shí)驗(yàn)過程中,采用80%的數(shù)據(jù)進(jìn)行模型訓(xùn)練,剩下20%的數(shù)據(jù)用于測試.為了驗(yàn)證基于語義推理的水聲識(shí)別算法的有效性,將算法與傳統(tǒng)基于支持向量機(jī)(Support Vector Machine,SVM)分類的方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示.
圖5 基于語義基元的水聲識(shí)別知識(shí)圖譜
表3 基于語義推理的水聲識(shí)別方法與傳統(tǒng)基于SVM分類方法的性能對(duì)比
從表3的實(shí)驗(yàn)結(jié)果可以看出,傳統(tǒng)基于特征SVM分類的方法識(shí)別精度較低,采用基于語義推理的網(wǎng)絡(luò)識(shí)別的性能得到了大幅度的提升.這是因?yàn)樗曅盘?hào)樣本數(shù)量較少,且傳統(tǒng)特征的語義層次低,因此基于SVM的方法無法獲理想的識(shí)別性能;而語義基元可以從不同的層面描述水聲信號(hào)的屬性,圖卷積網(wǎng)絡(luò)又可以進(jìn)一步對(duì)語義基元進(jìn)行抽象獲得更高層次的語義,形成更為深刻的信號(hào)表達(dá).因此,結(jié)合語義基元和圖卷積網(wǎng)絡(luò)推理的方法能夠有效捕捉水聲信號(hào)的高層次語義特征,進(jìn)而實(shí)現(xiàn)更準(zhǔn)確的識(shí)別.
我們進(jìn)一步將本文所提語義度量方法付諸實(shí)踐,用于視頻信號(hào)編碼.常用的視頻編碼技術(shù)以盡可能完整的傳遞視頻信號(hào)為目的,其編碼數(shù)據(jù)量隨著視頻清晰度提升而迅速增長,已經(jīng)無法滿足智能物聯(lián)網(wǎng)等智能時(shí)代背景下的視頻通信場景的需求.然而,在大多數(shù)應(yīng)用場景中,視頻通信并不需要始終完整地傳輸視頻信號(hào),而只需傳輸其中的語義信息,實(shí)現(xiàn)達(dá)意通信即可.例如,在視頻會(huì)議場景中,通信雙方需要的是面部表情和肢體動(dòng)作所傳達(dá)的意義,而不需要對(duì)方所處的環(huán)境、衣物紋理等信息.因此,通過面向達(dá)意通信的視頻語義編碼能夠有效地節(jié)省通信帶寬,滿足大規(guī)模視頻通信需求.
本實(shí)驗(yàn)以大規(guī)模視頻會(huì)議為背景,對(duì)視頻中的人體姿態(tài)語義進(jìn)行層級(jí)編碼,其流程如圖6所示.我們將人體姿態(tài)語義分解為關(guān)節(jié)點(diǎn)和動(dòng)作姿態(tài)這兩級(jí)語義.先根據(jù)人類知識(shí)定義了人體上14個(gè)關(guān)節(jié)點(diǎn)(如圖6初級(jí)語義符號(hào)所示),組成初級(jí)特征函數(shù)庫.再對(duì)由14個(gè)關(guān)鍵點(diǎn)組成的人體骨骼圖進(jìn)行聚類,得到10種標(biāo)準(zhǔn)動(dòng)作,組成高級(jí)特征函數(shù)庫.根據(jù)特征函數(shù)庫,我們依次提取視頻信號(hào)中的人體關(guān)節(jié)點(diǎn)和動(dòng)作姿態(tài)這兩級(jí)語義,作為語義編碼結(jié)果.具體流程為:首先,將輸入的視頻信號(hào)以初級(jí)特征函數(shù)庫為標(biāo)準(zhǔn)語義進(jìn)行信號(hào)語義度量,根據(jù)人體骨骼連接關(guān)系先驗(yàn),便可將度量結(jié)果記錄為圖結(jié)構(gòu)的初級(jí)語義符號(hào);隨后,以高級(jí)特征函數(shù)庫,對(duì)初級(jí)符號(hào)進(jìn)行語義度量,得到高級(jí)語義符號(hào);最后,根據(jù)場景所需語義的層級(jí),選擇初級(jí)語義符號(hào)或高級(jí)語義符號(hào)進(jìn)行傳輸.
圖6 視頻信號(hào)層級(jí)語義編碼
由于語義符號(hào)為圖結(jié)構(gòu),在形象表達(dá)視頻信號(hào)中語義的同時(shí),還能極大減小信道傳輸?shù)臄?shù)據(jù)量.我們對(duì)時(shí)長42 s、每秒25幀、分辨率512×512的原始視頻進(jìn)行了MPEG(Moving Picture Experts Group)編碼和層級(jí)語義編碼,其性能對(duì)比如表4所示.從表中對(duì)比結(jié)果可以看出,面向達(dá)意通信的語義編碼能夠顯著降低信道傳輸?shù)膲毫?,甚至可以? Kbps的帶寬下傳輸視頻語義.而傳統(tǒng)編碼使用如此低的碼率時(shí),完全無法分辨視頻中的語義.因此本文所提語義度量方法在視頻的達(dá)意通信中具有應(yīng)用意義.
表4 層級(jí)語義編碼和MPEG編碼的性能對(duì)比
本文從基于語義的新型信息處理與通信技術(shù)引入,針對(duì)目前缺乏語義刻畫和度量的數(shù)學(xué)描述這一問題,依據(jù)信息科學(xué)和神經(jīng)科學(xué)相關(guān)結(jié)論,討論了語義的內(nèi)涵,并指出語義具有模塊化、多模態(tài)、層級(jí)化的特點(diǎn),由此提出了一種多模態(tài)信號(hào)的語義刻畫和度量的數(shù)學(xué)描述.為了驗(yàn)證所提信號(hào)語義的刻畫和度量方法的可行性和有效性,分別在MNIST手寫數(shù)字識(shí)別和水聲目標(biāo)識(shí)別兩個(gè)應(yīng)用中進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,基于語義的分類識(shí)別網(wǎng)絡(luò)能達(dá)到比傳統(tǒng)深度學(xué)習(xí)更好的效果.本文還將語義用于視頻編碼,實(shí)現(xiàn)了遠(yuǎn)超傳統(tǒng)方法的壓縮比,展現(xiàn)了語義在通信領(lǐng)域的實(shí)用價(jià)值.這為未來建立以語義為基礎(chǔ)的新型信息處理與通信技術(shù)奠定了理論和實(shí)踐基礎(chǔ).