中國科學(xué)院自動化研究所紫東太初多模態(tài)中心常務(wù)副主任,研究員,博士生導(dǎo)師,武漢人工智能研究院院長,中國科學(xué)院大學(xué)人工智能學(xué)院崗位教授,多模態(tài)人工智能產(chǎn)業(yè)聯(lián)盟秘書長。 主要從事多模態(tài)大模型、視頻分析與檢索和大規(guī)模目標(biāo)識別等方面的研究。 發(fā)表包括IEEE 國際權(quán)威期刊和頂級會議論文300 余篇。 完成國家標(biāo)準(zhǔn)提案3 項,發(fā)明專利36 項,國際視覺算法競賽冠軍10 項。 獲北京市科技進(jìn)步一等獎,吳文俊人工智能科技進(jìn)步二等獎,中國發(fā)明創(chuàng)新銀獎。
內(nèi)容導(dǎo)讀
隨著AI 與計算機(jī)視覺技術(shù)的發(fā)展,基于深度神經(jīng)網(wǎng)絡(luò)的視覺識別在智能交通、遙感測繪、醫(yī)療健康以及安防監(jiān)控等場景下取得了廣泛的應(yīng)用,極大地促進(jìn)了各行各業(yè)的轉(zhuǎn)型升級和迭代創(chuàng)新。 然而,現(xiàn)實(shí)世界是一個未經(jīng)結(jié)構(gòu)化梳理的、長尾分布的、開放類別的復(fù)雜場景。 在這樣的視覺環(huán)境下,如何設(shè)計視覺感知與理解算法解決AI 落地中的長尾、噪聲、災(zāi)難遺忘、場景泛化和無監(jiān)督語義發(fā)現(xiàn)等問題,實(shí)現(xiàn)視覺技術(shù)從“可用”到“好用”,是一個非常具有挑戰(zhàn)的課題。
當(dāng)前,以云計算、大數(shù)據(jù)、區(qū)塊鏈和AI 等為代表的新一代信息技術(shù)蓬勃發(fā)展和廣泛滲透,為發(fā)展開放環(huán)境下的視覺感知與理解技術(shù)帶來了難得的機(jī)遇。 在此背景下,學(xué)術(shù)界和工業(yè)界的研究人員為了解決下一代智能視覺系統(tǒng)中的一些關(guān)鍵問題,研究開放環(huán)境下的視覺智能感知與理解的新理論、新方法和新技術(shù),不斷增強(qiáng)視覺智能感知與理解能力,使其能夠靈活響應(yīng)不同的任務(wù)需求,為實(shí)現(xiàn)全天候、全天時、全地域快速信息分析理解提供方法支撐。
為集中展現(xiàn)開放環(huán)境下的視覺感知與理解領(lǐng)域的最新研究成果,《無線電工程》2023 年第3 期推出“開放環(huán)境下的視覺感知與理解”專題。 專題采用公開征稿的方式組織稿件,在所有通過專家評審的稿件中,最終確定錄用稿件7 篇。 專題主要展示了文本檢索、超分網(wǎng)絡(luò)加速、紅外與可見光單應(yīng)性估計、路面質(zhì)量分析、銷量預(yù)測、目標(biāo)檢測和人體姿態(tài)估計等領(lǐng)域的研究成果。
在文本檢索方面,李巖等針對某些場景中文本時常呈現(xiàn)彎曲、壓縮和拉伸等不規(guī)則形態(tài),文本區(qū)域提取與匹配面臨極大挑戰(zhàn)的問題,提出了一個端到端的網(wǎng)絡(luò)模型,將不規(guī)則文本提取和跨模態(tài)相似度學(xué)習(xí)統(tǒng)一到一個框架內(nèi),利用學(xué)習(xí)到的相似度對檢測的文本實(shí)例排序,從而實(shí)現(xiàn)對不規(guī)則文本的檢索。
在超分網(wǎng)絡(luò)加速方面,劉智軒等針對基于分治策略的圖像超分加速問題,提出了基于像素級分治策略的超分網(wǎng)絡(luò)加速方法,為不同像素所對應(yīng)區(qū)域分配不同規(guī)模的計算量來實(shí)現(xiàn)超分過程,實(shí)現(xiàn)了更加高效的超分加速策略。 同時,提出了一個聯(lián)合困難像素挖掘的重建損失函數(shù),使網(wǎng)絡(luò)在重建超分辨率圖像的同時,通過無監(jiān)督自適應(yīng)的學(xué)習(xí)預(yù)測出每個像素的超分難易程度,用于為每個像素點(diǎn)所在位置的超分分配更加合理的計算量。
在紅外與可見光單應(yīng)性估計等方面,羅銀輝等針對紅外與可見光圖像灰度差異較大、配準(zhǔn)精度低等問題,提出了一種基于生成對抗網(wǎng)絡(luò)的紅外與可見光圖像單應(yīng)性估計方法,利用淺層特征提取網(wǎng)絡(luò)提取紅外與可見光圖像的精細(xì)特征;將精細(xì)特征進(jìn)行通道級聯(lián)輸入到生成器中,以預(yù)測得出單應(yīng)性矩陣;對單應(yīng)性矩陣變換后的扭曲圖像提取精細(xì)特征,送入判別器進(jìn)行判斷,從而建立一個對抗博弈過程。
在路面質(zhì)量分析方面,孫玉龍等針對全自動化路面質(zhì)量評估和分析的實(shí)際場景需求,提出了基于大型卷積核模型和自監(jiān)督預(yù)訓(xùn)練的路面質(zhì)量分析方法,采用基于重參數(shù)化大型卷積核的U 型網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)像素級別的高精度路面病害識別,并采集了一個大型的路面病害分割數(shù)據(jù)集。
在銷量預(yù)測方面,劉雁兵等針對零售終端卷煙營銷的實(shí)際場景需求,提出了基于卷煙陳列識別和品牌文本表示的銷量預(yù)測方法。 在樣本選擇階段,建立零售終端運(yùn)行質(zhì)量評估體系,實(shí)現(xiàn)高質(zhì)量樣本點(diǎn)篩選。
在目標(biāo)檢測方面,武德彬等針對SSD 單階段目標(biāo)檢測算法未充分利用不同特征層之間的語義關(guān)系以及獲取語義信息和位置信息能力不夠好的問題,提出了一種多注意力單階段目標(biāo)檢測改進(jìn)算法,采用并行殘差多尺度特征提取網(wǎng)絡(luò)增強(qiáng)淺層特征層的語義信息和中間層的上下文信息,使用雙重注意力機(jī)制加強(qiáng)對關(guān)鍵信息的學(xué)習(xí),提高各特征層對語義信息和空間位置信息的獲取能力。
在人體姿態(tài)估計方面,周偉等面向無約束場景的人體姿態(tài)估計任務(wù)中無規(guī)則變化的人物服飾、復(fù)雜場景和高靈活度的姿態(tài)等因素導(dǎo)致樣本分布極其復(fù)雜的問題,提出了在回歸網(wǎng)絡(luò)中通過度量學(xué)習(xí)方法來優(yōu)化高層特征對人體姿態(tài)的判別性。 同時,為了更好地在人體姿態(tài)估計的框架下建模該判別學(xué)習(xí)任務(wù),進(jìn)一步提出了基于點(diǎn)特征優(yōu)化的局部樣本關(guān)系模塊。 該方法可對樣本間的相似度進(jìn)行更合理的建模,從而有效地輔助度量學(xué)習(xí)優(yōu)化人體姿態(tài)估計算法的性能和泛化能力。
綜上所述,專題所收錄的這7 篇論文,分別針對特定的研究問題,從不同視角,使用不同方法研究了開放環(huán)境下的視覺感知與理解問題,得到了有意義的研究結(jié)論,能夠提供較好的參考作用。 當(dāng)然,視覺識別所涵蓋的子領(lǐng)域非常多,這些論文也不能窮盡所有的方面,希望通過這些論文的刊出,讓更多的專家學(xué)者和研究人員關(guān)注該領(lǐng)域的發(fā)展,從而促進(jìn)產(chǎn)生更多的研究成果。
最后,感謝參與稿件評審的各位專家學(xué)者的辛勤工作,感謝《無線電工程》編輯部各位老師的大力支持,衷心希望專題的出版能夠?qū)σ曈X識別的研究起到有益的作用。