国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CLIP 的多模態(tài)視頻文本檢索系統(tǒng)

2023-08-09 15:26:30葉柯陳相余麻福旦
關(guān)鍵詞:多模態(tài)處理

葉柯 陳相余 麻福旦

摘 要:計算機(jī)視覺(Computer Vision,CV)與自然語言處理(Natural Language Processing,NLP)技術(shù)已逐漸趨于成熟,結(jié)合視覺和語言的多模態(tài)領(lǐng)域技術(shù)將成為學(xué)界和業(yè)界的研究熱點(diǎn)。文章使用CLIP 預(yù)訓(xùn)練模型,結(jié)合圖像與語言兩種模態(tài)信息,進(jìn)一步將圖像拓展至視頻,利用 Fmpeg 處理視頻,并對視頻與文本信息進(jìn)行嵌入(embedding)和余弦相似度匹配,從而實(shí)現(xiàn)利用純文本檢索視頻中符合該文本語義的片段。

關(guān)鍵詞:多模態(tài);CLIP;FFmpeg 處理;文本檢索視頻

中圖法分類號:TP311文獻(xiàn)標(biāo)識碼:A

1 引言

隨著社交媒體和視頻分享平臺的迅猛發(fā)展,人們每天都生產(chǎn)大量的視頻內(nèi)容,這些視頻包含豐富的視覺信息。然而,要從龐大的視頻庫中檢索到與特定文本語義相關(guān)的片段卻變得愈發(fā)具有挑戰(zhàn)性,除了用人眼進(jìn)行人工檢索這種費(fèi)時費(fèi)力的解決方案外,傳統(tǒng)的基于文本的檢索方法難以充分利用視頻中的視覺信息,而基于視覺的方法又難以理解文本語義。因此,將視覺和語言進(jìn)行融合的多模態(tài)技術(shù)成為解決這一難題的關(guān)鍵。

綜上所述,高效可用的多模態(tài)視頻文本檢索具有廣泛的應(yīng)用前景和重要的實(shí)際意義,可以為大規(guī)模視頻內(nèi)容的管理和組織提供強(qiáng)有力的工具。

2 發(fā)展現(xiàn)狀

近年來, 深度學(xué)習(xí)和預(yù)訓(xùn)練模型快速發(fā)展,Zhang[1] 總結(jié)了視頻文本定位任務(wù)的基本概念和當(dāng)前的研究現(xiàn)狀,并對主流的解決方案進(jìn)行了分類。主流視頻文本檢索方案如圖1 所示。

目前,視頻文本定位方案通常需要經(jīng)過訓(xùn)練,以便模型能夠?qū)W會正確地定位視頻中的文本。例如,Gao[2] 第一次提出了視頻文本定位的范式,利用滑動窗口的方式截取視頻片段并與標(biāo)簽進(jìn)行匹配,隨后Yuan[3] 去掉了滑動窗口算法,引入attention,Zhan 在VSLNet[4] 中引入了query?guide?highlight 機(jī)制,進(jìn)一步提升了檢索精度;為了訓(xùn)練這樣的模型,其采用了使用標(biāo)注的start 和end 標(biāo)簽來指示文本在視頻中的位置。在標(biāo)注數(shù)據(jù)集時,標(biāo)注人員根據(jù)視頻中出現(xiàn)的文本內(nèi)容和時間點(diǎn),手動標(biāo)注出文本的起始位置和結(jié)束位置?;诖耍谟?xùn)練過程中模型可以通過學(xué)習(xí)這些標(biāo)簽來理解文本在視頻中的位置關(guān)系。

然而,這種訓(xùn)練方式往往導(dǎo)致模型的泛化性較差,即在面對新的、未見過的視頻場景時,模型無法準(zhǔn)確地進(jìn)行文本定位。并且訓(xùn)練過程產(chǎn)生的成本通常較高,故期望能夠采用無監(jiān)督的方式進(jìn)行視頻文本定位,不僅可以保證更好的魯棒性,而且更能節(jié)省人工標(biāo)注等數(shù)據(jù)及相關(guān)的訓(xùn)練成本。在多模態(tài)方面,OpenAI 通過對比學(xué)習(xí)的方式訓(xùn)練得到CLIP 模型,作為預(yù)訓(xùn)練模型,它可以同時理解圖片和文本的語義信息,且能夠在沒有任何特定任務(wù)標(biāo)注的情況下,學(xué)習(xí)到跨模態(tài)的語義表示,這使得CLIP 在圖像分類、文本分類、圖像生成描述等[5] 多種任務(wù)上都有出色表現(xiàn)。本文利用CLIP 預(yù)訓(xùn)練模型,將圖片拓展為視頻,實(shí)現(xiàn)zero?shot 的視頻文本檢索。

3 系統(tǒng)構(gòu)建

3.1 前端設(shè)計

系統(tǒng)前端使用Streamlit 框架搭建。Streamlit 是一個用于構(gòu)建數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)應(yīng)用程序的開源Python 框架,其具有簡單的API 和直觀的設(shè)計,便于構(gòu)建交互式應(yīng)用程序,可使用少量代碼創(chuàng)建數(shù)據(jù)可視化和用戶界面;頁面可以即時顯示和預(yù)覽應(yīng)用程序的變化,進(jìn)行快速調(diào)試和實(shí)驗(yàn);同時,Streamlit 的自動化布局功能使得構(gòu)建應(yīng)用程序界面變得更加簡單和高效,其開源的組件化模式具有可重用性、模塊化開發(fā)、易于維護(hù)和更新、可測試性以及靈活性和可擴(kuò)展性等優(yōu)點(diǎn)。系統(tǒng)前端交互界面如圖2 所示。

3.2 后端設(shè)計

使用Python 進(jìn)行后端開發(fā),并使用FFmpeg 對上傳的視頻進(jìn)行處理。FFmpeg 是一個開源的多媒體處理工具集,提供了多種音頻和視頻處理功能,它可以用于轉(zhuǎn)換、編輯和流式傳輸多媒體內(nèi)容,支持幾乎所有常見的音頻和視頻格式。前端Streamlit 為Python框架,簡單易用,可直接與后端交互,故在后端進(jìn)行模塊化功能編程時,在前端框架中通過函數(shù)接口的方式來調(diào)用后端算法和模型,在一定程度上降低了系統(tǒng)的耦合度,并且采用并行的策略調(diào)用后端算法,這使得系統(tǒng)可以實(shí)現(xiàn)多線程的監(jiān)聽,可以有效防止函數(shù)接口堵塞等待問題。

用戶自行上傳視頻,進(jìn)行預(yù)處理后,輸入目標(biāo)視頻片段相關(guān)的文本即可進(jìn)行檢索,如圖3、圖4 所示。

由此可見,基于CLIP 預(yù)訓(xùn)練模型實(shí)現(xiàn)的zero?shot視頻文本檢索任務(wù)無需經(jīng)過訓(xùn)練,僅通過推理,便可以準(zhǔn)確地提取視頻片段中的人物行為信息,顯示出其優(yōu)秀的泛化性和用于視頻文本檢索的巨大潛力。除對行為信息的視頻檢索外,本文同樣對視頻中個體特征的識別進(jìn)行了相關(guān)實(shí)驗(yàn)。

對于同一個視頻,用戶可以通過文本描述想要檢索的個體特征,如“white dog”“yellow dog”,實(shí)現(xiàn)語義級別的視頻片段定位,如圖5、圖6 所示。

3.3 視頻文本檢索系統(tǒng)設(shè)計

首先,利用FFmpeg 對用戶上傳的視頻進(jìn)行裁剪,離散地抽取視頻中若干幀,這可以有效地減少視頻特征中的冗余信息以及計算量。其次,利用CLIP 對抽得的幀進(jìn)行特征提取和嵌入向量,用戶輸入文本信息后,再利用CLIP 將文本進(jìn)行特征提取得到嵌入向量。

最后,將文本特征與視頻特征進(jìn)行匹配,計算cosine?similarity,根據(jù)用戶前端控制的top?k 來決定索引返回的視頻片段數(shù)量,然后根據(jù)相似度計算得到視頻片段并與文本匹配分?jǐn)?shù)進(jìn)行降序反饋和顯示。視頻文本檢索系統(tǒng)設(shè)計如圖7 所示。

4 結(jié)束語

針對近年來視頻數(shù)據(jù)爆炸式增長的狀況,本文基于CLIP 預(yù)訓(xùn)練模型,利用文本實(shí)現(xiàn)視頻檢索,大幅降低人工進(jìn)行視頻檢索的成本。未來,隨著硬件算力的增長,該模型將會有更大的使用空間,相信在相關(guān)技術(shù)更加成熟后,這套系統(tǒng)可以被應(yīng)用到社會更多行業(yè)中。例如,公安部門可以利用文本在海量的監(jiān)控視頻中尋找關(guān)鍵片段;利用輔助剪輯的功能幫助視頻后期相關(guān)人員在若干小時的拍攝素材中尋找想要的片段等。

參考文獻(xiàn):

[1] ZHANG H,SUN A,JING W,et al.The Elements of TemporalSentence Grounding in Videos: A Survey and FutureDirections[J].IEEE Xplore,2022,45(8):10443?10465.

[2] GAO J,SUN C,YANG Z,et al.tall:temporal activity locali?zation via language query (supplemental material)[J].IEEEXplore,2017,21(10):5267?5275.

[3] YUAN Y,MEI T,ZHU W.To Find Where You Talk:TemporalSentence Localization in Video with Attention Based LocationRegression [ J]. Proceedings of the AAAI Conference onArtificial Intelligenc,2018,33(1):9159?9166.

[4] ZHANG H, SUN A, JING W, et al. Span?based LocalizingNetwork for Natural Language Video Localization [ J ].Publisher:Association for Computational Linguistics,2020,21(5):6543?6554.

[5] RADFORD A,KIM J W,HALLACY C,et al.Learning Transfer?able Visual Models From Natural Language Supervision[J].International Conference on Machine Learning,2021,10(139):8748?8763.

作者簡介:

葉柯(2002—),本科,研究方向:多模態(tài)、文本生成、目標(biāo)檢測。

猜你喜歡
多模態(tài)處理
多模態(tài)話語中的詹姆斯·卡梅隆電影
英語閱讀教學(xué)中多模態(tài)識讀能力的培養(yǎng)
網(wǎng)絡(luò)環(huán)境下大學(xué)英語多模態(tài)交互式閱讀教學(xué)模式研究
戲劇之家(2016年22期)2016-11-30 18:20:43
多模態(tài)理論視角下大學(xué)英語課堂的構(gòu)建
新媒體環(huán)境下多模態(tài)商務(wù)英語課堂教師角色定位
影響油田污水處理水質(zhì)因素分析
視頻后期剪輯制作中鏡頭時長的處理
戲劇之家(2016年19期)2016-10-31 18:38:40
聲樂演唱中藝術(shù)與情感的深入處理
戲劇之家(2016年19期)2016-10-31 18:04:18
東風(fēng)4B型內(nèi)燃機(jī)車C6級維修后冷卻風(fēng)扇不動作原因及解決辦法
橋梁軟土基礎(chǔ)處理應(yīng)用
慈利县| 嘉祥县| 通海县| 丹寨县| 泰和县| 广平县| 威信县| 双鸭山市| 玉树县| 梁平县| 河间市| 当涂县| 临沭县| 浪卡子县| 富锦市| 洪湖市| 古浪县| 乐陵市| 平昌县| 甘肃省| 达州市| 深圳市| 阳江市| 宁明县| 三门县| 娱乐| 开平市| 大田县| 曲麻莱县| 梧州市| 开原市| 临猗县| 新乡县| 寿阳县| 平江县| 安康市| 兰西县| 象山县| 阿拉善盟| 苏州市| 海兴县|