人工智能技術(shù)在錄音錄像檔案管理中的可用性

2022-05-27 05:12劉濤

檔案管理 2022年3期

劉濤

摘? 要：數(shù)字時(shí)代帶來(lái)了電子檔案的海量增長(zhǎng)，而錄音錄像檔案成為電子檔案中占比例最大的部分。傳統(tǒng)的人工操作方式，已經(jīng)不能實(shí)現(xiàn)對(duì)大量錄音錄像檔案進(jìn)行精確編錄的工作，錄音錄像檔案標(biāo)準(zhǔn)著錄信息的有限性也不能滿足檔案管理與利用的需要。利用人工智能平臺(tái)下的語(yǔ)音識(shí)別和視頻內(nèi)容分析技術(shù)，可以高效、準(zhǔn)確地完成這一任務(wù)，給檔案管理利用工作帶來(lái)技術(shù)創(chuàng)新。

關(guān)鍵詞：人工智能;錄音錄像檔案;檔案利用;視頻內(nèi)容分析

Abstract： The digital age has brought about the massive growth of electronic archives， and the audio and video archives have become the largest proportion of electronic archives. The traditional manual operation mode can not accurately catalogue a large number of audio and video archives， and the limitation of standard description information of audio and video archives can not meet the needs of archives management and utilization. Using speech recognition and video content analysis technology under artificial intelligence platform can accomplish this task efficiently and accurately， and bring technical innovation to archives management and utilization.

Keywords： Artificial intelligence; Audio and video archives; Archives utilization; Video content analysis

1 錄音錄像檔案增長(zhǎng)與利用之間的矛盾

20世紀(jì)計(jì)算機(jī)時(shí)代的到來(lái)，檔案文件也從傳統(tǒng)紙質(zhì)與實(shí)物為主，逐漸進(jìn)化到電子檔案時(shí)代。技術(shù)進(jìn)步不僅讓人們的生活質(zhì)量得到大幅提高，也讓記錄儀、高清攝像頭、智能手機(jī)等各種視頻采集設(shè)備全面普及。錄音錄像檔案從傳統(tǒng)時(shí)代的只能利用錄音機(jī)、攝像機(jī)等專(zhuān)業(yè)設(shè)備錄制，變?yōu)辄c(diǎn)點(diǎn)鼠標(biāo)或動(dòng)動(dòng)手指即可批量生成的內(nèi)容，錄音錄像檔案在電子檔案中所占比例越來(lái)越大。隨著錄音錄像檔案逐年增多，開(kāi)始出現(xiàn)檔案編目信息不能滿足檔案管理利用的問(wèn)題。

2020年5月1日國(guó)家檔案局開(kāi)始實(shí)施《錄音錄像檔案管理規(guī)范》，規(guī)范將錄音錄像文件基本著錄項(xiàng)設(shè)定為密級(jí)、載體編號(hào)、檔案門(mén)類(lèi)代碼、題名、責(zé)任者、工作活動(dòng)名稱(chēng)、工作活動(dòng)描述等16個(gè)基本著錄項(xiàng)。16項(xiàng)基本著錄大部分都是從檔案管理角度出發(fā)而設(shè)置，而真正能夠體現(xiàn)錄音錄像檔案的內(nèi)容、展示檔案價(jià)值的著錄項(xiàng)，只有“工作活動(dòng)名稱(chēng)”“工作活動(dòng)描述”兩項(xiàng)信息。在該標(biāo)準(zhǔn)后所附的《錄音錄像電子文件采集登記表》中，填寫(xiě)這兩項(xiàng)內(nèi)容的部分，樣表也只設(shè)計(jì)了2行字和6行字的著錄空間，理論上最多只能填寫(xiě)不超過(guò)300字的內(nèi)容。面對(duì)當(dāng)前一個(gè)錄音錄像檔案動(dòng)輒長(zhǎng)達(dá)幾十分鐘，甚至數(shù)小時(shí)的情況，這寥寥可數(shù)的300字還要分成兩個(gè)部分描述，最多只能做到對(duì)錄音錄像的活動(dòng)主題進(jìn)行概要式說(shuō)明，從而形成簡(jiǎn)化后的著錄數(shù)據(jù)，根本無(wú)法實(shí)現(xiàn)對(duì)檔案豐富內(nèi)容的全面表達(dá)或精準(zhǔn)描述。在檔案利用實(shí)踐中，很多時(shí)候無(wú)法根據(jù)這些有限的著錄信息，找到錄音錄像檔案中的重要信息或片段，而通過(guò)人工全面觀看進(jìn)行查找的效率又過(guò)于低下。對(duì)于需要對(duì)錄音錄像內(nèi)容進(jìn)行精準(zhǔn)編錄的情景，“對(duì)音、視頻檔案的整理還停留在人工視聽(tīng)階段，一邊看一邊聽(tīng)一邊錄，比如各檔案館對(duì)采集的地方新聞聯(lián)播，就通過(guò)這種辦法進(jìn)行條目著錄，不僅效率低、內(nèi)容采集不全，還費(fèi)時(shí)費(fèi)力”。[2]

針對(duì)這一問(wèn)題，檔案工作者從實(shí)踐出發(fā)，提出了不同的解決思路。在音視頻檔案保存與利用的分類(lèi)編目研究方面，張美芳提出了以文件、片段、場(chǎng)景和鏡頭為單元進(jìn)行著錄，更方便精準(zhǔn)地利用信息的解決方案。[3]呂元智、谷俊認(rèn)為視頻檔案資源內(nèi)容揭示與描述等工作存在明顯的不足，妨礙了視頻檔案資源的有效利用，設(shè)計(jì)了三維細(xì)粒度視頻檔案資源描述框架，[4]來(lái)加強(qiáng)檔案資源描述。然而，面對(duì)錄音錄像檔案爆發(fā)式增長(zhǎng)，不可能調(diào)用相應(yīng)規(guī)模的海量人力資源來(lái)實(shí)現(xiàn)以文件、片段、場(chǎng)景和鏡頭為單元或三維細(xì)粒度詳細(xì)著錄。音視頻檔案著錄信息的有限性，與檔案內(nèi)容的高效檢索利用之間，形成了無(wú)法避免的矛盾。

2 人工智能時(shí)代的音像內(nèi)容分析技術(shù)

隨著大數(shù)據(jù)時(shí)代的來(lái)臨，深度學(xué)習(xí)技術(shù)開(kāi)始興起：在海量數(shù)據(jù)的基礎(chǔ)上，利用人工神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)功能，自動(dòng)對(duì)音視頻內(nèi)容進(jìn)行分析成為可能。2006年加拿大人辛頓發(fā)表了關(guān)于計(jì)算機(jī)深度學(xué)習(xí)第一篇論文，此后音視頻內(nèi)容分析技術(shù)進(jìn)入人工智能時(shí)代。截至2015年，在語(yǔ)音識(shí)別方面，利用設(shè)計(jì)的深度學(xué)習(xí)語(yǔ)音識(shí)別模型中英雙語(yǔ)錯(cuò)誤率3.1%，已經(jīng)超過(guò)正常人的識(shí)別能力（錯(cuò)誤率5%），漢語(yǔ)測(cè)試中機(jī)器的識(shí)別錯(cuò)誤率只有3.7%，而一個(gè)五人小組的集體識(shí)別錯(cuò)誤率則為4%。[5]國(guó)內(nèi)科大訊飛、百度、騰訊、搜狗等高科技公司更是在智能手機(jī)輸入法、微信等軟件中，嵌入了語(yǔ)音輸入功能，讓語(yǔ)音識(shí)別走進(jìn)人們的生活。在語(yǔ)音識(shí)別過(guò)程中，用戶提供的大量語(yǔ)音信息成為人工智能識(shí)別訓(xùn)練的大數(shù)據(jù)集，反過(guò)來(lái)提高了語(yǔ)音識(shí)別效果，讓人工智能語(yǔ)音識(shí)別更準(zhǔn)確。在圖像識(shí)別方面，受益于云計(jì)算帶來(lái)的運(yùn)算能力突破式進(jìn)展，利用深度學(xué)習(xí)網(wǎng)絡(luò)模型，2015年人工智能支持下的自然圖像識(shí)別錯(cuò)誤率可達(dá)3.6%，同樣勝過(guò)了人眼識(shí)別5%的錯(cuò)誤率。

人工智能時(shí)代，利用一些圖像處理、模式識(shí)別或機(jī)器學(xué)習(xí)等領(lǐng)域的算法，來(lái)分析視頻序列中的信息，以達(dá)到理解視頻內(nèi)容的目的，也有人稱(chēng)為視頻內(nèi)容分析。[6]通過(guò)對(duì)視頻進(jìn)行語(yǔ)音識(shí)別，結(jié)合基于計(jì)算機(jī)圖像識(shí)別的視頻鏡頭分割技術(shù)，計(jì)算機(jī)已經(jīng)能夠識(shí)別和理解一般場(chǎng)景下的自然語(yǔ)音和自然圖像，將視頻內(nèi)容中的語(yǔ)音直接識(shí)別轉(zhuǎn)化為文字內(nèi)容，視頻中的人物通過(guò)人臉識(shí)別技術(shù)直接生成基于人臉的視頻索引，在避免浪費(fèi)大量人工進(jìn)行音視頻內(nèi)容分析的同時(shí)，還提高了內(nèi)容的準(zhǔn)確度?；谌斯ぶ悄芗夹g(shù)的語(yǔ)音識(shí)別和圖形學(xué)分析，為有限著錄信息與檔案豐富內(nèi)容之間的矛盾提供了可行的解決方案。

3 人工智能技術(shù)在錄音錄像檔案處理中的應(yīng)用

3.1 錄音檔案內(nèi)容的文本化處理。利用人工智能平臺(tái)的語(yǔ)音識(shí)別技術(shù)，可以將現(xiàn)有的錄音檔案進(jìn)行精確識(shí)別，讓整個(gè)錄音的內(nèi)容一字不漏地變成易于檢索利用的文字形式。1個(gè)小時(shí)的錄音文件，如果用人工聽(tīng)寫(xiě)的話，大約需要3～5個(gè)小時(shí)才能完成，如果有嘈雜背景音影響的話，所花時(shí)間更多。而采用人工智能技術(shù)，可以直接根據(jù)語(yǔ)音頻率與噪音頻率的不同，通過(guò)技術(shù)手段將背景噪音去除，同樣的1小時(shí)音頻，計(jì)算機(jī)只需要5分鐘就能完成。與人每次只能識(shí)別一個(gè)文件不同，計(jì)算機(jī)可以同時(shí)對(duì)多個(gè)文件開(kāi)展并行識(shí)別。計(jì)算機(jī)可以24小時(shí)不間斷地工作，更不會(huì)像人一樣因?yàn)閯诶圻^(guò)度出現(xiàn)失誤。在識(shí)別速度、識(shí)別質(zhì)量、準(zhǔn)確度、工作穩(wěn)定性等多個(gè)方面，人工智能技術(shù)都擁有遠(yuǎn)超人類(lèi)的優(yōu)勢(shì)，能夠更快速地將音頻信息完整轉(zhuǎn)錄為文字。在改變傳統(tǒng)錄音檔案整理方式的同時(shí)，節(jié)省了大量的人力物力，同時(shí)還簡(jiǎn)化了采集、處理等工作流程。

3.2 錄像檔案內(nèi)容的智能化分析。傳統(tǒng)的錄像檔案整理，多采用內(nèi)部人工分析，或者數(shù)據(jù)外包的形式，由人工進(jìn)行內(nèi)容識(shí)別、分析、理解、標(biāo)示。在檔案標(biāo)準(zhǔn)著錄信息之外，最主要的工作內(nèi)容就是將全部語(yǔ)音轉(zhuǎn)化為文字，并將個(gè)別重要視頻片段進(jìn)行單元化分割保存。對(duì)于視頻內(nèi)容中可能蘊(yùn)含其他重要信息或關(guān)聯(lián)內(nèi)容，無(wú)法通過(guò)人工進(jìn)行全面處理。不同視頻檔案之間，即便有相關(guān)性，也會(huì)因?yàn)楹Ａ繑?shù)據(jù)的存在，無(wú)法發(fā)現(xiàn)數(shù)據(jù)之間的聯(lián)系，形成檔案利用中的“孤島”。

利用人工智能平臺(tái)的識(shí)別技術(shù)，能夠以關(guān)鍵幀、鏡頭、片段、人物變化、視頻場(chǎng)景等多種標(biāo)準(zhǔn)，將視頻文件分割為不同單元，根據(jù)每個(gè)單元相應(yīng)的語(yǔ)音信息和圖像信息進(jìn)行全面著錄。在生成全面的識(shí)別數(shù)據(jù)之后，就可以實(shí)現(xiàn)對(duì)視頻的全內(nèi)容檢索，不管是視頻中出現(xiàn)的一個(gè)人，一句話，一個(gè)場(chǎng)景事件，還是不同視頻中出現(xiàn)的相似內(nèi)容，都可以利用關(guān)鍵字檢索全部?jī)?nèi)容，將這些關(guān)聯(lián)部分快速聚類(lèi)發(fā)現(xiàn)，自動(dòng)形成有意義的檔案單元，從而讓視頻檔案的檢索利用，從傳統(tǒng)基于視頻著錄項(xiàng)的有限檢索，轉(zhuǎn)變?yōu)槿珒?nèi)容檢索利用。在對(duì)大量的視頻檔案進(jìn)行了內(nèi)容分析之后，還可以通過(guò)人工智能的自動(dòng)化處理技術(shù)，對(duì)不同信息形式的檔案信息進(jìn)行歸納分析，建立檔案內(nèi)部的有機(jī)聯(lián)系，給利用者提供更加完善的檔案信息，從而減少“信息孤島”給檔案利用方面帶來(lái)的不利影響。[7]

3.3 對(duì)傳統(tǒng)檔案管理利用工作的創(chuàng)新。以人工智能為平臺(tái)的音視頻分析技術(shù)，在實(shí)現(xiàn)了音視頻檔案進(jìn)行全內(nèi)容分析編目之后，傳統(tǒng)的檔案編研利用工作也隨之改變。基于全文本內(nèi)容的視頻檢索技術(shù)，可以快速地基于檢索詞，實(shí)現(xiàn)對(duì)視頻內(nèi)容的搜索查找、聚類(lèi)分析、關(guān)聯(lián)推薦，同時(shí)基于分析結(jié)果自動(dòng)生成視頻摘要。

在視頻檔案利用中很重要的一個(gè)工作內(nèi)容，就是利用原有視頻作為素材，創(chuàng)作新的視頻。傳統(tǒng)模式下，這一工作需要對(duì)視頻檔案素材進(jìn)行全面觀看，然后挑選其中相關(guān)的主題內(nèi)容，將視頻精確剪切成片段后，在電腦上用剪輯軟件加上合適的過(guò)渡效果后編輯合成。整個(gè)過(guò)程耗時(shí)過(guò)多，操作復(fù)雜，效率低下。以人工智能平臺(tái)為基礎(chǔ)的視頻分析管理系統(tǒng)，能夠直接解決這一問(wèn)題。以阿里巴巴旗下的北斗星團(tuán)隊(duì)在優(yōu)酷網(wǎng)開(kāi)展的工作為例：在對(duì)長(zhǎng)視頻進(jìn)行內(nèi)容分析后，可以根據(jù)生成的數(shù)據(jù)自動(dòng)衡量視頻內(nèi)容質(zhì)量，實(shí)現(xiàn)對(duì)視頻內(nèi)容的智能化評(píng)估。然后根據(jù)用戶對(duì)內(nèi)容的喜好度，用自動(dòng)化生產(chǎn)的方式智能創(chuàng)作新的視頻，實(shí)現(xiàn)電視電影關(guān)鍵劇情的識(shí)別、抽取、解構(gòu)、組合，最終以故事主線為核心，智能創(chuàng)作預(yù)告片。在檔案利用工作中，人工智能平臺(tái)對(duì)視頻檔案進(jìn)行全內(nèi)容分析后，系統(tǒng)就可以智能化地把完整視頻中不必要的情景切掉，或者根據(jù)設(shè)定的主題，將多個(gè)相關(guān)視頻中的對(duì)話、場(chǎng)景、片段進(jìn)行自動(dòng)拼接，快速高效地生成新的視頻，從而將人員從低效勞動(dòng)中解放出來(lái)。

*本文系2021年度河南省檔案科技項(xiàng)目計(jì)劃“大數(shù)據(jù)背景下多源檔案資源整合研究”（項(xiàng)目編號(hào)：2021-R-23），信陽(yáng)師范學(xué)院青年科研基金項(xiàng)目（2014-QN-008）階段性研究成果。

參考文獻(xiàn)：

[2]張海劍.人工智能賦能檔案事業(yè)創(chuàng)新成果與研究[C]//2019年海峽兩岸檔案暨縮微學(xué)術(shù)交流會(huì)論文集.2019：58-62.

[3]張美芳.面向音視頻檔案保存與利用的分類(lèi)編目研究[J].檔案學(xué)通訊，2018（01）：93-96.

[4]呂元智，谷俊.面向用戶需求的視頻檔案資源描述框架構(gòu)建研究[J].檔案學(xué)研究，2021（06）：91-99.

[5]周宣汝，趙麗亞，趙地，遲學(xué)斌.人工智能對(duì)科研信息化的推動(dòng)作用[J].科研信息化技術(shù)與應(yīng)用，2016，7（06）：14-26.

[6]滿江月.“深度學(xué)習(xí)”開(kāi)啟智能視頻分析技術(shù)的新篇章[J].中國(guó)公共安全，2015（14）：86-89.

[7]李思藝.檔案數(shù)字化建設(shè)中“信息孤島”現(xiàn)象探究[J].辦公室業(yè)務(wù)，2014（12）：46-47.

（作者單位：中南民族大學(xué)，信陽(yáng)師范學(xué)院來(lái)稿日期：2022-02-20）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能技術(shù)在錄音錄像檔案管理中的可用性