視頻字幕自動生成技術(shù)研究

2021-11-15 22:49:05張大偉

江蘇廣播電視報·新教育 2021年25期

摘要：在信息技術(shù)、互聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下，短視頻平臺出現(xiàn)在社會公眾視野中且逐漸地融入到了人們的生活中，成為了人們生活的一部分。近年來，短視頻平臺用戶數(shù)量處于增加的狀態(tài)，足以證明了短視頻平臺的受歡迎度。短視頻的制作水平影響著用戶的體驗感，以及短視頻平臺的健康發(fā)展，為此有必要構(gòu)建完善短視頻制作體系，科學(xué)指導(dǎo)短視頻制作工作。字幕是短視頻的構(gòu)成要素，不僅可以正確傳達視頻內(nèi)容，而且可以幫助用戶把握視頻重點。在短視頻制作中，應(yīng)格外關(guān)注字幕制作工作。研究發(fā)現(xiàn)，在短視頻制作的過程中會應(yīng)用到字幕自動生成技術(shù)，以提高短視頻制作水平。本文主要闡述了與“短視頻字幕自動生成技術(shù)”相關(guān)的理論，分析了在短視頻中應(yīng)用字幕自動生成技術(shù)的價值，深入研究了短視頻字幕自動生成技術(shù)，介紹了短視頻字幕自動生成軟件，對短視頻字幕自動生成技術(shù)發(fā)展進行了展望，以期為短視頻字幕自動生成技術(shù)發(fā)展與應(yīng)用提供科學(xué)的指導(dǎo)，從而確保短視頻平臺與行業(yè)的健康發(fā)展。

關(guān)鍵詞：字幕自動生成技術(shù);短視頻;研究

引言

現(xiàn)如今，短視頻處于飛速發(fā)展的狀態(tài)。在觀看短視頻時，用戶會通過字幕了解視頻內(nèi)容，把握視頻內(nèi)容。由此可見，字幕在短視頻信息傳達方面起著重要的作用。通常情況之下，字幕人員主要通過手動添加字幕的方式進行短視頻字幕的制作工作。隨著短視頻的發(fā)展，字幕人員的工作量不斷提高。若是仍然使用手動添加字幕的方式制作字幕，就容易影響工作效率，導(dǎo)致字幕人員面臨巨大的工作壓力。為提高字幕制作效率，緩解字幕人員工作壓力，有必要認(rèn)真地研究短視頻字幕自動生成技術(shù)，將短視頻字幕自動生成技術(shù)應(yīng)用在實際工作中，為字幕人員開展工作提供極大的便利。

1相關(guān)理論介紹

1.1短視頻

短視頻指的是時間少的視頻[1]。雖然視頻的時間簡短，但是視頻所包含的內(nèi)容足以滿足用戶需求。尤其是在生活節(jié)奏加快的當(dāng)下，用戶更喜歡觀看短視頻。在新媒體以及互聯(lián)網(wǎng)技術(shù)發(fā)展的背景下，短視頻應(yīng)運而生，深受廣大用戶喜愛。

1.2短視頻字幕

短視頻字幕指的是在短視頻中出現(xiàn)在字，用來介紹短視頻內(nèi)容。為提高用戶閱讀速度，方便用戶獲知視頻信息，短視頻平臺會主動地制作字幕。由于普通用戶也是短視頻的發(fā)布者，所以他們也會在制作短視頻的過程中添加字幕。

1.3字幕自動生成技術(shù)

字幕自動生成技術(shù)指的是基于自動化技術(shù)形成的字幕。通過在短短視頻制作中應(yīng)用字幕自動生成技術(shù)，可以節(jié)約字幕制作時間，提高字幕制作水平。當(dāng)前，越來越多的人研究字幕自動生成技術(shù)，希望保障字幕制作工作效果。

2在短視頻中應(yīng)用字幕自動生成技術(shù)的價值

2.1提高字幕生成的效率

在社會經(jīng)濟快速發(fā)展的大環(huán)境下，人們更加注重追求工作效率，對于企業(yè)來講更是如此。企業(yè)通過追求工作效率，就容易獲得可觀的經(jīng)濟效益。隨著自動化技術(shù)、計算機技術(shù)、信息技術(shù)的發(fā)展，字幕自動生成技術(shù)出現(xiàn)在了社會中。通過將字幕自動生成技術(shù)應(yīng)用在視頻制作中，短視頻平臺就可以提高字幕生成效率，加快短視頻發(fā)布速度，便于用戶及時觀看到最新信息，提高用戶對短視頻平臺服務(wù)的滿意度，進而保證自身在短視頻市場中占據(jù)有利的位置。

2.2確保字幕生成準(zhǔn)確率

目前，越來越多的人加入到字幕自動生成技術(shù)的研究、開發(fā)中，形成了多種字幕自動生成技術(shù)。隨著對字幕自動生成技術(shù)的深入研究，字幕自動生成技術(shù)的性能大幅度提升。過去，應(yīng)用字幕自動生成技術(shù)容易出現(xiàn)問題，而今字幕自動生成技術(shù)的發(fā)展水平不斷提高，使得字幕生成準(zhǔn)確率也得到了提高[2]?？梢哉f，字幕自動生成技術(shù)的應(yīng)用價值有效提升。

2.3緩解字幕人員的壓力

在未出現(xiàn)字幕自動生成技術(shù)前，字幕人員需要手動打字，這樣工作效率無疑是比較低的。伴隨著短視頻平臺數(shù)量的增加，短視頻市場的競爭日趨激烈。同時短視頻平臺用戶的數(shù)量與日俱增。倘若使用手動字幕生成的方法，不僅會影響短視頻制作效率，而且容易失去用戶，難以提高企業(yè)在市場中的競爭力。與此同時，字幕人員的工作壓力也會不斷增加。而通過在短視頻制作中應(yīng)用字幕自動生成技術(shù)，就可以緩解字幕人員的壓力，促進企業(yè)健康發(fā)展。正因如此，越來越多的短視頻運營者引進了字幕自動生成技術(shù)，并在短視頻制作中廣泛應(yīng)用字幕自動生成技術(shù)。

3短視頻字幕自動生成技術(shù)研究

3.1說話者檢測

說話者檢測技術(shù)在字幕自動生成技術(shù)中起著重要的作用，因此要重點研究該技術(shù)。在說話者檢測技術(shù)中，會應(yīng)用到人臉檢測技術(shù)。隨著面部識別水平的提高，人臉檢測技術(shù)進入到了一個新的發(fā)展階段。當(dāng)前，人臉檢測技術(shù)已經(jīng)由最初的研究狀態(tài)進入到應(yīng)用狀態(tài)。通過研究人臉檢測技術(shù)得知，基于灰度值的檢測方法在人臉檢測技術(shù)中發(fā)揮著重要價值?；诨叶戎档臋z測方法是“原始圖片、AdaBoost算法和級聯(lián)分類器”相結(jié)合而形成的。在基于灰度值的檢測方法下，人臉檢測的速度與正確率得到了保證。

原始圖片：即在某一點（x，y）左上角范圍內(nèi)的所有像素和。像素和是以矩形表現(xiàn)出來的。事實上，任何一個圖像都可以用矩形表現(xiàn)像素和。矩形分為黑色與白色，矩形特征小不定，但黑白區(qū)域大小一樣。這些矩形特征在圖像中處于移動的狀態(tài)。若是想要得到特征，就需要進行計算，其中應(yīng)該用白色區(qū)域減去灰色區(qū)域得到特征值。通過把握矩形特征，就可以為人臉識別提供可靠依據(jù)。

AdaBoost算法：AdaBoost算法是人臉檢測技術(shù)的構(gòu)成要素。在研究人臉檢測技術(shù)時一定要認(rèn)真研究AdaBoost算法[3]。在AdaBoost算法下，首先分別訓(xùn)練正負(fù)樣本，令其初始權(quán)重值相等，其次對該樣本集合進行循環(huán)操作，而在每次循環(huán)時先要進行假設(shè)，再認(rèn)真地分析、研究以及計算假設(shè)的錯誤率。之后，依據(jù)該假設(shè)的錯誤率改變每個樣本的權(quán)重進入下一個循環(huán)。通過不斷地循環(huán)，就可以更好地掌握矩形特征。另外，還需要在所掌握的矩形特征中提取T個特征，將T個特征作為一個分類器。在輸入圖像后，就可以根據(jù)矩形特征，判斷人臉圖像。只有在權(quán)重比較大的情況下才會判定其為人臉圖像，這樣會提高人臉識別水平。

級聯(lián)分類器：級聯(lián)分類器是由AdaBoost訓(xùn)練的每個分類器構(gòu)成一個多層分類器[4]。由此可見，級聯(lián)分類器與AdaBoost訓(xùn)練兩者具有重要的關(guān)系。級聯(lián)分類器的作用機理具體如下介紹。第一層分類器：第一層分類器用于判斷人臉，并把人臉的判別信息傳到第二層，用于二次判斷，保證人臉識別的準(zhǔn)確性、可靠性。第二層分類器：在接受到第一層分類器的人臉的判別信息后，就需要對這些信息進行再次分析。在完成信息分析后，就需要傳遞給下一層的分類器。通過反復(fù)的傳遞、分析，有利于大幅度地提高信息分析水平，確保檢測效果。

接下來，要在人臉區(qū)域內(nèi)找到唇部區(qū)域，以此推進字幕自動生產(chǎn)工作。經(jīng)過研究發(fā)現(xiàn)，唇部區(qū)域一般是在人臉幾何區(qū)域的下方1/3處。在人臉區(qū)域內(nèi)尋找唇部區(qū)域時，一定要了解唇部區(qū)域在人臉中的位置，再應(yīng)用Red Exclusion方法，用log（G/B）≤口判定是否為唇部像素。

我國屬于黃種人，即使在口數(shù)值發(fā)生改變，仍舊可以提高唇部外形識別水平。唇部外形識別操作方法如下介紹：唇部外形是三維的，為保證唇部外形識別效果，需要應(yīng)用Red Exclusion方法把三維降低到二維。在完成此項工作后，就需要應(yīng)用Fisher進行判別，其中需要每個像素點（G，B）研值作為Fisher變換的二維矢量X訓(xùn)練、學(xué)習(xí)，便于找到最佳投影矢量[5]。在此之下，就可以確定唇部具體的位置以及輪廓。

在短視頻中，說話者的唇部處于運動的狀態(tài)，而在唇運動下，就會產(chǎn)生聲音、話語，這些是音頻數(shù)據(jù)的重要來源。通過在短視頻中應(yīng)用TDNN，就可以找到說話者，從而為短視頻字幕自動生成提供指導(dǎo)。

3.2文字和語音匹配

文字和語音匹配是短視頻字幕自動生成技術(shù)研究的重點。在研究、開發(fā)短視頻字幕自動生成技術(shù)的過程中，研究人員重點探究了文字和語音匹配的方法。在探究文字和語音匹配中，采用了切分和標(biāo)注語音數(shù)據(jù)的方法，以識別語音，將語音與文字進行匹配[6]。其中，還在此次研究中應(yīng)用了基于模糊邏輯的多特征音頻分類算法、基于擴展匹配網(wǎng)絡(luò)的容錯對準(zhǔn)算法和大量連續(xù)非完全匹配語料的對準(zhǔn)算法。在這些算法下，還可以找到每個字的起始點，即端點檢測。在端點檢測中，會用到短時能量、短時平均過零率、零能積等信息。在能量與過零率下，就可以順利完成對語音信號的分段分析。

研究發(fā)現(xiàn)，短時能量過零率順序為清音》濁音>靜音。通過分辨清音和濁音，就可以更好地清楚過零率。在得出過零率的過程中，要先求出樣本均值和樣本均值標(biāo)準(zhǔn)差，再將標(biāo)準(zhǔn)差乘以一定系數(shù)與均值求和得到過零率門限值[見公式（1）]。經(jīng)過計算與研究得知，k在0.15～0.25[7]。

在文字和語音匹配中，需要開展能量分析工作。而能量分析的重點是要分析濁音。這是因為在濁音開始時整個的能量將會上升。其中，可以采用均值和樣本能量最大值計算能量門限值[見公式（2）]。

4短視頻字幕自動生成軟件介紹

4.1網(wǎng)易見外——電腦

在科學(xué)技術(shù)、計算機技術(shù)快速發(fā)展的背景下，短視頻字幕自動生成軟件的數(shù)量處于增加的狀態(tài)。相關(guān)人員可以根據(jù)自己的需求，選擇合適的軟件對短視頻進行字幕自動生成處理。網(wǎng)易見外屬于一種操作簡單便利的短視頻字幕自動生成平臺，相關(guān)人員可以應(yīng)用該平臺完成字幕處理工作。首先，可以在互聯(lián)網(wǎng)上直接搜索“網(wǎng)易見外工作平臺”;其次，在平臺上注冊賬號、密碼，這樣就可以登陸平臺了;再次，把所要上傳的視頻導(dǎo)出為音頻，并上傳到平臺上，并選擇選擇字幕類型以及識別語言。稍微等待，就會生成字幕。在生成字幕后，還需要認(rèn)真地檢查字幕。如果字幕與視頻內(nèi)容不符，或者存在錯別字，就需要更改字幕，確保字幕與視頻內(nèi)容相匹配。

4.2中譯語通字幕——電腦

中譯語通字幕是一款短視頻字幕自動生成軟件。在應(yīng)用中譯語通字幕軟件時，需要先安裝軟件。其中，可以從網(wǎng)站上下載中譯語通字幕軟件。在安裝完中譯語通字幕軟件后，同樣需要注冊賬號，進而登陸軟件進行視頻字幕自動生成處理。操作步驟包括：上傳視頻-點擊字幕識別-等待結(jié)果。

4.3Arctime——電腦

Arctime是由國外開發(fā)的短視頻字幕自動生成軟件。在應(yīng)用短視頻字幕自動生成軟件時，需要支付一定的費用，否則就不能夠應(yīng)用該他軟件進行短視頻字幕自動生成處理。Arctime的應(yīng)用優(yōu)勢是識別準(zhǔn)確率高，因此Arctime受到了很多人的親睞。

4.4人人譯視界——電腦

人人譯視界與arctime比較相似，在先進的短視頻字幕自動生成技術(shù)下，就可以大幅度地提高短視頻字幕自動生成水平。操作步驟與其他的短視頻字幕自動生成軟件類似，同樣需要上傳視頻，再對視頻進行字幕自動生成處理。在軟件完成字幕自動生成處理后，還會用微信和短信提醒。

4.5快影——手機

除了在電腦上應(yīng)用短視頻字幕自動生成軟件進行字幕生成處理之外，還可以在手機上完成字幕生成處理工作?？煊斑@款短視頻字幕自動生成軟件就可以下載到手機上。在應(yīng)用快影時，需要將視頻上傳到快影上，然后對視頻進行語音轉(zhuǎn)字幕處理。在等待片刻后，就可以生成字幕了。

5短視頻字幕自動生成技術(shù)發(fā)展展望

短視頻字幕自動生成技術(shù)取得應(yīng)用成果，但是這并不代表短視頻字幕自動生成技術(shù)不需要完善。所以，需要認(rèn)真地研究短視頻字幕自動生成技術(shù)，深化發(fā)展短視頻字幕自動生成技術(shù)，進一步提高短視頻字幕自動生成技術(shù)應(yīng)用價值。本次從以下方面進行該技術(shù)發(fā)展展望。

1）強化語音識別效果。語音識別水平在很大的程度上影響著短視頻字幕自動生成的準(zhǔn)確性、可靠性。在未來的技術(shù)研究工作中，有必要深入研究語音識別技術(shù)，保證語音識別技術(shù)應(yīng)用效果。

2）提高標(biāo)點預(yù)測水平。標(biāo)點是字幕的重要構(gòu)成要素。在短視頻字幕自動生成技術(shù)下，應(yīng)做好標(biāo)點預(yù)測工作。其中，相關(guān)人員可以根據(jù)更具體的音頻停頓長短信息判斷標(biāo)點，進而將這些研究成果融入到短視頻字幕自動生成技術(shù)中，提高字幕自動生成水平。

3）解決語音識別模型訓(xùn)練問題。在短視頻字幕自動生成技術(shù)實踐應(yīng)用中出現(xiàn)了一些問題，包括同音詞或者近音詞識別率很低，語氣詞存在停頓問題。為提升這些問題的解決水平，相關(guān)人員需要探究問題出現(xiàn)的原因，進而引入先進的技術(shù)，從而保證問題解決效果。

結(jié)束語

綜上所述，短視頻字幕自動生成技術(shù)的出現(xiàn)與成熟發(fā)展對于短視頻平臺發(fā)展具有不可或缺的價值，同時應(yīng)用短視頻字幕自動生成技術(shù)還降低了人力成本，提高了字幕生成效率。為充分發(fā)揮短視頻字幕自動生成技術(shù)的價值，還需要繼續(xù)研究、開發(fā)短視頻字幕自動生成技術(shù)，以便深層次發(fā)展短視頻字幕自動生成技術(shù)。在這種情況之下，就可以更好地為相關(guān)人員提供短視頻字幕生成便利。

參考文獻：

[1]李妍青.以多模態(tài)語用學(xué)分析法探究影視字幕翻譯的語義生成機制[D].上海外國語大學(xué)，2021.

[2]李昕妍，杜萌萌.功能學(xué)派目的論視角下中文慕課字幕英譯策略選擇——以《MySQL數(shù)據(jù)庫設(shè)計及應(yīng)用》慕課字幕翻譯項目為例[J].英語廣場，2021（05）：45-48.

[3]胡中毓.一種通過語音識別和音頻分割來自動生成字幕的解決方案[J].數(shù)碼世界，2019（10）：30.

[4]陸靜.《安卓Q》黑科技所有APP播視頻無需聯(lián)網(wǎng)即可生成字幕[J].計算機與網(wǎng)絡(luò)，2019，45（12）：37.

[5]肖文艷.基于語料庫的中小學(xué)英語詞匯分析及試題自動生成研究[D].江西師范大學(xué)，2019.

[6]岳好平，龍湘君.綜藝節(jié)目中涂鴉式字幕語言模因變體生成研究[J].哈爾濱學(xué)院學(xué)報，2017，38（05）：117-120.

[7]呂潔.多模態(tài)語境參數(shù)視閾下字幕翻譯的語義生成機制——以電影《血與骨》為例[J].外國語文，2016，32（06）：128-135.

基金項目：2021年度北海職業(yè)學(xué)院校級科研項目“短視頻中文字幕生成技術(shù)研究”（項目編號：2021YKY22）。

作者簡介：

張大偉（1981.10），男，漢族，山東青島人，本科，副教授，研究方向：計算機網(wǎng)絡(luò)機器學(xué)習(xí)，工作單位：北海職業(yè)學(xué)院。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

視頻字幕自動生成技術(shù)研究