国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視頻字幕自動生成技術(shù)研究

2021-11-15 22:49:05張大偉
江蘇廣播電視報·新教育 2021年25期
關(guān)鍵詞:短視頻研究

摘要:在信息技術(shù)、互聯(lián)網(wǎng)技術(shù)快速發(fā)展的背景下,短視頻平臺出現(xiàn)在社會公眾視野中且逐漸地融入到了人們的生活中,成為了人們生活的一部分。近年來,短視頻平臺用戶數(shù)量處于增加的狀態(tài),足以證明了短視頻平臺的受歡迎度。短視頻的制作水平影響著用戶的體驗感,以及短視頻平臺的健康發(fā)展,為此有必要構(gòu)建完善短視頻制作體系,科學(xué)指導(dǎo)短視頻制作工作。字幕是短視頻的構(gòu)成要素,不僅可以正確傳達視頻內(nèi)容,而且可以幫助用戶把握視頻重點。在短視頻制作中,應(yīng)格外關(guān)注字幕制作工作。研究發(fā)現(xiàn),在短視頻制作的過程中會應(yīng)用到字幕自動生成技術(shù),以提高短視頻制作水平。本文主要闡述了與“短視頻字幕自動生成技術(shù)”相關(guān)的理論,分析了在短視頻中應(yīng)用字幕自動生成技術(shù)的價值,深入研究了短視頻字幕自動生成技術(shù),介紹了短視頻字幕自動生成軟件,對短視頻字幕自動生成技術(shù)發(fā)展進行了展望,以期為短視頻字幕自動生成技術(shù)發(fā)展與應(yīng)用提供科學(xué)的指導(dǎo),從而確保短視頻平臺與行業(yè)的健康發(fā)展。

關(guān)鍵詞:字幕自動生成技術(shù);短視頻;研究

引言

現(xiàn)如今,短視頻處于飛速發(fā)展的狀態(tài)。在觀看短視頻時,用戶會通過字幕了解視頻內(nèi)容,把握視頻內(nèi)容。由此可見,字幕在短視頻信息傳達方面起著重要的作用。通常情況之下,字幕人員主要通過手動添加字幕的方式進行短視頻字幕的制作工作。隨著短視頻的發(fā)展,字幕人員的工作量不斷提高。若是仍然使用手動添加字幕的方式制作字幕,就容易影響工作效率,導(dǎo)致字幕人員面臨巨大的工作壓力。為提高字幕制作效率,緩解字幕人員工作壓力,有必要認(rèn)真地研究短視頻字幕自動生成技術(shù),將短視頻字幕自動生成技術(shù)應(yīng)用在實際工作中,為字幕人員開展工作提供極大的便利。

1相關(guān)理論介紹

1.1短視頻

短視頻指的是時間少的視頻[1]。雖然視頻的時間簡短,但是視頻所包含的內(nèi)容足以滿足用戶需求。尤其是在生活節(jié)奏加快的當(dāng)下,用戶更喜歡觀看短視頻。在新媒體以及互聯(lián)網(wǎng)技術(shù)發(fā)展的背景下,短視頻應(yīng)運而生,深受廣大用戶喜愛。

1.2短視頻字幕

短視頻字幕指的是在短視頻中出現(xiàn)在字,用來介紹短視頻內(nèi)容。為提高用戶閱讀速度,方便用戶獲知視頻信息,短視頻平臺會主動地制作字幕。由于普通用戶也是短視頻的發(fā)布者,所以他們也會在制作短視頻的過程中添加字幕。

1.3字幕自動生成技術(shù)

字幕自動生成技術(shù)指的是基于自動化技術(shù)形成的字幕。通過在短短視頻制作中應(yīng)用字幕自動生成技術(shù),可以節(jié)約字幕制作時間,提高字幕制作水平。當(dāng)前,越來越多的人研究字幕自動生成技術(shù),希望保障字幕制作工作效果。

2在短視頻中應(yīng)用字幕自動生成技術(shù)的價值

2.1提高字幕生成的效率

在社會經(jīng)濟快速發(fā)展的大環(huán)境下,人們更加注重追求工作效率,對于企業(yè)來講更是如此。企業(yè)通過追求工作效率,就容易獲得可觀的經(jīng)濟效益。隨著自動化技術(shù)、計算機技術(shù)、信息技術(shù)的發(fā)展,字幕自動生成技術(shù)出現(xiàn)在了社會中。通過將字幕自動生成技術(shù)應(yīng)用在視頻制作中,短視頻平臺就可以提高字幕生成效率,加快短視頻發(fā)布速度,便于用戶及時觀看到最新信息,提高用戶對短視頻平臺服務(wù)的滿意度,進而保證自身在短視頻市場中占據(jù)有利的位置。

2.2確保字幕生成準(zhǔn)確率

目前,越來越多的人加入到字幕自動生成技術(shù)的研究、開發(fā)中,形成了多種字幕自動生成技術(shù)。隨著對字幕自動生成技術(shù)的深入研究,字幕自動生成技術(shù)的性能大幅度提升。過去,應(yīng)用字幕自動生成技術(shù)容易出現(xiàn)問題,而今字幕自動生成技術(shù)的發(fā)展水平不斷提高,使得字幕生成準(zhǔn)確率也得到了提高[2]??梢哉f,字幕自動生成技術(shù)的應(yīng)用價值有效提升。

2.3緩解字幕人員的壓力

在未出現(xiàn)字幕自動生成技術(shù)前,字幕人員需要手動打字,這樣工作效率無疑是比較低的。伴隨著短視頻平臺數(shù)量的增加,短視頻市場的競爭日趨激烈。同時短視頻平臺用戶的數(shù)量與日俱增。倘若使用手動字幕生成的方法,不僅會影響短視頻制作效率,而且容易失去用戶,難以提高企業(yè)在市場中的競爭力。與此同時,字幕人員的工作壓力也會不斷增加。而通過在短視頻制作中應(yīng)用字幕自動生成技術(shù),就可以緩解字幕人員的壓力,促進企業(yè)健康發(fā)展。正因如此,越來越多的短視頻運營者引進了字幕自動生成技術(shù),并在短視頻制作中廣泛應(yīng)用字幕自動生成技術(shù)。

3短視頻字幕自動生成技術(shù)研究

3.1說話者檢測

說話者檢測技術(shù)在字幕自動生成技術(shù)中起著重要的作用,因此要重點研究該技術(shù)。在說話者檢測技術(shù)中,會應(yīng)用到人臉檢測技術(shù)。隨著面部識別水平的提高,人臉檢測技術(shù)進入到了一個新的發(fā)展階段。當(dāng)前,人臉檢測技術(shù)已經(jīng)由最初的研究狀態(tài)進入到應(yīng)用狀態(tài)。通過研究人臉檢測技術(shù)得知,基于灰度值的檢測方法在人臉檢測技術(shù)中發(fā)揮著重要價值?;诨叶戎档臋z測方法是“原始圖片、AdaBoost算法和級聯(lián)分類器”相結(jié)合而形成的。在基于灰度值的檢測方法下,人臉檢測的速度與正確率得到了保證。

原始圖片:即在某一點(x,y)左上角范圍內(nèi)的所有像素和。像素和是以矩形表現(xiàn)出來的。事實上,任何一個圖像都可以用矩形表現(xiàn)像素和。矩形分為黑色與白色,矩形特征小不定,但黑白區(qū)域大小一樣。這些矩形特征在圖像中處于移動的狀態(tài)。若是想要得到特征,就需要進行計算,其中應(yīng)該用白色區(qū)域減去灰色區(qū)域得到特征值。通過把握矩形特征,就可以為人臉識別提供可靠依據(jù)。

AdaBoost算法:AdaBoost算法是人臉檢測技術(shù)的構(gòu)成要素。在研究人臉檢測技術(shù)時一定要認(rèn)真研究AdaBoost算法[3]。在AdaBoost算法下,首先分別訓(xùn)練正負(fù)樣本,令其初始權(quán)重值相等,其次對該樣本集合進行循環(huán)操作,而在每次循環(huán)時先要進行假設(shè),再認(rèn)真地分析、研究以及計算假設(shè)的錯誤率。之后,依據(jù)該假設(shè)的錯誤率改變每個樣本的權(quán)重進入下一個循環(huán)。通過不斷地循環(huán),就可以更好地掌握矩形特征。另外,還需要在所掌握的矩形特征中提取T個特征,將T個特征作為一個分類器。在輸入圖像后,就可以根據(jù)矩形特征,判斷人臉圖像。只有在權(quán)重比較大的情況下才會判定其為人臉圖像,這樣會提高人臉識別水平。

級聯(lián)分類器:級聯(lián)分類器是由AdaBoost訓(xùn)練的每個分類器構(gòu)成一個多層分類器[4]。由此可見,級聯(lián)分類器與AdaBoost訓(xùn)練兩者具有重要的關(guān)系。級聯(lián)分類器的作用機理具體如下介紹。第一層分類器:第一層分類器用于判斷人臉,并把人臉的判別信息傳到第二層,用于二次判斷,保證人臉識別的準(zhǔn)確性、可靠性。第二層分類器:在接受到第一層分類器的人臉的判別信息后,就需要對這些信息進行再次分析。在完成信息分析后,就需要傳遞給下一層的分類器。通過反復(fù)的傳遞、分析,有利于大幅度地提高信息分析水平,確保檢測效果。

接下來,要在人臉區(qū)域內(nèi)找到唇部區(qū)域,以此推進字幕自動生產(chǎn)工作。經(jīng)過研究發(fā)現(xiàn),唇部區(qū)域一般是在人臉幾何區(qū)域的下方1/3處。在人臉區(qū)域內(nèi)尋找唇部區(qū)域時,一定要了解唇部區(qū)域在人臉中的位置,再應(yīng)用Red Exclusion方法,用log(G/B)≤口判定是否為唇部像素。

我國屬于黃種人,即使在口數(shù)值發(fā)生改變,仍舊可以提高唇部外形識別水平。唇部外形識別操作方法如下介紹:唇部外形是三維的,為保證唇部外形識別效果,需要應(yīng)用Red Exclusion方法把三維降低到二維。在完成此項工作后,就需要應(yīng)用Fisher進行判別,其中需要每個像素點(G,B)研值作為Fisher變換的二維矢量X訓(xùn)練、學(xué)習(xí),便于找到最佳投影矢量[5]。在此之下,就可以確定唇部具體的位置以及輪廓。

在短視頻中,說話者的唇部處于運動的狀態(tài),而在唇運動下,就會產(chǎn)生聲音、話語,這些是音頻數(shù)據(jù)的重要來源。通過在短視頻中應(yīng)用TDNN,就可以找到說話者,從而為短視頻字幕自動生成提供指導(dǎo)。

3.2文字和語音匹配

文字和語音匹配是短視頻字幕自動生成技術(shù)研究的重點。在研究、開發(fā)短視頻字幕自動生成技術(shù)的過程中,研究人員重點探究了文字和語音匹配的方法。在探究文字和語音匹配中,采用了切分和標(biāo)注語音數(shù)據(jù)的方法,以識別語音,將語音與文字進行匹配[6]。其中,還在此次研究中應(yīng)用了基于模糊邏輯的多特征音頻分類算法、基于擴展匹配網(wǎng)絡(luò)的容錯對準(zhǔn)算法和大量連續(xù)非完全匹配語料的對準(zhǔn)算法。在這些算法下,還可以找到每個字的起始點,即端點檢測。在端點檢測中,會用到短時能量、短時平均過零率、零能積等信息。在能量與過零率下,就可以順利完成對語音信號的分段分析。

研究發(fā)現(xiàn),短時能量過零率順序為清音》濁音>靜音。通過分辨清音和濁音,就可以更好地清楚過零率。在得出過零率的過程中,要先求出樣本均值和樣本均值標(biāo)準(zhǔn)差,再將標(biāo)準(zhǔn)差乘以一定系數(shù)與均值求和得到過零率門限值[見公式(1)]。經(jīng)過計算與研究得知,k在0.15~0.25[7]。

在文字和語音匹配中,需要開展能量分析工作。而能量分析的重點是要分析濁音。這是因為在濁音開始時整個的能量將會上升。其中,可以采用均值和樣本能量最大值計算能量門限值[見公式(2)]。

4短視頻字幕自動生成軟件介紹

4.1網(wǎng)易見外——電腦

在科學(xué)技術(shù)、計算機技術(shù)快速發(fā)展的背景下,短視頻字幕自動生成軟件的數(shù)量處于增加的狀態(tài)。相關(guān)人員可以根據(jù)自己的需求,選擇合適的軟件對短視頻進行字幕自動生成處理。網(wǎng)易見外屬于一種操作簡單便利的短視頻字幕自動生成平臺,相關(guān)人員可以應(yīng)用該平臺完成字幕處理工作。首先,可以在互聯(lián)網(wǎng)上直接搜索“網(wǎng)易見外工作平臺”;其次,在平臺上注冊賬號、密碼,這樣就可以登陸平臺了;再次,把所要上傳的視頻導(dǎo)出為音頻,并上傳到平臺上,并選擇選擇字幕類型以及識別語言。稍微等待,就會生成字幕。在生成字幕后,還需要認(rèn)真地檢查字幕。如果字幕與視頻內(nèi)容不符,或者存在錯別字,就需要更改字幕,確保字幕與視頻內(nèi)容相匹配。

4.2中譯語通字幕——電腦

中譯語通字幕是一款短視頻字幕自動生成軟件。在應(yīng)用中譯語通字幕軟件時,需要先安裝軟件。其中,可以從網(wǎng)站上下載中譯語通字幕軟件。在安裝完中譯語通字幕軟件后,同樣需要注冊賬號,進而登陸軟件進行視頻字幕自動生成處理。操作步驟包括:上傳視頻-點擊字幕識別-等待結(jié)果。

4.3Arctime——電腦

Arctime是由國外開發(fā)的短視頻字幕自動生成軟件。在應(yīng)用短視頻字幕自動生成軟件時,需要支付一定的費用,否則就不能夠應(yīng)用該他軟件進行短視頻字幕自動生成處理。Arctime的應(yīng)用優(yōu)勢是識別準(zhǔn)確率高,因此Arctime受到了很多人的親睞。

4.4人人譯視界——電腦

人人譯視界與arctime比較相似,在先進的短視頻字幕自動生成技術(shù)下,就可以大幅度地提高短視頻字幕自動生成水平。操作步驟與其他的短視頻字幕自動生成軟件類似,同樣需要上傳視頻,再對視頻進行字幕自動生成處理。在軟件完成字幕自動生成處理后,還會用微信和短信提醒。

4.5快影——手機

除了在電腦上應(yīng)用短視頻字幕自動生成軟件進行字幕生成處理之外,還可以在手機上完成字幕生成處理工作??煊斑@款短視頻字幕自動生成軟件就可以下載到手機上。在應(yīng)用快影時,需要將視頻上傳到快影上,然后對視頻進行語音轉(zhuǎn)字幕處理。在等待片刻后,就可以生成字幕了。

5短視頻字幕自動生成技術(shù)發(fā)展展望

短視頻字幕自動生成技術(shù)取得應(yīng)用成果,但是這并不代表短視頻字幕自動生成技術(shù)不需要完善。所以,需要認(rèn)真地研究短視頻字幕自動生成技術(shù),深化發(fā)展短視頻字幕自動生成技術(shù),進一步提高短視頻字幕自動生成技術(shù)應(yīng)用價值。本次從以下方面進行該技術(shù)發(fā)展展望。

1)強化語音識別效果。語音識別水平在很大的程度上影響著短視頻字幕自動生成的準(zhǔn)確性、可靠性。在未來的技術(shù)研究工作中,有必要深入研究語音識別技術(shù),保證語音識別技術(shù)應(yīng)用效果。

2)提高標(biāo)點預(yù)測水平。標(biāo)點是字幕的重要構(gòu)成要素。在短視頻字幕自動生成技術(shù)下,應(yīng)做好標(biāo)點預(yù)測工作。其中,相關(guān)人員可以根據(jù)更具體的音頻停頓長短信息判斷標(biāo)點,進而將這些研究成果融入到短視頻字幕自動生成技術(shù)中,提高字幕自動生成水平。

3)解決語音識別模型訓(xùn)練問題。在短視頻字幕自動生成技術(shù)實踐應(yīng)用中出現(xiàn)了一些問題,包括同音詞或者近音詞識別率很低,語氣詞存在停頓問題。為提升這些問題的解決水平,相關(guān)人員需要探究問題出現(xiàn)的原因,進而引入先進的技術(shù),從而保證問題解決效果。

結(jié)束語

綜上所述,短視頻字幕自動生成技術(shù)的出現(xiàn)與成熟發(fā)展對于短視頻平臺發(fā)展具有不可或缺的價值,同時應(yīng)用短視頻字幕自動生成技術(shù)還降低了人力成本,提高了字幕生成效率。為充分發(fā)揮短視頻字幕自動生成技術(shù)的價值,還需要繼續(xù)研究、開發(fā)短視頻字幕自動生成技術(shù),以便深層次發(fā)展短視頻字幕自動生成技術(shù)。在這種情況之下,就可以更好地為相關(guān)人員提供短視頻字幕生成便利。

參考文獻:

[1]李妍青.以多模態(tài)語用學(xué)分析法探究影視字幕翻譯的語義生成機制[D].上海外國語大學(xué),2021.

[2]李昕妍,杜萌萌.功能學(xué)派目的論視角下中文慕課字幕英譯策略選擇——以《MySQL數(shù)據(jù)庫設(shè)計及應(yīng)用》慕課字幕翻譯項目為例[J].英語廣場,2021(05):45-48.

[3]胡中毓.一種通過語音識別和音頻分割來自動生成字幕的解決方案[J].數(shù)碼世界,2019(10):30.

[4]陸靜.《安卓Q》黑科技所有APP播視頻無需聯(lián)網(wǎng)即可生成字幕[J].計算機與網(wǎng)絡(luò),2019,45(12):37.

[5]肖文艷.基于語料庫的中小學(xué)英語詞匯分析及試題自動生成研究[D].江西師范大學(xué),2019.

[6]岳好平,龍湘君.綜藝節(jié)目中涂鴉式字幕語言模因變體生成研究[J].哈爾濱學(xué)院學(xué)報,2017,38(05):117-120.

[7]呂潔.多模態(tài)語境參數(shù)視閾下字幕翻譯的語義生成機制——以電影《血與骨》為例[J].外國語文,2016,32(06):128-135.

基金項目:2021年度北海職業(yè)學(xué)院校級科研項目“短視頻中文字幕生成技術(shù)研究”(項目編號:2021YKY22)。

作者簡介:

張大偉(1981.10),男,漢族,山東青島人,本科,副教授,研究方向:計算機網(wǎng)絡(luò)機器學(xué)習(xí),工作單位:北海職業(yè)學(xué)院。

猜你喜歡
短視頻研究
FMS與YBT相關(guān)性的實證研究
2020年國內(nèi)翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設(shè)計中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
新版C-NCAP側(cè)面碰撞假人損傷研究
“去閱讀”時代短視頻自媒體發(fā)展現(xiàn)狀及其文化解讀
新媒體研究(2017年5期)2017-04-21 14:20:17
符號學(xué)視角分析惡搞短視頻
移動社交時代短視頻的傳播及營銷模式探析
出版廣角(2016年24期)2017-03-02 18:29:21
用戶自制短視頻的受眾研究
新聞世界(2016年10期)2016-10-11 20:22:13
鞍山市| 昌平区| 岑巩县| 岑溪市| 昌乐县| 永定县| 察哈| 宁乡县| 嘉义市| 青冈县| 佛坪县| 新郑市| 普宁市| 都匀市| 阿拉尔市| 海林市| 十堰市| 吉安县| 民县| 罗田县| 安庆市| 泰安市| 大埔县| 年辖:市辖区| 开远市| 长汀县| 宁武县| 墨竹工卡县| 临城县| 内乡县| 华阴市| 慈溪市| 环江| 定陶县| 凯里市| 化德县| 隆回县| 青海省| 丹凤县| 凤翔县| 略阳县|