陳家樂,董雪蓮,方慧檜,譚靜元
(南華大學(xué),湖南 衡陽(yáng) 421001)
線程則離不開進(jìn)程。首先進(jìn)程是一個(gè)正在執(zhí)行中的程序,每一個(gè)進(jìn)程執(zhí)行都有一個(gè)執(zhí)行順序,該順序是一個(gè)執(zhí)行路徑,或者叫一個(gè)控制單元;線程就是進(jìn)程中的一個(gè)獨(dú)立控制單元,線程在控制著進(jìn)程的執(zhí)行。一個(gè)進(jìn)程中至少有一個(gè)進(jìn)程。多線程:一個(gè)進(jìn)程中不只有一個(gè)線程。
使用多線程,可以更好的利用CPU 的資源,如果只有一個(gè)線程,則第二個(gè)任務(wù)必須等到第一個(gè)任務(wù)結(jié)束后才能進(jìn)行,如果使用多線程則在主線程執(zhí)行任務(wù)的同時(shí)可以執(zhí)行其他任務(wù),而不需要等待;進(jìn)程之間不能共享數(shù)據(jù),線程可以;系統(tǒng)創(chuàng)建進(jìn)程需要為該進(jìn)程重新分配系統(tǒng)資源,創(chuàng)建線程代價(jià)比較?。籎ava 語(yǔ)言內(nèi)置了多線程功能支持,簡(jiǎn)化了java 多線程編程。
傳統(tǒng)的C++(C++98)中并沒有引入線程這個(gè)概念。Linux和Unix 操作系統(tǒng)的設(shè)計(jì)采用的是多進(jìn)程,進(jìn)程間的通信十分方便,同時(shí)進(jìn)程之間互相有著獨(dú)立的空間,不會(huì)污染其他進(jìn)程的數(shù)據(jù),天然的隔離性給程序的穩(wěn)定性帶來了很大的保障。而線程一直都不是Linux 和Unix 推崇的技術(shù),為了使得C++更符合現(xiàn)代語(yǔ)言的特性,在C++11 中引入了多線程與并發(fā)技術(shù)。
隨著深度學(xué)習(xí)的發(fā)展,近些年來音頻算法在智能醫(yī)療、語(yǔ)音識(shí)別、聲源定位等領(lǐng)域的應(yīng)用非?;馃?,其效能和速度也不斷得到精進(jìn)。從過去的云端服務(wù),逐步脫離并發(fā)展到PC 端邊緣運(yùn)算,到這幾年再往移動(dòng)端運(yùn)算發(fā)展。盡管硬件的運(yùn)算能力越來越強(qiáng)大,但是模型輕量化仍是算法設(shè)計(jì)所追求的核心之一。唯有如此,AI 算法才可以隨時(shí)隨地調(diào)用,發(fā)揮它們強(qiáng)大的作用。
語(yǔ)音識(shí)別是音頻深度學(xué)習(xí)的重要研究課題,被廣泛應(yīng)用到各個(gè)領(lǐng)域,比如語(yǔ)音文字轉(zhuǎn)換,可以快速把說話人的信息以文字的形式保存下來,又比如人聲背景聲分離,可以減弱背景聲對(duì)人聲的干擾,加強(qiáng)語(yǔ)音識(shí)別能力。
語(yǔ)音識(shí)別中的音頻多人聲分離算法,主要針對(duì)多人發(fā)聲的場(chǎng)景下,可以把分離之后的音軌和特定的說話人物對(duì)應(yīng)起來。此種方式為其后的語(yǔ)音識(shí)別領(lǐng)域提供了許多的可能性。譬如,音頻多人聲分離算法未來可能會(huì)應(yīng)用于視頻通話降噪、提升波束成形的質(zhì)量和目標(biāo)人識(shí)別等領(lǐng)域,并為傳統(tǒng)的語(yǔ)音識(shí)別帶來一個(gè)比較大的突破。
其中算法性能指標(biāo)為在 interli7CPU 處理一個(gè)時(shí)長(zhǎng)2 分鐘的音頻 時(shí)間不超過10 秒。
通過對(duì)wav 進(jìn)行數(shù)據(jù)讀取以后,使用需要上下采樣的參數(shù)(如16 000,8 000)構(gòu)造好Kaiser Window,此后將wav數(shù)據(jù)數(shù)組傳入到Kaiser Window 的FIR 濾波器中,通過位移糾偏,即可得到下采樣以后的符合模型推理的8 kHz 的音頻數(shù)組。此外,當(dāng)模型推理完成后,將所得的數(shù)據(jù)再次輸入Kaiser窗口的FIR 濾波器中進(jìn)行上采樣,即8 kHz 上采樣到16 kHz。而后將上采樣結(jié)果輸出到wav 文件中。過程如圖1所示。
圖1 Kaiserwindow 運(yùn)行過程
由于目前大部分的電腦設(shè)備已經(jīng)達(dá)到了6 核、8 核甚至10 核,因此在本項(xiàng)目中使用多線程并行化模型推理可以極大地加速推理,壓縮推理時(shí)間。具體流程如圖2所示。
圖2 并行推理流程
首先核心程序?qū)av 音頻數(shù)據(jù)載入到verctor(內(nèi)存)中,而后對(duì)wav 數(shù)據(jù)進(jìn)行分割,使之大小符合模型的輸入的規(guī)定。而后對(duì)分割出來的每組小音頻數(shù)據(jù)數(shù)組進(jìn)行偏移標(biāo)記,如第一組標(biāo)記偏移量為0,第二組標(biāo)記偏移量為16 000。對(duì)每組數(shù)據(jù),分別送入不同的線程進(jìn)行推理。各線程完成推理后,按照偏移量將推理完成數(shù)據(jù)存放至所對(duì)應(yīng)的位置。最終程序再將所有的數(shù)據(jù)加載到新建的三個(gè)wav 文件中一同輸出到指定的位置。最終實(shí)現(xiàn)在10 s 的長(zhǎng)音頻中推理時(shí)間僅需0.48 s。
使用Microsoft Visual Studio 2019 進(jìn)行開發(fā),主要使用了Microsoft 所自研開發(fā)的ONNX 模型推理框架ONNXRunTime,并且使用C++多線程進(jìn)行并行化推理優(yōu)化、FIR 低通濾波進(jìn)行上下采樣、最終實(shí)現(xiàn)推理加速,VS 編程界面如圖3所示。
圖3 VS 編程界面
下文給出詳細(xì)代碼:
面對(duì)整個(gè)模型推理的程序工程化問題,我們使用了分而治之的思路。根據(jù)所要達(dá)到的目標(biāo)(模型大小、性能、以及推理速度),我們分成了兩個(gè)主要的工程進(jìn)行問題的解決,分別是算法的實(shí)現(xiàn)以及模型工程優(yōu)化。在本項(xiàng)目中,我們總共使用了3對(duì)模型進(jìn)行訓(xùn)練、3個(gè)技術(shù)點(diǎn)對(duì)模型推理進(jìn)行優(yōu)化,從而提升整個(gè)模型的泛化能力以及推理的速度。最終項(xiàng)目實(shí)現(xiàn)了模型大小僅19.2 MB(FP32),推理速度0.48 s,參數(shù)量4.9 M,計(jì)算量(flops)為32.9 G,整個(gè)程序運(yùn)行的思路為:
首先對(duì)wav 文件進(jìn)行讀取,產(chǎn)生一個(gè)verctor
根據(jù)sample rate,創(chuàng)建好Kaiser Window,而后將wav數(shù)據(jù)傳入其中進(jìn)行上下采樣。
根據(jù)模型需要的大小,將音頻進(jìn)行切割成合適的片段,并傳入到ONNXRunTime 框架中使用訓(xùn)練好的onnx 模型進(jìn)行推理。每一個(gè)片段進(jìn)行推理時(shí)都使用并行化的方法,最終10s 的音頻分離速度可達(dá)0.48 s。
對(duì)推理完成的wav 數(shù)據(jù)數(shù)組,根據(jù)步驟2 的進(jìn)行反向操作,構(gòu)建Kaiser Window,并重新傳入Kaiser Windows 進(jìn)行上采樣。使用原音頻對(duì)分離出來的兩條音軌進(jìn)行濾波,產(chǎn)生最后的噪音音軌。將所得的三條wav 數(shù)據(jù)進(jìn)行輸出wav。整個(gè)過程的流程圖如圖4所示。
圖4 軟件執(zhí)行邏輯圖
最終可以實(shí)現(xiàn)在Windows 平臺(tái)上面運(yùn)行,提供了cmd命令行的方式對(duì)音頻進(jìn)行分離,其cmd 命令程序無需安裝,僅需解壓即可使用。真正做到了隨解壓隨用,程序運(yùn)行效果如圖5、圖6所示。
圖5 核心推理程序運(yùn)行壓縮包內(nèi)容
圖6 核心推理程序使用界面
本系統(tǒng)在音頻多人聲分離功能的模型訓(xùn)練中處理了114 000 個(gè)(約合424 小時(shí))Libri-mix,wsj0 和wham 噪音音頻數(shù)據(jù)集,使用Libri-mix 噪聲訓(xùn)練集以及wsj0 純聲訓(xùn)練集交替訓(xùn)練,在純?nèi)寺暦蛛x環(huán)境中達(dá)到17.5 dB SI-SDRi 的測(cè)試集性能指標(biāo),噪音環(huán)境中達(dá)到13.5 dB SI-SDRi 的測(cè)試集性能指標(biāo)。最終獲得模型大小僅為19.2 MB,訓(xùn)練時(shí)長(zhǎng)約合1個(gè)月20 天,執(zhí)行24 小時(shí)不間斷訓(xùn)練。
此外,本項(xiàng)目結(jié)合數(shù)字信號(hào)處理課程以及綜合軟件工程思想,使用KaiserWindow 對(duì)音頻進(jìn)行上下采樣,并且對(duì)推理過程進(jìn)行了并行化優(yōu)化,使得核心推理程序每推理10 s 的音頻最快僅需0.48 s(i7-11800H 平臺(tái))。同時(shí)結(jié)合QT 進(jìn)行開發(fā)的圖形化界面,可以使得音頻工作者處理音頻更方便快捷,更好地解決了其需求。