馮 暢 吳曉龍 趙熠揚(yáng) 徐明星 鄭 方
1(清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 北京 100084)
2(清華大學(xué)北京信息科學(xué)與技術(shù)國家研究中心 北京 100084)
3(新疆大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 烏魯木齊 830046)
生成式偽造語音是基于生成式人工智能算法產(chǎn)生的語音.生成式人工智能通常是指“一種利用現(xiàn)有數(shù)據(jù)生成新的、真實(shí)的、反映訓(xùn)練數(shù)據(jù)特點(diǎn)但具有原創(chuàng)性內(nèi)容的新數(shù)據(jù)的人工智能技術(shù)”[1].生成式人工智能一般要通過各種機(jī)器學(xué)習(xí)根據(jù)給定的輸入數(shù)據(jù)或模式,自動(dòng)生成新的輸出數(shù)據(jù)或模式.近年來,隨著深度神經(jīng)網(wǎng)絡(luò)研究和計(jì)算機(jī)算力的持續(xù)突破,通過生成式人工智能技術(shù)學(xué)習(xí)大量樣本數(shù)據(jù)中的模式和規(guī)律,可以生成質(zhì)量越來越高的文本、圖像、語音、視頻等各種模態(tài)的內(nèi)容.生成式人工智能具有可自動(dòng)生成大量內(nèi)容、可根據(jù)用戶需求和偏好進(jìn)行定制化生成等優(yōu)點(diǎn),能幫助人們更快地獲取信息,提高創(chuàng)造力和效率,也可以為人們提供更多的娛樂和文化體驗(yàn).
然而,生成式人工智能的運(yùn)用也存在一些風(fēng)險(xiǎn),例如可能生成不準(zhǔn)確或不合適的內(nèi)容,或者被用于惡意目的.在語音領(lǐng)域,生成式偽造語音在人機(jī)交互中的不當(dāng)使用帶來的安全威脅同樣令人擔(dān)憂.因此,針對正在發(fā)展的生成式偽造語音技術(shù),需要同時(shí)發(fā)展偽造語音檢測技術(shù),加強(qiáng)治理體系建設(shè),對技術(shù)應(yīng)用進(jìn)行充分評(píng)估和監(jiān)管,以保證技術(shù)發(fā)展朝著正確的道路前進(jìn),確保技術(shù)應(yīng)用的安全性和合法性.
當(dāng)前,隨著生成式偽造語音技術(shù)的發(fā)展,電信詐騙已經(jīng)演化到一個(gè)新的層次.詐騙者不再需要利用傳統(tǒng)的社會(huì)工程手段模仿他人的聲音,而是通過軟件創(chuàng)建目標(biāo)對象的克隆語音進(jìn)行詐騙.國內(nèi)外都有此類案例報(bào)告.詐騙者使用這種技術(shù)假冒親人、銀行工作人員或權(quán)威機(jī)構(gòu)人員的聲音,誘使受害者轉(zhuǎn)賬或泄露個(gè)人信息.
2022年,美國和加拿大發(fā)生了一系列利用AI合成聲音實(shí)施詐騙的案件,這類案件不僅頻發(fā)而且手段高明,涉案金額高達(dá)1100萬美元,而且主要的受害群體為老年人.這些詐騙行為通常是通過獲取目標(biāo)受害者親人的聲音樣本進(jìn)行操作的,這些樣本可能來自于社交媒體上的視頻、電話留言或公開場合的語音錄音.詐騙者利用AI語音合成軟件處理這些聲音樣本,生成與受害者親人極其相似的聲音.接著,他們通過電話聯(lián)系受害者,偽裝成親人,并編造緊急情況,比如事故、被捕等,以此來誘使受害者匯款或轉(zhuǎn)賬.由于合成的聲音與真實(shí)語音有極高的相似性,使受害者難以識(shí)別出電話中的語音是偽造的,特別是在情緒緊張和發(fā)生緊急情況時(shí),受害者往往會(huì)出于關(guān)心、擔(dān)心、害怕而沒有產(chǎn)生懷疑,就給犯罪分子進(jìn)行匯款.
數(shù)據(jù)統(tǒng)計(jì)顯示,這種新型電信詐騙的成功率遠(yuǎn)高于傳統(tǒng)詐騙電話,它所帶來的安全威脅正在呈現(xiàn)日益上升的趨勢[2].
隨著智能家居和個(gè)人助理設(shè)備的普及,語音應(yīng)用程序變得越來越重要,它們廣泛應(yīng)用于智能家居、移動(dòng)設(shè)備以及企業(yè)系統(tǒng)中,使日常任務(wù)如購物、搜索信息和家居設(shè)備控制變得更加便捷.然而,由于上述語音應(yīng)用通常采用聲紋識(shí)別技術(shù)作為安全驗(yàn)證方式,生成式偽造語音技術(shù)的發(fā)展對這些語音應(yīng)用程序的安全性構(gòu)成了直接威脅.
以智能助理為例,這些設(shè)備通常通過聲紋識(shí)別技術(shù)來識(shí)別和執(zhí)行用戶的命令.但現(xiàn)在,生成式偽造語音技術(shù)可以生成與用戶聲音聽起來幾乎相同的語音,這使得惡意攻擊者可以通過模仿用戶的聲音控制智能設(shè)備,甚至進(jìn)行非授權(quán)的購買或訪問敏感信息.
由于語音設(shè)備的廣泛使用以及通信技術(shù)的發(fā)展,以錄音記錄事件變得更加普遍.錄音的語音作為證據(jù)已經(jīng)在近幾年的案件中作為重要線索和關(guān)鍵證據(jù).所以錄音語音的真實(shí)性與完整性是司法程序中判案的基石.在2023年通告的一起案例中,公安部鑒定中心的專家運(yùn)用先進(jìn)的技術(shù)對涉案的錄音筆內(nèi)的音頻文件進(jìn)行了深入的恢復(fù)和分析,以語音內(nèi)容作為證據(jù)之一.鑒定中心的專家特別抽取了音頻內(nèi)容,通過與留存的語音樣本進(jìn)行聲紋比對,并結(jié)合現(xiàn)場調(diào)查的具體情況,最終確認(rèn)這些錄音音頻是否由比對者本人所錄制.更重要的是,鑒定中心的專家還通過詳細(xì)的聲音分析,確認(rèn)錄音內(nèi)容未經(jīng)過人為的合成或篡改,確保了音頻證據(jù)的真實(shí)性,保障了證據(jù)的公正性,為破案進(jìn)一步提供了關(guān)鍵證據(jù).
偽造語音使得語音證據(jù)在司法領(lǐng)域使用的公正性和可信度面臨前所未有的挑戰(zhàn).這對司法部門提出了更高的要求,不僅需要更新的技術(shù)支持,也需要更為嚴(yán)謹(jǐn)?shù)姆珊统绦蛞?guī)范,以應(yīng)對未來可能出現(xiàn)的更加復(fù)雜的偽造案例.
在生成式偽造技術(shù)的應(yīng)用中,視頻偽造尤其引人注目,它結(jié)合了精準(zhǔn)模仿的語音和與之同步的視覺元素,能夠?qū)δ繕?biāo)人物的語音和面部表情進(jìn)行高度還原,從雙模態(tài)上給人更高的信任度,使得偽造的視頻更加逼真,具有極大的欺騙性.特別是國內(nèi)外知名人士的視頻語音數(shù)據(jù),這類資料眾多,更容易被獲取并用于偽造.近年已有多個(gè)以知名人士作為主角的視頻被偽造產(chǎn)生,以篡改原視頻或生成全新視頻的方式,負(fù)面影響包括有散布虛假言論或表現(xiàn)主角不當(dāng)行為,可能導(dǎo)致公眾對于真實(shí)事件的誤解和混淆,損害其聲譽(yù)和形象.虛假視頻還有可能被用于傳播虛假信息或進(jìn)行欺騙活動(dòng),從而干擾社會(huì)秩序和破壞公信力.同時(shí),互聯(lián)網(wǎng)和社交媒體的普及也為這些虛假視頻的傳播提供了廣闊的平臺(tái),使得它們能夠迅速傳播并引起公眾的關(guān)注.根據(jù)對視頻平臺(tái)的監(jiān)測,此類偽造視頻的傳播速度之快、觀看量之高,均顯示出其在社交網(wǎng)絡(luò)中的強(qiáng)大影響力.
這些案例表明,深度偽造不僅能夠在短時(shí)間內(nèi)吸引巨大的觀眾量,而且其內(nèi)容的可信度和真實(shí)性常常令人難以辨認(rèn),對于個(gè)人聲譽(yù)、公眾信任以及社會(huì)秩序都可能造成深遠(yuǎn)的負(fù)面影響.因此,探尋和發(fā)展相應(yīng)的檢測技術(shù)、防范策略,以應(yīng)對這類視頻偽造欺騙已經(jīng)成為亟待解決的問題.
生成式偽造語音是指通過語音合成、語音轉(zhuǎn)換這2種生成式語音技術(shù)產(chǎn)生的語音信號(hào),其中:語音合成技術(shù)是從給定的文本信息生成朗讀該內(nèi)容的語音信號(hào);語音轉(zhuǎn)換技術(shù)是從給定的源說話人語音轉(zhuǎn)換為目標(biāo)說話人說相同內(nèi)容的語音.
語音合成技術(shù)可劃分為發(fā)音器官模擬合成、共振峰合成、拼接合成、聲學(xué)參數(shù)合成.發(fā)音器官模擬合成方法[3]通過模擬人類的發(fā)音器官(包括聲門、聲道、嘴唇、舌頭等)的運(yùn)動(dòng)行為產(chǎn)生相應(yīng)的聲音,再根據(jù)語音信號(hào)的相關(guān)知識(shí)對每個(gè)模仿部位的聲音進(jìn)行濾波、卷積等操作,組合出最終的語音信號(hào);共振峰合成方法[4]是利用發(fā)音器官模型簡化的源-濾波器模型,將語音分解為共振峰結(jié)構(gòu)與其他頻譜結(jié)構(gòu),這2個(gè)結(jié)構(gòu)用一個(gè)加性合成模塊組合起來,最后通過估計(jì)這3個(gè)部分的參數(shù)實(shí)現(xiàn)合成語音;拼接合成方法[5]是將已有的真實(shí)語音片段根據(jù)文字內(nèi)容提示進(jìn)行拼接,語音片段是以句子、單詞、字、音節(jié)等語音單位進(jìn)行提前錄制并分割好的,拼接算法包含搜索語音片段、平滑語音片段間的連接、統(tǒng)一整句語音風(fēng)格等工作;聲學(xué)參數(shù)合成方法是通過先生成語音中的聲學(xué)特征參數(shù),再從聲學(xué)參數(shù)轉(zhuǎn)換為語音采樣點(diǎn),就得到數(shù)字語音信號(hào).早期的聲學(xué)參數(shù)合成是采用統(tǒng)計(jì)參數(shù)合成的方法[6],由文本分析、聲學(xué)模型預(yù)測聲學(xué)參數(shù)、聲碼器轉(zhuǎn)換采樣點(diǎn)3個(gè)部分組成:文本分析是對文本進(jìn)行預(yù)處理,轉(zhuǎn)換為音節(jié)、音素等更細(xì)粒度的語言特征,根據(jù)語言特征采用聲學(xué)模型預(yù)測基頻、頻譜等聲學(xué)參數(shù),將預(yù)測的聲學(xué)參數(shù)用聲碼器的聲碼分析合成語音波形采樣點(diǎn).近年的聲學(xué)參數(shù)合成方法采用深度神經(jīng)網(wǎng)絡(luò)分別實(shí)現(xiàn)文本分析語言特征、聲學(xué)參數(shù)建模和聲碼器轉(zhuǎn)換采樣點(diǎn)這3個(gè)模塊,更直接的還有從語言特征生成語音采樣點(diǎn)波形,如WaveNet[7]的提出.完全的端到端模型,將文本分析也與語言特征合并進(jìn)行聯(lián)合訓(xùn)練,如FastSpeech 2[8]等實(shí)現(xiàn)從文本直接生成波形采樣點(diǎn).此外,視頻合成算法中,利用文本-圖像擴(kuò)散模型,生成時(shí)間一致視頻可以同時(shí)完成語音合成與圖像合成的任務(wù)[9].
語音轉(zhuǎn)換技術(shù)方案的基本原理是將輸入的源說話人語音信號(hào)轉(zhuǎn)換為源特征表示;然后將源特征表示轉(zhuǎn)換為目標(biāo)說話人的特征表示;最后將目標(biāo)說話人的特征表示運(yùn)用聲碼器等恢復(fù)為目標(biāo)語音信號(hào).源特征表示和目標(biāo)特征表示可以是頻譜包絡(luò)、頻譜圖等語音聲學(xué)特征.對特征表示的轉(zhuǎn)換方法有早期的高斯混合模型、頻率彎折、樣例語譜圖分解、說話人特征轉(zhuǎn)換等方法[10],還有近年來以生成對抗網(wǎng)絡(luò)[11]、自編碼器[12]為代表的神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換模型框架.隨著語音合成中端到端模型的有效運(yùn)用,語音轉(zhuǎn)換中也能采用如WaveNet[7]等模型框架將特征轉(zhuǎn)換和語音采樣點(diǎn)恢復(fù)聯(lián)合訓(xùn)練成一個(gè)模型.
偽造語音以生成自然流暢、符合人類聽覺感知、具有內(nèi)容可理解性、語音質(zhì)量穩(wěn)定的語音信號(hào)作為目標(biāo).當(dāng)前的各類偽造語音已經(jīng)能夠達(dá)到以下效果[13]:
1) 自然度.非常接近自然語音,人類聽力測試上已經(jīng)難以分辨某些偽造語音.
2) 準(zhǔn)確度和理解度.能準(zhǔn)確表達(dá)相應(yīng)的文本內(nèi)容,在發(fā)音、語調(diào)、語速上均能保持可理解性.
3) 多音色支持.支持多種音色,包括男、女、老年、兒童等不同人群的音色.甚至能夠根據(jù)用戶的需求,在聲音特征、語言習(xí)慣上進(jìn)行定制.
4) 多場景支持.支持不同使用場景、不同采樣設(shè)備下的定制表現(xiàn),語音質(zhì)量也能保持穩(wěn)定.
語音合成已經(jīng)廣泛地用于實(shí)現(xiàn)人機(jī)交互的各種功能:可以將電子書、新聞文章等文本信息轉(zhuǎn)換為語音,朗讀讀出,用戶用“聽書”實(shí)現(xiàn)電子閱讀;在導(dǎo)航程序中將導(dǎo)航信息轉(zhuǎn)換為導(dǎo)航語音;結(jié)合聊天機(jī)器人技術(shù),可以在客服系統(tǒng)中將文本轉(zhuǎn)換為語音,完成智能客服交流;還能用于語音廣播、語音教育、語音翻譯等實(shí)現(xiàn)讓用戶以聽的方式接受信息輸入;在新聞采訪視頻等領(lǐng)域,為了保護(hù)被采訪人隱私,通過生成具有特定音色和語調(diào)的語音,掩蓋原說話人的語音.
人類發(fā)出的聲音信號(hào)是一種模擬信號(hào),需通過麥克風(fēng)等傳感器轉(zhuǎn)換為數(shù)字語音信號(hào)才能在計(jì)算機(jī)等電子設(shè)備中進(jìn)行處理和傳輸.為了檢測偽造語音,通常使用語音信號(hào)處理技術(shù)和機(jī)器學(xué)習(xí)算法來分析語音信號(hào)的特征和模式,將偽造語音與真實(shí)語音的特征和模式進(jìn)行比較,以確定語音的真?zhèn)?
偽造語音檢測可以用于聲紋認(rèn)證、語音取證等領(lǐng)域,檢測語音輸入的真?zhèn)涡砸灶A(yù)防語音和視頻欺詐,確保語音認(rèn)證系統(tǒng)的安全可靠,證明音頻證據(jù)的真實(shí)有效性,解決本文第1節(jié)中提到的各類偽造語音濫用安全問題.
根據(jù)聽力測試[14],人類對偽造語音的敏感性主要集中在對韻律、字詞銜接與連續(xù)性等語義聽感方面.目前,對偽造語音檢測研究主要集中在2大類上:對偽造語音特征的研究;對真?zhèn)握Z音模式學(xué)習(xí)的分類器模型研究.
偽造語音檢測以特征提取作為前端操作,將數(shù)字語音信號(hào)時(shí)序采樣點(diǎn)表示為適合分類器的聲學(xué)特征輸入.傳統(tǒng)方法是人工設(shè)計(jì)的聲學(xué)特征,基于信號(hào)處理的相關(guān)知識(shí),從頻域、相位域、倒譜域及相關(guān)的信號(hào)變換操作中提取聲學(xué)特征.如語音頻譜圖、梅爾倒譜系數(shù)(Mel frequency cepstrum coefficient, MFCC)、線性倒譜系數(shù)(linear frequency cepstrum coefficient, LFCC)[15],采用常數(shù)Q變換提取常數(shù)Q倒譜系數(shù)(constant Q cepstrum coefficient, CQCC)[16],對相位信息進(jìn)行描述的群延遲特征[17]等.
針對偽造語音與真實(shí)語音的不同點(diǎn),還可以設(shè)計(jì)韻律相關(guān)的可區(qū)分性特征.近年學(xué)者們開始使用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表示,通過卷積神經(jīng)網(wǎng)絡(luò)及殘差模塊、記憶模塊等,以學(xué)習(xí)真?zhèn)?類語音分布為目標(biāo),提取具有真?zhèn)慰蓞^(qū)分性的語音特征[18].隨著預(yù)訓(xùn)練模型在語音類任務(wù)中的推廣,也使用如Wav2Vec2.0[19], XLS-R[20]等大規(guī)模自監(jiān)督模型計(jì)算語音特征表示.此外,端到端模型的出現(xiàn)使語音特征也可以直接以采樣點(diǎn)原始數(shù)值的方式呈現(xiàn),而無需經(jīng)過其他變換.
在偽造語音檢測中使用的分類器是以語音特征作為輸入,輸出真?zhèn)闻袥Q結(jié)果,早期的分類器包括混合高斯模型[21]、支持向量機(jī)[22]等.近年深度神經(jīng)網(wǎng)絡(luò)提高了對數(shù)據(jù)的學(xué)習(xí)和建模計(jì)算能力,以卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、全連接層[23]為基本架構(gòu)的神經(jīng)網(wǎng)絡(luò)分類器也開始應(yīng)用.端到端模型將語音采樣點(diǎn)作為輸入,通過頻-時(shí)域圖注意力網(wǎng)絡(luò)模塊[24]、異構(gòu)堆疊圖注意力網(wǎng)絡(luò)模塊[25]等以真?zhèn)握Z音分類為目標(biāo)直接學(xué)習(xí)采樣點(diǎn)信息,模型內(nèi)語音特征和分類器能夠?qū)崿F(xiàn)共同訓(xùn)練.
偽造語音檢測可以應(yīng)用于以下方面:
1) 銀行金融系統(tǒng).一是識(shí)別電話中的欺詐行為,包括虛假身份驗(yàn)證、冒充客戶進(jìn)行未經(jīng)授權(quán)的交易;二是對在線應(yīng)用程序中的用戶登錄、密碼修改等確認(rèn)賬戶訪問時(shí)的真實(shí)性.
2) 法律應(yīng)用方面.一是可以幫助法庭證據(jù)驗(yàn)證,在法庭上用于驗(yàn)證或駁斥證人證詞,保證證據(jù)的可靠性;二是在刑事調(diào)查中,相關(guān)執(zhí)法機(jī)構(gòu)可使用偽造語音檢測技術(shù)調(diào)查與語音記錄有關(guān)的犯罪行為.
3) 社交媒體等多媒體平臺(tái).偽造語音檢測可以用于虛假內(nèi)容檢測,對用戶上傳的虛假或有危害的語音音頻或視頻中的音頻進(jìn)行檢測,監(jiān)測和阻止用戶的非法行為,維護(hù)平臺(tái)的安全性和合規(guī)性.也可以在平臺(tái)登錄步驟用聲紋驗(yàn)證時(shí),對用戶驗(yàn)證的語音進(jìn)行偽造檢測,防止身份欺詐.
4) 各類生活服務(wù)產(chǎn)品方面.在電信公司使用時(shí),運(yùn)營商可以使用偽造語音檢測識(shí)別和阻止釣魚電話,防止電信詐騙,保障用戶個(gè)人信息.在醫(yī)療領(lǐng)域的電話咨詢中,醫(yī)療保健者用偽造語音檢測驗(yàn)證通話患者咨詢的真實(shí)性,確?;颊叩碾[私安全和診斷的有效性.在線教育領(lǐng)域中,在線教育平臺(tái)可以用偽造語音檢測驗(yàn)證學(xué)生提交的語音作業(yè)或考試是否真實(shí),防止學(xué)術(shù)不端.
基于深度學(xué)習(xí)的方法已經(jīng)在偽造音檢測中取得了巨大的成功,繼續(xù)采用這種技術(shù)以提高檢測的準(zhǔn)確性和魯棒性,是未來的一大探索方向.
偽造語音可以不單單只以語音形式存在,也可以和圖像進(jìn)行同步形成視頻中的語音部分,視頻偽造也愈發(fā)常見,多模態(tài)偽造語音檢測也是一個(gè)重要的發(fā)展方向.
在提高偽造語音檢測實(shí)用性的方面,如實(shí)時(shí)電話欺詐檢測中,需要檢測技術(shù)降低延遲,提供實(shí)時(shí)反饋,對實(shí)時(shí)檢測性能有高要求.偽造音檢測技術(shù)還需要能夠處理多種語言和方言,以適應(yīng)不同地區(qū)和文化的需求.在使用過程中,也要看重用戶聲音數(shù)據(jù)的隱私和合規(guī)性問題,需要與隱私法規(guī)和合規(guī)性標(biāo)準(zhǔn)保持一致.
此外,基于偽造語音檢測的應(yīng)用場景,如偽造語音檢測與聲紋身份驗(yàn)證相結(jié)合,可以將聲紋特征與偽造聲學(xué)特征進(jìn)行結(jié)合,更好地實(shí)現(xiàn)場景需求.
當(dāng)前,偽造語音檢測技術(shù)面臨以下挑戰(zhàn):
1) 生成式偽造語音算法是多樣化的,由此產(chǎn)生的偽造語音分布也是多種多樣的,基于機(jī)器學(xué)習(xí)的檢測技術(shù)需要解決這些多樣化帶來的問題,算法需要具備可泛化性,能夠同時(shí)學(xué)習(xí)多種分布的偽造語音.
2) 除了要得出檢測結(jié)果,檢測算法還需要具有可解釋性,即能對偽造語音檢測結(jié)果進(jìn)行溯源,追溯語音中的偽造點(diǎn)信息是什么.
3) 由于生成式偽造語音技術(shù)的發(fā)展速度很快,檢測算法還需要具備可自我學(xué)習(xí)更新的能力,在學(xué)習(xí)新數(shù)據(jù)集的同時(shí)不災(zāi)難性遺忘舊數(shù)據(jù),即增量學(xué)習(xí).增量學(xué)習(xí)是使偽造語音檢測技術(shù)快速用于實(shí)際應(yīng)用并實(shí)現(xiàn)迭代更新的關(guān)鍵問題.
隨著人工智能和數(shù)字技術(shù)的迅猛發(fā)展,音、圖、文深度偽造技術(shù)快速普及,已引起全球?qū)ヂ?lián)網(wǎng)空間信息安全的廣泛關(guān)注.這些技術(shù)不僅增加了網(wǎng)絡(luò)虛假信息的傳播,也對國家安全等多個(gè)領(lǐng)域構(gòu)成直接威脅.為此,我國亟需從技術(shù)應(yīng)用、制度規(guī)范、教育宣傳、國際合作等角度建立一個(gè)更系統(tǒng)全面的偽造語音綜合治理框架,全面提升智能數(shù)字時(shí)代的安全水平.
加強(qiáng)深度偽造語音檢測技術(shù)研究和應(yīng)用,挖掘數(shù)據(jù)真實(shí)特征,提高檢測算法對未知偽造方法鑒別的泛化性和魯棒性,特別是對偽造語音當(dāng)前面臨的分布多樣化、檢測結(jié)果可解釋性、學(xué)習(xí)更新能力等挑戰(zhàn)進(jìn)行深入研究.
推動(dòng)偽造語音檢測技術(shù)與語音應(yīng)用程序之間的聯(lián)合驗(yàn)證[24].以語音身份認(rèn)證應(yīng)用為例,用偽造語音檢測解決語音身份認(rèn)證的安全性問題,可以通過與身份認(rèn)證算法串行、并行2種方法完成.偽造語音檢測與身份認(rèn)證系統(tǒng)串行流程如圖1所示,把偽造語音檢測置于身份認(rèn)證系統(tǒng)之前,所有待認(rèn)證語音第1步先進(jìn)行偽造語音檢測,如果第1步偽造語音檢測結(jié)果將語音判為偽造語音,則身份認(rèn)證系統(tǒng)可以直接輸出認(rèn)證拒絕結(jié)果;如果第1步偽造語音檢測結(jié)果將語音判為真實(shí)語音,則可以進(jìn)入第2步聲紋識(shí)別,由聲紋識(shí)別算法給出認(rèn)證接受或拒絕結(jié)果.偽造語音檢測在身份認(rèn)證系統(tǒng)中與聲紋識(shí)別模塊并行流程如圖2所示,將偽造語音檢測并入身份認(rèn)證系統(tǒng)中,語音信號(hào)同時(shí)被送入聲紋識(shí)別和偽造語音檢測中,根據(jù)2個(gè)算法計(jì)算的結(jié)果,再設(shè)置一層融合,根據(jù)融合后的結(jié)果判定身份認(rèn)證接受還是拒絕.
圖2 偽造語音檢測在身份認(rèn)證系統(tǒng)中與聲紋識(shí)別模塊并行流程
強(qiáng)化數(shù)字水印和簽名技術(shù),在不影響整段語音音頻的準(zhǔn)確性和可理解性的前提下,為原始音頻內(nèi)容添加數(shù)字水印或加密簽名,確保偽造語音設(shè)置了獨(dú)特的標(biāo)記,使音頻具有來源可追溯性、防篡改性和真實(shí)性驗(yàn)證,保障語音音頻的下游應(yīng)用安全.
構(gòu)建安全的語音數(shù)據(jù)庫,創(chuàng)建被授權(quán)專用的聲音樣本數(shù)據(jù)庫,保障未授權(quán)人的語音隱私,防止語音被隨意采集與濫用.
對生成式偽造語音的技術(shù)發(fā)展和應(yīng)用場景需要進(jìn)一步進(jìn)行指導(dǎo)與規(guī)范,可以從規(guī)范技術(shù)分類分級(jí)和健全偽造語音技術(shù)監(jiān)管體系2個(gè)方面進(jìn)行.
4.2.1 規(guī)范技術(shù)分類分級(jí)標(biāo)準(zhǔn)
1) 定義標(biāo)準(zhǔn):制定一套全面的標(biāo)準(zhǔn)評(píng)估深度偽造語音的質(zhì)量、真實(shí)性和潛在風(fēng)險(xiǎn),包括技術(shù)的復(fù)雜性、使用的算法、生成音頻的逼真程度,以及其可能對個(gè)人和社會(huì)的影響.
2) 技術(shù)復(fù)雜性分級(jí):根據(jù)所使用的人工智能和機(jī)器學(xué)習(xí)算法的復(fù)雜性,對偽造語音技術(shù)進(jìn)行分級(jí).高級(jí)算法生成的偽造語音可能更難以檢測,因此風(fēng)險(xiǎn)等級(jí)更高.
3) 真實(shí)性分級(jí):依據(jù)偽造語音與真實(shí)語音相似度的高低,對相關(guān)技術(shù)劃分成不同的風(fēng)險(xiǎn)等級(jí).高逼真度的偽造語音可能用于更具有欺騙性的場合.
4) 潛在風(fēng)險(xiǎn)分級(jí):對潛在風(fēng)險(xiǎn)定級(jí)需要根據(jù)偽造語音的創(chuàng)建目的(如娛樂、教育、欺詐、惡意攻擊)以及個(gè)人隱私、企業(yè)聲譽(yù)、國家安全和社會(huì)秩序的影響.用途惡意且影響范圍越廣,風(fēng)險(xiǎn)等級(jí)越高.
4.2.2 健全偽造語音技術(shù)監(jiān)管體系
1) 注冊系統(tǒng)建立:建立一個(gè)全國性的深度偽造技術(shù)注冊系統(tǒng),記錄所有相關(guān)技術(shù)的詳細(xì)信息,包括技術(shù)描述、用途、開發(fā)者信息等.
2) 實(shí)名制管理:引入實(shí)名制管理,確保注冊系統(tǒng)中記錄的每項(xiàng)技術(shù)都能追溯到具體的開發(fā)者或公司.
3) 安全評(píng)估:開發(fā)和應(yīng)用深度偽造技術(shù)前,要求進(jìn)行安全和風(fēng)險(xiǎn)評(píng)估,評(píng)估報(bào)告必須在技術(shù)注冊時(shí)提交.
4) 持續(xù)監(jiān)管:注冊后,監(jiān)管機(jī)構(gòu)需對深度偽造技術(shù)的使用情況進(jìn)行持續(xù)監(jiān)督,確保其符合法律法規(guī)和倫理標(biāo)準(zhǔn).
5) 信息披露:鼓勵(lì)透明度,要求開發(fā)者定期更新技術(shù)信息,包括使用情況、影響評(píng)估等,并向公眾披露.
6) 可檢測性:難以檢測的偽造語音應(yīng)歸入更高的風(fēng)險(xiǎn)級(jí)別,因?yàn)槠涓锌赡芴颖墁F(xiàn)有的安全和驗(yàn)證措施.
要向公眾傳達(dá)偽造語音的危害以及治理的必要性.可以通過廣告、社交媒體、宣傳活動(dòng)和公共演講等方式教育公眾.重點(diǎn)要強(qiáng)調(diào)偽造語音可能導(dǎo)致的社會(huì)和個(gè)人損害,包括虛假信息的傳播、個(gè)人聲音被濫用等.要定期更新公眾和利益相關(guān)者關(guān)于偽造語音治理進(jìn)展的信息,以保持公眾的關(guān)注和參與.
為公眾提供檢測偽造語音的工具和資源,讓他們能夠分辨真實(shí)的語音和偽造的語音,包括開發(fā)應(yīng)用程序、瀏覽器插件或在線課程等,幫助用戶學(xué)習(xí)如何分辨真實(shí)語音和偽造語音.
目前,國內(nèi)外都面臨偽造語音的威脅,有必要進(jìn)一步加強(qiáng)國際間的技術(shù)合作[27],實(shí)現(xiàn)信息共享.
1) 制定國際法律框架:國際社區(qū)可以合作制定國際法律框架,明確深度偽造技術(shù)的法律地位和國際標(biāo)準(zhǔn).
2) 數(shù)據(jù)分享和情報(bào)合作:各國可以分享有關(guān)深度偽造技術(shù)的情報(bào)和數(shù)據(jù),以便更好地了解和監(jiān)測其傳播和使用.
3) 技術(shù)標(biāo)準(zhǔn)和驗(yàn)證:國際合作可以推動(dòng)制定共同的技術(shù)標(biāo)準(zhǔn),以幫助檢測和驗(yàn)證深度偽造內(nèi)容.國際執(zhí)法合作:各國執(zhí)法機(jī)構(gòu)可以加強(qiáng)合作,跨國打擊深度偽造技術(shù)的制造和傳播.