張 濤,馬海群
(1. 黑龍江大學(xué)信息管理學(xué)院,哈爾濱 150080;2. 黑龍江大學(xué)信息資源管理研究中心,哈爾濱 150080)
隨著大數(shù)據(jù)、人工智能等技術(shù)深入發(fā)展,想充分發(fā)揮新時(shí)代國(guó)家情報(bào)工作的“先導(dǎo)”“引領(lǐng)”“耳目、尖兵、參謀”作用,就要使情報(bào)工作適應(yīng)當(dāng)前社會(huì)整體環(huán)境。情報(bào)工作在黨和國(guó)家事業(yè)取得歷史性成就過程中發(fā)揮了重要作用,作為服務(wù)于國(guó)家安全與發(fā)展的情報(bào)工作有了新的歷史使命。在情報(bào)工作的眾多環(huán)節(jié)中,情報(bào)分析處于核心地位,它是決策的前提與基礎(chǔ),高質(zhì)量的情報(bào)分析是情報(bào)工作成果的體現(xiàn),是衡量情報(bào)工作質(zhì)量的重要標(biāo)準(zhǔn)。隨著海量多源異構(gòu)數(shù)據(jù)急劇增加,人工智能憑借其強(qiáng)大的數(shù)據(jù)分析優(yōu)勢(shì),極大提升了數(shù)據(jù)收集、分析及生產(chǎn)新數(shù)據(jù)的能力,從而使情報(bào)分析上升到“高端智庫(kù)”模式的情報(bào)服務(wù)、戰(zhàn)略性服務(wù)層面,情報(bào)人員在復(fù)雜多變的決策環(huán)境中對(duì)海量、異構(gòu)、多模的數(shù)據(jù)進(jìn)行分析時(shí),智能算法發(fā)揮了重要作用,它不但能大幅度提升情報(bào)分析的全面性與準(zhǔn)確性,還能在短時(shí)間內(nèi)為用戶提供高水平、有價(jià)值的分析結(jié)果。雖然它可以輔助用戶完成智能化的分析過程,提升情報(bào)分析效率,但數(shù)據(jù)與算法是一把雙刃劍,在為管理決策帶來便利的同時(shí),會(huì)引發(fā)數(shù)據(jù)投毒、數(shù)據(jù)泄露、算法缺陷、算法操控等一系列安全風(fēng)險(xiǎn),這也逐漸成為限制情報(bào)工作發(fā)展的主要因素之一[1]。黨的十九屆五中全會(huì)和六中全會(huì)公報(bào)中都對(duì)防范化解重大安全風(fēng)險(xiǎn)提出明確要求,可見國(guó)家對(duì)風(fēng)險(xiǎn)識(shí)別與防范的重視程度。當(dāng)前數(shù)據(jù)與算法風(fēng)險(xiǎn)正是大數(shù)據(jù)與人工智能時(shí)代情報(bào)分析所特有的,我國(guó)在該領(lǐng)域研究相對(duì)薄弱。從制度層面看,并沒有形成風(fēng)險(xiǎn)識(shí)別機(jī)制,尤其是在情報(bào)工作領(lǐng)域,若不及時(shí)防范與化解數(shù)據(jù)與算法風(fēng)險(xiǎn),不僅會(huì)導(dǎo)致情報(bào)分析失準(zhǔn),甚至還會(huì)給社會(huì)穩(wěn)定乃至國(guó)家安全造成災(zāi)難級(jí)影響。因此,進(jìn)一步加強(qiáng)對(duì)情報(bào)分析中數(shù)據(jù)與算法風(fēng)險(xiǎn)前瞻識(shí)別、預(yù)防與治理的研究符合總體國(guó)家安全發(fā)展戰(zhàn)略目標(biāo)。早在2018 年,中國(guó)首個(gè)人工智能深度學(xué)習(xí)算法標(biāo)準(zhǔn)《人工智能深度學(xué)習(xí)算法評(píng)估規(guī)范》在中國(guó)人工智能開源軟件發(fā)展聯(lián)盟成立大會(huì)上正式發(fā)布;2019 年,中國(guó)信息通信研究院安全研究所發(fā)布《人工智能數(shù)據(jù)安全白皮書(2019 年)》;2021 年9 月,國(guó)家互聯(lián)網(wǎng)信息辦公室、中央宣傳部等九部委印發(fā)《關(guān)于加強(qiáng)互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導(dǎo)意見》;2021 年11 月,中共中央政治局召開會(huì)議審議《國(guó)家安全戰(zhàn)略(2021—2025 年)》時(shí)提出,統(tǒng)籌做好新型領(lǐng)域安全,加快提升網(wǎng)絡(luò)安全、數(shù)據(jù)安全、人工智能安全等領(lǐng)域的治理能力;2022 年3 月《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》正式實(shí)施,國(guó)家在強(qiáng)化數(shù)據(jù)與算法安全風(fēng)險(xiǎn)事件防范的同時(shí),不斷通過法規(guī)制度完善數(shù)據(jù)與安全風(fēng)險(xiǎn)的頂層設(shè)計(jì);2021 年12 月全國(guó)金融標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布《金融數(shù)據(jù)安全數(shù)據(jù)安全評(píng)估規(guī)范(征求意見稿)》,該標(biāo)準(zhǔn)為第三方安全評(píng)估機(jī)構(gòu)等單位開展金融數(shù)據(jù)安全檢查與評(píng)估工作提供了參考。由此可見各領(lǐng)域也逐漸開始建立完善具有領(lǐng)域特色的數(shù)據(jù)與算法安全風(fēng)險(xiǎn)防范措施。
國(guó)內(nèi)外學(xué)者圍繞智能情報(bào)分析、數(shù)據(jù)與算法風(fēng)險(xiǎn)等主題展開了卓有成效的研究。第一,智能情報(bào)分析。智能情報(bào)理念源于1993 年錢學(xué)森先生提出的人機(jī)結(jié)合是智慧式情報(bào)的關(guān)鍵[2]。2015 年王飛躍[3]基于錢學(xué)森先生的智能情報(bào)理念提出平行智能情報(bào),此后學(xué)界在人工智能與情報(bào)工作相結(jié)合方面形成了一系列理論層面及應(yīng)用層面的研究成果。理論研究是智能情報(bào)分析的基礎(chǔ),如計(jì)算情報(bào)研究[4-6]、數(shù)據(jù)智能情報(bào)研究[7-9]、智能情報(bào)分析系統(tǒng)[10-11]、智能與情報(bào)融合研究[12-14]等,這些研究奠定了智能情報(bào)分析的理論基礎(chǔ)。應(yīng)用研究是智能情報(bào)分析的目標(biāo),近年來,很多學(xué)者將人工智能技術(shù)與不同領(lǐng)域情報(bào)工作相結(jié)合形成了一系列應(yīng)用研究成果,如反恐情報(bào)[15]、金融情報(bào)[16]、軍事情報(bào)[17]、安全情報(bào)[18]、競(jìng)爭(zhēng)情報(bào)[19]、應(yīng)急情報(bào)[20],這些研究成果使智能情報(bào)分析項(xiàng)目得以推廣應(yīng)用,并逐漸得到認(rèn)可,其中中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心成立智能情報(bào)重點(diǎn)實(shí)驗(yàn)室是理論與應(yīng)用研究相結(jié)合的重要支撐。第二,數(shù)據(jù)與算法風(fēng)險(xiǎn)。數(shù)據(jù)風(fēng)險(xiǎn)方面,國(guó)內(nèi)學(xué)者從治理[21]、問題[22]、體系[23]、路徑[24]、機(jī)制[25]等視角對(duì)數(shù)據(jù)安全風(fēng)險(xiǎn)進(jìn)行研究;國(guó)外學(xué)者從模型[26]、標(biāo)準(zhǔn)[27]、維度[28]、成熟度模型[29]等視角進(jìn)行數(shù)據(jù)風(fēng)險(xiǎn)治理研究。算法風(fēng)險(xiǎn)方面,國(guó)內(nèi)學(xué)者從算法治理[30]、法律規(guī)制[31]、法律問責(zé)[32]、算法權(quán)力[33-34]等視角對(duì)算法風(fēng)險(xiǎn)進(jìn)行深入研究;國(guó)外學(xué)者從法律決策責(zé)任[35-36]、倫理責(zé)任[37]、協(xié)同治理[38]等視角對(duì)算法風(fēng)險(xiǎn)治理進(jìn)行研究。
從已有研究成果可見,智能情報(bào)分析理論與應(yīng)用已經(jīng)得到了學(xué)界的廣泛關(guān)注,并且從責(zé)任、監(jiān)管、治理等視角對(duì)數(shù)據(jù)與算法風(fēng)險(xiǎn)進(jìn)行了較為充分的研究,但是針對(duì)智能情報(bào)分析領(lǐng)域風(fēng)險(xiǎn)識(shí)別的研究成果較少,尤其缺少對(duì)數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別模型構(gòu)建與實(shí)證層面的研究。因此,本文以實(shí)現(xiàn)防范與化解情報(bào)分析中數(shù)據(jù)與算法帶來的安全風(fēng)險(xiǎn)為目標(biāo),重在討論智能情報(bào)分析領(lǐng)域數(shù)據(jù)與算法風(fēng)險(xiǎn)問題,基于風(fēng)險(xiǎn)社會(huì)理論[39]、監(jiān)管沙盒理論[40]構(gòu)建“數(shù)據(jù)-算法-流程”為一體的智能情報(bào)分析風(fēng)險(xiǎn)識(shí)別模型,通過實(shí)際智能情報(bào)分析項(xiàng)目驗(yàn)證模型的有效性,最終形成凸顯情報(bào)特色、突出情報(bào)領(lǐng)域話語(yǔ)權(quán)、具有實(shí)踐推廣意義的創(chuàng)新性成果。
技術(shù)不斷進(jìn)步所引發(fā)的不確定性、沖突、對(duì)抗和分歧導(dǎo)致社會(huì)各領(lǐng)域發(fā)展與風(fēng)險(xiǎn)疊加共生,我國(guó)社會(huì)轉(zhuǎn)型呈現(xiàn)時(shí)空高度壓縮的跨越式特征,人工智能技術(shù)應(yīng)用于情報(bào)分析項(xiàng)目中恰恰符合貝克風(fēng)險(xiǎn)社會(huì)理論中所提到的復(fù)雜交互性、突出人為性、不確定性等特征[39]?!禝SO 31000: 2018 風(fēng)險(xiǎn)管理指南》將識(shí)別方法、識(shí)別模型作為風(fēng)險(xiǎn)識(shí)別的核心要素[41]。因此,本文將識(shí)別方法和識(shí)別模型作為主要研究對(duì)象,以有效識(shí)別智能情報(bào)分析中數(shù)據(jù)與算法所導(dǎo)致的失實(shí)風(fēng)險(xiǎn)、決策風(fēng)險(xiǎn)、偏見風(fēng)險(xiǎn)、隱私風(fēng)險(xiǎn)等[42]。
沙盒測(cè)試是在監(jiān)管沙盒理論基礎(chǔ)上形成的數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別方法,所謂的沙盒測(cè)試就是在項(xiàng)目上線前在內(nèi)部環(huán)境下進(jìn)行的測(cè)試,此時(shí)在正常線上環(huán)境是無法看到或查詢到該項(xiàng)目的,只有項(xiàng)目通過測(cè)試上傳到生產(chǎn)環(huán)境之后,用戶才能使用該功能[43]。人工智能視域下情報(bào)分析涉及領(lǐng)域較廣,不同于以往在某一空間范圍內(nèi)進(jìn)行試點(diǎn)的方式,沙盒測(cè)試突破空間范圍的限制,強(qiáng)調(diào)對(duì)智能情報(bào)分析項(xiàng)目的風(fēng)險(xiǎn)預(yù)警,測(cè)試機(jī)構(gòu)通過參與智能情報(bào)分析項(xiàng)目的全過程,對(duì)數(shù)據(jù)與算法的風(fēng)險(xiǎn)點(diǎn)進(jìn)行識(shí)別,并提出最優(yōu)建議,同時(shí),參與沙盒測(cè)試的項(xiàng)目在申請(qǐng)、測(cè)試、形成報(bào)告等方面都有詳細(xì)的規(guī)定,這有助于將智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)控制在一定范圍內(nèi),并最大限度上保障情報(bào)分析的安全性。沙盒測(cè)試分為單向識(shí)別和雙向識(shí)別兩種模式:?jiǎn)雾?xiàng)識(shí)別是基于數(shù)據(jù)描述與算法描述實(shí)現(xiàn)的,而雙向識(shí)別是基于流程的數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別的,尤其是數(shù)據(jù)與算法相融合后,通過對(duì)項(xiàng)目流程的測(cè)試形成雙向驅(qū)動(dòng),并相互識(shí)別存在的風(fēng)險(xiǎn)。
智能情報(bào)分析中數(shù)據(jù)與算法是核心要素,對(duì)其風(fēng)險(xiǎn)識(shí)別是有效提升情報(bào)分析準(zhǔn)確性的重要環(huán)節(jié)。常見的數(shù)據(jù)風(fēng)險(xiǎn)主要包括數(shù)據(jù)越界、數(shù)據(jù)質(zhì)量、數(shù)據(jù)泄露、數(shù)據(jù)投毒、數(shù)據(jù)隱私等[44]。常見算法風(fēng)險(xiǎn)主要包括算法缺陷、算法偏見、算法歧視、算法操控、算法黑箱等[1]。正是基于以上對(duì)數(shù)據(jù)與算法風(fēng)險(xiǎn)的分析,本文將智能情報(bào)分析中數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別模型構(gòu)建分為篩選審核—沙盒測(cè)試—輸出結(jié)果三個(gè)階段,如圖1 所示。
圖1 智能情報(bào)分析中數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別模型
1)篩選審核
本課題團(tuán)隊(duì)向沙盒測(cè)試機(jī)構(gòu)提出申請(qǐng),在篩選審核過程中,應(yīng)遵循以下基本原則:一是入盒項(xiàng)目歸屬于智能情報(bào)分析領(lǐng)域,所謂智能情報(bào)分析項(xiàng)目需要以大量的數(shù)據(jù)為基礎(chǔ),融合大數(shù)據(jù)與人工智能技術(shù),是支持復(fù)雜業(yè)務(wù)問題的自動(dòng)識(shí)別、判斷并做出前瞻或?qū)崟r(shí)決策的智能化項(xiàng)目[10,45];二是入盒項(xiàng)目所涉及的數(shù)據(jù)均應(yīng)在沙盒內(nèi)部完成,并不會(huì)對(duì)現(xiàn)實(shí)社會(huì)造成影響;三是入盒項(xiàng)目有數(shù)據(jù)與算法風(fēng)險(xiǎn)所具備的風(fēng)險(xiǎn)社會(huì)理論中復(fù)雜交互性、突出人為性、不確定性、雙刃劍效應(yīng)等特征[42]。基于此篩選出項(xiàng)目是否符合入盒標(biāo)準(zhǔn)。
2)沙盒測(cè)試
項(xiàng)目通過篩選審核后,參考監(jiān)管沙盒中沙盒測(cè)試流程[46]和軟件項(xiàng)目管理標(biāo)準(zhǔn)[47],入盒項(xiàng)目團(tuán)隊(duì)要從“數(shù)據(jù)-算法-流程”三個(gè)維度提交五份報(bào)告,具體報(bào)告詳情如表1 所示。若審查所提供的相關(guān)報(bào)告準(zhǔn)確無誤,則沙盒測(cè)試機(jī)構(gòu)將基于實(shí)際項(xiàng)目和相關(guān)文檔對(duì)入盒項(xiàng)目進(jìn)行全面測(cè)試。
表1 智能情報(bào)分析項(xiàng)目相關(guān)報(bào)告
(1) 數(shù)據(jù)描述。要對(duì)項(xiàng)目中數(shù)據(jù)進(jìn)行全面描述,基于數(shù)據(jù)越界、數(shù)據(jù)質(zhì)量、數(shù)據(jù)泄露、數(shù)據(jù)投毒、數(shù)據(jù)隱私等風(fēng)險(xiǎn)按照如下步驟進(jìn)行:一是明確數(shù)據(jù)收集范圍,確定關(guān)鍵敏感字段;二是在實(shí)際測(cè)試過程中,重點(diǎn)觀測(cè)每個(gè)環(huán)節(jié)的數(shù)據(jù)質(zhì)量;三是識(shí)別是否存在數(shù)據(jù)泄露、數(shù)據(jù)投毒等風(fēng)險(xiǎn),識(shí)別是否存在觸犯《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》《中華人民共和國(guó)保守國(guó)家秘密法》(以下分別簡(jiǎn)稱《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》《保密法》)等法規(guī)的情況。
(2) 算法描述。要對(duì)項(xiàng)目中算法進(jìn)行全面描述,基于算法黑箱、算法歧視、算法偏見、算法操控、算法缺陷等風(fēng)險(xiǎn)按照如下步驟進(jìn)行:一是確定所使用的核心算法類型,明確使用算法運(yùn)行機(jī)理;二是確定算法間使用關(guān)系,重點(diǎn)關(guān)注是否存在算法加權(quán)、算法改進(jìn)后使算法運(yùn)行機(jī)理發(fā)生變化的情況,尤其是深度學(xué)習(xí)算法的交叉使用,其評(píng)估標(biāo)準(zhǔn)可以參照2018 年中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院等機(jī)構(gòu)發(fā)布的《人工智能深度學(xué)習(xí)算法評(píng)估規(guī)范》。
(3)流程測(cè)試。沙盒測(cè)試以風(fēng)險(xiǎn)識(shí)別與防范為基本思路,流程測(cè)試重點(diǎn)參考數(shù)據(jù)描述和算法描述的內(nèi)容。智能情報(bào)分析流程主要包括智能情報(bào)感知、智能數(shù)據(jù)采集、智能情報(bào)推薦、智能情報(bào)關(guān)聯(lián)、智能情報(bào)預(yù)測(cè)、智能情報(bào)解讀等[1],情報(bào)分析項(xiàng)目往往包括其中的一個(gè)或多個(gè)流程。流程測(cè)試是在數(shù)據(jù)測(cè)試和算法測(cè)試基礎(chǔ)上進(jìn)行的,要基于數(shù)據(jù)與算法風(fēng)險(xiǎn)特征通過實(shí)際數(shù)據(jù)識(shí)別風(fēng)險(xiǎn),具體步驟如下:一是從項(xiàng)目運(yùn)行流程視角發(fā)現(xiàn)數(shù)據(jù)與算法的運(yùn)行風(fēng)險(xiǎn);二是基于項(xiàng)目流程測(cè)試識(shí)別由bug 導(dǎo)致的數(shù)據(jù)質(zhì)量問題;三是識(shí)別項(xiàng)目中越界存取、數(shù)據(jù)隱私泄露的情況;四是對(duì)算法中參數(shù)、閾值進(jìn)行反復(fù)調(diào)試直至最優(yōu);五是重點(diǎn)核查數(shù)據(jù)與算法相融合后的異化風(fēng)險(xiǎn)。
3)輸出結(jié)果
沙盒測(cè)試完成后,要基于沙盒測(cè)試結(jié)果最終形成智能情報(bào)分析數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別建議綜合報(bào)告,并由測(cè)試團(tuán)隊(duì)對(duì)結(jié)果做出評(píng)估,綜合參考《人工智能深度學(xué)習(xí)算法評(píng)估規(guī)范》《人工智能數(shù)據(jù)安全白皮書》等,將數(shù)據(jù)與算法風(fēng)險(xiǎn)按照嚴(yán)重程度、可控性和影響范圍等因素[42]分為災(zāi)難級(jí)(I)、嚴(yán)重級(jí)(II)、一般級(jí)(III)和輕微級(jí)(IV)四級(jí),如表2 所示。其中情報(bào)分析項(xiàng)目?jī)?nèi)容和數(shù)據(jù)與算法風(fēng)險(xiǎn)點(diǎn)是評(píng)估等級(jí)的重要標(biāo)準(zhǔn),將評(píng)估等級(jí)線劃定為輕微級(jí)(IV),若項(xiàng)目所有評(píng)估風(fēng)險(xiǎn)均低于輕微級(jí)(IV),則可將其投放市場(chǎng);若高于輕微級(jí)(IV),則未通過評(píng)估,需要根據(jù)風(fēng)險(xiǎn)點(diǎn)進(jìn)行整改,整改后重新入盒測(cè)試,直到通過評(píng)估。智能情報(bào)分析項(xiàng)目測(cè)試機(jī)構(gòu)應(yīng)持續(xù)跟蹤入盒項(xiàng)目測(cè)試狀況及產(chǎn)生的經(jīng)驗(yàn)數(shù)據(jù),以此提升智能情報(bào)分析風(fēng)險(xiǎn)識(shí)別的準(zhǔn)確性;對(duì)智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法的風(fēng)險(xiǎn)識(shí)別能夠降低項(xiàng)目入市后的安全風(fēng)險(xiǎn),以促使情報(bào)工作市場(chǎng)良性循環(huán)發(fā)展。
表2 數(shù)據(jù)與算法風(fēng)險(xiǎn)評(píng)估等級(jí)劃定表
為更好地驗(yàn)證風(fēng)險(xiǎn)識(shí)別模型的有效性,本文以本課題團(tuán)隊(duì)中“領(lǐng)域熱點(diǎn)主題識(shí)別及演化分析項(xiàng)目”為例,基于風(fēng)險(xiǎn)識(shí)別模型識(shí)別該項(xiàng)目中數(shù)據(jù)與算法存在的風(fēng)險(xiǎn)。篩選審核作為風(fēng)險(xiǎn)識(shí)別初始環(huán)節(jié),根據(jù)篩選原則,首先確定項(xiàng)目所采用的LDA(latent Dirichlet allocation) 主題聚類是人工智能領(lǐng)域無監(jiān)督學(xué)習(xí)的重要算法之一,而對(duì)某領(lǐng)域熱點(diǎn)主題識(shí)別及演化研究是情報(bào)學(xué)研究的重點(diǎn)內(nèi)容[48],因此該項(xiàng)目歸屬于智能情報(bào)分析領(lǐng)域;其次,該項(xiàng)目以智能算法領(lǐng)域?yàn)槔齕49],其測(cè)試過程與結(jié)果屬于全封閉狀態(tài);最后,該項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)具有典型的風(fēng)險(xiǎn)社會(huì)基本特征,尤其是符合突出人為性和雙刃劍效應(yīng)。因此,判定該項(xiàng)目符合入盒測(cè)試條件,根據(jù)項(xiàng)目團(tuán)隊(duì)提供的5 份報(bào)告(見表1)和風(fēng)險(xiǎn)識(shí)別模型(見圖1),對(duì)該智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)進(jìn)行識(shí)別。
基于《智能情報(bào)分析項(xiàng)目需求分析報(bào)告》《智能情報(bào)分析項(xiàng)目數(shù)據(jù)設(shè)計(jì)報(bào)告》《智能情報(bào)分析項(xiàng)目測(cè)試報(bào)告》對(duì)項(xiàng)目中核心數(shù)據(jù)進(jìn)行如下描述:①數(shù)據(jù)采集:該項(xiàng)目中核心數(shù)據(jù)選擇Web of Science(WoS)中以“智能算法”為關(guān)鍵詞的48734 條文本數(shù)據(jù);②數(shù)據(jù)處理:提取篇名及摘要形成預(yù)處理語(yǔ)料,篩選無效數(shù)據(jù)、不完整數(shù)據(jù),剩余47896 條數(shù)據(jù);③構(gòu)建數(shù)據(jù)詞典:提取關(guān)鍵詞形成該項(xiàng)目的領(lǐng)域詞典,共50565 條;④主題數(shù)據(jù)抽?。捍瞬糠址謩e對(duì)全局?jǐn)?shù)據(jù)與階段數(shù)據(jù)進(jìn)行LDA 主題聚類,全局?jǐn)?shù)據(jù)進(jìn)行主題抽取后共形成46 個(gè)主題,階段數(shù)據(jù)按照時(shí)間劃分為12 個(gè)階段,分別形成了每個(gè)階段的最優(yōu)主題;⑤主題數(shù)據(jù)過濾:將全局主題與階段主題進(jìn)行相似度計(jì)算,按照一定規(guī)則進(jìn)行主題過濾,去除無效主題,有效主題數(shù)分別為(13,17,16,24,28,29,29,25,27,30,27,42);⑥熱點(diǎn)主題識(shí)別:依據(jù)新穎度和支持度對(duì)熱點(diǎn)主題進(jìn)行識(shí)別[50],識(shí)別熱點(diǎn)主題82 個(gè);⑦主題演化路徑:通過計(jì)算不同階段熱點(diǎn)主題相似度形成主題演化路徑[51];⑧輸出智能情報(bào)分析結(jié)果:基于實(shí)際數(shù)據(jù)輸出可視化的情報(bào)分析結(jié)果。
基于《智能情報(bào)分析項(xiàng)目需求分析報(bào)告》《智能情報(bào)分析項(xiàng)目核心算法解釋性文檔》《智能情報(bào)分析項(xiàng)目測(cè)試報(bào)告》分析發(fā)現(xiàn),該項(xiàng)目中核心算法為L(zhǎng)DA 主題模型和余弦相似度。
(1)LDA 主題模型。LDA 主題模型的聯(lián)合概率具體表示[52]為
為了使算法描述得更為清晰,測(cè)試團(tuán)隊(duì)用圖模型的表示方式來分解公式(1)。把公式(1)抽象為語(yǔ)料層、文本層、詞語(yǔ)層,利用圖模型的方式把LDA模型表示出來,如圖2 所示。①語(yǔ)料層:α和β是文本語(yǔ)料集的超參數(shù),這兩個(gè)參數(shù)是模型訓(xùn)練的關(guān)鍵,α是p(θ)分布的向量參數(shù),用于生成主題分布θ;β是主題對(duì)應(yīng)詞語(yǔ)的概率分布矩陣p(w|z)。②文本層:文本和主題分布θ是對(duì)應(yīng)的,每個(gè)文本產(chǎn)生的主題z的概率是不同的。③詞語(yǔ)層:z是由主題分布θ生 成的,w是由z和β共 同生成 的,w和z是 相對(duì)應(yīng)的;w為觀察變量,θ和z為隱藏變量,可以通過EM(expectation maximization)學(xué)習(xí)出α和β,由于后驗(yàn)概率p(θ,z|w)無法直接計(jì)算,因此要用似然函數(shù)下界來近似推理出估計(jì)值,計(jì)算最大似然函數(shù),得出α和β,不斷迭代直到收斂,最終完成主題聚類過程。在該項(xiàng)目中,通過perplexity 方法來確定LDA 模型最優(yōu)主題數(shù)[53]。
圖2 LDA生成過程圖模型
(2)余弦相似度。該項(xiàng)目采用余弦相似度計(jì)算的方法來衡量相鄰較近時(shí)間片的熱點(diǎn)主題關(guān)系,從而確定相關(guān)主題間的演化關(guān)系與演化路徑。對(duì)任意兩個(gè)主題z1和z2,利用余弦相似度計(jì)算主題相似性[54],即
其夾角余弦值表示距離,通過計(jì)算兩個(gè)向量的余弦值來表示兩個(gè)主題相似度,其取值范圍從0 到1,數(shù)值越大則相似度越高。
依據(jù)智能情報(bào)分析整體流程,基于《智能情報(bào)分析項(xiàng)目需求分析報(bào)告》《智能情報(bào)分析項(xiàng)目流程設(shè)計(jì)方案》《智能情報(bào)分析項(xiàng)目測(cè)試報(bào)告》,形成該項(xiàng)目的數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別圖,識(shí)別出10 個(gè)風(fēng)險(xiǎn)點(diǎn),如圖3 所示。在沙盒測(cè)試后形成的《智能情報(bào)分析數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別及建議綜合報(bào)告》中將圍繞這些風(fēng)險(xiǎn)點(diǎn)提出綜合建議。
圖3 基于項(xiàng)目流程的數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別
1)數(shù)據(jù)采集
①敏感數(shù)據(jù):包括保密數(shù)據(jù)、隱私數(shù)據(jù)等。在數(shù)據(jù)獲取或爬取過程中,按照《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》《個(gè)人信息保護(hù)法》《保密法》中對(duì)數(shù)據(jù)獲取的明確要求,嚴(yán)格審查數(shù)據(jù)獲取規(guī)則、數(shù)據(jù)獲取主題、數(shù)據(jù)獲取范圍,如果發(fā)現(xiàn)處于爭(zhēng)議的數(shù)據(jù)需要通過建立敏感數(shù)據(jù)字典的方式進(jìn)行預(yù)警與過濾,采集敏感數(shù)據(jù)的數(shù)量會(huì)直接影響機(jī)器學(xué)習(xí)的深化程度及算法操控風(fēng)險(xiǎn)發(fā)生。在本項(xiàng)目中由于選擇主題為智能算法,獲取途徑為直接下載,因此該部分?jǐn)?shù)據(jù)源并未涉及敏感數(shù)據(jù)。
②爬取越界:《數(shù)據(jù)安全法》第三十二條提出,任何組織、個(gè)人收集數(shù)據(jù),應(yīng)當(dāng)采取合法、正當(dāng)?shù)姆绞?,不得竊取或者以其他非法方式獲取數(shù)據(jù);《數(shù)據(jù)安全管理辦法(征求意見稿)》第十六條和第十七條規(guī)定了爬蟲獲取數(shù)據(jù)的界限,尤其是對(duì)收集重要數(shù)據(jù)或敏感數(shù)據(jù),應(yīng)特別重視并嚴(yán)格審查,該環(huán)節(jié)極易造成數(shù)據(jù)隱私風(fēng)險(xiǎn)、數(shù)據(jù)泄露風(fēng)險(xiǎn)。該項(xiàng)目利用人工采集數(shù)據(jù),因此并未涉及此類風(fēng)險(xiǎn)。
2)數(shù)據(jù)處理
③領(lǐng)域詞典:由于該項(xiàng)目需要引入領(lǐng)域詞典,因此該環(huán)節(jié)容易出現(xiàn)帶有污染、偏見與歧視性的數(shù)據(jù)詞典,需要詳細(xì)核查領(lǐng)域詞典數(shù)據(jù)獲取途徑,并對(duì)詞典內(nèi)容進(jìn)行反復(fù)檢驗(yàn)。該項(xiàng)目是將WoS 文獻(xiàn)中的關(guān)鍵詞疊加去噪后作為領(lǐng)域詞典,因此該部分?jǐn)?shù)據(jù)質(zhì)量相對(duì)較好。
④清洗數(shù)據(jù):該項(xiàng)目通過NLTK (natural lan‐guage toolkit)進(jìn)行預(yù)處理,包括tokenize 分詞、詞性標(biāo)注、歸一化等,隨后導(dǎo)入領(lǐng)域詞典,去除副詞、形容詞、助詞等無實(shí)際意義的詞(只保留名詞、動(dòng)詞等)等操作,通過反復(fù)測(cè)試識(shí)別無效詞進(jìn)而形成無效詞表并導(dǎo)入,直至實(shí)現(xiàn)數(shù)據(jù)最優(yōu)。一旦無實(shí)際意義的數(shù)據(jù)充實(shí)到LDA 主題聚類中,就會(huì)造成數(shù)據(jù)污染,這將會(huì)對(duì)有價(jià)值的情報(bào)構(gòu)成直接影響。
3)主題抽取
⑤LDA 選擇與參數(shù)設(shè)置:算法選擇與參數(shù)設(shè)置都會(huì)影響最終情報(bào)輸出的結(jié)果,基于3.2 節(jié)核心算法描述了解LDA 模型、運(yùn)行機(jī)理及影響其穩(wěn)定性的關(guān)鍵因素后,做如下風(fēng)險(xiǎn)分析。一是LDA 采用的是詞袋模型,語(yǔ)義分析層面較為欠缺,因此在數(shù)據(jù)集較小或數(shù)據(jù)內(nèi)容欠規(guī)范的情況下會(huì)直接影響結(jié)果輸出的精準(zhǔn)性。鑒于該項(xiàng)目數(shù)據(jù)集合較大,且數(shù)據(jù)內(nèi)容相對(duì)規(guī)范,因此選擇該算法風(fēng)險(xiǎn)較低。二是參數(shù)設(shè)置對(duì)算法穩(wěn)定性起到重要作用。對(duì)LDA 算法超參數(shù)、迭代次數(shù)、主題數(shù)量等進(jìn)行合理推測(cè),通過沙盒測(cè)試觀察實(shí)驗(yàn)運(yùn)行結(jié)果,反復(fù)調(diào)整最終確定合理數(shù)值為:(a)超參數(shù):α=0.01,β=0.001。如果超參數(shù)設(shè)置越小,主題聚類后就越集中。由于最優(yōu)主題數(shù)和詞典數(shù)較大,因此參數(shù)α和β要選擇較小的數(shù)值,這樣會(huì)使文檔—主題、主題—詞分布聚集到部分特征維度上。(b)迭代次數(shù):迭代次數(shù)多容易導(dǎo)致消耗性能,迭代次數(shù)少會(huì)使模型不收斂,為了保證足夠的Gibbs 采樣次數(shù),經(jīng)反復(fù)測(cè)試后,數(shù)值為500 輸出數(shù)據(jù)較為合理。(c)主題數(shù)量:引入perplexity 困惑度方法對(duì)LDA 模型多次測(cè)試后,隨著迭代的進(jìn)行,LDA 模型的perplexity 曲線會(huì)逐漸收斂,因此根據(jù)perplexity 曲線收斂性可驗(yàn)證LDA 主題數(shù)據(jù)的準(zhǔn)確性。
4)主題過濾
⑥主題核心詞閾值:此閾值比例設(shè)置較高時(shí),會(huì)導(dǎo)致許多概率較低的詞參與到相似度計(jì)算;閾值比例較低時(shí),會(huì)導(dǎo)致與主題相關(guān)的主題詞被過濾掉,使主題相似度計(jì)算數(shù)值出現(xiàn)虛高,這會(huì)對(duì)情報(bào)結(jié)果產(chǎn)生嚴(yán)重失實(shí)風(fēng)險(xiǎn)。在該項(xiàng)目中主題內(nèi)容通過詞分布進(jìn)行向量化,將每個(gè)主題視為向量,每個(gè)詞視為主題向量的一個(gè)屬性維度,其對(duì)主題的貢獻(xiàn)概率是向量在這個(gè)方向上的強(qiáng)度,將LDA 聚類后的全局主題和階段主題都視為向量,向量的維數(shù)理論上是全局詞典中詞的數(shù)量,因此計(jì)算主題向量之間的余弦值可以衡量主題之間的距離,這個(gè)距離反映了兩個(gè)主題內(nèi)容的相關(guān)程度,該項(xiàng)目選取傳統(tǒng)的
TF-IDF (term frequency-inverse document frequency)生成詞向量,測(cè)試過程中建議選用word2vec 和BERT(bidirectional encoder representation from transformers)訓(xùn)練詞向量模型。在計(jì)算兩個(gè)主題向量的內(nèi)積時(shí),每個(gè)向量都有156545 維,經(jīng)過反復(fù)測(cè)試,選取概率小于1/156545 約為6.39×10-6(接近0)的數(shù)值,而該數(shù)值恰好約占總主題詞數(shù)量的5%,因此閾值按照5%選取,通過隨機(jī)抽樣方法觀測(cè)主題內(nèi)容確定該閾值置信度較高,所帶來的情報(bào)失實(shí)風(fēng)險(xiǎn)較小。
⑦主題過濾相似度閾值:此部分閾值設(shè)置較高會(huì)導(dǎo)致有價(jià)值主題被排除,閾值設(shè)置較低會(huì)使部分無效主題進(jìn)入。通常來說,只要算出階段主題對(duì)任意一個(gè)全局主題的余弦相似度大于閾值,就認(rèn)為階段主題和全局主題關(guān)聯(lián)較大,這就實(shí)現(xiàn)了對(duì)有效主題的識(shí)別。此部分閾值計(jì)算公式為
其中,Zzy為全局最優(yōu)主題數(shù);Znm為階段主題數(shù)。根據(jù)公式(3)計(jì)算閾值C為0.1009。在測(cè)試過程中出現(xiàn)了階段主題和全局主題之間所有主題詞的概率平均且很小,余弦相似度接近1 的情況,這是LDA 主題聚類時(shí)主題計(jì)算崩潰造成的,因此還要選取大于閾值C且小于95%的階段主題。通過數(shù)據(jù)與算法的雙向驅(qū)動(dòng)識(shí)別風(fēng)險(xiǎn),若此部分?jǐn)?shù)據(jù)被識(shí)別為有效主題,則輸出的情報(bào)將會(huì)出現(xiàn)失實(shí)風(fēng)險(xiǎn)。
5)熱點(diǎn)主題識(shí)別
⑧熱點(diǎn)主題識(shí)別閾值:按照《智能情報(bào)分析項(xiàng)目核心算法解釋性文檔》中熱點(diǎn)主題識(shí)別所提出的新穎度和支持度計(jì)算方法[50],對(duì)熱點(diǎn)主題識(shí)別過程分析如下。
首先,計(jì)算不同階段中主題平均概率Rn,只要某一階段的某一文檔對(duì)主題分布的概率大于Rn,就認(rèn)為該文檔對(duì)這個(gè)主題構(gòu)成了支撐,Zxn為階段有效主題數(shù)量,計(jì)算公式為
其次,計(jì)算支撐度ZCn,定義文檔支撐數(shù)量為DZn,階段文檔總數(shù)為Dn,計(jì)算公式為
再次,計(jì)算平均支撐度ZCP,計(jì)算公式為
最后,進(jìn)行熱點(diǎn)主題識(shí)別,在階段主題支撐度矩陣中篩選出大于文檔平均支撐度的主題作為熱點(diǎn)主題,Rn閾值設(shè)置直接影響熱點(diǎn)主題識(shí)別結(jié)果,經(jīng)過反復(fù)測(cè)試證實(shí)當(dāng)前閾值相對(duì)合理,熱點(diǎn)主題識(shí)別相對(duì)較為準(zhǔn)確。
⑨熱點(diǎn)主題數(shù)據(jù):基于以上方法確定第二象限數(shù)據(jù)為熱點(diǎn)主題區(qū)域,但實(shí)際測(cè)試發(fā)現(xiàn),在新興主題區(qū)域中部分主題是熱點(diǎn)主題的延續(xù),只要新興階段的主題和熱點(diǎn)階段的主題具有相似性,就說明它們是同一演化路徑熱點(diǎn)主題的延續(xù),這類主題屬于持續(xù)熱點(diǎn)主題。最終得到熱點(diǎn)主題82 個(gè),如圖4 所示,如果忽略新興主題區(qū)域圓圈部分?jǐn)?shù)據(jù),就會(huì)使有效數(shù)據(jù)缺失并直接導(dǎo)致出現(xiàn)情報(bào)分析結(jié)果失準(zhǔn)或帶有偏差等風(fēng)險(xiǎn)。
圖4 智能情報(bào)分析項(xiàng)目熱點(diǎn)主題分布散點(diǎn)圖
6)主題演化路徑
⑩相似度算法選擇與閾值設(shè)置:相似度計(jì)算是機(jī)器學(xué)習(xí)領(lǐng)域基礎(chǔ)而重要的算法,余弦相似度計(jì)算是常用相似度算法之一,其應(yīng)用于眾多領(lǐng)域。在該項(xiàng)目中,主要利用此算法計(jì)算相鄰階段熱點(diǎn)主題之間的余弦相似度。在算法選擇層面,由于余弦相似度是基于詞語(yǔ)的方法,并未考慮語(yǔ)義層面的內(nèi)容,因此應(yīng)盡量考慮基于知識(shí)庫(kù)與語(yǔ)料庫(kù)的方法[55];該算法可能會(huì)過濾掉一些語(yǔ)義相似的數(shù)據(jù),進(jìn)而使情報(bào)結(jié)果準(zhǔn)確度降低,在測(cè)試結(jié)果中建議選擇更多的相似度算法以提升情報(bào)分析的準(zhǔn)確度,進(jìn)而挖掘更精準(zhǔn)的情報(bào)。在閾值設(shè)置層面,測(cè)試發(fā)現(xiàn)在相鄰熱點(diǎn)主題相似度矩陣中,大于20%的共有68 個(gè)相鄰主題,大于30%的共有26 個(gè)相鄰主題,為了將更多相關(guān)主題納入演化路徑中,因此測(cè)試選取20%作為閾值,最終形成如圖5 所示的熱點(diǎn)主題演化路徑。
圖5 不同階段的主題演化路徑
7)形成情報(bào)分析結(jié)果
針對(duì)所形成的部分繼承演化、融合演化和分裂演化路徑做如下分析。其中S1~S12 代表了階段,T代表了某階段的主題。
(1) 繼承演化:選取從S6-T28 到S7-T40 再到S8-T28 所形成的繼承演化路徑,如圖6 所示。其中S6-T28 到S7-T40 相似度為0.211,再到S8-T28 相似度為0.347,從2008—2009 年genetic algorithms、con‐troller 的提出開始,演化到2010—2011 年的robot、controller,在智能機(jī)器人運(yùn)動(dòng)控制領(lǐng)域進(jìn)行全局最優(yōu)解搜索,再演化到2012—2013 年的robot、con‐troller、simulated annealing,在運(yùn)動(dòng)控制系統(tǒng)中逐漸使用模擬退火算法(simulated annealing)取代遺傳算法(genetic algorithms)。遺傳算法和模擬退火算法的作用都是多目標(biāo)優(yōu)化找到全局最優(yōu)的近似解,解決傳統(tǒng)的窮舉法獲得全局最優(yōu)解運(yùn)算量大的問題,但遺傳算法存在局部搜索能力差、容易陷入過早收斂等缺陷,模擬退火算法的出現(xiàn)解決了當(dāng)時(shí)存在的問題,因此從時(shí)間上符合演化規(guī)律。
圖6 繼承演化路徑及主題詞(Top 10)
(2) 融合演化:選取從S9-T20、S9-T21、S9-T27、S9-T35 主題融合為S10-T25 的路徑,如圖7 所示。2014—2015 年在技術(shù)領(lǐng)域出現(xiàn)了learning、method、optimization、optimized、genetic algorithm、local、complexity 等,主要探討各種優(yōu)化參數(shù)技巧訓(xùn)練復(fù)雜的智能算法模型,在應(yīng)用領(lǐng)域vehicle、mobile、wireless sensor network 也開始廣泛應(yīng)用智能算法。2016—2017 年主題融合形成了model、recog‐nition、detection、support vector machine 等,在該階段文字識(shí)別、語(yǔ)音技術(shù)識(shí)別、圖像識(shí)別等領(lǐng)域不斷興起,并取得了不錯(cuò)的結(jié)果,該階段多數(shù)研究從技術(shù)上支持向量機(jī)(support vector machine) 進(jìn)行分類。事實(shí)上在以神經(jīng)網(wǎng)絡(luò)為主的深度學(xué)習(xí)出現(xiàn)以前,支持向量機(jī)是一種非常有效的分類算法。
圖7 融合演化路徑及主題詞(Top 10)
(3)分裂演化:選取從S11-T32 主題分裂為S12-T3、 S12-T9、 S12-T10、 S12-T12、 S12-T13、 S12-T32 的路徑,如圖8 所示。該階段分裂主題數(shù)量最多,自2018—2019 年machine learning、neural net‐work、deep learning 的出現(xiàn),到2020—2021 年主題分裂 為objective、detection、recognition、CNN (con‐volutional neural network)、 ANN (artificial neural network)、deep learning、congestion、city、machine learning、 decision tree、 prediction、 real-time、 big data 等。分裂主題為三類:(a)目標(biāo)探測(cè)和識(shí)別:包括objective、detection、recognition 等,該階段語(yǔ)音識(shí)別、文字識(shí)別、圖像識(shí)別得到更廣泛的應(yīng)用;(b)應(yīng)用于不同領(lǐng)域:在the internet of things、de‐vices、congestion、city 等領(lǐng)域都發(fā)揮重要作用,如物聯(lián)網(wǎng)、智慧城市等;(c)算法更為細(xì)化:包括CNN、ANN、decision tree、real-time、big data 等,其中CNN、ANN 等深度學(xué)習(xí)算法在該階段得到了快速發(fā)展。
圖8 分裂演化路徑及主題詞(Top 10)
通過對(duì)以上演化路徑的分析完成了情報(bào)分析過程并得出了與實(shí)際相符的分析結(jié)果,但從主題詞上來看,確實(shí)存在一些無實(shí)際意義的詞語(yǔ),因此需要進(jìn)行反復(fù)測(cè)試才能使分析結(jié)果更準(zhǔn)確。
沙盒測(cè)試是對(duì)智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)進(jìn)行識(shí)別的主要方法,并從全流程視角識(shí)別風(fēng)險(xiǎn)。對(duì)該項(xiàng)目10 個(gè)風(fēng)險(xiǎn)點(diǎn)進(jìn)行評(píng)估,根據(jù)表2 中的風(fēng)險(xiǎn)等級(jí)對(duì)數(shù)據(jù)與算法中每項(xiàng)風(fēng)險(xiǎn)進(jìn)行風(fēng)險(xiǎn)描述、風(fēng)險(xiǎn)等級(jí)類別和等級(jí)劃分,如表3 所示,雖然該項(xiàng)目不存在較為嚴(yán)重的失實(shí)風(fēng)險(xiǎn)、決策風(fēng)險(xiǎn)、偏見風(fēng)險(xiǎn)、隱私風(fēng)險(xiǎn)等,但尚存在4 個(gè)輕微級(jí)(IV)和6個(gè)一般級(jí)(III)風(fēng)險(xiǎn)點(diǎn),因此項(xiàng)目團(tuán)隊(duì)要針對(duì)6 個(gè)一般級(jí)(III)風(fēng)險(xiǎn)點(diǎn)進(jìn)行逐一確認(rèn)并整改,提交整改說明報(bào)告,再次測(cè)試無誤后方可入市。本文所提出的風(fēng)險(xiǎn)識(shí)別模型不但能有效識(shí)別智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn),還能最大限度降低項(xiàng)目入市后所帶來的安全隱患。
表3 智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)定級(jí)
在新興技術(shù)推動(dòng)社會(huì)進(jìn)步的同時(shí),越來越多的情報(bào)分析項(xiàng)目基于大數(shù)據(jù)與智能算法來實(shí)現(xiàn),但它們?cè)跒槿祟惿鐣?huì)提供便捷與高效的同時(shí),也帶來了種種難以預(yù)測(cè)的風(fēng)險(xiǎn),而且這些風(fēng)險(xiǎn)在金融情報(bào)、軍事情報(bào)、反恐情報(bào)、應(yīng)急情報(bào)等領(lǐng)域更具危害性,影響范圍更大,甚至?xí)<吧鐣?huì)穩(wěn)定與國(guó)家安全。2021 年7 月“滴滴出行”等接受網(wǎng)絡(luò)安全審查,被發(fā)現(xiàn)其嚴(yán)重違法違規(guī)收集使用用戶隱私數(shù)據(jù),給社會(huì)乃至國(guó)家安全帶來風(fēng)險(xiǎn),該事件將數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別推上了前臺(tái)。實(shí)際上,《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035 年遠(yuǎn)景目標(biāo)綱要》中明確提出了防范化解重大風(fēng)險(xiǎn)體制機(jī)制應(yīng)不斷健全[56],因此該事件的及時(shí)處理也充分體現(xiàn)了國(guó)家對(duì)防范化解重大風(fēng)險(xiǎn)的決心?;诖?,本文以風(fēng)險(xiǎn)社會(huì)理論、監(jiān)管沙盒理論為依托,構(gòu)建“數(shù)據(jù)-算法-流程”的智能情報(bào)分析安全風(fēng)險(xiǎn)識(shí)別模型,并以本課題團(tuán)隊(duì)的“領(lǐng)域熱點(diǎn)主題識(shí)別及演化分析項(xiàng)目”為例,詳細(xì)分析了其數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別的過程,同時(shí)也驗(yàn)證了風(fēng)險(xiǎn)識(shí)別模型的有效性。最后,通過模型構(gòu)建與實(shí)證提出如下對(duì)策建議,期望形成凸顯情報(bào)學(xué)學(xué)科特色、突出情報(bào)領(lǐng)域話語(yǔ)權(quán)、具有實(shí)踐推廣意義的研究成果。
1)培養(yǎng)情報(bào)學(xué)領(lǐng)域人才的風(fēng)險(xiǎn)識(shí)別意識(shí)
基于以上實(shí)證研究發(fā)現(xiàn),該項(xiàng)目中所存在的風(fēng)險(xiǎn)和當(dāng)前社會(huì)“重創(chuàng)新、輕風(fēng)險(xiǎn)”的思想相吻合,而這正是風(fēng)險(xiǎn)識(shí)別意識(shí)淡薄所導(dǎo)致的;如果該思想在情報(bào)人才培養(yǎng)中蔓延,所帶來的潛在危害是無法估量的。因此要培養(yǎng)具有風(fēng)險(xiǎn)識(shí)別意識(shí)的耳目、尖兵、參謀、引領(lǐng)式情報(bào)人才[57],提出以下三點(diǎn)建議:一是在情報(bào)學(xué)科中增加最新信息技術(shù)課程,尤其要重點(diǎn)介紹技術(shù)運(yùn)行原理及應(yīng)用場(chǎng)景,如人工智能技術(shù)、大數(shù)據(jù)技術(shù)等課程;二是增加項(xiàng)目管理中風(fēng)險(xiǎn)識(shí)別相關(guān)課程,尤其是對(duì)技術(shù)算法與核心數(shù)據(jù)中的風(fēng)險(xiǎn)識(shí)別及風(fēng)險(xiǎn)預(yù)測(cè)等;三是增加智能情報(bào)分析應(yīng)用實(shí)踐項(xiàng)目,增加情報(bào)人才的實(shí)踐能力,有意識(shí)培養(yǎng)情報(bào)學(xué)人才在應(yīng)用實(shí)踐過程中的風(fēng)險(xiǎn)識(shí)別經(jīng)驗(yàn)。
2)情報(bào)工作機(jī)構(gòu)中設(shè)立監(jiān)管沙盒職能
在風(fēng)險(xiǎn)識(shí)別模型中,沙盒測(cè)試是基于監(jiān)管沙盒理論形成的,監(jiān)管沙盒是指由監(jiān)管機(jī)構(gòu)提供一個(gè)“安全空間”,創(chuàng)新企業(yè)在符合特定條件的前提下,可申請(qǐng)突破一定的規(guī)則限制在該空間內(nèi)進(jìn)行項(xiàng)目測(cè)試[58]。監(jiān)管沙盒強(qiáng)調(diào)的是多元共治的監(jiān)管理念,注重監(jiān)管機(jī)構(gòu)、被監(jiān)管者以及消費(fèi)者多元主體共同參與治理,通過多元共治,將事前預(yù)防與事中、事后監(jiān)管相結(jié)合,有效改善了監(jiān)管信息不對(duì)稱問題,由此實(shí)現(xiàn)對(duì)風(fēng)險(xiǎn)的識(shí)別及監(jiān)管。目前越來越多的情報(bào)分析項(xiàng)目應(yīng)用智能技術(shù),而其帶來的風(fēng)險(xiǎn)問題容易被忽略,因此情報(bào)工作機(jī)構(gòu)應(yīng)擔(dān)負(fù)起智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別的重任。建議以情報(bào)工作機(jī)構(gòu)或行業(yè)協(xié)會(huì)牽頭,融合高校、企業(yè)的科研力量,在機(jī)構(gòu)內(nèi)部設(shè)立監(jiān)管沙盒職能,實(shí)現(xiàn)對(duì)智能情報(bào)分析項(xiàng)目中數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別的理論與應(yīng)用研究,以協(xié)助智能情報(bào)分析項(xiàng)目團(tuán)隊(duì)對(duì)項(xiàng)目的完善與創(chuàng)新,降低項(xiàng)目運(yùn)行的風(fēng)險(xiǎn)。
3)數(shù)智環(huán)境下實(shí)現(xiàn)國(guó)家情報(bào)工作制度創(chuàng)新
在情報(bào)工作機(jī)構(gòu)中,構(gòu)建風(fēng)險(xiǎn)識(shí)別模型需要完善的規(guī)則設(shè)計(jì),而規(guī)則是制度的重要體現(xiàn)形式,因此我們將沙盒測(cè)試視作一項(xiàng)平衡科技創(chuàng)新與風(fēng)險(xiǎn)的制度設(shè)計(jì),它一旦在情報(bào)工作機(jī)構(gòu)內(nèi)部運(yùn)行,將是國(guó)家情報(bào)工作制度重要的創(chuàng)新點(diǎn)之一。當(dāng)前數(shù)智環(huán)境下,數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別后急需通過制度建設(shè)進(jìn)行治理,因此情報(bào)工作機(jī)構(gòu)要從制度建設(shè)層面關(guān)注智能情報(bào)分析領(lǐng)域所應(yīng)用到的數(shù)據(jù)與算法,從以下兩個(gè)方面提出建議:一是建立具有情報(bào)特色的算法監(jiān)管和算法問責(zé)制度,例如,國(guó)家適時(shí)考慮制定《算法法》,國(guó)家情報(bào)機(jī)構(gòu)針對(duì)已有法規(guī)制定適用于情報(bào)領(lǐng)域的《人工智能算法審查規(guī)范》《算法責(zé)任框架》等,在強(qiáng)化監(jiān)管與問責(zé)法律效應(yīng)的同時(shí),對(duì)各領(lǐng)域情報(bào)工作起到指導(dǎo)作用。二是構(gòu)建具有情報(bào)特色的數(shù)據(jù)監(jiān)管制度。《數(shù)據(jù)安全法》第二十二條提出,“國(guó)家建立集中統(tǒng)一、高效權(quán)威的數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估、報(bào)告、信息共享、監(jiān)測(cè)預(yù)警機(jī)制。國(guó)家數(shù)據(jù)安全工作機(jī)制統(tǒng)籌協(xié)調(diào)有關(guān)部門加強(qiáng)數(shù)據(jù)安全風(fēng)險(xiǎn)信息的獲取、分析、研判、預(yù)警工作”。這主要說明國(guó)家會(huì)加強(qiáng)數(shù)據(jù)風(fēng)險(xiǎn)情報(bào)的共享機(jī)制,從制度層面實(shí)現(xiàn)智能情報(bào)分析中對(duì)數(shù)據(jù)的有效監(jiān)管。
情報(bào)分析有別于其他數(shù)據(jù)分析項(xiàng)目,其知識(shí)性、保密性、價(jià)值性、時(shí)效性等特點(diǎn)均較為突出。由于“領(lǐng)域熱點(diǎn)主題識(shí)別及演化分析項(xiàng)目”屬于團(tuán)隊(duì)內(nèi)部測(cè)試項(xiàng)目,其本身并不會(huì)對(duì)國(guó)家安全及社會(huì)穩(wěn)定造成嚴(yán)重影響,因此項(xiàng)目選擇上不具有高風(fēng)險(xiǎn)特征。本文所選取的LDA 主題聚類是無監(jiān)督學(xué)習(xí)算法,在風(fēng)險(xiǎn)識(shí)別層面并不存在如隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等算法帶來的黑箱風(fēng)險(xiǎn)問題,針對(duì)部分具有黑箱特征的風(fēng)險(xiǎn)識(shí)別不完全適用,但本文旨在嘗試開拓全新應(yīng)用研究領(lǐng)域,通過構(gòu)建智能情報(bào)分析項(xiàng)目數(shù)據(jù)與算法風(fēng)險(xiǎn)識(shí)別模型來為更多研究者提供參考與借鑒。未來,本團(tuán)隊(duì)將繼續(xù)針對(duì)智能情報(bào)分析項(xiàng)目對(duì)有監(jiān)督學(xué)習(xí)算法進(jìn)行實(shí)證,尤其是對(duì)具有黑箱屬性的智能算法進(jìn)行深入研究。