陳劍鋒
(1.中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041;2.中國電子科技網(wǎng)絡(luò)信息安全有限公司,四川 成都 610041)
隨著網(wǎng)絡(luò)和信息技術(shù)的飛速發(fā)展,開源情報(bào)(Open Source Intelligence,OSINT)在戰(zhàn)略調(diào)查分析中的價(jià)值越來越顯著,情報(bào)發(fā)揮作用的方式也在不斷發(fā)展豐富。開源情報(bào)借助人工智能將分散的數(shù)據(jù)痕跡聚合成高價(jià)值的知識片段,從而提供對信息所反映態(tài)勢的深刻洞察和見解。網(wǎng)絡(luò)空間開源情報(bào)(Cyberspace OSINT)是開源情報(bào)的一個子集,主要關(guān)注反映攻擊者戰(zhàn)術(shù)、技術(shù)、程序、行為、事件和其他所有對網(wǎng)絡(luò)空間防御者有價(jià)值的要素信息。適當(dāng)、高效、及時的網(wǎng)絡(luò)空間安全威脅情報(bào)有助于識別正在發(fā)生的事件、為什么發(fā)生以及如何處理風(fēng)險(xiǎn)等相關(guān)問題[1-2]。
大數(shù)據(jù)時代,網(wǎng)絡(luò)空間開源威脅情報(bào)的獲取面臨“數(shù)據(jù)爆炸”但“知識稀缺”的困境。威脅情報(bào)來源可能分散在社交網(wǎng)絡(luò)、博客、推特、新聞網(wǎng)站、論壇和許多其他場所,并且來源的數(shù)量和更新頻率還在持續(xù)增加。這種空前的數(shù)據(jù)量給威脅情報(bào)分析人員完成“觀察—導(dǎo)向—分析—輸出”的工作流程帶來了前所未有的困難[3]。當(dāng)數(shù)據(jù)量和數(shù)據(jù)關(guān)聯(lián)關(guān)系構(gòu)成的復(fù)雜性超出他們的理解和控制范圍時,就會引發(fā)認(rèn)知危機(jī),主要體現(xiàn)在以下4 個方面。
一是威脅情報(bào)的可信度值得懷疑。任何安全研究人員、用戶、黑客或政府雇員都可以在互聯(lián)網(wǎng)上發(fā)布任何內(nèi)容,他們的學(xué)術(shù)背景、判斷、信仰或意圖不同,這些內(nèi)容的質(zhì)量無法得到保證。當(dāng)情報(bào)分析師缺乏有效的方式來區(qū)分偽造數(shù)據(jù)和真實(shí)信息,特別是通過網(wǎng)絡(luò)爬蟲或數(shù)據(jù)庫下載的方式在短時間內(nèi)獲取大量此類數(shù)據(jù)時更是如此。
二是無法保證情報(bào)的完整性和一致性。威脅情報(bào)生成可能有多種渠道或來源,包括人類專家、設(shè)備或自動響應(yīng)程序等,它們可能沒有明確的組織、目標(biāo)或管理目的。因此,分析師所能獲得的關(guān)于某個主題的信息總是以一種斷斷續(xù)續(xù)的、碎片化的和矛盾的方式出現(xiàn),很難從這些混亂的數(shù)據(jù)中得出有意義的答案。
三是分析過程的隨機(jī)性和不確定性。情報(bào)分析是分析人員通過系統(tǒng)、細(xì)致的思維活動對情報(bào)信息進(jìn)行分析和處理,洞察對手的真實(shí)意圖、預(yù)測發(fā)展趨勢的過程。分析過程除需要大量的情報(bào)信息外,還需要專業(yè)的分析技能、專業(yè)的分析工具和嚴(yán)謹(jǐn)?shù)耐评磉壿嫞@些都與分析人員的個人經(jīng)歷密切相關(guān)。不同分析人員在面對相同的材料時,甚至有可能得出完全相反的結(jié)論。
四是預(yù)測的準(zhǔn)確性難以令人滿意。情報(bào)收集不當(dāng)、數(shù)據(jù)支持不夠、分析判斷失誤、思維僵化等都可能導(dǎo)致最終研究判斷結(jié)果出現(xiàn)偏差和錯誤。尤其是在開源威脅情報(bào)研究中,分析人員總是只能掌握部分信息,即使是理性嚴(yán)謹(jǐn)?shù)姆治?,也容易因認(rèn)知鴻溝、信息非對稱、觀點(diǎn)偏見等導(dǎo)致錯誤的發(fā)生。
上述4 個難題無法通過簡單提升算力、改進(jìn)算法和擴(kuò)充存儲力解決,更快的計(jì)算效率、更強(qiáng)的識別水平和更寬裕的存儲空間能夠緩解資源不足的局面,但“人在環(huán)路”依然是開源情報(bào)分析的重要前提和關(guān)鍵特征[4]。加強(qiáng)人機(jī)合作,基于人的靈感、直覺、敏感性和宏觀把握能力,以及計(jì)算機(jī)的高速計(jì)算、存儲、通信能力,能夠真正在開源威脅情報(bào)分析領(lǐng)域提高準(zhǔn)確性、洞察力和效率,從網(wǎng)絡(luò)空間觀測結(jié)果的蛛絲馬跡中提取關(guān)于攻擊者、攻擊行為和攻擊意圖的重要信息。一旦人機(jī)之間能夠形成順暢的知識交換和共享途徑,建立自主智能的分析迭代循環(huán),這一混合智能系統(tǒng)必能在對抗網(wǎng)絡(luò)空間攻擊者時獲得巨大優(yōu)勢。
網(wǎng)絡(luò)空間是開源情報(bào)的重要來源,網(wǎng)絡(luò)安全是開源情報(bào)實(shí)踐的典型領(lǐng)域。根據(jù)Gartner 公司的定義,開源網(wǎng)絡(luò)威脅情報(bào)是一種基于證據(jù)的判斷和預(yù)告,是一種包含漏洞、威脅、特征、名單、屬性、解決建議等多種內(nèi)容的動態(tài)更新的知識載體,個體和組織從公開渠道的安全組織、機(jī)構(gòu)中獲得的預(yù)警通告、漏洞通告、威脅通告等都屬于典型的開源安全威脅情報(bào)。開源情報(bào)具有風(fēng)險(xiǎn)描述、價(jià)值載體和人機(jī)工程3 個維度的特征和作用。
將安全威脅信息開源情報(bào)化,是在新的威脅形式和風(fēng)險(xiǎn)場景下,網(wǎng)絡(luò)空間防御思路從過去的基于漏洞為中心的方法,進(jìn)化成基于威脅為中心的方法,發(fā)揮集體智慧共同守護(hù)安全的必然選擇。威脅情報(bào)可以為態(tài)勢感知、早期預(yù)警和應(yīng)急響應(yīng)服務(wù),使防御者不僅能了解到“已經(jīng)發(fā)生了什么”“正在發(fā)生什么”,還能夠以高置信率推斷出“還將發(fā)生什么”,因而和零信任、彈性防御、風(fēng)險(xiǎn)管理、網(wǎng)絡(luò)安全網(wǎng)格等思想一并催生了新一代的安全體系架構(gòu)。
情報(bào)的本質(zhì)是減少信息沖突的不確定性,在網(wǎng)絡(luò)空間對抗領(lǐng)域,情報(bào)的含義引申為對攻擊一方或防御一方有利的任何信息。這些情報(bào)可以是機(jī)讀的結(jié)構(gòu)化數(shù)據(jù),也可以是供決策層使用的報(bào)告;可以是已經(jīng)發(fā)生的安全攻擊的情況,也可以是對未來威脅態(tài)勢的預(yù)測。開源威脅情報(bào)的內(nèi)容通常對防守方組織實(shí)施防御行為具有積極的指導(dǎo)意義,是網(wǎng)絡(luò)空間防御者工具箱中的有力武器。
開源威脅情報(bào)代表了一類具有明確指向性的“外部知識”。網(wǎng)絡(luò)空間廣泛的連通性使得攻擊者能夠從地球上任何一個角落光速發(fā)起惡意行動。攻擊者在入侵后、造成破壞之前留給防御者反應(yīng)的時間窗口極為短暫,防御者必須在這個窗口內(nèi)完成識別、決策、響應(yīng)動作才能避免損失。在這種情況下,外部安全信息的獲取和共享將能夠輔助防御者進(jìn)行更高層級的分析、展現(xiàn)和決策,為其增加前瞻性、主動性與彈性的優(yōu)勢,并使相關(guān)責(zé)任者更清晰地認(rèn)識到信息與事件如何影響使命以及任務(wù)。
開源情報(bào)傳統(tǒng)意義上是以人的經(jīng)驗(yàn)和智慧為先導(dǎo)的新知識、新動向和新觀點(diǎn)的啟發(fā)性研究。隨著媒介技術(shù)手段的不斷進(jìn)步,人類進(jìn)入了信息爆炸的時代,傳統(tǒng)開源情報(bào)范式倡導(dǎo)的“剪刀+漿糊+放大鏡”的勞動力密集模式已不再適應(yīng)時代要求,互聯(lián)網(wǎng)和社交平臺上充斥著海量的開源信息和數(shù)據(jù),互聯(lián)網(wǎng)的快速普及以及科技日新月異的發(fā)展為開源情報(bào)范式的復(fù)興和升級帶來了新的機(jī)遇。
開源情報(bào)的新生態(tài)是由人類智能和機(jī)器智能交互融合實(shí)現(xiàn)的,人類智能體現(xiàn)為分布在全球的情報(bào)開發(fā)者與使用者根據(jù)需要生產(chǎn)與消費(fèi)產(chǎn)品,機(jī)器智能體現(xiàn)為通過提供多樣化的算法、軟件和工具,支持人們在情報(bào)領(lǐng)域更好地進(jìn)行開發(fā)、協(xié)作和使用,并且這種能力可以通過自主學(xué)習(xí)不斷增強(qiáng)。通過個體知識的匯聚、面向任務(wù)角度的宏觀與微觀調(diào)控,人類智能和機(jī)器智能可以相互協(xié)作、補(bǔ)充,向群體混合智能發(fā)展。更復(fù)雜的算法、更精巧的工具、更全面的數(shù)據(jù)和更密切的人機(jī)協(xié)同,都將大大提升網(wǎng)絡(luò)空間領(lǐng)域情報(bào)挖掘的數(shù)量、質(zhì)量和效率。
為了提升開源情報(bào)分析的可擴(kuò)展性、容量、靈活性和協(xié)作水平,探索人機(jī)之間的理想分工和協(xié)作方式,需要更加精確、有效地刻畫威脅情報(bào)分析中的人機(jī)關(guān)系。
殺傷鏈原指打擊軍事目標(biāo)時,由相互依存的環(huán)節(jié)組成的有序鏈條。網(wǎng)絡(luò)空間殺傷鏈由洛克希德·馬丁公司借鑒查找—修復(fù)—跟蹤—瞄準(zhǔn)—參與—評估(Find,Fix,Track,Target,Engage and Assess,F(xiàn)2T2EA)作戰(zhàn)思想,結(jié)合對大量網(wǎng)絡(luò)攻擊,特別是APT 類攻擊案例的分析成果而提出,表述了一個惡意團(tuán)體如何入侵受害公司以打破邊界、竊取數(shù)據(jù)和破壞服務(wù)的整個過程[5]。殺傷鏈的準(zhǔn)備階段、入侵階段和回報(bào)階段包括偵察、武器化、裝載、利用、安裝、指控與破壞6 個步驟。與此同時,安全從業(yè)者建立了防御鏈阻止攻擊者開展進(jìn)一步入侵。防御鏈由監(jiān)測、保護(hù)、檢測、響應(yīng)、恢復(fù)和驗(yàn)證6個相互依存的步驟構(gòu)成。通過將威脅情報(bào)分析中的多方工作流程擴(kuò)展為“殺傷鏈”“防御鏈”兩個環(huán)路和相應(yīng)的連接關(guān)系,構(gòu)成如圖1 所示的動態(tài)模型。
網(wǎng)絡(luò)空間安全的本質(zhì)是對抗,對抗的本質(zhì)是攻防兩端的較量。在模型中,較量的焦點(diǎn)是攻擊者和防御者之間基于威脅情報(bào)的技術(shù)和信息平衡。圖中“殺傷鏈”“防御鏈”的共同作用目標(biāo)是企業(yè)數(shù)據(jù)資產(chǎn)、資源或服務(wù)所在的互聯(lián)網(wǎng)或內(nèi)網(wǎng)。防御者先于攻擊者獲取的威脅情報(bào),能夠幫助防御者了解有關(guān)攻擊的戰(zhàn)法、技術(shù)和工具,預(yù)先部署相應(yīng)的措施,可以更好地保護(hù)其資產(chǎn)免受入侵。在攻擊者發(fā)起入侵后,由于防御者已經(jīng)做好了預(yù)先準(zhǔn)備,攻擊過程中所有的痕跡、路徑、工具和策略都將被記錄并轉(zhuǎn)換為威脅情報(bào)格式,從而能夠共享給安全社區(qū)、專業(yè)公司或其他企業(yè),這種“一點(diǎn)發(fā)現(xiàn),全局設(shè)防”的能力使得未來攻擊者難以通過已使用過的手段達(dá)成新的攻擊效果。
隨著網(wǎng)絡(luò)空間開源情報(bào)來源、類型的不斷拓展,在情報(bào)處理中人機(jī)之間的關(guān)系由于數(shù)據(jù)量的增長和內(nèi)容的豐富而變得愈加復(fù)雜。為了優(yōu)化網(wǎng)絡(luò)空間人機(jī)分工,促進(jìn)威脅情報(bào)更好地生成、共享和使用,提出人機(jī)協(xié)作視圖,依據(jù)是否需要思考類技能,以及是否需要借助直覺性思維的標(biāo)準(zhǔn),將人機(jī)合作的類型劃分為“機(jī)器優(yōu)先”“人類輔助機(jī)器”“機(jī)器輔助人類”“人類優(yōu)先”4 個不同的象限,分別指派不同的工作優(yōu)化策略,并對每一象限的人機(jī)工作優(yōu)化策略進(jìn)行闡述和分析[6]。
如圖2 所示,4 個象限中人-機(jī)在協(xié)同工作中的參與度、貢獻(xiàn)度具有顯著區(qū)別?!皺C(jī)器優(yōu)先”象限中,機(jī)器可以自動從互聯(lián)網(wǎng)上的公開和隱秘渠道收集信息,并定期進(jìn)行相應(yīng)更新;“人類輔助機(jī)器”象限中,人們將利用他們的知識和直覺,在信息融合過程中分析機(jī)器難以處理的異構(gòu)數(shù)據(jù);“機(jī)器輔助人類”象限中,機(jī)器可以快速瀏覽并處理大量數(shù)據(jù),對即將到來的威脅和近似的近期或長期安全情況給出分類建議,作為人類預(yù)測任務(wù)的重要參考信息;“人類優(yōu)先”象限中,為了獲得準(zhǔn)確的判斷和決策用以指導(dǎo)行動,人類將在情報(bào)產(chǎn)品的綜合分析中充分發(fā)揮其主觀能動性。
莫拉維克悖論指出,實(shí)現(xiàn)人類難以解決的問題只需要非常少的計(jì)算能力,而實(shí)現(xiàn)人類無意識的技能和感知卻需要極大的運(yùn)算能力。這個悖論反映了圖靈機(jī)在其獨(dú)特能力方面的局限性。說明計(jì)算機(jī)的記憶力和計(jì)算能力是人類無法企及的,人類的直覺和洞察力也是計(jì)算機(jī)無法比擬的。
針對技術(shù)文章、暗網(wǎng)論壇、社交媒體、網(wǎng)站信息等不同的開源信息平臺,通過動態(tài)爬蟲、檢測更新等方式獲取威脅情報(bào)的基本信息是一種高度計(jì)算機(jī)化的行為活動。爬蟲主要采用遠(yuǎn)程探測和下載技術(shù),盡可能多地收集目標(biāo)源上的相關(guān)信息;信息預(yù)處理主要使用文本處理方法去除數(shù)據(jù)流中不相關(guān)的信息;信息轉(zhuǎn)換模塊采用結(jié)構(gòu)化轉(zhuǎn)換、異常值處理和屬性分析等技術(shù);信息分析主要使用命名實(shí)體識別結(jié)合機(jī)器學(xué)習(xí)分類方法,如通過支持向量機(jī)(Support Vector Machine,SVM)、邏輯回歸、隨機(jī)森林和樸素貝葉斯等方法進(jìn)行主題分類和目標(biāo)表征,基于計(jì)算機(jī)視覺算法來識別動態(tài)視頻和圖像中的對象。此外,還可以根據(jù)技術(shù)類型、威脅風(fēng)險(xiǎn)、實(shí)體對象、組織單位或攻擊者手法建立主題數(shù)據(jù)庫,過濾掉與威脅指標(biāo)無關(guān)的非安全和非結(jié)構(gòu)化信息。在統(tǒng)一數(shù)據(jù)的語法和語義之后,可以利用機(jī)器威脅情報(bào)生成等應(yīng)用獲取目標(biāo)實(shí)體關(guān)系,根據(jù)實(shí)際需要,轉(zhuǎn)換為OpenIOC[7]、STIX[8]等標(biāo)準(zhǔn)化開源威脅情報(bào)格式。
威脅情報(bào)領(lǐng)域的信息融合是對獲取的多源原始信息進(jìn)行整合、提煉,并經(jīng)過預(yù)處理,形成與主題內(nèi)容或應(yīng)用場景相關(guān)的高可用信息的過程。這個過程前半部分的規(guī)則性、事務(wù)性和流程性工作可交由機(jī)器完成;但較為核心的后半部分涉及信息的語義差別、上下文的干預(yù)以及場景應(yīng)用方向等影響性條件,當(dāng)前機(jī)器還無法有效處理這些因素,需要人作為輔助要素參與進(jìn)來,進(jìn)而提高分析過程和結(jié)論導(dǎo)出的相關(guān)性和準(zhǔn)確性。
人機(jī)結(jié)合的開源威脅情報(bào)的融合和一致性分析通常使用本體構(gòu)建技術(shù)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短期記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)進(jìn)行訓(xùn)練,以此快速識別威脅情報(bào)數(shù)據(jù)中所包含的內(nèi)容,同時機(jī)器根據(jù)分析者的搜索歷史和個人喜好對內(nèi)容進(jìn)行針對性的分類、匯總和判斷。威脅情報(bào)本身的多重關(guān)聯(lián)概念與基于圖的數(shù)據(jù)結(jié)構(gòu)相吻合。因此,在智能融合過程中引入知識圖譜技術(shù),依托專家的知識構(gòu)建基于本體的全局知識結(jié)構(gòu),能夠基于數(shù)據(jù)中屬性的層次關(guān)系預(yù)測實(shí)體之間的潛在關(guān)系,從海量警報(bào)事件中找出所關(guān)注的網(wǎng)絡(luò)攻擊,推斷網(wǎng)絡(luò)空間攻擊的隱藏威脅,為更好地識別安全操作提供方法和策略,進(jìn)而提高在特定場景下進(jìn)行威脅分析任務(wù)的能力。另外,人類也可以輔助機(jī)器對開源威脅情報(bào)的質(zhì)量和可信度進(jìn)行評估,主要包括定性、定量和關(guān)聯(lián)性指標(biāo)評估等方面。
在完成了情報(bào)整合和數(shù)據(jù)重組之后,威脅情報(bào)分析將進(jìn)入深度挖掘與研判階段。綜合利用殺傷鏈模型、鉆石模型或異構(gòu)信息網(wǎng)絡(luò)能量模型,結(jié)合現(xiàn)有開源威脅情報(bào)和不同應(yīng)用場景的實(shí)時流量數(shù)據(jù),人類威脅情報(bào)分析員可以憑借顛覆性的人工智能,融合中央處理器(Central Processing Unit,CPU)與圖形處理器(Graphics Processing Unit,GPU)的混合算力和近乎無限的云存儲能力,快速獲取、集成、利用和可視化相關(guān)信息范圍內(nèi)的高質(zhì)量數(shù)據(jù),對威脅進(jìn)行深度關(guān)聯(lián)、碰撞和分析操作,提升高級持續(xù)性威脅(Advanced Persistent Threat,APT)類隱匿程度高、潛伏時間長、可觀察痕跡少的攻擊行為的發(fā)現(xiàn)能力。
在現(xiàn)階段威脅情報(bào)深度研判的人機(jī)分工中,機(jī)器的作用在于根據(jù)網(wǎng)絡(luò)流量、主機(jī)行為、用戶操作等歷史數(shù)據(jù)或訓(xùn)練數(shù)據(jù)建立正常模型即“基線模型”,投入運(yùn)行后,當(dāng)模型的基準(zhǔn)指標(biāo)出現(xiàn)偏離時發(fā)出警告。然而,由于攻擊方式不斷變化和更新,系統(tǒng)的異常特征“負(fù)樣本”難以窮舉覆蓋,不能完全依賴機(jī)器對網(wǎng)絡(luò)安全警告或事件通知進(jìn)行的關(guān)于“攻擊表征”的計(jì)算判決,此階段異常的最終確認(rèn)和閉環(huán)報(bào)告應(yīng)該交由網(wǎng)絡(luò)安全專業(yè)分析員完成。
人類相對于機(jī)器的優(yōu)勢主要在于對趨勢的判斷、把握和預(yù)測。熟練掌握人工智能和開源情報(bào)技能的安全分析師,能夠基于對領(lǐng)域知識和歷史背景的了解來審視攻擊步驟、還原攻擊行為、洞察攻擊意圖,進(jìn)而對攻擊者下一步將要執(zhí)行的活動和操作進(jìn)行預(yù)測。雖然與機(jī)器相比,海量情報(bào)和數(shù)據(jù)流的組織、關(guān)聯(lián)和理解超出了人類大腦的計(jì)算和存儲容量極限,但分析師通常具有敏銳的直覺、對細(xì)節(jié)的好奇心、對攻擊的預(yù)感和對隱藏在幕后的攻擊者的驅(qū)動因素、意圖及動機(jī)的把握。
盡管在不久的將來,人工智能有望通過消化分析大量典型的APT組織和常見的攻擊方法,從而具備在開源情報(bào)中進(jìn)行特定類型的預(yù)測分析。通過建立多個風(fēng)險(xiǎn)特征與可能事件之間的對應(yīng)關(guān)系的能力,從而在識別攻擊主體、反演攻擊方法、恢復(fù)攻擊路徑等方面取得實(shí)際進(jìn)展。但是,對所有的網(wǎng)絡(luò)安全事件和態(tài)勢進(jìn)行綜合研判,做出處置和響應(yīng)的最終決定,在短期內(nèi)仍然是人類的重要責(zé)任和使命。
網(wǎng)絡(luò)空間威脅情報(bào)是數(shù)據(jù)科學(xué)與人機(jī)協(xié)同聯(lián)合應(yīng)用的典型領(lǐng)域,能夠有效解決網(wǎng)絡(luò)空間防御實(shí)踐中的攻防力量不對等、優(yōu)勢非對稱、信息不透明等難題。人類專家能夠利用數(shù)據(jù)、計(jì)算和人工智能工具,基于形式化建模和推理能力來監(jiān)測和預(yù)測破壞性事件,根據(jù)已知威脅屬性變量對相似的未知屬性變量進(jìn)行判斷,從而提升網(wǎng)絡(luò)安全能力覆蓋的深度和廣度。在未來的發(fā)展中,人機(jī)聯(lián)合威脅情報(bào)分析還將面臨巨大的機(jī)遇和挑戰(zhàn),必須通過持續(xù)的研究和創(chuàng)新,在機(jī)器不斷提升的洞察力和人類越來越稀缺的注意力和精力之間取得平衡,在不斷提高的計(jì)算能力、算法和高質(zhì)量數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)更好的威脅情報(bào)處理性能,從而為網(wǎng)絡(luò)空間攻防實(shí)踐提供“知識化”解決方案。