張海瀛,戴禮燦,劉 鑫,王成剛
(中國西南電子技術(shù)研究所,成都 610036)
近年來,情報工作在新的內(nèi)外部環(huán)境中進一步發(fā)展,研究邊界不斷拓展。中央國家安全委員會第一次會議提出總體國家安全觀,系統(tǒng)提出了要維護的11種安全[1],即政治安全、國土安全、軍事安全、經(jīng)濟安全、文化安全、社會安全、科技安全、信息安全、生態(tài)安全、資源安全、核安全。這為未來情報研究指明了方向,對情報工作提出了更高的要求。
當前,云計算、大數(shù)據(jù)、人工智能等先進技術(shù)給情報工作實踐帶來了深刻影響,如何有效利用這些先進技術(shù),實現(xiàn)高質(zhì)量、高價值情報產(chǎn)品的快速生產(chǎn),以充分發(fā)揮情報“耳目、尖兵、參謀”的作用[2],更好地服務(wù)于國家安全,是必須要研究的命題。
根據(jù)情報周期理論[3],情報工作可劃分為計劃與指導、收集、處理與加工、分析與生產(chǎn)、分發(fā)與整合、評估與反饋等不同環(huán)節(jié)。這些環(huán)節(jié)相互銜接,形成了完整的情報工作圖譜。其中情報分析是情報工作的中心環(huán)節(jié),其含義是通過對全源數(shù)據(jù)進行綜合、評估、分析和解讀,將處理過的信息轉(zhuǎn)化為情報以滿足已知或預(yù)期的用戶需求的過程。情報分析具有層次性,一般可劃分為描述性分析、解釋性分析、評估性分析和預(yù)測性分析四個層次[4]:①描述性分析是根據(jù)一定的邏輯關(guān)系,綜合各種零碎的信息,反映目標或事件的基本情況,回答“何人、何事、何時、何地”問題;②解釋性分析需要確定各項事實、各種事件等發(fā)生的原因,回答“為何”問題;③評估性分析要判斷關(guān)鍵問題或事件的意義,指出其潛在后果;④預(yù)測性分析要以未來為導向,回答“接下來會發(fā)生什么”。總體上來看,描述性分析、解釋性分析和評估性分析主要是立足當下,而預(yù)測性分析則更多的是瞄準未來。
本文所述情報預(yù)測就是指情報分析中的預(yù)測性分析,其既是情報分析的重點,也是輔助決策的核心,及時準確地根據(jù)事實與證據(jù)進行情報預(yù)測是提高決策正確性的關(guān)鍵因素。
當前,大數(shù)據(jù)、人工智能等先進技術(shù)[5-9]為情報預(yù)測注入了新的活力。為了更好地挖掘先進技術(shù)對解決情報預(yù)測任務(wù)的價值,本文對情報預(yù)測的概念內(nèi)涵、基本流程、描述框架、方法體系等進行探索性研究,以指導新時期情報預(yù)測工作的科學開展。
想要科學地開展情報預(yù)測工作,必須要對情報預(yù)測的概念與流程具備清晰的認識,以免陷入混淆不清的尷尬境地。
預(yù)測,即預(yù)先監(jiān)測[10],指利用已掌握的現(xiàn)實情況和知識,推測與判斷未來可能出現(xiàn)的狀態(tài)和趨勢,主要目的是由過去和現(xiàn)在去推測未來。一般來說,預(yù)測可以分為自然預(yù)測和社會預(yù)測兩大類。其中,自然預(yù)測主要是針對自然現(xiàn)象的預(yù)測,如地震、海嘯、天氣等;社會預(yù)測主要是針對社會活動的預(yù)測,如股票波動、目標行動、群體性事件發(fā)展趨勢等。自然預(yù)測與社會預(yù)測存在著很大的差異,主要表現(xiàn)在主客體關(guān)系的差別、規(guī)律性質(zhì)的差別、復雜程度的差別和不確定性程度的差別[11],如表1所示。
情報預(yù)測主要是對目標行動、事物未來發(fā)展趨勢做出預(yù)測,涉及大量的社會性活動。因此,情報預(yù)測更大程度上屬于社會預(yù)測的范疇,具備互動反射[12]、復雜程度高、不確定性大等特點,具有較高的預(yù)測難度。
情報預(yù)測與預(yù)警是經(jīng)常容易混淆的概念,本文通過調(diào)研認為,情報預(yù)警[10,13]主要是預(yù)先警告之意,需要給出行動或處置建議。情報預(yù)警要決策是否發(fā)出警報,并通過合適的方式傳遞給特定的受眾,而預(yù)測更多的側(cè)重于判斷將要發(fā)生什么,主要為決策提供依據(jù),而不直接參與決策。因此,情報預(yù)測與預(yù)警的關(guān)系可以表述為,科學的預(yù)測是精確預(yù)警的前提和基礎(chǔ);預(yù)警是預(yù)測價值的實現(xiàn),通過預(yù)警才能把預(yù)測結(jié)果及時地傳送給受眾。
情報預(yù)測需要遵循預(yù)測的基本流程包括確定預(yù)測目標、制定預(yù)測計劃、收集預(yù)測資料、選擇預(yù)測方法、建立預(yù)測模型、計算預(yù)測結(jié)果、檢驗和修正預(yù)測結(jié)果等步驟[14],如圖1所示。
圖1 情報預(yù)測基本流程與維度劃分
1)確定預(yù)測目標:根據(jù)業(yè)務(wù)需求,提出明確的預(yù)測目標,確定預(yù)測對象。
2)制定預(yù)測計劃:確定預(yù)測的范圍、基本假設(shè)、需要收集的資料等,設(shè)定預(yù)測的時間跨度、空間范圍等信息。
3)收集預(yù)測資料:收集實施預(yù)測或建構(gòu)模型所需要的數(shù)據(jù)。
4)選擇預(yù)測方法:根據(jù)預(yù)測資料、方法特點,確定預(yù)測方法,如邏輯推理、深度學習等。
5)建立預(yù)測模型:設(shè)計預(yù)測模型,明確模型的輸入和輸出以及可能的預(yù)、后處理算法。
6)計算預(yù)測結(jié)果:基于預(yù)測模型和輸入數(shù)據(jù)計算預(yù)測結(jié)果。
7)檢驗和修正預(yù)測結(jié)果:驗證預(yù)測模型,必要時進行專家咨詢。
通過對預(yù)測過程進行的分析可知,上述預(yù)測流程實際上覆蓋業(yè)務(wù)和技術(shù)兩個維度,其中,選擇預(yù)測方法和建立預(yù)測模型步驟側(cè)重于技術(shù)維度,其他步驟則側(cè)重于業(yè)務(wù)維度。這表明情報預(yù)測問題的解決既需要業(yè)務(wù)人員的參與,也需要技術(shù)人員的參與。業(yè)務(wù)維度中的確定預(yù)測目標和制定預(yù)測計劃實際上就是要完成情報預(yù)測問題的定義,其是開展情報預(yù)測技術(shù)研究的關(guān)鍵。下節(jié)將給出一種情報預(yù)測問題的描述框架。
根據(jù)情報預(yù)測基本流程,科學實施情報預(yù)測需要重點解決解決預(yù)測對象定義、預(yù)測內(nèi)容描述和算法模型建構(gòu)三個問題,如圖2所示。其中,預(yù)測對象定義主要解決預(yù)測問題涉及哪些對象以及對象如何約束的問題;預(yù)測內(nèi)容描述主要解決預(yù)測要素包含什么的問題;算法模型建構(gòu)主要解決方法選擇和模型構(gòu)建問題。
圖2 情報預(yù)測需要重點解決的三大問題
情報預(yù)測問題描述主要解決前兩個問題,即預(yù)測對象定義和預(yù)測內(nèi)容描述。下面給出一種情報預(yù)測問題描述框架,包括預(yù)測對象定義方法和預(yù)測內(nèi)容相描述方法,并給出參考案例。
預(yù)測對象定義可以采取原子項+約束項的方式來實現(xiàn),如圖3所示。
圖3 情報預(yù)測對象定義方法示意圖
其中,原子項指情報預(yù)測問題所關(guān)注的核心項,需要根據(jù)業(yè)務(wù)需求進行提煉總結(jié),如組織機構(gòu)設(shè)立變化、暴恐行動發(fā)生情況、目標出行情況、重大事件發(fā)展趨勢等;約束項指約束原子項的維度信息,這將使得預(yù)測對象更加明確。
約束項可以使用的維度信息包括時間、空間、實施對象、承受對象等。對于時間約束,可以是精確日期,也可以是長期、中期、短期、臨期等模糊日期,但是在實施預(yù)測時必須將其轉(zhuǎn)化為相應(yīng)的精確日期;對于空間約束,一般指區(qū)域、地點等地理信息;對于實施對象,指的是進行原子項所描述活動的實施者;對于承受對象,指的是原子項所描述活動的受事者。需要說明的是,對于預(yù)測任務(wù),預(yù)測對象必然包括時間約束項,其他約束項可以根據(jù)任務(wù)需求進行選擇,甚至增加新類型約束項。
通過原子項和約束項共同作用,可以實現(xiàn)對大量不同預(yù)測對象的精準描述,也可為實際工作中預(yù)測對象的合理性檢查提供理論參考。
預(yù)測內(nèi)容描述可以通過定性和定量要素來刻畫,如圖4所示。
其中,定性要素通常通過模糊詞語來表達預(yù)測結(jié)果,可以是二值詞語(如發(fā)生、不發(fā)生等),也可以是由模糊詞構(gòu)成的多值描述空間(如肯定、幾乎肯定、很有可能、很不可能、絕無可能等);定量要素則主要利用精細化的結(jié)構(gòu)來表示,包括預(yù)測置信度、發(fā)生時間、發(fā)生地點、實施者、受事者等要素。
需要說明的是,情報預(yù)測內(nèi)容的描述精細程度與預(yù)測任務(wù)計劃達到的目的有關(guān),需要根據(jù)實際情況設(shè)定,可以只使用模糊詞語來表示,也可以包含更加精細的表述。
以地震預(yù)測和暴恐行動預(yù)測兩個案例對如何利用上述情報預(yù)測描述框架進行問題描述進行說明,如表2所示。
表2 情報預(yù)測問題描述方式示例說明
通過對相關(guān)預(yù)測問題的清晰定義,可以明確問題研究的邊界,更加有效地支撐技術(shù)研究。需要注意是,預(yù)測問題的描述應(yīng)滿足實際需求,否則將失去研究意義。
情報預(yù)測利用多維度歷史數(shù)據(jù)內(nèi)在的關(guān)聯(lián)特性,結(jié)合知識經(jīng)驗和實時數(shù)據(jù),對未來的情況進行推理,也即情報預(yù)測是基于歷史、立足當下、面向未來的,這是情報預(yù)測的第一性原理。但是,必須認識到并非任何情況下都能夠進行準確預(yù)測,情報預(yù)測的可行性主要取決于以下三個方面[15]:一是對預(yù)測問題的影響因素的了解程度;二是有多少數(shù)據(jù)是可以用的;三是預(yù)測是否會影響試圖預(yù)測的事物。在實際中,通常更加關(guān)注前兩個方面。
綜上,情報預(yù)測方法必須以承認事物發(fā)展的延續(xù)性為基礎(chǔ),通過充分挖掘歷史數(shù)據(jù)中的內(nèi)在關(guān)聯(lián)性,考慮偶然因素引發(fā)的隨機性,實現(xiàn)對事物未來情況的預(yù)測。
目前,從實現(xiàn)形式上,情報預(yù)測方法主要分為專家主觀推理和機器定量預(yù)測兩大類方法,如圖5所示。
圖5 情報預(yù)測方法體系劃分
其中,專家主觀推理主要依賴分析專家的主觀判斷,以形式邏輯、辯證邏輯、認知心理學等為工具進行推理,先后出現(xiàn)了歷史經(jīng)驗主義、實證主義、證偽主義等不同流派,代表性方法包括競爭性假設(shè)分析法、群體分析法等;機器定量預(yù)測則主要借助數(shù)學方程、計算機仿真模擬和建構(gòu)模型等,來解決預(yù)測問題,理論上,所有的機器定量預(yù)測方法都可以看作模擬專家解決問題的過程,是人類思維推理的機器化和計算化形式。
目前,在預(yù)測問題求解實踐中,大都將其建模為時間序列預(yù)測問題或時空序列預(yù)測問題,以更好地利用各種類型的方法。其中,時間序列預(yù)測主要對純時間序列進行分析預(yù)測,時空序列預(yù)測[16-17]則對具有空間維度的時間序列進行分析預(yù)測。時間序列預(yù)測問題的應(yīng)用研究發(fā)展得比較早,在社會、經(jīng)濟領(lǐng)域具有深厚的研究基礎(chǔ),如疾病監(jiān)控、股票預(yù)測、人口預(yù)測、銷量預(yù)測等,M系列競賽[18-19]對其發(fā)展貢獻較大。時空序列預(yù)測問題的應(yīng)用研究領(lǐng)域主要在氣象預(yù)測、交通規(guī)劃、社交網(wǎng)絡(luò)、電子商務(wù)等領(lǐng)域比較活躍,這主要得益于其豐富的時空數(shù)據(jù)集和明確的預(yù)測任務(wù)。
下面將主要對機器定量預(yù)測方法體系進行分析,以期推動機器定量預(yù)測方法的發(fā)展。
本文從理論-方法-工具三個層次,對現(xiàn)有的機器定量預(yù)測方法體系進行了分析。其中,理論主要明確指出預(yù)測方法的理論基礎(chǔ),方法主要列舉出具體的實現(xiàn)方法,工具則是給出算法編寫和驗證所常用的依賴工具,輔助研究人員快速開展研究。在理論層面,將機器定量預(yù)測方法劃分為物理建模、數(shù)理邏輯、統(tǒng)計分析、機器學習、深度學習、神經(jīng)符號計算等六大類,各類所涉及的理論基礎(chǔ)、典型方法和支撐工具如表3所示。
表3 機器定量預(yù)測方法體系對比分析表
3.2.1 物理建模方法
以基本物理定律為理論基礎(chǔ),從機理分析出發(fā)建立預(yù)測模型,模型參數(shù)具有明確的物理意義和數(shù)學表達式,可解釋性強。但是,該類方法要求建模者具有豐富的領(lǐng)域?qū)I(yè)知識,并且預(yù)測任務(wù)應(yīng)當具有普適的客觀規(guī)律,一般適用于自然預(yù)測任務(wù),主要方法有代數(shù)求解法、常微分/偏微分方程法、計算機仿真模擬法等。比如對于目標航路預(yù)測問題,可以通過建立目標運動模型,基于卡爾曼濾波來解決,也可以綜合考慮目標機動性能、環(huán)境、氣象等因素建立合適的航路模型。支撐工具主要是各種類型的科學計算庫。
3.2.2 數(shù)理邏輯方法
以命題邏輯和謂詞邏輯等為理論基礎(chǔ),將專家研判經(jīng)驗知識化、專家定性研究過程邏輯化,通過構(gòu)建知識庫和推理機,實現(xiàn)自動化預(yù)測。但是,該類方法存在知識建模困難、專家知識難以獲取等問題,限制了該類方法的發(fā)展,一般適用于具備大量專家經(jīng)驗知識的預(yù)測任務(wù),主要方法有知識模板匹配、基于產(chǎn)生式規(guī)則的專家系統(tǒng)推理等。數(shù)理邏輯方法涉及知識建模、知識獲取、知識推理等過程,各過程互相關(guān)聯(lián),一般利用專門編程工具實現(xiàn)[20],如SWI-PROLOG[21]、PROBLOG[22]、LISP、CLIPS等。
3.2.3 統(tǒng)計分析方法
以平穩(wěn)性假設(shè)和假設(shè)檢驗為理論基礎(chǔ),利用歷史數(shù)據(jù)的統(tǒng)計信息建立預(yù)測模型。該類方法認為歷史觀測值是趨勢、周期、外生因素(包括節(jié)假日、特殊事件、天氣等)、隨機誤差等因素綜合作用的結(jié)果,一般適用于數(shù)據(jù)具有明顯內(nèi)在規(guī)律的單變量時間序列預(yù)測任務(wù),主要方法包括自回歸移動平均法、指數(shù)平滑法、季節(jié)性趨勢預(yù)測法等。支撐工具包括statsmodels、probhet[23]等時間序列分析庫,其中probhet是Facebook開源的時間序列預(yù)測框架,其將時間序列預(yù)測模型分解為趨勢項、周期性、節(jié)假日等三個部分,不需要特征工程就可以綜合考慮趨勢、季節(jié)和節(jié)假日等因素的影響,能夠很好地解決非平穩(wěn)時間序列的預(yù)測問題。
3.2.4 機器學習方法
以特征工程和數(shù)據(jù)擬合為基礎(chǔ)理論,通過基于歷史數(shù)據(jù)的監(jiān)督式訓練,自動學習數(shù)據(jù)特征-標簽映射關(guān)系[24],形成預(yù)測模型。該類方法通過人工構(gòu)建預(yù)測特征,可解釋性較好,但是存在特征構(gòu)造和選擇難題,比較適合于解決數(shù)據(jù)有限、復雜性不高的預(yù)測問題。主要方法有貝葉斯網(wǎng)絡(luò)[25]、決策樹模型、支持向量機、多層感知機等。支撐工具包括pgmpy[26]、sklearn、XGBoost、LGBM等機器學習庫,其中,pgmpy可以用于貝葉斯網(wǎng)絡(luò)的構(gòu)建與推理,sklearn包含各種類型的分類算法,XGBoost、LGBM是當前流行的決策樹模型庫。
3.2.5 深度學習方法
以表示學習+數(shù)據(jù)擬合為理論基礎(chǔ),無需或少量進行特征工程,能夠自動從數(shù)據(jù)中學習有效特征,并建立特征與標簽之間的映射關(guān)系[27-29],但是可解釋性差,并且深度學習模型參數(shù)量大,需要大規(guī)模訓練數(shù)據(jù),一般適用于特征構(gòu)建困難且具備海量數(shù)據(jù)的預(yù)測任務(wù),主要包括基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和圖神經(jīng)網(wǎng)絡(luò)等模型的預(yù)測方法,如ST-ResNet[30]、ST-LSTM[31]、DCRNN[32]、STGCN[33]、T-GCN[34]、Ada-MSTNet[35]等。支撐工具以各種深度學習框架為主,包括tensorflow、pytorch、pytorch-geometric(PyG)[36]、DGL、PyG-temporal[37]等,其中,tensorflow、pytorch主要用于卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓練,PyG、DGL是面向圖神經(jīng)網(wǎng)絡(luò)的學習框架,PyG-temporal則是面向深度時空圖卷積的學習框架。
3.2.5 神經(jīng)符號計算方法
以符號推理和神經(jīng)推理融合為理論基礎(chǔ),將規(guī)則知識和神經(jīng)網(wǎng)絡(luò)結(jié)合起來形成推理模型[38],以同時兼具神經(jīng)網(wǎng)絡(luò)強容錯性和邏輯推理可解釋性的優(yōu)勢,實現(xiàn)方法主要包括符號驅(qū)動神經(jīng)推理[39]、神經(jīng)邏輯推理[40]和神經(jīng)驅(qū)動符號推理[41]三類。其中,符號驅(qū)動神經(jīng)推理通過將邏輯規(guī)則作為正則化項,來改進神經(jīng)推理的嵌入學習;神經(jīng)邏輯推理利用神經(jīng)網(wǎng)絡(luò)逼近邏輯運算,讓神經(jīng)網(wǎng)絡(luò)也能用于邏輯推理;神經(jīng)驅(qū)動符號推理以符號推理為主,利用神經(jīng)網(wǎng)絡(luò)來處理數(shù)據(jù)的不確定性和模糊性。目前,神經(jīng)符號計算方法尚處于探索階段,其在情報預(yù)測方面的算法模型和實際應(yīng)用有待深入研究,還沒有形成有效的支撐工具。
目前,基于機器學習和深度學習的預(yù)測方法是最近幾年發(fā)展的重點,而基于神經(jīng)符號計算的預(yù)測方法則正在逐漸進入研究人員的視野。
需要說明的是,任何一種預(yù)測方法都不可能完全適用于某一預(yù)測問題,需要根據(jù)實際需求,具體問題具體分析,綜合考慮數(shù)據(jù)特點和任務(wù)特點來選擇或組合相應(yīng)的算法模型,才能取得滿足期望的預(yù)測結(jié)果。
本文首先探討了情報預(yù)測的概念以及其在情報工作中的地位和基本流程,能夠為情報預(yù)測工作的實施提供支撐;然后,總結(jié)了一種情報問題描述框架,包括預(yù)測對象、預(yù)測內(nèi)容的規(guī)范描述,可以指導完成情報預(yù)測問題的清晰定義;最后,從理論-方法-工具三個層次總結(jié)了機器定量預(yù)測方法體系,可以為預(yù)測方法的選用和研究提供參考。目前,機器定量預(yù)測方法以機器學習、深度學習為主,大大提高了機器解決情報預(yù)測問題的能力,未來將向神經(jīng)符號計算方向拓展。
情報預(yù)測任務(wù)繁多復雜,特別是隨著總體國家安全觀的提出,情報預(yù)測任務(wù)覆蓋了國家安全的各個方面。目前,情報預(yù)測問題清晰定義的缺乏和相應(yīng)數(shù)據(jù)集的缺失,正在嚴重制約著情報預(yù)測領(lǐng)域的發(fā)展。因此,為了促進情報預(yù)測領(lǐng)域發(fā)展,必須要根據(jù)具體業(yè)務(wù)需求,梳理典型預(yù)測任務(wù),清晰明確的定義預(yù)測問題,并加強相應(yīng)的數(shù)據(jù)建設(shè),才能為技術(shù)研究提供標準、規(guī)范的自由探索空間。