国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于TF-IDF 分類算法的電磁態(tài)勢情報分發(fā)

2022-10-24 13:38:34張明陽劉盼盼文申平
航天電子對抗 2022年4期
關鍵詞:感興趣態(tài)勢情報

張明陽,劉盼盼,文申平

(1.電子信息控制重點實驗室,四川 成都 610036;2.中國人民解放軍 91878 部隊,廣東 湛江 524000)

0 引言

隨著電子信息技術的飛速發(fā)展,各種電子偵察傳感器大量部署于沿海周邊、機艦平臺,使得戰(zhàn)場電磁態(tài)勢情報的感知手段空前豐富,同時由于電子對抗信息系統(tǒng)的多樣性和復雜性,戰(zhàn)場電磁態(tài)勢情報的信息量呈現(xiàn)爆炸式增長。一體化聯(lián)合作戰(zhàn)中,戰(zhàn)場電磁態(tài)勢的監(jiān)控和各類電子對抗行動都離不開來自陸??仗炝Ⅲw多維的電磁態(tài)勢情報保障。因此如何從海量的電磁態(tài)勢情報信息中,根據(jù)各類電磁態(tài)勢情報用戶的情報保障需求,進行情報個性化推薦,實現(xiàn)“無電不戰(zhàn)、無電不勝”的目標,是未來戰(zhàn)場致勝的關鍵。

目前國內外電磁態(tài)勢情報分發(fā)的主要方法是基于中心的順序匹配法,分為自動匹配分發(fā)和人工手動分發(fā)。自動匹配的策略比較粗放,一般是電磁情報處理中心設置策略,滿足策略要求的電磁態(tài)勢情報進行自動分發(fā),不滿足要求的不發(fā)送,對特殊的電磁態(tài)勢情報可以進行手動上報。該方法缺點比較明顯,主要體現(xiàn)在不主動采集情報用戶節(jié)點的數(shù)據(jù)要求,沒有分析各類情報用戶節(jié)點的保障要求,難以實現(xiàn)有效保障。本文提出基于詞頻-逆文件頻率(TF-IDF)分類算法的電磁態(tài)勢情報分發(fā)方法,實現(xiàn)電磁態(tài)勢情報的推薦分發(fā),滿足情報分發(fā)靈活性要求。

1 TF-IDF 分類算法

TF-IDF 分類算法是一種用于咨詢檢索與咨詢探勘的常用加權技術。TF-IDF 是一種統(tǒng)計方法,用以評估單個字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。也就是說一個詞語在一篇文章中出現(xiàn)次數(shù)越多,同時在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章。其基本思想是將文檔表示為1個空間向量,向量的每一維由文檔中的詞語i及其權重w組成,故相似內容的文檔有相似的向量。每個詞語的權重w為:

式中,詞頻(i,)指詞語的頻率,表明詞語i出現(xiàn)在文檔中的次數(shù),以詞語在文檔中出現(xiàn)的頻率表明詞語的重要性,如詞語在文檔中出現(xiàn)次數(shù)越多則越重要;逆文檔頻率(i)指詞語出現(xiàn)在其他文檔的頻率,以此權衡詞語的重要性。當詞語出現(xiàn)在其他許多文檔中時,則表明其代表性較低;反之,如只出現(xiàn)在少數(shù)文檔中,則表明詞語對文檔本身具有較高代表性。||為文檔的總數(shù)量;(i)為文檔頻率,是詞語i在文檔中至少出現(xiàn)1 次的文檔數(shù)目。

該方法先將屬于同一類的所有文檔向量歸為一類,每個類具有表達自身興趣的特征向量,再計算文檔和特征向量的相似度。該相似度最大類向量所屬類即為文檔類別。

2 電磁態(tài)勢情報用戶的層次向量空間表示

用戶興趣模型是個性化推薦技術的基礎和核心,是個性化推薦系統(tǒng)的主要知識源。它的工作原理是:以用戶為主體,按照用戶的興趣與需求,分別為每個用戶推薦其感興趣的資源。所以用戶興趣模型的質量直接關系到個性化推薦服務的質量,也就是推薦給情報用戶情報的質量。

向量空間模型是大多數(shù)個性化推薦系統(tǒng)中采用的一種用戶興趣模型表示方式,它將用戶興趣模型表示 為 一 個維 的 特 征 向 量[(,),(,),…,(tw)],向量的每一個元素都是由關鍵詞t和它對應的權重w組成,分別表示了用戶是否對某個關鍵詞感興趣和對它感興趣的程度。

考慮到電磁態(tài)勢情報用戶多樣性的特點,對用戶興趣進行分類劃分,根據(jù)電磁態(tài)勢情報的格式化特征,可分為平臺類型、敵我屬性、國家地區(qū)、目標型號、平臺型號、工作參數(shù)、位置和方位等,使用戶興趣模型中的用戶興趣是分類,減少不同類別的興趣特征之間不均勻分布產(chǎn)生的干擾,提高電磁態(tài)勢情報分發(fā)的精確度。因此,在向量空間模型的基礎上,提出一種表征電磁態(tài)勢情報用戶興趣的層次向量空間模型,它能有效地和充分地描述情報用戶多個方面的、多種興趣的特征。

電磁態(tài)勢情報用戶層次向量空間興趣模型采用了樹狀結構,將用戶的興趣按不同的屬性進行劃分,每一個屬性又由此屬性下感興趣的多個關鍵詞組成的空間向量表示。所以,電磁態(tài)勢情報用戶層次向量空間興趣模型如圖1所示,它是三層的樹狀結構,第一層表示電磁態(tài)勢情報用戶,第二層表示電磁態(tài)勢情報用戶的興趣屬性,第三層表示用戶在該屬性下的興趣詞條?;趯哟蜗蛄靠臻g的用戶興趣模型可表達為如下特征向量:

圖1 電磁態(tài)勢情報用戶3 層向量空間模型

式中,I為情報用戶的第類興趣屬性。

I屬性可以表示為:

式中,(i,Q)為I類屬性的第個興趣約束,i為 第個關鍵詞,Q為關鍵詞的i權重。

3 基于TF-IDF 的電磁態(tài)勢情報保障分發(fā)

3.1 電磁態(tài)勢情報用戶興趣模型建立

利用電磁態(tài)勢情報用戶的定制信息和歷史情報,通過TF-IDF 分類算法,建立情報用戶的興趣模型,對于不滿足用戶定制要求的情報,利用興趣模型,判斷用戶的感興趣程度,如果用戶感興趣程度較高,則將該情報推送給用戶。

該算法的關鍵是要解決關鍵詞權重的計算問題,通過統(tǒng)計目標用戶關鍵詞i在歷史情報中出現(xiàn)的頻數(shù)(i)和計算它在所有用戶定制信息中的逆文檔頻率(i),可求得每一個關鍵詞的權重。權重w的計算式如下:

關鍵詞i的權重w越大,說明用戶對其感興趣的程度越強;關鍵詞i的權重w越小,說明用戶對其感興趣的程度越弱。

頻數(shù)(i)是關鍵詞i在歷史情報中出現(xiàn)的次數(shù),它反映用戶對關鍵詞i的感興趣程度。關鍵詞i在歷史情報中出現(xiàn)的次數(shù)(i)越多,則用戶對它的感興趣程度就越大,反之則小。

逆文檔頻率(i)反映關鍵詞i在區(qū)分目標用戶時的強度。若所有用戶中包含關鍵詞i的定制信息的數(shù)量越多,關鍵詞i區(qū)分目標用戶時的作用強度越小,那么(i)的值就越小;反之則大。當且僅當目標用戶的定制信息中包括關鍵詞i時,(i)的值達到最大。(i)的計算式為:

式中,||為定制信息的總數(shù)量,若情報中心有個用戶,則取所有個用戶的最新定制信息,此時,||=。(i)是定制信息中包含了關鍵詞i的定制信息的數(shù)量。將達到一定閾值的權重所對應的關鍵詞作為用戶感興趣的關鍵詞。

建立用戶興趣模型的具體步驟如下:

步驟1:計算關鍵詞i在歷史電磁態(tài)勢情報中出現(xiàn)的次數(shù)(i)。

步驟2:計算關鍵詞在電磁態(tài)勢情報定制信息間的逆文檔頻率(i)。

步驟3:計算關鍵詞i的權重w。

步驟4:用戶興趣模型的建立。在用戶的類興趣屬性中,每一類都有一個閾值,它們構成一個閾值組={,,…,a}。計算出每個關鍵詞i的權重w后,若權重wa,則關鍵詞為用戶感興趣的關鍵詞,與之對應的關鍵詞條(i,w)為電磁態(tài)勢情報用戶感興趣的關鍵詞條,電磁態(tài)勢情報用戶層次向量空間興趣模型就是由這些用戶感興趣的關鍵詞條組成。

3.2 電磁態(tài)勢情報分發(fā)

建立上述電磁情報用戶的興趣模型后,基于TF-IDF 分類算法的電磁態(tài)勢情報分發(fā)的步驟如下:

1)分析用戶興趣模型。利用用戶的歷史情報信息和定制信息,通過TF-IDF 分類算法,建立用戶的層次向量空間模型,挖掘出用戶感興趣情報的信息。

2)電磁態(tài)勢情報匹配推送。將情報與用戶訂閱信息進行順序匹配,匹配成功則主動推送,匹配不成功進行步驟3)。

3)電磁態(tài)勢情報推薦推送。將情報同用戶興趣模型進行匹配計算,當情報的每一個關鍵詞都是用戶感興趣的關鍵詞的時候,認為該情報是用戶感興趣的情報,并將其推送給用戶,否則不予推薦。

分發(fā)流程如圖2 所示。

圖2 基于TF-IDF 的電磁態(tài)勢情報分發(fā)流程

4 實驗與分析

4.1 實驗數(shù)據(jù)與步驟

模擬電磁態(tài)勢情報用戶提交的定制信息和目標情報用戶的電磁態(tài)勢情報信息。利用所有用戶提交的定制信息和目標用戶的電磁態(tài)勢情報信息,根據(jù)TF-IDF 分類算法建立目標用戶的電磁態(tài)勢情報用戶層次向量空間興趣模型,通過實時情報與用戶興趣模型的匹配運算,推送用戶感興趣的情報,不推送用戶不感興趣的情報。然后對分發(fā)給用戶的情報進行分析,計算情報分發(fā)的準確率和覆蓋率,在保證覆蓋率不低于100%的前提下,通過調整情報窗口和感興趣權重的大小觀察準確率的變化情況。

4.2 性能評價指標

以覆蓋率(recall)和準確率(precision)這2 個指標來評價基于TF-IDF 情報用戶興趣模型的情報分發(fā)算法的性能。根據(jù)文獻[7-8]對個性化推薦系統(tǒng)的評價方法研究,分類準確度定義為推薦算法對一個產(chǎn)品用戶是否感興趣判定正確的比例,覆蓋率和準確率是分類準確度的2 個指標。

覆蓋率定義為正確推送的情報數(shù)目與應該推送的情報數(shù)目的比例,反映了系統(tǒng)識別用戶興趣的正確程度。

式中,為已推送的正確情報數(shù),為應該推送的情報數(shù)。

準確率定義為正確推送的情報數(shù)目與推送的情報總數(shù)的比值,反映了系統(tǒng)對用戶興趣不相關情報的排斥能力。

當情報分發(fā)的任務完成后,計算推薦情報的準確率如下:

式中,為已推送的正確情報數(shù),為推送的情報總數(shù)。

4.3 試驗結果與分析

利用C++模擬20 個電磁態(tài)勢情報用戶的定制信息,隨機生成訂閱信息,確保每個用戶能夠收到2 000 批電磁態(tài)勢情報,利用歷史情報和訂閱信息形成用戶的TF 和IDF 值,再模擬10 000 批電磁態(tài)勢情報向上述20 個用戶發(fā)送。設定權重統(tǒng)一為=70%,針對模擬的電磁態(tài)勢情報信息,在不同情報窗口大小下1 號用戶和17 號用戶的推送準確率如圖3 所示。情報窗口分別是[500,1 000,1 500,2 000]。

圖3 情報窗口大小與推送準確率關系

設定情報窗口大小為2 000,針對模擬的電磁態(tài)勢情報信息,在不同門限大小下1 號用戶和17 號用戶的推送準確率如圖4 所示。門限大小分別是[0.1,0.3,0.5,0.7,0.9]。

圖4 門限大小與推送準確率關系

從上述結果可以看出,當門限為0.7、情報窗口大于1 000 時,可以保證推送的情報準確率較高且有一定冗余度;情報窗口大小為2 000 時,門限設置在0.7 附近,可以保證推送的情報準確率較高且有一定冗余度。

5 結束語

本文針對電磁態(tài)勢情報分發(fā)不靈活的問題,提出了基于個性化推薦的過濾電磁態(tài)勢情報技術,并根據(jù)電磁態(tài)勢情報用戶興趣多樣性和電磁態(tài)勢情報的格式化特征,提出了用戶層次向量空間興趣模型,在此基礎上利用用戶歷史情報信息和定制信息,實現(xiàn)了基于TF-IDF 分類算法的電磁態(tài)勢情報分發(fā)。該方法可以較好地滿足電磁態(tài)勢情報推薦分發(fā)的需求。

猜你喜歡
感興趣態(tài)勢情報
情報
情報
情報
更 正
含能材料(2021年1期)2021-01-10 08:34:34
2019年12月與11月相比汽車產(chǎn)銷延續(xù)了增長態(tài)勢
汽車與安全(2020年1期)2020-05-14 13:27:19
匯市延續(xù)小幅震蕩態(tài)勢
中國外匯(2019年19期)2019-11-26 00:57:36
我國天然氣供需呈現(xiàn)緊平衡態(tài)勢
這樣的智能廚房臺面,你會感興趣嗎?
縣鄉(xiāng)一體化探索呈加速態(tài)勢
交接情報
雷山县| 金溪县| 柳林县| 广饶县| 孟州市| 资溪县| 务川| 揭西县| 柳林县| 饶平县| 乃东县| 大厂| 乌兰察布市| 蒲城县| 湖口县| 防城港市| 高雄县| 抚顺市| 桐乡市| 卓尼县| 合作市| 珠海市| 义乌市| 吉木萨尔县| 天气| 绥中县| 千阳县| 霍林郭勒市| 哈密市| 湄潭县| 望江县| 宾阳县| 陵水| 长汀县| 平山县| 浏阳市| 鲜城| 汽车| 天台县| 乌拉特前旗| 广德县|