国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于局部敏感哈希的K鄰近算法識別垃圾短信

2023-11-08 05:03:19樊繼慧滕少華

樊繼慧 滕少華

文章編號:1671-3559(2023)06-0746-06DOI:10.13349/j.cnki.jdxbn.20230816.002

摘要: 針對目前垃圾短信的識別算法存在的關(guān)鍵字及頻次的規(guī)則死板,易于被不法分子探測和規(guī)避等問題,提出將局部敏感哈希的K鄰近算法應(yīng)用于垃圾短信分類識別;首先定義特征,然后采用局部敏感哈希算法計算向量距離,通過得到的距離衡量矩陣的相似性,量化矩陣相似程度,對本文中提出的優(yōu)化模型進行實現(xiàn)和訓練;基于短信文本內(nèi)容,運用詞頻-逆向文本頻率算法生成矩陣,利用局部敏感哈希算法求解最相似樣本,記錄樣本類別,將訓練結(jié)果導入K鄰近算法分類器得到最優(yōu)近鄰,在測試集或驗證集上對優(yōu)化模型垃圾短信分類識別準確率進行評測。結(jié)果表明,經(jīng)過K鄰近算法分類器后,優(yōu)化模型垃圾短信分類識別準確率達到98.7%。

關(guān)鍵詞: 垃圾短信識別;K鄰近算法;局部敏感哈希;矩陣相似性

中圖分類號: TP391

文獻標志碼: A

Recognition of Spam Text Messages Based on

Local Sensitive Hash K Nearest Neighbor Algorithm

FAN Jihui1,2,TENG Shaohua3

(1.Department of Graduate School,Saint Paul University,Tuguegarao 3500,Philippines;

2.School of Computer Science and Engineering,Guangzhou Institute of Science and Technology,Guangzhou 510540,Guangdong,China;

3.School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,Guangdong,China)

Abstract:Aiming at the problems of the current junk message recognition algorithm,such as the inflexible rules of keywords and frequency,and easy to be detected and evaded by criminals,a K nearest neighbor algorithm based on local sensitive hash was proposed for the classification and recognition of spam text messages.First,the feature was defined,and then the local sensitive hash algorithm was used to calculate the vector distance.The distance obtained measured the similarity of the matrix,quantizes the similarity of the matrix,and implemented and trained the optimization model proposed in this paper.Based on the text content of short messages,the word frequency reverse text frequency algorithm was used to generate the matrix,the local sensitive hash algorithm was used to solve the most similar samples,record the sample categories,and import the training results into the K nearest neighbor algorithm classifier to obtain the best nearest neighbor,and the classification and recognition accuracy of spam short messages was eveluated in the test set or verifi-cation set.The results show that after K nearest neighbor classifier,the improved model achieves 98.7% accuracy of spam short message classification.

Keywords:recognition of spam text message;K nearest neighbor algorithm;local sensitive hash;matrix similarity

收稿日期: 2022-10-09??????? 網(wǎng)絡(luò)首發(fā)時間:2023-08-17T09∶14∶28

基金項目: 國家自然科學基金項目(61972102);廣東省教育廳重大專項(粵教2021ZDZX1070);教育部協(xié)同育人項目(GZLGHT2021324);

廣東省高等教育協(xié)會研究項目(22GQN37);廣州理工學院校本研究項目(2021XBZ03)

第一作者簡介: 樊繼慧(1990—),女,山東蘭陵人。講師,博士研究生,研究方向為大數(shù)據(jù)分析、人工智能。E-mail: 2519639989@qq.com。

網(wǎng)絡(luò)首發(fā)地址: https://link.cnki.net/urlid/37.1378.N.20230816.1001.004

隨著信息時代通信服務(wù)業(yè)的迅速發(fā)展,垃圾短信日益成為困擾運營商、用戶的難題,嚴重影響人們的正常生活,侵害運營商的社會形象,對社會穩(wěn)定造成危害。 由于人們每天浪費大量的時間閱讀、處理垃圾短信,因此用戶信息很容易被大數(shù)據(jù)監(jiān)控,隱私泄露問題頻發(fā),各種推銷、促銷短信爆發(fā)式推送,人們的日常生活受到干擾。 目前垃圾短信的識別過濾主要采取黑白名單識別技術(shù)、發(fā)送頻率限制識別技術(shù)、關(guān)鍵詞匹配識別技術(shù)以及基于機器學習識別垃圾短信技術(shù)等。 這些常用的垃圾短信識別技術(shù)都有一定的局限性,例如,黑白名單技術(shù)僅對已知的號碼有效,發(fā)送頻率限制識別技術(shù)的發(fā)送頻率規(guī)則易被相對應(yīng)的方法所規(guī)避,基于機器學習識別垃圾短信技術(shù)相對較復(fù)雜,識別成本較高,識別效率不高。

由于短信息具有方便、成本低等特點,因此垃圾短信已經(jīng)形成了黑色利益鏈,嚴重危害社會公眾安全。 目前,垃圾短信的形式、內(nèi)容千變?nèi)f化,投放方式不斷改變,導致對其識別與處理越發(fā)困難。 由于垃圾短信通過變更內(nèi)容欺騙過濾系統(tǒng),導致系統(tǒng)識別準確率降低,因此學者們提出很多不同的算法進行識別。 李根等[1]首先以最小編輯距離的方式構(gòu)建垃圾短信關(guān)系鏈,使用MeanShift算法進行聚類,實現(xiàn)自分簇功能,取得了較好的效果。吳思慧等[2]提出一種結(jié)合詞頻-逆向文本頻率(TF-IDF)算法的基于自注意力的雙向長短期記憶網(wǎng)絡(luò)(SA-Bi-LSTM)的神經(jīng)網(wǎng)絡(luò)模型,與傳統(tǒng)分類模型相比,短信文本識別準確率提高了2.1%~4.6%。 李瓊陽等[3]利用主成分分析對數(shù)據(jù)進行處理,從而達到降維和屬性獨立的雙重目的。 熊健等[4]首先采取TF-IDF算法進行特征提取,把文本數(shù)據(jù)轉(zhuǎn)化成向量的形式,然后應(yīng)用欠采樣技術(shù)獲得若干個類別平衡的訓練樣本,分別采取樸素貝葉斯、決策樹和支持向量機等分類模型對每個樣本進行訓練,也取得了較好效果。 賴文輝等[5]提出一種基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的垃圾短信識別方法,識別準確率比傳統(tǒng)的機器學習模型提高了2.4%~5.1%。

在垃圾短信識別過程中,如何利用有限的樣本采取合適的算法實現(xiàn)較高的準確率,同時訓練時間進一步減少是本領(lǐng)域的研究方向。有學者研究大幅度分類用于對抗垃圾郵件過濾器的偽裝攻擊[6]。Guo[7]等提出了一種改進的基于KNN的異構(gòu)無線網(wǎng)絡(luò)垂直切換決策算法。楊彬[8]等提出一種基于改進的TF-IDF權(quán)重的短文本分類算法,通過同義詞對分類器的關(guān)鍵詞庫進行擴展和基于特征長度對短文本權(quán)值進行加權(quán),使得文本集的權(quán)值方差增大。KNN分類算法在脈沖信號甄別仿真領(lǐng)取也有很好的適用性[9],在非侵入式負荷識別方法研究中,根據(jù)樣本數(shù)量和對應(yīng)算法K值計算得到表決權(quán)重,增加少數(shù)類的分類準確性[10]。

本文中基于短信文本內(nèi)容,運用TF-IDF算法生成矩陣,利用局部敏感哈希函數(shù)(LSH)算法求解最相似樣本,記錄樣本所屬類別,將訓練結(jié)果導入K鄰近算法(KNN)分類器,通過不斷實驗得出最優(yōu)近鄰。 LSH算法的實質(zhì)是把哈希函數(shù)(Hash)之上的數(shù)據(jù)再一次降維,實現(xiàn)再降維與局部尋找匹配對,在測試集或驗證集上對垃圾短信分類識別準確率進行測評,經(jīng)過KNN分類器后,實現(xiàn)對分類準確率的提高。

1? 研究方法

1.1? 數(shù)據(jù)分析

本文中基于短信文本內(nèi)容,建立垃圾短信識別模型,解決垃圾短信過濾效率不高的問題。

GitHub是一個面向開源及私有軟件項目的代碼托管平臺,本文中所用的數(shù)據(jù)集從GitHub平臺下載獲得,共計80萬條中文短信息,內(nèi)容涉及廣告、推銷、生活等,從其中抽取2萬條文本進行處理。垃圾短信是指未經(jīng)用戶同意向用戶發(fā)送的用戶不愿意收到的短信息,或用戶不能根據(jù)自己的意愿拒絕接收的短信息,主要包含以下特點: 1)未經(jīng)用戶同意向用戶發(fā)送的商業(yè)類、廣告類等短信息;2)其他違反行業(yè)自律性規(guī)范的短信息。根據(jù)上述特點將所有短信息進行分類,非垃圾短信用0表示,垃圾短信用1表示。通過對數(shù)據(jù)進行處理,包括數(shù)據(jù)抽取、數(shù)據(jù)清洗、分詞獲得前期的訓練集數(shù)據(jù)樣本,然后對數(shù)據(jù)進行訓練和建模,具體流程如圖1所示。

對原始數(shù)據(jù)進行數(shù)據(jù)探索,發(fā)現(xiàn)數(shù)據(jù)中并不存在空值,進一步查看垃圾短信和非垃圾短信的分布情況。隨機抽取上述2萬條文本處理后的數(shù)據(jù)的80%作為測試樣本,其余作為測試集樣本,對數(shù)據(jù)集進行訓練。

1.2? 數(shù)據(jù)預(yù)處理

1.2.1? 數(shù)據(jù)清洗

數(shù)據(jù)清洗(data cleaning)[11]的主要任務(wù)是將數(shù)據(jù)中的非法數(shù)據(jù)、不在給定的范圍內(nèi)或?qū)τ趯嶋H業(yè)務(wù)毫無意義、或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯的這一類數(shù)據(jù)進行處理,把數(shù)據(jù)檢測出來并進行修正,提高數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)質(zhì)量問題給數(shù)據(jù)應(yīng)用帶來的影響。數(shù)據(jù)清洗是對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息,糾正存在的錯誤,并提供數(shù)據(jù)一致性。直接刪除有缺失值的行記錄或列字段,以減少趨勢數(shù)據(jù)記錄對整體數(shù)據(jù)的影響,從而提高數(shù)據(jù)的準確性。將數(shù)據(jù)缺失作為數(shù)據(jù)分布規(guī)律的一部分,將變量的實際值和缺失作為輸入維度參與后續(xù)數(shù)據(jù)處理和模型計算。

1.2.2? 分詞

自然語言處理(NLP)概率圖[12]利用隱馬爾可夫模型(HMM),針對中文分詞應(yīng)用Viterbi算法尋找一條概率最大路徑。Python 結(jié)巴分詞(Jieba)支持3種分詞模式: 1)精確模式。試圖將句子最精確地切開,適用于文本分析。 2)全模式。把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義問題。 3)搜索引擎模式。在精確模式的基礎(chǔ)上,對長詞進行再次切分,提高召回率,適用于搜索引擎分詞。

1.2.3? 添詞典去停用詞

中文表達中最常用的功能性詞語是限定詞,如“的”“一個”“這”“那”等。使用這些詞語的主要目的僅僅是協(xié)助文本的名詞描述和概念表達,并沒有太多的實際含義,但是停用詞通常都是非自動生產(chǎn)、人工篩選錄入的,原因是人們需要根據(jù)不同的研究主題判斷和選擇合適的停用詞語。停用詞主要包括英文字符、數(shù)字、數(shù)學字符、標點符號及使用頻率非常高的單漢字等。常見的停用詞包括語氣助詞、副詞、介詞、連接詞等,這類詞通常沒有明確的意義,只有將其放入一個完整的句子中才有一定作用,如常見的“的”“在”之類。

中文分詞是指以詞作為基本單元,使用計算機對中文文本自動進行詞語的切分。 有學者將加權(quán)樸素貝葉斯算法用于復(fù)合語言文本分類,采用量子遺傳算法對權(quán)重參數(shù)進行優(yōu)化,取得了較好的效果[13]。 施寒瑜等[14]基于組合深度模型進行現(xiàn)代漢語數(shù)詞、量詞、名詞(數(shù)量名)短語識別,并采用深度學習算法解決現(xiàn)代漢語數(shù)量名短語邊界識別問題。

1.2.4? 繪制詞云圖

詞云圖是文本結(jié)果展示的有利工具,通過詞云圖可以對短信文本數(shù)據(jù)分詞后的高頻詞給予強調(diào)、突出的視覺效果,使閱讀者看一眼就可獲取主旨信息。詞云就是通過形成關(guān)鍵詞“云層”或關(guān)鍵詞渲染,對網(wǎng)絡(luò)文本中出現(xiàn)頻率較高的關(guān)鍵詞進行視覺上的突出。詞云圖可以過濾掉大量的文本信息,使瀏覽網(wǎng)頁者一眼掃過就可以領(lǐng)略文本的主旨。本文中通過對已獲取的垃圾短信數(shù)據(jù)進行預(yù)處理、文本分詞、詞頻統(tǒng)計、詞云展示。

1.3? 文本的向量表示

文字是人類認知過程中產(chǎn)生的高層認知抽象實體,本文中將文字轉(zhuǎn)換為數(shù)字向量或矩陣作為機器學習算法模型以及神經(jīng)網(wǎng)絡(luò)模型的標準輸入、輸出。信息檢索領(lǐng)域常用的文檔表示方法是詞袋(Bag-of-words)模型。在分析文本特征時,把一個文檔看成若干個詞匯的集合,忽略單詞順序和語法、句法等要素,文檔中出現(xiàn)的每個單詞都是獨立的,任意位置出現(xiàn)的任何單詞都不受該文檔語意影響。目前主流的算法包括TF-IDF、一點有效(One-hot)編碼[15]。本文中采用TF-IDF算法進行分析。TF-IDF是一種用于信息檢索與文本挖掘的常用加權(quán)算法,用來評估某個字詞對于一個文件集或一個語料庫中其中一份文件的重要程度。如果某個單詞或短語在一篇文檔中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認為此詞或短語適合用來分類,且具備很好的分辨能力。分詞技術(shù)的發(fā)展使得分類的準確率不斷提高[16]。 Liu等[17]基于挖掘社交網(wǎng)絡(luò)的垃圾郵件短信檢測,取得了較好的效果。在實際的工程中,還需要結(jié)合具體的場景以及大量的實驗,不斷調(diào)整策略,權(quán)衡垃圾短信判定的準確率(是否會把非垃圾短信錯判為垃圾短信)和召回率(是否能把所有的垃圾短信都找到)。

1)利用TF-IDF算法權(quán)重策略,增加詞頻信息。例如:

文本1: “His pet ate his homework.”。

文本2: “His cat ate the cake.”。

文本3: “A dolphin ate the homework.”。

算法從文本1開始檢索,先將“H(h)is”“pet”“ate”依次放入詞袋。當檢索到文本1的第二個“his”時候,不將其放入詞袋中,是因為詞袋中已經(jīng)存在“H(h)is”這個詞。繼續(xù)檢索到“homework”,將其放入詞袋中。檢索完文本1以后,此時詞袋中已有的單詞為“H(h)is”“pet”ate“homework”。

按照同樣的方法,依此檢索文本2、3。將詞袋中的詞按照首字母的字典順序升序排列得(括號中的數(shù)表示其在文本中出現(xiàn)的次數(shù)),將獲得的單詞按照順序編號,將上述相應(yīng)的文本轉(zhuǎn)換為對應(yīng)的出現(xiàn)次數(shù)序列,例如文本1包含“His”“pet”“ate”“his”“homework”這幾個單詞。

“A”這個單詞并沒有出現(xiàn),所以在文本1中第一個位置標記為0,“ate”這個單詞出現(xiàn)了1次,所以標記為1,以此類推,獲得文本1、2、3的單詞出現(xiàn)次數(shù)的信息,展示如下:

文本1:[0 1 0 0 1 1 2 0 0],“H(h)is”在句子中出現(xiàn)了2次。

文本2:[0 1 1 0 0 0 1 1 1]。

文本3:[1 1 0 1 0 1 0 0 1]。

2)歸一化。避免出現(xiàn)句子長度不一致問題,即文檔TF信息。

文本1:[0 1/5 0 0 1/5 1/5 2/5 0 0],“H(h)is”在句子中出現(xiàn)了2次。

文本2:[0 1/5 1/5 0 0 0 1/5 1/5 1/5]。

文本3:[1/5 1/5 0 1/5 0 1/5 0 0 1/5]。

因為詞袋收集了所有文檔中的詞,所以詞袋的統(tǒng)計基數(shù)是總文檔數(shù)。

3)詞條的文檔頻率,即出現(xiàn)某個詞的文檔數(shù)除以總文檔數(shù),文檔數(shù)為3,“A”出現(xiàn)了1次,所以詞條的文檔頻率是1/3。以此類推,獲得所有單詞的文檔頻率,展示如下:

“A”(1/3),“ate”(3/3),“cat”(1/3),“dolphin”(1/3),“pet”(1/3),“homework”(2/3),“H(h)is”(2/3),“cake”(1/3),“the”(2/3)。

詞袋的IDF權(quán)重如下:

“A”log(3/1),“ate”log(3/3),“cat” log(3/1),“dolphin”log(3/1),“pet”log(3/1),“homework”log(3/2),“H(h)is”log(3/2),“cake”log(3/1),“the”log(3/2)。

權(quán)重策略文檔中的高頻詞應(yīng)具有表征此文檔較大的權(quán)重,除非該詞也是高文檔頻率詞。相關(guān)表達式如下:

ft=n/N ,

式中: ft為關(guān)鍵詞詞頻,是一篇文檔中關(guān)鍵詞出現(xiàn)的頻率;n為單詞在某文檔中出現(xiàn)的次數(shù);N為該文檔的單詞數(shù)。

fid=log(D/Dw) ,

ft-fid=ft fid ,

式中: fid為逆向文本頻率,是用于衡量關(guān)鍵詞權(quán)重的指數(shù);D為總文檔數(shù);Dw為出現(xiàn)該單詞的文檔數(shù)。

通過以上的分析,總結(jié)出文本分類步驟如下:

1)分詞,去除停用詞;2)轉(zhuǎn)換成詞頻向量;3)轉(zhuǎn)換成權(quán)重矩陣;4)特征提取,構(gòu)建模型。

2? 結(jié)果與討論

2.1? 基于LSH的KNN算法

2.1.1? LSH

敏感哈希(SimHash)算法和最小哈希(MinHash)算法可以做到2個文檔經(jīng)過Hash處理后仍然相似,但是SimHash算法計算的相似距離是Hamming距離,而MinHash算法計算的相似距離是Jaccard距離。LSH可以在這2種算法的基礎(chǔ)上更快地找到相似、可匹配的對象,而且繼承了兩者的優(yōu)點。相似文檔經(jīng)LSH計算之后仍然能夠保持相似。

LSH是一個用于計算Jaccard 距離的算法,它的輸入特征是自然數(shù)的集合。 2個自然數(shù)的集合A、B的Jaccard距離的d(A,B)由它們的交集和并集的基數(shù)定義。將隨機哈希函數(shù)g應(yīng)用于集合中的每個元素,并取得所有哈希值中的最小值。在獲得權(quán)重矩陣之后,通過計算矩陣相似性來識別樣本。

LSH可以從海量的高維數(shù)據(jù)集中查找近似近鄰數(shù)據(jù),需要注意的是,LSH并不能保證一定能查找到最相鄰的數(shù)據(jù),需要在模型的出口把結(jié)果進行K最近鄰檢驗。

2.1.2? KNN

KNN是一種基本的分類與回歸算法,K值的選擇在很大程度上影響KNN的分類結(jié)果。度量距離是需要考察的重要因素。

在樣本空間中,任意2個點之間的距離都可以看作是2個樣本點之間相似性的度量,它們之間的距離越近就意味著這2個樣本點越相似。雖然在聚類算法中同樣也會用到樣本點相似性的度量,但是,不同的距離度量方式會產(chǎn)生不同的距離,其中最常見的是歐氏距離。

設(shè)訓練樣本X={x(1),x(2),…,x(n)},其中x(i)={x(i)1,x(i)2,…,x(i)m}∈Rm,i是指n個樣本中的樣本i,即i∈n),即每個樣本包含m個特征維度,則Lp距離定義如下:

Lp(x(i),x(j))=∑mk=1x(i)k-x(j)k0

1p,p≥1 ,(1)

式中i,j∈n,表示屬于集合X的某一個樣本。

當p=1時稱為曼哈頓距離,即

L1(x(i),x(j))=∑mk=1x(i)k-x(j)k ;(2)

當p=2時稱為歐氏距離,即

Lp(x(i),x(j))=∑mk=1x(i)k-x(j)k212 ;(3)

當p=∞時,它是各個坐標距離中的最大值,即

L∞(x(i),x(j))=maxix(i)k-x(j)k 。(4)

當然,p同樣能取其他任意正整數(shù),然后按照式(1)進行計算即可。

現(xiàn)有二維空間的3個樣本點,x(1)=(0,0),x(2)=(4,0),x(3)=(3,3),則在p取不同值下,距離樣本點x(1)最近鄰的點為

L1(x(1),x(2))=0-4+0-0=4 ,

L1(x(1),x(3))=0-3+0-3=6 ,

L2(x(1),x(2))=(0-4)2+(0-0)2=4 ,

L2(x(1),x(2))=(0-3)2+(0-3)2≈4.2 ,

L∞(x(1),x(2))=max{0-4,0-0}=4 ,

L∞(x(1),x(2))=max{0-3,0-3}=3 。

由此可知,當p為1、2、∞時,離樣本點x(1)最近的樣本點分別是x(1)、x(2)、x(3)。

2.1.3? 基于LSH的KNN

基于LSH的KNN算法流程如圖2所示。

步驟1? 數(shù)據(jù)預(yù)處理;

步驟2? TF-IDF算法生成矩陣;

步驟3? LSH求解最相似樣本,記錄樣本所屬類別;

步驟4? 將訓練結(jié)果導入KNN分類器,通過實驗得出最優(yōu)近鄰;

步驟5? 在測試集或驗證集上對準確率進行評測。

2.2? 模型訓練與評價

實驗環(huán)境和配置為Python-PySpark,PySpark是Spark為Python開發(fā)者提供的API,Windows 64位操作系統(tǒng)

步驟1? 讀入DataFrame;

步驟2? 特征向量預(yù)處理;

步驟3? 計算相似度;

步驟4? 計算垃圾短信識別準確率(忽略自相似,最遠距離限制0.8)。

利用本文中提出的基于LSH的KNN算法進行實驗建模,表1所示為不同K值時對垃圾短信識別準確率的計算結(jié)果。

通過實驗對比可以看出:在沒有添加KNN之前,垃圾短信識別準確率為95.2%,相對較低;加入KNN分類器后的分類識別效果提升,識別準確率最大值達到98.7%,即K=5時垃圾短信分類識別效果最好。 將算法在數(shù)據(jù)集進行實驗,垃圾短信識別準確率均在95%左右。在輸出層引入KNN,經(jīng)交叉驗證得到的垃圾短信識別準確率為98.7%。

為了驗證本文中提出的基于LSH的KNN算法的識別性能,與目前常用的3種垃圾短信識別算法[SA-Bi-LSTM、結(jié)合TF-IDF的SA-Bi-LSTM(TSA-Bi-LSTM)和基于云計算的垃圾短信語義識別系統(tǒng)(Cloud-computing)算法]進行對比,對比實驗均采用相同的軟、硬件環(huán)境,詞向量矩陣和數(shù)據(jù)集,在數(shù)據(jù)集上執(zhí)行一次迭代的運行,結(jié)果如圖3所示。

從圖中可以看出,基于LSH的KNN算法的垃圾短信識別的準確率最高,為98.7%,Cloud-computing算法的識別準確率為97%,TSA-Bi-LSTM算法的識別準確率僅為90.1%[2],本文中提出的改進算法具有一定的參考價值,在垃圾識別領(lǐng)域提供了一種思路和解決問題的方法。不同算法的垃圾短信分類識別時間,由于減少了機器學習的過程,因此基于LSH的KNN算法垃圾短信識別的分類識別時間比幾種常用算法的減少2.1~4.1 s,取得了較好的效果。

本文中提出的基于LSH算法的KNN垃圾短信識別算法,將數(shù)據(jù)從原空間映射到一個新的空間中,使得在原空間相似(距離近)的數(shù)據(jù),在新的空間中也相似的概率很大,而在原空間不相似(距離遠)的數(shù)據(jù),在新的空間中相似的概率很小,矩陣的運算效率通常比循環(huán)的運算效率要高。

3? 結(jié)語

本文中提出一種基于LSH的KNN算法用于垃圾短信識別,本文的數(shù)據(jù)處理也采用矩陣形式,提升了訓練效率,分類識別所用時間比幾種常用算法減少2.1~4.1 s,基于LSH的KNN算法的垃圾短信識別準確率最高,為98.7%,證實該算法具有更好的垃圾短信識別性能,對垃圾短信識別領(lǐng)域的應(yīng)用具有一定的參考價值。

通過實驗發(fā)現(xiàn),當K取不同值時,分類算法給出的結(jié)果不盡相同,但是整體的識別率都有所提高,經(jīng)過大量數(shù)據(jù)訓練算法和訓練設(shè)計,找出對應(yīng)最適合系統(tǒng)的K值,以求算法在精度方面達到系統(tǒng)的要求。未來可以將注意力機制應(yīng)用到KNN中以求取最優(yōu)K值,探究樣本數(shù)量和K值的相關(guān)性。由于K均值聚類在教學質(zhì)量評估模型中也取得較好的應(yīng)用效果[18],因此利用具有平衡全局和局部搜索能力的煙花算法對K均值聚類算法進行優(yōu)化,解決K均值聚類算法容易陷入局部最優(yōu)問題,也是下一步的研究內(nèi)容。

參考文獻:

[1]李根,王科峰,賁衛(wèi)國,等.基于自分簇自學習算法的垃圾短信識別[J].吉林大學學報(信息科學版),2021,39(5):583.

[2]吳思慧,陳世平.結(jié)合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信識別[J].計算機系統(tǒng)應(yīng)用,2020,29(9):171.

[3]李瓊陽,田萍.基于主成分分析的樸素貝葉斯算法在垃圾短信用戶識別中的應(yīng)用[J].數(shù)學的實踐與認識,2019,49(1):134.

[4]熊健,鄒東興.集成學習在樣本不平衡垃圾短信識別上的應(yīng)用[J].廣州大學學報(自然科學版),2018,17(5):1.

[5]賴文輝,喬宇鵬.基于詞向量和卷積神經(jīng)網(wǎng)絡(luò)的垃圾短信識別方法[J].計算機應(yīng)用,2018,38(9):2469.

[6]ZHOU X C,SHEN H B,HUANG Z Y,et al.Large margin classification for combatingdisguise attacks on spam filters[J].Journal of Zhejiang University:Science C,2012,13(3):187.

[7]GUO S W.An improved KNN based decision algorithm for vertical handover in heterogeneous wireless networks[C]//2021 40th Chinese Control Conference (CCC),July 26-28,2021,Shanghai,China:Vol.6.New York:IEEE,2021:86.

[8]楊彬,韓慶文,雷敏,等.基于改進的TF-IDF權(quán)重的短文本分類算法[J].重慶理工大學學報(自然科學版),2016,30(12):108.

[9]汪炫羲,唐清嶺,蔣小菲.基于KNN分類算法的n-γ脈沖信號甄別仿真研究[J].電子測量技術(shù),2022,45(13):164.

[10]朱浩,曹寧,鹿浩,等.基于特征加權(quán)KNN的非侵入式負荷識別方法[J].電子測量技術(shù),2022,45(8):70.

[11]郝爽,李國良,馮建華,等.結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)綜述[J].清華大學學報(自然科學版),2018,58(12):1037.

[12]蔣萍,王子民.基于NLP與Retinex的視頻幀間FIF分析研究[J].計算機仿真,2022,39(7):197.

[13]隆峻,神顯豪,丁小軍,等.量子遺傳算法優(yōu)化加權(quán)樸素貝葉斯復(fù)合語言文本分類[J].濟南大學學報(自然科學版),2022,36(2):136.

[14]施寒瑜,曲維光,魏庭新,等.基于組合深度模型的現(xiàn)代漢語數(shù)量名短語識別[J].南京師大學報(自然科學版),2022,45(1):127.

[15]傅依嫻,蘆天亮,馬澤良.基于One-Hot的CNN惡意代碼檢測技術(shù)[J].計算機應(yīng)用與軟件,2020,37(1):304.

[16]張軍,賴志鵬,李學,等.基于新詞發(fā)現(xiàn)的跨領(lǐng)域中文分詞方法[J].電子與信息學報,2022,44(9):3241.

[17]LIU J Y,ZHAO Y H,ZHANG A X,et al.Spam short messages detection via mining social networks[J].Journal of Computer Science and Technology,2012,27:506.

[18]巨金香,張福泉,黃銳.基于煙花算法優(yōu)化k均值聚類的教學質(zhì)量評估模型[J].濟南大學學報(自然科學版),2022,36(6):755.

(責任編輯:劉? 飚)

乳源| 察雅县| 镇宁| 万州区| 乌兰浩特市| 孝感市| 颍上县| 禄丰县| 清原| 高密市| 那曲县| 河东区| 祁门县| 芜湖市| 章丘市| 泰宁县| 双辽市| 香港| 宁国市| 临沂市| 如皋市| 浙江省| 河北区| 库车县| 锦屏县| 西丰县| 正安县| 奉贤区| 隆昌县| 大连市| 新蔡县| 黄龙县| 沈阳市| 南昌市| 双流县| 台江县| 锦屏县| 潞西市| 桃园市| 灵台县| 精河县|