基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究

2022-05-30 13:54:34甄沐華陳鵬王坤范子楊王者

知識(shí)管理論壇 2022年5期

甄沐華陳鵬王坤范子楊王者

摘要：[目的/意義]針對(duì)公安業(yè)務(wù)中對(duì)熱線文本數(shù)據(jù)犯罪線索關(guān)鍵信息識(shí)別與篩查時(shí)存在的信息化分析能力不足問(wèn)題，提出一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法，幫助業(yè)務(wù)部門提高相關(guān)情報(bào)研判效率，使得犯罪線索篩查工作更加信息化和科學(xué)化。[方法/過(guò)程]考慮到直接采用文本類等算法方法或因有效信息樣本量占比過(guò)小使得模型訓(xùn)練不充分，本文首先對(duì)已知犯罪線索進(jìn)行基于文本相似度的種子詞集抽取，然后采用Word2Vec對(duì)種子詞匯從同類詞、替代詞兩個(gè)角度擴(kuò)展構(gòu)成專業(yè)詞庫(kù)，最后使用基于語(yǔ)義的積分篩查模型實(shí)現(xiàn)對(duì)熱線文本數(shù)據(jù)中犯罪線索篩查。[結(jié)果/結(jié)論]對(duì)濟(jì)南市1 050條先驗(yàn)熱線文本數(shù)據(jù)作犯罪線索篩查實(shí)驗(yàn)，并進(jìn)行實(shí)際比對(duì)與結(jié)果指標(biāo)分析，得到結(jié)果召回率86%，可以認(rèn)為本文所述基于語(yǔ)義的積分篩查方法對(duì)濟(jì)南市熱線文本數(shù)據(jù)內(nèi)犯罪信息具體性識(shí)別達(dá)到預(yù)期效果并實(shí)現(xiàn)犯罪線索有效篩查。

關(guān)鍵詞：熱線文本? ? 專業(yè)詞庫(kù)? ? 文本相似度? ? 犯罪線索篩查

分類號(hào)：TP391；G250

引用格式：甄沐華，陳鵬，王坤，等. 基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究[J/OL]. 知識(shí)管理論壇， 2022， 7（5）： 539-548[引用日期]. http：//www.kmf.ac.cn/p/313/.

1? 引言

電話熱線是便民服務(wù)的重要舉措，同時(shí)，熱線文本數(shù)據(jù)往往因潛藏著一些犯罪線索（指可供偵查、調(diào)查和控制的有關(guān)犯罪活動(dòng)的情報(bào)信息）而成為公安機(jī)關(guān)犯罪線索排查的重要數(shù)據(jù)來(lái)源。目前，公安機(jī)關(guān)在處理熱線文本數(shù)據(jù)時(shí)，多采用“標(biāo)簽體系+人工篩查”的方法，即執(zhí)法人員首先通過(guò)分類標(biāo)簽定位至可能出現(xiàn)犯罪關(guān)鍵信息的數(shù)據(jù)類目，再快速瀏覽數(shù)據(jù)詳情內(nèi)容字段并根據(jù)經(jīng)驗(yàn)知識(shí)識(shí)別事件關(guān)鍵信息，最后研判該數(shù)據(jù)是否作為犯罪線索輸出。但由于詳情內(nèi)容字段數(shù)據(jù)多以大段落文本形式呈現(xiàn)，且其中包含的有效關(guān)鍵信息詞匯單元占比較小，在提取和挖掘關(guān)鍵信息時(shí)具有相當(dāng)?shù)睦щy，使得傳統(tǒng)人工篩查模式中存在有效研判效率較低、數(shù)據(jù)利用不充足等問(wèn)題[1-2]。

熱線文本數(shù)據(jù)犯罪線索篩查工作的關(guān)鍵在于對(duì)數(shù)據(jù)文本內(nèi)容中代表犯罪語(yǔ)義關(guān)鍵信息的識(shí)別和提取。目前，在文本內(nèi)容關(guān)鍵信息抽取方面，研究人員進(jìn)行了大量的研究，其中基于詞頻的關(guān)鍵詞提?。═F-IDF、LDA等）是一種常用的方法，但是當(dāng)關(guān)鍵信息詞匯單元數(shù)量在文本中占比較小時(shí)，基于詞頻的關(guān)鍵詞提取方法不能夠滿足文本分析的需求，與此同時(shí)，在中文文本分析時(shí)，基于詞頻提取的關(guān)鍵詞還存在著語(yǔ)義歧義問(wèn)題[3]。對(duì)此，一些研究人員提出通過(guò)詞向量技術(shù)（Word2Vec）構(gòu)建關(guān)鍵信息詞庫(kù)，結(jié)合關(guān)鍵詞抽取、文本相似度計(jì)算等文本分析方法以解決關(guān)鍵信息詞匯單元占比小及語(yǔ)義歧義問(wèn)題對(duì)文本分析的影響。例如，彭云等利用基于語(yǔ)義關(guān)系約束的SRC-LDA主題模型對(duì)商品評(píng)論文本進(jìn)行了主題詞提取，實(shí)現(xiàn)了對(duì)商品評(píng)論主題詞的有效提取[4]；劉耕等利用關(guān)聯(lián)詞和Jaccard系數(shù)擴(kuò)展規(guī)則設(shè)計(jì)了敏感詞庫(kù)并對(duì)網(wǎng)絡(luò)輿情敏感文本進(jìn)行了敏感信息檢索和提取，實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息可靠率10%以上的提升[5]；劉亞橋等利用詞向量模型構(gòu)建的攝影領(lǐng)域評(píng)論情感詞典對(duì)攝影評(píng)論數(shù)據(jù)進(jìn)行了攝影情感信息提取并做進(jìn)一步語(yǔ)料分類，實(shí)現(xiàn)了基于情感詞典下對(duì)攝影領(lǐng)域評(píng)論語(yǔ)料分類[6]；譚敏博等對(duì)谷類作物病害數(shù)據(jù)進(jìn)行了谷類作物病害特征信息提取，實(shí)現(xiàn)了對(duì)谷類作物病害特征屬性識(shí)別的精準(zhǔn)查詢[7]；夏松等利用基于Word2Vec技術(shù)的語(yǔ)義近似匹配對(duì)微博類社交平臺(tái)短文本構(gòu)建了網(wǎng)絡(luò)謠言敏感詞庫(kù)，實(shí)現(xiàn)了基于網(wǎng)絡(luò)謠言敏感詞庫(kù)的網(wǎng)絡(luò)謠言有效識(shí)別[8]；唐曉波等聯(lián)合TF-IDF方法與詞向量特征擴(kuò)展方法對(duì)醫(yī)療問(wèn)答社區(qū)健康問(wèn)句短文本提取了健康信息關(guān)鍵詞并集合作為健康問(wèn)句關(guān)鍵信息詞庫(kù)，實(shí)現(xiàn)了基于健康問(wèn)句關(guān)鍵信息詞庫(kù)的健康問(wèn)句文本的有效分類[9]；姜天宇等利用詞向量構(gòu)建和TF-IDF加權(quán)方法對(duì)新華社不同類別郵件進(jìn)行了郵件主題信息關(guān)鍵詞提取，進(jìn)一步結(jié)合改進(jìn)的樸素貝葉斯樹方法實(shí)現(xiàn)了對(duì)新華社郵件的文本分類[10]。

從目前研究進(jìn)展來(lái)看，關(guān)鍵詞、特征詞提取等自然語(yǔ)言處理技術(shù)已在新聞學(xué)等諸多領(lǐng)域得到了應(yīng)用，并達(dá)到了較好的應(yīng)用效果。但在當(dāng)前，各類公安業(yè)務(wù)處理線索數(shù)據(jù)文本工作時(shí)受限于信息表達(dá)規(guī)范化不足、有效信息分散等問(wèn)題而仍采用傳統(tǒng)人工篩查模式，缺少針對(duì)特定類型犯罪線索的有效信息化挖掘方法。為此，本文以熱線文本數(shù)據(jù)為例，立足犯罪線索文本特點(diǎn)，設(shè)計(jì)了抽取其中犯罪線索關(guān)鍵信息的方法，并根據(jù)公安機(jī)關(guān)情報(bào)研判邏輯設(shè)計(jì)了基于語(yǔ)義的積分篩查模型[11]，從而提升公安機(jī)關(guān)文本數(shù)據(jù)中信息化獲取犯罪線索的能力。

2? 關(guān)鍵詞抽取

在“標(biāo)簽體系+人工提取”篩查方法廣泛、成熟的應(yīng)用背景下，熱線文本數(shù)據(jù)同樣根據(jù)事件所涉政府業(yè)務(wù)領(lǐng)域不同而被賦予以業(yè)務(wù)領(lǐng)域相應(yīng)粗粒度標(biāo)簽，事件詳情內(nèi)容則不做標(biāo)簽處理。而熱線文本數(shù)據(jù)中的犯罪線索往往從事件詳情內(nèi)容字段中挖掘分析得到，且代表犯罪線索語(yǔ)義的關(guān)鍵信息在詳情內(nèi)容文本中位置分散、數(shù)量較其他信息占比小、不具有明顯文本句式結(jié)構(gòu)化特征，常見表達(dá)形式有單詞匯表達(dá)、短語(yǔ)句式表達(dá)兩種，如“偵查”“予以/取締”。與此同時(shí)，構(gòu)建專業(yè)詞庫(kù)時(shí)不可避免地對(duì)短語(yǔ)句式進(jìn)行再分詞處理，若采用文本類等自動(dòng)化算法直接對(duì)文本進(jìn)行處理，則再分詞后存在的大量無(wú)獨(dú)立語(yǔ)義詞匯將對(duì)結(jié)果準(zhǔn)確性有明顯影響。

目前，公安機(jī)關(guān)民警對(duì)熱線數(shù)據(jù)中犯罪線索的排查和識(shí)別主要通過(guò)關(guān)鍵詞來(lái)進(jìn)行判定，但由于來(lái)電人表達(dá)方式和習(xí)慣的不同，一些涉嫌犯罪的表述可能存在著句式結(jié)構(gòu)和語(yǔ)義歧義等問(wèn)題。因此，要盡可能地達(dá)到對(duì)熱線文本數(shù)據(jù)中犯罪線索的排查和識(shí)別，首先需要確定數(shù)據(jù)中已有的代表犯罪語(yǔ)義關(guān)鍵信息詞匯（種子詞集），并在此基礎(chǔ)上關(guān)聯(lián)相關(guān)的同義詞和近義詞（擴(kuò)展詞集），最終實(shí)現(xiàn)熱線文本數(shù)據(jù)犯罪線索的關(guān)鍵詞庫(kù)的構(gòu)建。

2.1? 種子詞集構(gòu)建

詞向量技術(shù)（Word2Vec）是一種基于上下文分布表示詞義的技術(shù)方法，其專注于無(wú)標(biāo)注數(shù)據(jù)，利用神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型從大量文本中學(xué)習(xí)語(yǔ)義信息。詞向量技術(shù)常常用于計(jì)算詞語(yǔ)間、句子間或者其他長(zhǎng)文本間的相似度，并具有良好效果[12-16]。

在種子詞集構(gòu)建上，本文首先收集執(zhí)法部門的犯罪信息詞匯作為經(jīng)驗(yàn)知識(shí)詞集，隨后以全量數(shù)據(jù)語(yǔ)料作為訓(xùn)練語(yǔ)料庫(kù)，得到全量數(shù)據(jù)Word2Vec詞向量模型、已知屬性（普通事件/疑似犯罪線索事件）的數(shù)據(jù)語(yǔ)料Word2Vec詞向量、經(jīng)驗(yàn)知識(shí)詞集基于全量語(yǔ)料上下文語(yǔ)義的詞向量，最后，以已知屬性數(shù)據(jù)語(yǔ)料詞向量作為種子詞集識(shí)別抽取的數(shù)據(jù)基礎(chǔ)，以經(jīng)驗(yàn)知識(shí)詞匯集詞向量為對(duì)照匹配變量集，通過(guò)向量間映射計(jì)算得到二者文本相似度，實(shí)現(xiàn)對(duì)已知屬性數(shù)據(jù)中符合相似度要求的信息詞匯抽取并集合得到種子詞集，其流程如圖1所示：

抽取得到的種子詞匯分為兩類：代表疑似犯罪線索事件語(yǔ)義的詞匯Word_T（下同），代表普通事件語(yǔ)義的詞匯Word_F（下同）。此處所指“疑似犯罪線索事件”即可根據(jù)相關(guān)法律規(guī)定屬于公安機(jī)關(guān)犯罪活動(dòng)偵辦的事件，包括可判定為有違法行為但未達(dá)犯罪標(biāo)準(zhǔn)的、需要進(jìn)一步確認(rèn)的及已立案需督辦的線索事件；普通事件即根據(jù)相關(guān)法律規(guī)定不屬于公安機(jī)關(guān)管轄的事件，包括經(jīng)有關(guān)辦理單位確認(rèn)后反饋為惡意、重復(fù)撥打的無(wú)效熱線事件。

為確定抽取得到的種子詞匯在犯罪線索篩查中的可靠性，通過(guò)回溯已知屬性數(shù)據(jù)本身，定義回溯值為某種子詞匯所屬數(shù)據(jù)屬性為犯罪線索的數(shù)據(jù)數(shù)量（回溯數(shù)）與其在全量數(shù)據(jù)中出現(xiàn)次數(shù)（詞頻）的比值，代表了該詞匯在犯罪線索篩查過(guò)程中的可靠性，公式（1）：

其中，P（word）代表種子詞匯回溯值，n（word）代表種子詞匯回溯數(shù)，N（word）代表種子詞匯在全量數(shù)據(jù)中詞頻。將得到的回溯值作為對(duì)應(yīng)種子詞匯在犯罪線索篩查模型中的權(quán)重系數(shù)。

2.2? 擴(kuò)展詞集

考慮到同一語(yǔ)義的表達(dá)會(huì)以不同的詞匯和句式結(jié)構(gòu)呈現(xiàn)，為了實(shí)現(xiàn)專業(yè)詞庫(kù)的有效覆蓋和擴(kuò)展，從種子詞集的同類詞、替代詞2個(gè)方面進(jìn)行詞庫(kù)的擴(kuò)展，另結(jié)合輿情領(lǐng)域公開敏感詞庫(kù)共同構(gòu)成擴(kuò)展詞集。擴(kuò)展詞集的詞匯可靠性由擴(kuò)展詞匯與種子詞匯的文本字面距離相似度確定，本文采用余弦距離相似度（Cosine Similarity）計(jì)算得到，如公式（2）所示：

對(duì)于同類詞集擴(kuò)展，Word2Vec方法計(jì)算所得詞向量能夠反映出詞匯所處上下文和語(yǔ)義關(guān)系。首先通過(guò)全量語(yǔ)料的Word2Vec詞向量模型得到種子詞集的詞向量，再以全量數(shù)據(jù)語(yǔ)料庫(kù)構(gòu)建的Word2Vec詞向量模型為同類詞集識(shí)別抽取的數(shù)據(jù)基礎(chǔ)，以種子詞集詞向量對(duì)照匹配變量集，計(jì)算得到二者文本相似度，實(shí)現(xiàn)在全量語(yǔ)料庫(kù)中基于上下文語(yǔ)義關(guān)系的關(guān)鍵信息同類詞匯的抽取，并將相似度作為對(duì)應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù)，其流程如圖2所示：

對(duì)于替代詞集擴(kuò)展，考慮到同一語(yǔ)義可由不同詞匯表達(dá)，以種子詞集在中文表達(dá)中的近義詞作為其替代詞。利用種子詞集基于全量語(yǔ)料的Word2Vec詞向量模型的詞向量，結(jié)合近義詞查找工具，在以開源維基百科中文語(yǔ)料庫(kù)中尋找近義詞并計(jì)算二者文本相似度，實(shí)現(xiàn)基于公開中文語(yǔ)料庫(kù)的關(guān)鍵信息替代詞匯的抽取，將相似度作為對(duì)應(yīng)詞匯在犯罪線索篩查模型中的權(quán)重系數(shù)，其流程圖如圖3所示：

3? 犯罪線索篩查模型

3.1? 犯罪線索積分預(yù)警模型

積分預(yù)警模型是基于大數(shù)據(jù)背景下的情報(bào)主導(dǎo)警務(wù)模式應(yīng)運(yùn)而生的公安數(shù)據(jù)挖掘手段[11]。該模型方法以某事件發(fā)生為預(yù)警對(duì)象，將可能影響該事件發(fā)生的因素羅列出來(lái)，并按照因素的影響性程度賦予相應(yīng)的權(quán)重分值，每當(dāng)某個(gè)因素出現(xiàn)時(shí)，都會(huì)以和的形式計(jì)算出相應(yīng)分值，直到所有的因素都被積分出來(lái)。積分分值代表事件發(fā)生的定量描述，可表示為：

其中，i為影響因素，y為分值設(shè)定，p為該因素權(quán)重系數(shù)。針對(duì)本文研究熱線數(shù)據(jù)，單條待篩查數(shù)據(jù)積分總值由其與各類型詞集匹配后產(chǎn)生的各積分值構(gòu)成。各類型詞集積分值由分屬兩個(gè)不同屬性的詞集積分值構(gòu)成。各個(gè)詞集的積分值影響因素為符合條件的單一詞匯的相似度、該單一詞匯權(quán)重值及與詞集詞匯匹配到相同詞匯的個(gè)數(shù)。除此之外，輿情領(lǐng)域公開敏感詞集只做相同詞匯計(jì)數(shù)積分處理。單條數(shù)據(jù)于詞集的積分值計(jì)算規(guī)則如下：

其中，S（dic）代表某類型詞集（種子詞集、同類詞集、替代詞集）的積分值，S（Word_T）及S（Word_F）代表某類詞集中代表疑似犯罪線索事件語(yǔ)義的詞集（T）或代表普通事件語(yǔ)義的詞集（F），a、b為該詞集的權(quán)重系數(shù)，SUM代表總積分結(jié)果，Counts（internet）代表匹配過(guò)程中出現(xiàn)的輿情領(lǐng)域公開敏感詞集中不重復(fù)計(jì)數(shù)的詞匯數(shù)目。

3.2? 犯罪線索篩查算法

在采用“標(biāo)簽體系”對(duì)數(shù)據(jù)已做粗粒度分類背景下，本文研究文本數(shù)據(jù)中包含事件詳情內(nèi)容信息和標(biāo)點(diǎn)符號(hào)、語(yǔ)氣詞等無(wú)效信息。據(jù)此，在匹配篩查之前需要對(duì)待篩查數(shù)據(jù)作預(yù)處理：通過(guò)中文分詞工具Jieba對(duì)待篩查數(shù)據(jù)進(jìn)行分詞處理，為避免分詞粒度不同造成后續(xù)匹配失敗，在精確分詞模式基礎(chǔ)上設(shè)計(jì)自定義分詞標(biāo)準(zhǔn)；對(duì)分詞后數(shù)據(jù)，使用自定義停用詞表去除標(biāo)點(diǎn)符號(hào)、干擾詞等無(wú)效文本。

本文采用基于語(yǔ)義的積分預(yù)警模型實(shí)現(xiàn)對(duì)熱線文本中犯罪線索篩查，即專業(yè)詞庫(kù)中詞匯的可靠度（權(quán)重值）與匹配時(shí)的文本相似度共同控制篩查結(jié)果。對(duì)于單條待篩查數(shù)據(jù)，篩查流程主要從3個(gè)層次循序進(jìn)行：待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計(jì)算、單條數(shù)據(jù)與專業(yè)詞庫(kù)中某詞集匹配積分值運(yùn)算、單條數(shù)據(jù)與專業(yè)詞庫(kù)積分值運(yùn)算。

對(duì)于待篩查數(shù)據(jù)詞匯與某詞集詞匯匹配相似值計(jì)算（match（seg，word）），即單條待篩查數(shù)據(jù)中某詞匯（seg）與專業(yè)詞庫(kù)中某詞集中某詞匯（word）的相似值計(jì)算，具體步驟如下：①判斷輸入的兩詞匯是否相同，若相同則相似值記為1，否則進(jìn)行②；②判斷兩詞匯是否同時(shí)存在于已訓(xùn)練好的Word2Vec詞向量模型中，若存在則計(jì)算兩詞匯文本相似度后進(jìn)行④，否則進(jìn)行③；③在基于維基百科語(yǔ)料的詞向量模型中得到seg的詞向量，進(jìn)而計(jì)算兩詞匯文本相似度，后進(jìn)行④；④判斷相似度是否大于或等于設(shè)定閾值，若滿足則記錄該相似度，否則結(jié)束本次相似值計(jì)算；⑤將記錄的二者文本相似度與本次匹配的word對(duì)應(yīng)權(quán)重值p作乘積運(yùn)算，結(jié)果作為兩詞匯的相似值。

對(duì)于單條待篩查數(shù)據(jù)與某詞集的相似值運(yùn)算（sim（data，dic）），以分詞后的待篩查數(shù)據(jù)、專業(yè)詞庫(kù)中某詞集作為輸入項(xiàng)目。遍歷輸入數(shù)據(jù)集合中元素并做碰撞匹配，結(jié)合match（seg，word）模塊，對(duì)每次遍歷產(chǎn)生相似值作求和運(yùn)算。與此同時(shí)，計(jì)算某詞集中詞匯在待篩查數(shù)據(jù)中相同個(gè)數(shù)，再將求和運(yùn)算結(jié)果與詞匯相同個(gè)數(shù)求和得到該待篩查數(shù)據(jù)與某詞集的相似值。

對(duì)于單條待篩查數(shù)據(jù)與專業(yè)詞庫(kù)相似值積分運(yùn)算與結(jié)果輸出（sim（data，all）），待篩查數(shù)據(jù)經(jīng)上述處理后，分別得到該待篩查數(shù)據(jù)與所有詞集的相似值。根據(jù)2.1設(shè)計(jì)的積分運(yùn)算規(guī)則計(jì)算該條數(shù)據(jù)與專業(yè)詞庫(kù)相似值積分運(yùn)算結(jié)果并輸出。單輪待篩查數(shù)據(jù)集篩查完成后，可將此輪數(shù)據(jù)加入數(shù)據(jù)庫(kù)中實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)更新。

4? 實(shí)驗(yàn)驗(yàn)證

4.1? 數(shù)據(jù)來(lái)源及示例

本文主要采用依托于Python3.0編程語(yǔ)言環(huán)境的gensim.Word2Vec詞向量模型工具構(gòu)建Word2Vec詞向量模型。實(shí)驗(yàn)數(shù)據(jù)來(lái)源于濟(jì)南市公安局食藥環(huán)支隊(duì)提供的12345市長(zhǎng)熱線數(shù)據(jù)；時(shí)間跨度為2020年1月至2021年3月；數(shù)據(jù)分別涉及食藥安全、醫(yī)藥監(jiān)督、環(huán)境保護(hù)、疫苗注射4個(gè)領(lǐng)域，共8萬(wàn)多條；參考實(shí)際公安工作業(yè)務(wù)流程，研究數(shù)據(jù)字段為已由相關(guān)行政單位核實(shí)的熱線事件回復(fù)內(nèi)容，旨在發(fā)現(xiàn)線索、督辦線索，實(shí)驗(yàn)數(shù)據(jù)語(yǔ)料部分示例及數(shù)據(jù)屬性如表1所示：

4.2? 專業(yè)詞庫(kù)構(gòu)建

4.2.1? 種子詞集

根據(jù)1.1所述種子詞集構(gòu)建方法，通過(guò)遍歷學(xué)習(xí)集中經(jīng)驗(yàn)知識(shí)詞匯，對(duì)預(yù)處理后的已知屬性數(shù)據(jù)采用Word2Vec詞向量工具與經(jīng)驗(yàn)知識(shí)詞集中詞匯作文本相似度計(jì)算，將相似度高的詞匯集合，并入經(jīng)驗(yàn)知識(shí)詞集后作為種子詞集?；诓煌瑢傩缘臄?shù)據(jù)得到種子詞集分為兩類：以seed_T指代代表疑似犯罪信息語(yǔ)義的詞集，以seed_F指代普通事件信息語(yǔ)義的詞集。實(shí)驗(yàn)中，共得到94個(gè)種子詞匯，如表2，其中seed_T詞集55個(gè)，seed_F詞集39個(gè)。

進(jìn)一步地，對(duì)生成的種子詞匯通過(guò)公式（1）并結(jié)合分層抽樣方法計(jì)算詞匯回溯值。圖4為seed_T詞頻和回溯數(shù)關(guān)系圖，圖5為seed_T回溯值趨勢(shì)圖。對(duì)于seed_T中詞匯，詞匯的回溯數(shù)在詞頻占比中呈現(xiàn)明顯不均衡態(tài)勢(shì)，回溯值與詞頻關(guān)系以無(wú)規(guī)律波動(dòng)呈現(xiàn)。整體來(lái)看，回溯值與詞頻無(wú)明顯伴隨關(guān)系，但是各詞匯回溯數(shù)與詞頻占比體現(xiàn)了犯罪信息在文本中占比小的特點(diǎn)。分析可知，由于seed_T中疑似犯罪語(yǔ)義多為短語(yǔ)句式，分詞后存在3種性質(zhì)詞匯，根據(jù)詞頻的排序?yàn)椋哼B詞（如“已經(jīng)”）、中立語(yǔ)義詞匯（如“拍照”“調(diào)查”）、術(shù)語(yǔ)詞匯（如“取證”“嫌疑人”）。此3種詞匯共同作用于對(duì)文本中犯罪信息的判定，連詞和中立語(yǔ)義詞匯單獨(dú)出現(xiàn)時(shí)難以判斷語(yǔ)義性質(zhì)且常與不同的術(shù)語(yǔ)詞匯搭配出現(xiàn)，而術(shù)語(yǔ)詞匯單獨(dú)出現(xiàn)時(shí)則需要結(jié)合語(yǔ)境判斷是否為犯罪語(yǔ)義，以詞頻作為犯罪線索關(guān)鍵信息識(shí)別標(biāo)準(zhǔn)會(huì)對(duì)結(jié)果有較大影響。圖6為seed_F詞頻和回溯數(shù)關(guān)系圖，圖7為seed_F回溯值趨勢(shì)圖。對(duì)于seed_F詞集，回溯數(shù)與詞頻成正比，也即n（word）N（word），回溯值趨于穩(wěn)定，多集中于區(qū)間[0.8，1）。與seed_T中短語(yǔ)形式信息不同，seed_F為表達(dá)普通事件語(yǔ)義的信息，其短語(yǔ)形式的信息（如“不/列入/考核”“超出/管轄范圍”）大多由否定性連詞詞匯和術(shù)語(yǔ)構(gòu)成，當(dāng)二者同時(shí)出現(xiàn)將該條數(shù)據(jù)判定為普通事件的概率幾乎為1，即具有獨(dú)判性。同時(shí)，多數(shù)具有否定性的術(shù)語(yǔ)詞匯亦具有獨(dú)判性（如“駁回”“惡意投訴”），因此，一些否定性質(zhì)詞匯的回溯值會(huì)接近于1，也即依據(jù)該詞匯判定數(shù)據(jù)為非犯罪線索可靠性極高。圖8展示了種子詞集中分詞后各字詞有向網(wǎng)絡(luò)

關(guān)系圖，以各字詞作為節(jié)點(diǎn)，節(jié)點(diǎn)大小由詞頻確定，帶有箭頭的節(jié)點(diǎn)間連邊為詞匯組成短語(yǔ)的句式結(jié)構(gòu)聯(lián)系，邊長(zhǎng)由詞匯的回溯數(shù)確定?？梢园l(fā)現(xiàn)，圖中較大節(jié)點(diǎn)為詞性是連詞或語(yǔ)義中立性質(zhì)的詞匯，進(jìn)一步說(shuō)明了此兩類詞匯的可靠性較低；反之，能夠明確表達(dá)疑似犯罪語(yǔ)義的詞匯在圖中表現(xiàn)為較小的節(jié)點(diǎn)，句式結(jié)構(gòu)多與較大節(jié)點(diǎn)詞匯聯(lián)系，說(shuō)明此類詞匯的可靠性較高。本文以字詞的回溯值為其在積分篩查模型中的影響因子權(quán)重系數(shù)，能夠縮小使用字詞一致規(guī)則或詞頻系數(shù)規(guī)則作為篩查識(shí)別標(biāo)準(zhǔn)時(shí)出現(xiàn)結(jié)果誤差。

4.2.2? 擴(kuò)展詞集

同類詞集擴(kuò)展。利用Word2Vec工具得到94個(gè)種子詞集在全量語(yǔ)料庫(kù)中的均值向量，繼而通過(guò)文本相似度計(jì)算得到種子詞集在全量語(yǔ)料庫(kù)中的同類詞集。實(shí)驗(yàn)中共取到與種子詞集同類的480個(gè)詞作為擴(kuò)展的同類詞，如表3，其中seed_T同類詞集（seed_T_similar，下同）中251個(gè)，seed_F同類詞集（seed_F_similar，下同）中229個(gè)：

替代詞集擴(kuò)展。對(duì)種子詞集經(jīng)過(guò)Word2Vec工具作詞向量處理后，結(jié)合Synonyms中文近義詞查找工具，產(chǎn)生種子詞集的替代詞集，如“勸誡”的替代詞有：告誡、責(zé)備等。實(shí)驗(yàn)中共取到506個(gè)詞作為擴(kuò)展的替代詞，如表4，其中seed_T替代詞集（seed_T_synonym，下同）271個(gè)，seed_F替代詞集（seed_F_synonym，下同）235個(gè)：

4.3? 犯罪線索篩查結(jié)果

犯罪線索篩查實(shí)驗(yàn)中使用未參與模型訓(xùn)練的1 050條數(shù)據(jù)，其中普通事件屬性數(shù)據(jù)（F類數(shù)據(jù)）1 000條，疑似犯罪線索屬性數(shù)據(jù)（T類數(shù)據(jù)）50條。根據(jù)本文所述基于語(yǔ)義的篩查方法對(duì)樣本數(shù)據(jù)進(jìn)行犯罪線索篩查積分運(yùn)算，得到F類數(shù)據(jù)997條、T類數(shù)據(jù)53條；經(jīng)與實(shí)際數(shù)據(jù)比對(duì)，實(shí)際為T類且判定為T類的數(shù)據(jù)有43條，結(jié)果統(tǒng)計(jì)指標(biāo)如表5所示。由于T類數(shù)據(jù)占全部待篩查數(shù)據(jù)比例較低，實(shí)驗(yàn)期待較高的結(jié)果召回率。從實(shí)驗(yàn)結(jié)果的指標(biāo)來(lái)看，召回率86%，精確率81.13%，可以認(rèn)為本文所述基于關(guān)鍵詞挖掘的積分篩查模型在對(duì)熱線文本數(shù)據(jù)中犯罪線索篩查時(shí)達(dá)到了預(yù)期的效果。

5? 結(jié)論

對(duì)熱線數(shù)據(jù)中的犯罪信息做到有理、有據(jù)、科學(xué)的抽取是執(zhí)法部門處理文本信息數(shù)據(jù)、確定犯罪線索的重要環(huán)節(jié)。本文提出了一種基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)中犯罪線索自動(dòng)化篩查方法，首先通過(guò)詞向量模型及文本相似度計(jì)算等方法建立專業(yè)詞庫(kù)，然后設(shè)計(jì)了基于專業(yè)詞庫(kù)的犯罪線索積分篩查模型，并以濟(jì)南市熱線文本數(shù)據(jù)進(jìn)行實(shí)證分析。經(jīng)過(guò)與數(shù)據(jù)實(shí)際情況比對(duì)，該方法能夠?qū)?jì)南市熱線文本數(shù)據(jù)中的犯罪信息具體性識(shí)別并實(shí)現(xiàn)犯罪線索有效地篩查，使得犯罪線索篩查工作更加信息化和科學(xué)化。同時(shí)，該方法也適用于其他公安業(yè)務(wù)中文本數(shù)據(jù)目標(biāo)信息識(shí)別及數(shù)據(jù)篩查，如輿情監(jiān)測(cè)業(yè)務(wù)。本文也存在一定的局限，如在專業(yè)詞庫(kù)構(gòu)建方面，詞向量模型訓(xùn)練時(shí)需要一定數(shù)量的經(jīng)驗(yàn)知識(shí)詞匯及已知目標(biāo)數(shù)據(jù)樣本用于構(gòu)建專業(yè)詞庫(kù)；在線索篩查算法方面，未來(lái)可引入基于doc2vec的段落向量模型的文本分類方法，結(jié)合本文所述專業(yè)詞庫(kù)做定性加權(quán)分析。

參考文獻(xiàn)：

[1] 王勇.大數(shù)據(jù)在我國(guó)食藥智慧監(jiān)管中的應(yīng)用[J].中國(guó)食品藥品監(jiān)管， 2018（5）： 44-47.

[2] 袁猛，劉文杰，胡建華，等.“昆侖2020”：全方位構(gòu)筑食藥環(huán)安全防線[J].人民公安， 2020（16）： 30-33.

[3] 徐建民，王金花，馬偉瑜.利用本體關(guān)聯(lián)度改進(jìn)的TF-IDF特征詞提取方法[J].情報(bào)科學(xué)， 2011， 29（2）： 279-283.

[4] 彭云，萬(wàn)常選，江騰蛟，等.基于語(yǔ)義約束LDA的商品特征和情感詞提取[J].軟件學(xué)報(bào)， 2017， 28（3）： 676-693.

[5] 劉耕，方勇，劉嘉勇.基于關(guān)聯(lián)詞和擴(kuò)展規(guī)則的敏感詞庫(kù)設(shè)計(jì)[J].四川大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2009， 46（3）： 667-671.

[6] 劉亞橋，陸向艷，鄧凱凱，等.攝影領(lǐng)域評(píng)論情感詞典構(gòu)建方法[J].計(jì)算機(jī)工程與設(shè)計(jì)， 2019， 40（10）： 3037-3042.

[7] 譚敏博.基于知識(shí)圖譜的谷類作物病害識(shí)別及個(gè)性化推送研究[D].長(zhǎng)沙：湖南農(nóng)業(yè)大學(xué)， 2018.

[8] 夏松，林榮蓉，劉勘.網(wǎng)絡(luò)謠言敏感詞庫(kù)的構(gòu)建研究——以新浪微博謠言為例[J].知識(shí)管理論壇， 2019， 4（5）： 267-275.

[9] 唐曉波，高和璇.基于關(guān)鍵詞詞向量特征擴(kuò)展的健康問(wèn)句分類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)， 2020， 4（7）： 66-75.

[10] 姜天宇，王蘇，徐偉.基于樸素貝葉斯的中文文本分類[J].電腦知識(shí)與技術(shù)， 2019， 15（23）： 253-254， 263.

[11] 吳紹忠.重點(diǎn)人員積分預(yù)警模型建設(shè)基礎(chǔ)問(wèn)題研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào)（自然科學(xué)版）， 2012， 18（2）： 76-79.

[12] 涂銘，劉祥，劉樹春. Python自然語(yǔ)言處理實(shí)戰(zhàn)核心技術(shù)與算法[M]. 北京：機(jī)械工業(yè)出版社， 2021：120， 129.

[13] 嚴(yán)紅.詞向量發(fā)展綜述[J].現(xiàn)代計(jì)算機(jī)（專業(yè)版）， 2019（8）： 50-52.

[14] CHEN K J， MA W Y. Unknown word extraction for Chinese documents[C]// Proceedings of international conference on DBLP. Taipei： Morgan Kaufmann Publishers， 2002：169-175.

[15] PEDERSEN T， KULKARNI A. Identifying similar words and contexts in natural language with sense clusters[C]//Proceedings of the 20th national conference on artificial intelligence. Pittsburgh： AAAI Press， 2010：1694-1695.

[16] NEVIAROUSKAYA A， PRENDINGER H， ISHIZUKAM. SentiFul： a lexicon for sentiment analysis[J].IEEE transactions on affective computing， 2011， 2（1）： 22-36.

作者貢獻(xiàn)說(shuō)明：

甄沐華：設(shè)計(jì)研究方法，完成實(shí)驗(yàn)，起草論文，修改論文與定稿；

陳? 鵬：提出研究思路，修改論文；

王? 坤：提供數(shù)據(jù)，提出研究問(wèn)題；

范子楊：采集數(shù)據(jù)，進(jìn)行實(shí)驗(yàn)；

王? 者：采集數(shù)據(jù)，進(jìn)行實(shí)驗(yàn)。

Research on Hotline Text Data Crime Clue Screening Method based on Keyword Mining

Zhen Muhua1? Chen Peng1? Wang Kun2? Fan Ziyang1? Wang Zhe1

1School for Informatics and Cyber Security， Peoples Public Security University of China， Beijing 100038

2Jinan Public Security Bureau， Jinan 250099

Abstract： [Purpose/Significance] Aiming at the problem of insufficient information analysis ability in the current public security business about identification and screening of crime clues in hotline texts， a method of hotline text data crime clue screening based on keyword mining is proposed to help business departments improve relevant intelligence and judgment [Method/Process] Considering that algorithms such as automatic text classification are subject to the problem of sample size， this paper firstly identified the key information of the known attribute data and established a seed lexicon， and then used Word2Vec to expand the seed vocabulary from the perspectives of similar words and synonym words to form a professional thesaurus， and finally used a semantics-based integral screening model to screen criminal clues in the hotline text data. [Result/Conclusion] This paper conducted a crime clue screening experiment on 1 050 priori hotline text data in Jinan City. After actual comparison and index analysis， the recall rate reached 86%. The specific identification of crime information in the text data of the city hotline achieved the expected effect and realized the effective screening of crime clues.

Keywords： hotline text? ? professional thesaurus? ? text similarity? ? crime clue screening

知識(shí)管理論壇2022年5期

知識(shí)管理論壇的其它文章: 知識(shí)場(chǎng)視角下個(gè)人知識(shí)管理對(duì)技術(shù)創(chuàng)新的影響; 基于多智能體仿真的大學(xué)生群體競(jìng)爭(zhēng)“內(nèi)卷”機(jī)制研究; 知識(shí)管理國(guó)際標(biāo)準(zhǔn)ISO 30401及對(duì)我國(guó)企業(yè)創(chuàng)新生態(tài)系統(tǒng)優(yōu)化的啟示; 基于聲譽(yù)反饋機(jī)制的醫(yī)患在線互動(dòng)演化博弈分析; 高校課程思政研究的文獻(xiàn)計(jì)量與主題知識(shí)圖譜分析; 數(shù)字人文視角下地方名人文獻(xiàn)資源的知識(shí)組織與關(guān)聯(lián)研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于關(guān)鍵詞挖掘的熱線文本數(shù)據(jù)犯罪線索篩查方法研究