朱勇 丁剛
摘要:隨著互聯(lián)網(wǎng)上數(shù)據(jù)量的快速增長,數(shù)據(jù)關(guān)聯(lián)分析顯得越來越重要。為適應(yīng)復(fù)雜異構(gòu)數(shù)據(jù)的分析,本文基于開放本體識別互聯(lián)網(wǎng)上文檔中的各類實(shí)體,并加以標(biāo)注使之具有語義,得到與主題相關(guān)的命名實(shí)體識別。隨后挖掘命名實(shí)體的關(guān)聯(lián)關(guān)系,豐富其中的語義。通過研究,命名實(shí)體減少了數(shù)據(jù)挖掘輸入數(shù)據(jù)量的數(shù)目,結(jié)合Apriori經(jīng)典算法,可以挖掘出更加感興趣、有意義的關(guān)聯(lián)規(guī)則,使人們在海量數(shù)據(jù)中挖的閱讀更加高效快速、更容易把握主題,并強(qiáng)化了搜索功能。
關(guān)鍵詞:開放本體;數(shù)據(jù)關(guān)聯(lián)分析;Apriori經(jīng)典算法;命名實(shí)體
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)09-0034-03
1 介紹
在信息科學(xué)領(lǐng)域內(nèi),本體是指共享結(jié)構(gòu),明確和具體描述的形式概念[1]。本體含結(jié)構(gòu)化屬性,是一種異常類型的術(shù)語集,事實(shí)上是一種形式化的表達(dá),基于特殊范疇之間的某種說明及其互相間關(guān)系。本體一般可以用來推斷字段屬性,也可被用來定義字段。目前,可供使用的開放本體主要有DBpedia、YAGO等[2]。
本文首先描繪了命名實(shí)體識別的體系框架,闡述命名實(shí)體識別的過程。隨后采用Apriori經(jīng)典算法將已經(jīng)標(biāo)注好的實(shí)體進(jìn)行數(shù)據(jù)挖掘,挖掘其頻繁項(xiàng)集,并根據(jù)最小支持度和最小置信度挖掘其關(guān)聯(lián)規(guī)則。
2 命名實(shí)體識別
隨著互聯(lián)網(wǎng)上數(shù)據(jù)量的快速增長,人們期望計(jì)算機(jī)可以自動(dòng)處理網(wǎng)絡(luò)中的信息。命名實(shí)體識別(Named Entity Recognition)是底層信息處理技術(shù)的一個(gè)重要的手段[3]。命名實(shí)體指在文本里具有重要語義的一類詞語,是自然語言中語句的重要組成部分。片面角度看,能夠把命名實(shí)體劃成地方、人物、組織機(jī)構(gòu)等。全局角度看,命名實(shí)體能夠涵蓋數(shù)學(xué)定義式、時(shí)間定義式等。
一般來說,命名實(shí)體識別的任務(wù)就是識別出待處理文本中三大類(實(shí)體類、時(shí)間類和數(shù)字類)、七小類(人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣和百分比)。通常包括兩部分:(1)發(fā)現(xiàn)命名實(shí)體,即判斷一個(gè)文本串是否代表一個(gè)實(shí)體;(2)標(biāo)注命名實(shí)體,即將發(fā)現(xiàn)的命名實(shí)體標(biāo)注為某一種具體的類型(人名、地名、機(jī)構(gòu)名或其他)。其中重點(diǎn)是確定實(shí)體的類別以及三元組的關(guān)系抽取[4]。
命名實(shí)體是網(wǎng)頁文本中基礎(chǔ)的信息單元,也是文本中的縮寫、固有名詞及其它唯一標(biāo)識。往往劃為三類,即實(shí)體名稱、時(shí)間表達(dá)式、數(shù)字表達(dá)式。無論是時(shí)間表達(dá)式還是數(shù)字表達(dá)式,它們的表達(dá)形式較為一致,持有恒定的規(guī)范,所以較為容易識別并標(biāo)注出實(shí)體。而名稱類實(shí)體具有多樣性和歧義性,識別較為困難,難以消除歧義,為標(biāo)注實(shí)體帶來很大的阻力。
命名實(shí)體識別的體系框架包括五部分:(1)實(shí)體指稱提取;(2)實(shí)體指稱擴(kuò)充;(3)候選實(shí)體生成;(4)候選實(shí)體排序;(5)無指代實(shí)體聚類。其中(1)、(2)、(3)部分是發(fā)現(xiàn)命名實(shí)體,(4)、(5)部分是命名實(shí)體消歧。
在(1)中,對背景文本實(shí)行語法分析,得到所有待消歧實(shí)體的指稱,并將其存放在指稱列表中。把語句作為節(jié)點(diǎn),本文利用Stanford Parser工具包對語句的句法進(jìn)行解析。依照句法分析的成果,把文本中句子的主語與賓語抽取出來,作為待加入到指稱列表中的詞語。
在(2)中,根據(jù)Stanford Parser語法分析器自動(dòng)分析句子的主語與賓語成分時(shí),可能遺漏部分實(shí)體指稱,這時(shí)要對指稱列表中的待消歧命名實(shí)體的指稱實(shí)行擴(kuò)充。擴(kuò)充后,用全稱替換列表中的縮寫指稱,縮小消歧的范圍。根據(jù)首字母縮略詞和簡稱詞的結(jié)構(gòu)不同,擴(kuò)充方法包括首字母縮略詞擴(kuò)充和簡稱詞擴(kuò)充等方法。
在(3)中,利用AC字符串匹配算法產(chǎn)生候選實(shí)體,生成指稱列表中待消歧命名實(shí)體指稱的候選實(shí)體。若沒有產(chǎn)生候選實(shí)體,其待消歧命名實(shí)體指稱會被標(biāo)注成無指代實(shí)體。
在(4)中,對所有候選實(shí)體集合進(jìn)行排序。首先將每一個(gè)待消歧命名實(shí)體指稱看做一個(gè)節(jié)點(diǎn),提取候選實(shí)體特征,并定義成向量形式。在待消歧命名實(shí)體指稱M產(chǎn)生的候選實(shí)體集合SET(EM)中,采用Ranking-SVM排序算法生成最優(yōu)實(shí)體Etop構(gòu)成〈M,Etop〉。這里提取的特征包括表面特征、出處特征、句法特征、語義特征、文本特征、位置特征、主題特征和受歡迎度特征等8大類。產(chǎn)生的最優(yōu)實(shí)體進(jìn)行二分類辨別以判斷這個(gè)最優(yōu)實(shí)體是否是正確的。正確則自動(dòng)反饋此最優(yōu)實(shí)體在知識基中相應(yīng)的ID號;若不正確,則將其標(biāo)注成無指代實(shí)體。
在(5)中,將無指代實(shí)體所構(gòu)成的集合實(shí)行聚類。本文采用余弦相似性算法計(jì)算文本之間的相似程度,通過向量夾角余弦值的計(jì)算來度量兩個(gè)向量相似性。根據(jù)余弦曲線圖像特征,兩向量間夾角余弦值最大為1,最小為-1。計(jì)算公式如式(1)所示。
3 數(shù)據(jù)關(guān)聯(lián)分析
要對互聯(lián)網(wǎng)上的信息進(jìn)行數(shù)據(jù)關(guān)聯(lián)分析,首先爬取網(wǎng)頁上的文本,將爬取的文本當(dāng)作實(shí)體標(biāo)注的輸入進(jìn)行命名實(shí)體識別,再將標(biāo)注好的實(shí)體作為關(guān)聯(lián)規(guī)則挖掘的輸入,先挖掘出所有的頻繁項(xiàng)集,結(jié)合Apriori經(jīng)典算法,依照最小支持度min_sup和最小置信度min_conf挖掘出關(guān)聯(lián)規(guī)則。
3.1 數(shù)據(jù)挖掘
為得到互聯(lián)網(wǎng)海量數(shù)據(jù)中的有意義的知識和信息,需要使用數(shù)據(jù)挖掘(Data Mining)技術(shù)提取出暗藏在其中有價(jià)值的知識和信息。通常包括清理數(shù)據(jù)、集成數(shù)據(jù)、選擇數(shù)據(jù)、變換數(shù)據(jù)、挖掘數(shù)據(jù)、評估模式和表示知識等過程[5]。本文基于開放主體,采取2步進(jìn)行關(guān)聯(lián)規(guī)則的挖掘:
(1)發(fā)現(xiàn)事務(wù)集中全部的頻繁項(xiàng)集:此類項(xiàng)集統(tǒng)計(jì)后的頻率要大于等于事先定義好的最小支持度計(jì)數(shù)。
(2)依照頻繁項(xiàng)集得到強(qiáng)關(guān)聯(lián)規(guī)則:此類關(guān)聯(lián)規(guī)則一定要同時(shí)符合最小支持度計(jì)數(shù)和最小置信度計(jì)數(shù)。
3.2 Apriori算法
Apriori算法是一種極具置信力的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法利用頻繁項(xiàng)集屬性的先驗(yàn)信息,采用逐步搜索的迭代策略。為增加逐步生成的頻繁項(xiàng)集的效率,基于頻繁項(xiàng)集的全部非空子集也務(wù)必都是頻繁的Apriori重要屬性,采用壓縮搜索空間方式,通過連接和剪枝2個(gè)步驟完成。Apriori算法及與之關(guān)聯(lián)過程的偽代碼如下:
3.3 由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則
前文研究得到頻繁項(xiàng)集,可以依照最小支持度和最小置信度生成強(qiáng)關(guān)聯(lián)規(guī)則。置信度計(jì)算如式(2)所示,頻繁項(xiàng)集的支持度計(jì)數(shù)代表?xiàng)l件概率。
(2)
其中,是同時(shí)涵括項(xiàng)集的事務(wù)數(shù),是涵括項(xiàng)集A的事務(wù)數(shù)??梢援a(chǎn)生關(guān)聯(lián)規(guī)則:(1)針對每一個(gè)頻繁項(xiàng)集l,生成l的所有非空真子集;(2)針對l的每個(gè)非空一項(xiàng)子集s,假設(shè) ,輸出關(guān)聯(lián)規(guī)則。其中,是最小置信度閾值。因?yàn)槭峭ㄟ^頻繁項(xiàng)集生成的關(guān)聯(lián)規(guī)則,所以每個(gè)關(guān)聯(lián)規(guī)則都默認(rèn)滿足最小支持度。
4 結(jié)語
為在海量的互聯(lián)網(wǎng)信息中更快捷的找到想要的內(nèi)容,本文基于開放本體開展數(shù)據(jù)關(guān)聯(lián)研究。首先介紹了命名實(shí)體識別標(biāo)注的五個(gè)步驟,得到具有語義的實(shí)體標(biāo)注。隨后結(jié)合Apriori經(jīng)典算法進(jìn)行數(shù)據(jù)挖掘研究,得到用戶感興趣、有意義的關(guān)聯(lián)規(guī)則,調(diào)通了實(shí)體標(biāo)注和關(guān)聯(lián)規(guī)則挖掘兩個(gè)階段。使人們在海量數(shù)據(jù)中挖的閱讀更加高效快速、更容易把握主題,并強(qiáng)化了搜索功能。
參考文獻(xiàn)
[1] Emeric Ostermeyer,Christophe Danjou,Alexandre Durupt,et al.An ontology-based framework for the management of machining information in a data mining perspective[J].IFAC PapersOnLine,2018(11):73-74.
[2] Philipp Kestel,Patricia Kügler,Christoph Zirngibl,et al. Ontology-based approach for the provision of simulation knowledge acquired by Data and Text Mining processes[J].Advanced Engineering Informatics,2019(39):42-43.
[3] Mohammed Alkahtani,Alok Choudhary,Arijit De,et al.A decision support system based on ontology and data mining to improve design using warranty data[J].Computers & Industrial Engineering,2019(128):98-100.
[4] 文政穎,李運(yùn)娣.一種基于模糊層次聚類分析的大數(shù)據(jù)挖掘算法[J].河南工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2018(3):70-74+80.
[5] 段妍羽,鞏青歌,彭圳生.基于數(shù)據(jù)挖掘的本體構(gòu)建與重構(gòu)技術(shù)研究[J].計(jì)算機(jī)測量與控制,2017(8):244-247.