国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種文本聚類的增強(qiáng)數(shù)據(jù)挖掘方法

2018-05-09 02:58:44魏爽
電腦與電信 2018年3期
關(guān)鍵詞:概念分析文檔語義

魏爽

(三亞學(xué)院信息與智能工程學(xué)院,海南 三亞 572000)

1 引言

各種信息源的信息每天都在快速地增長,從大量的信息中提取并發(fā)現(xiàn)有價(jià)值的信息的需要也與日俱增。數(shù)據(jù)挖掘就是一個(gè)用于從大量的原始數(shù)據(jù)集中提取有用信息的方法。

文本挖掘是從不同的文本源中通過識別不同的模式和趨勢來獲得高質(zhì)量信息的過程。由于傳統(tǒng)的數(shù)據(jù)庫有已知的、固定的結(jié)構(gòu),而文檔是非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的,文本挖掘比一般意義上的數(shù)據(jù)挖掘要困難得多[1,2]。故而,文本挖掘涉及到一系列的進(jìn)行數(shù)據(jù)預(yù)處理和建模的步驟,以獲得適用于結(jié)構(gòu)化數(shù)據(jù)挖掘方法的數(shù)據(jù)[3]。文本挖掘可以節(jié)省大量的人力,通過利用信息檢索、機(jī)器學(xué)習(xí)、信息理論以及概率統(tǒng)計(jì)等方法,可以解決諸如文檔檢索、文檔歸類、文檔比較、提取關(guān)鍵信息、摘要文檔等問題。

2 基本概念

自然語言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)、人工智能以及語言學(xué)結(jié)合的一門技術(shù),處理機(jī)器和人類自然語言的交互[4]。要機(jī)器理解人類語言,就需要對人類對世界的認(rèn)識進(jìn)行一定形式的表達(dá)。文本挖掘就是利用自然語言處理和數(shù)據(jù)挖掘技術(shù),試圖發(fā)現(xiàn)新的未知的信息。文本挖掘存在的一個(gè)問題就在于,自然語言是用于人類間交流以及記錄信息的,而計(jì)算機(jī)離理解自然語言有很大的差距。

聚類可以認(rèn)為是非監(jiān)督學(xué)習(xí)的最重要的一個(gè)問題,它要在沒有標(biāo)注的數(shù)據(jù)中找到一種結(jié)構(gòu)。一個(gè)類別就是一組有相似特征的對象的集合,而與其它類中對象不相似。

動詞相關(guān)的角色研究稱為題元角色分析。一般來說,一個(gè)句子的語義結(jié)構(gòu)可以通過動詞參數(shù)結(jié)構(gòu)(Verb Argument Structure)來辨別[5]。動詞參數(shù)結(jié)構(gòu)可以將文本表面的結(jié)構(gòu)參數(shù)和其語義角色關(guān)聯(lián)起來。

3 基于概念的挖掘模型

基于概念(concept-based)的挖掘模型在句子、文檔以及文集級別分析句子的各個(gè)項(xiàng)目(item),可以高效地將句子中對于構(gòu)成句子語義非重要的項(xiàng)目和包含了句子語義的概念區(qū)分開。采用該模型,可以通過句子的語義有效地識別出文檔間重要的匹配概念。

模型分析句子和文檔中每一個(gè)項(xiàng)目的語義結(jié)構(gòu)而不是僅僅計(jì)算出其在一個(gè)文檔中的出現(xiàn)頻率。模型的輸入為原始的文本文檔,每個(gè)文檔都定義好了句子邊界。文檔中的每個(gè)句子的每個(gè)項(xiàng)目都會被自動地貼上標(biāo)注。貼上這些語義角色標(biāo)注后,文檔中的每個(gè)句子就會有一個(gè)或者更多的帶標(biāo)注的動詞參數(shù)結(jié)構(gòu)(Verb Argument Structure)。這些動詞參數(shù)結(jié)構(gòu)的數(shù)量完全取決于句子中的信息量。擁有多個(gè)帶有參數(shù)的動詞的句子,就會有多個(gè)帶標(biāo)注的動詞參數(shù)結(jié)構(gòu)。這些標(biāo)注決定組成句子語義的項(xiàng)目在句子中的語義角色。句子中的每個(gè)項(xiàng)目有一個(gè)語義角色,即“概念”(concept)。概念可以是一個(gè)詞,或一個(gè)短語,完全取決于句子的語義結(jié)構(gòu)。當(dāng)對一個(gè)新的文檔進(jìn)行分析的時(shí)候,該挖掘模型通過掃描新文檔、提取出匹配的概念,可以檢測出該文檔中與之前處理過的所有文檔相匹配的概念。

帶標(biāo)注的動詞參數(shù)結(jié)構(gòu)是語義角色標(biāo)注的輸出,會在句子、文檔以及文集等級別分別進(jìn)行分析。在該模型中,動詞和其參數(shù)都認(rèn)為是項(xiàng)目。一個(gè)項(xiàng)目可以視作同一個(gè)句子中的多個(gè)動詞的參數(shù)。這就意味著,這些項(xiàng)目在一個(gè)句子中可能會有多個(gè)語義角色。

通過對文檔進(jìn)行NLP,可以獲取其中的概念。例如,對于句子“張三打球”,動詞是“打”,ARG0是“張三”,ARG1是“球”。這就貼上了語義標(biāo)注。通過使用語義角色,就可以獲得詞在句子中的內(nèi)容。

4 挖掘模型實(shí)現(xiàn)

模型分為以下四個(gè)部分:

(1)文本預(yù)處理

從文集中讀出文檔。根據(jù)每個(gè)句子中項(xiàng)目對應(yīng)的動詞數(shù)量,將這些參數(shù)標(biāo)注為ARG0、ARG1、ARG2等。此外,降低文本的維度在進(jìn)行文本挖掘時(shí)也很重要,即去除非必要詞語,可以通過標(biāo)準(zhǔn)停止字列表實(shí)現(xiàn):對每一個(gè)詞進(jìn)行檢測,如果是一個(gè)停止字,如“的”、“地”、“得”、“啊”、“了”等,就認(rèn)為其是非關(guān)鍵詞并將其移除。

(2)概念識別

通過第一步,留下來帶標(biāo)注的待匹配的項(xiàng)目,每個(gè)項(xiàng)目就是一個(gè)概念。概念分析分三種:基于句子的概念分析,基于文檔的概念分析以及基于文集的概念分析。通過基于句子的概念分析,獲取概念項(xiàng)目頻率(conceptual term frequency,ctf)。通過基于文檔的概念分析,獲取項(xiàng)目頻率(term frequency,tf),即概念在原始文檔中出現(xiàn)的次數(shù)。通過基于文集的概念分析,獲取文檔頻率(document frequency,df),用于區(qū)別不同的文檔。

(3)計(jì)算ctf

首先,計(jì)算出句子s中的ctf,即句子s的動詞參數(shù)結(jié)構(gòu)中概念c出現(xiàn)的次數(shù)。然后,計(jì)算文檔d中概念c的ctf。在一個(gè)文檔d中,對于每個(gè)概念c,在不同的句子中,可能有多個(gè)ctf,那么,文檔d中概念c的ctf值就通過如下公式計(jì)算:

其中,sn為文檔d中包含概念c的句子的總數(shù),ctfn為第n個(gè)句子中概念c的ctf值。

(4)文檔聚類

聚類就是將一組對象集進(jìn)行分組,這樣每組中的對象在某種意義上比其他組中的對象有更多的相似處。聚類是探測性數(shù)據(jù)挖掘的主要工作,統(tǒng)計(jì)分析的常用技術(shù)聚類算法有很多,這里采用層次聚類和k-最近鄰聚類方法[6-8]。層次聚類是一種非遞增貪婪聚類算法,用來將原始文檔數(shù)據(jù)進(jìn)行分層。K-最近鄰是一種遞增式的聚類算法,對于每個(gè)新文檔,先算出和所有其它文檔的相似度,然后選取最相近的k個(gè)文檔,并將該新文檔歸入到這k個(gè)文檔所屬類中。

文檔d1和d2相似度的計(jì)算見公式(2)和(3)。其中l(wèi)i1、li2分別為兩個(gè)文檔中動詞參數(shù)結(jié)構(gòu)中每個(gè)概念的長度,Lvi1、Lvi2為包含匹配概念的動詞參數(shù)結(jié)構(gòu)的長度,N為文檔的總數(shù)。

通過公式(3)計(jì)算出文檔d中概念i的基于概念的權(quán)值,其中tfweighti的值代表文檔d中概念i在文檔級別的權(quán)值,ctfweighti代表文檔中概念i根據(jù)其在文檔d中句子語義的組成在句子級別的權(quán)值。當(dāng)概念i出現(xiàn)在少量的文檔中時(shí),log(N/dfi)補(bǔ)償了其在文集級別的權(quán)值。tfweighti和ctfweighti的和準(zhǔn)確表達(dá)了每個(gè)概念對句子語義的構(gòu)成的重要性。通過公式(3)可以有效地區(qū)別文集中不同的文檔。

隨著匹配的概念的長度越接近其動詞參數(shù)結(jié)構(gòu)的長度,公式(2)的值會更高。因?yàn)樵摳拍畎嚓P(guān)于句子語義的信息。

在公式(4)中,對文檔d中項(xiàng)目頻率tfij矢量長度進(jìn)行了標(biāo)準(zhǔn)化。cn是文檔d中有項(xiàng)目頻率的概念的總數(shù)。

將模型應(yīng)用于1000篇分別關(guān)于動物(350篇)、植物(370篇)、微生物(200篇)以及人文介紹(80篇)的文檔集合中,得到實(shí)驗(yàn)結(jié)果如表1所示:

表1 實(shí)驗(yàn)結(jié)果

由于人文類別的文檔中包含部分動物、植物相關(guān)信息,這三者之間有所混合,出現(xiàn)一定錯(cuò)誤。而微生物類別比較突出,能完全識別??梢?,該模型的聚類準(zhǔn)確率高。

5 結(jié)語

文章將NLP和文本挖掘聯(lián)系起來,提出了一個(gè)新的基于概念的挖掘模型。該模型可以改進(jìn)文本聚類。通過利用文檔中句子的語義結(jié)構(gòu),獲得了更好的聚類結(jié)果。首先是基于句子的概念分析,通過ctf分析每個(gè)句子的語義結(jié)構(gòu)來捕獲句子中的概念;然后是基于文檔的概念分析,利用tf分析文檔層面的每個(gè)概念;再在文集層面,通過df進(jìn)行文集層面的概念分析;最后,根據(jù)句子語義、文檔主題以及文集中文檔分類,計(jì)算基于概念的相似度。通過此方法,可以在文集中進(jìn)行概念匹配、概念相似度計(jì)算。該方法可靠性、準(zhǔn)確率高。通過此模型進(jìn)行的文本聚類準(zhǔn)確率大大超過了傳統(tǒng)的基于單一項(xiàng)目的方法。該模型尚需進(jìn)行完善,以便用于其他類型的文檔聚類,如Web文檔聚類。

參考文獻(xiàn):

[1]薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(04):59-63.

[2]諶志群,張國煊.文本挖掘研究進(jìn)展[J].模式識別與人工智能,2005,18(01):65-74.

[3]諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007(07):1046-1051.

[4]李生.自然語言處理的研究與發(fā)展[J].燕山大學(xué)學(xué)報(bào),2013,37(05):377-384.

[5]曹火群.題元角色:句法—語義接口研究[D].上海:上海外國語大學(xué),2009.

[6]陳磊磊.不同距離測度的K-Me a n s文本聚類研究[J].軟件,2015,36(01):56-61.

[7]奚雪峰,周國棟.面向自然語言處理的深度學(xué)習(xí)研究[J].自動化學(xué)報(bào),2016,42(10):1445-1465.

[8]曹曉.文本聚類研究綜述[J].情報(bào)探索,2016(01):131-134.

猜你喜歡
概念分析文檔語義
科幻與科普的關(guān)系:基于歷史文獻(xiàn)和概念分析的討論
有人一聲不吭向你扔了個(gè)文檔
語言與語義
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
“有無對比法”在經(jīng)濟(jì)評價(jià)中的運(yùn)用及相關(guān)概念分析
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
認(rèn)知范疇模糊與語義模糊
基于形式概念分析探討《傷寒論》中蔥白止利功效的新發(fā)現(xiàn)
中國共產(chǎn)黨執(zhí)政道路相關(guān)概念分析
读书| 进贤县| 东丰县| 湟中县| 鹤山市| 天镇县| 安多县| 六安市| 水富县| 扎兰屯市| 抚州市| 东乡族自治县| 赣州市| 临武县| 佛坪县| 红桥区| 葵青区| 玉门市| 纳雍县| 璧山县| 昌乐县| 平舆县| 青浦区| 陇西县| 都江堰市| 五华县| 西华县| 枣强县| 武宣县| 宁蒗| 东明县| 宁夏| 辽宁省| 札达县| 河北区| 宜兴市| 宁阳县| 色达县| 宜川县| 泸西县| 义马市|