国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本數(shù)據(jù)挖掘系統(tǒng)原型方案研究

2008-07-14 10:05奠石鎂
電腦知識與技術(shù) 2008年18期
關(guān)鍵詞:系統(tǒng)

奠石鎂

摘要:本文在研究文本數(shù)據(jù)挖掘技術(shù)發(fā)展基礎(chǔ)上,對文本數(shù)據(jù)挖掘系統(tǒng)設(shè)計進(jìn)行深入分析,在此基礎(chǔ)上,論文設(shè)計實(shí)現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型方案,該方案將文本分析、數(shù)據(jù)庫和文本數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來,實(shí)現(xiàn)了文本特征值提取、特征值清理入庫和關(guān)聯(lián)規(guī)則挖掘等功能。

關(guān)鍵詞:文本數(shù)據(jù)挖掘;系統(tǒng);原型方案

中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)18-20ppp-0c

The Study on Text Data Mining Antetype Solution

DIAN Shi-mei

(Yunnan Medical College, Yunnan 650031, China)

Abstract: Based on the analysis of text data mining technology, the paper makes deep study about text data mining system design. Then the paper puts forward and designs a text miner antetype solution , which combines text analysis, data base and text data mining technology and realizes such functions as text eigenvalue extraction ,association rule mining and so on.

Key words: text data mining; system; antetype solution

1 引言

文本數(shù)據(jù)挖掘是近幾年才引起大家的關(guān)注并發(fā)展起來的一個數(shù)據(jù)挖掘領(lǐng)域的新興分支,與機(jī)器學(xué)習(xí)、統(tǒng)計、模式識別等前緣理論方法密切相關(guān)。面對這樣的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力,成為數(shù)據(jù)庫研究的一個新領(lǐng)域。文本數(shù)據(jù)挖掘是通過自動提取文本信息在大量文本數(shù)據(jù)中發(fā)現(xiàn)未知的知識的過程,與自然語言密切相關(guān),其關(guān)鍵是把提取的信息組合起來發(fā)現(xiàn)未知知識。文本數(shù)據(jù)挖掘不同于Web搜索,Web搜索是人們事先己知要查找什么,而文本數(shù)據(jù)挖掘是發(fā)現(xiàn)未知知識,事先可能并不存在。文本數(shù)據(jù)挖掘也不同于常規(guī)意義上的數(shù)據(jù)挖掘,常規(guī)數(shù)據(jù)挖掘是在數(shù)據(jù)庫中發(fā)現(xiàn)感興趣的模式,而文本數(shù)據(jù)挖掘是從自然語言文本中發(fā)現(xiàn)模式。

2 文本數(shù)據(jù)挖掘技術(shù)發(fā)展研究

文本數(shù)據(jù)挖掘可分為基于單文檔的數(shù)據(jù)挖掘和基于文檔集的數(shù)據(jù)挖掘閣。單文檔數(shù)據(jù)挖掘?qū)ξ臋n的分析不涉及其它文檔,主要挖掘方向有文本自動摘要、文檔知識總結(jié)發(fā)現(xiàn)、信息提取。信息提取又包括名字提取、短語提取和關(guān)系提取等,涉及到較深的語言學(xué)的知識。文檔集數(shù)據(jù)挖掘?qū)Υ笠?guī)模的文檔數(shù)據(jù)進(jìn)行模式抽取,既可以文本自動摘要、文檔總結(jié),又可以進(jìn)行文本分類、文本聚類、相似性分析、個性化文本過濾和信息檢索。文本數(shù)據(jù)挖掘目前主要運(yùn)用特征信息提取、聚類分析方法對文本進(jìn)行分類,主要應(yīng)用在信息學(xué)和圖書信息檢索方面提高信息檢索效率,有少部分運(yùn)用語言學(xué)的語法結(jié)構(gòu)知識來分析文本內(nèi)容,但進(jìn)展緩慢不大。

傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結(jié)構(gòu)化的,如關(guān)系的、事務(wù)的數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù),其特征項(xiàng)數(shù)目相對較少且結(jié)構(gòu)單一;而文本數(shù)據(jù)沒有結(jié)構(gòu),轉(zhuǎn)換為特征矢量后特征項(xiàng)數(shù)目達(dá)到幾萬甚至十幾萬個。隨著信息技術(shù)的發(fā)展,需要處理的文本信息也日益增加,傳統(tǒng)的信息檢索和處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)量文本處理的需要。文本數(shù)據(jù)挖掘既融合了很多傳統(tǒng)數(shù)據(jù)挖掘的技術(shù),如挖掘算法思想、挖掘流程構(gòu)架等,又有自己獨(dú)特的處理方法,表現(xiàn)在數(shù)據(jù)抽取、清洗及巨量數(shù)據(jù)挖掘算法的改進(jìn)等方面。

文本可分為純文本和超文本,超文本不僅有純文本的性質(zhì),還含有各種標(biāo)記和鏈接引入的結(jié)構(gòu)對象(如聲音、圖片甚至應(yīng)用程序等)。對純文本和超文本中純文本部分都可以進(jìn)行內(nèi)容挖掘。文本內(nèi)容挖掘又可分為有背景知識挖掘和無背景知識挖掘。有背景知識挖掘是通過分析文本的語法特征和少量語義特征來進(jìn)行挖掘,使用的背景知識主要是自然語言知識,如主謂賓及修飾性詞句語法分析、通過輔助詞進(jìn)行語義分析等,主要挖掘結(jié)果是文本的語法結(jié)構(gòu)性和語義性特征。無背景知識挖掘則主要是通過統(tǒng)計方法提取文本特征數(shù)據(jù),再對這些提取出的數(shù)據(jù)進(jìn)行挖掘,挖掘的數(shù)據(jù)主要是文本的描述性特征,挖掘的結(jié)果根據(jù)業(yè)務(wù)需求千差萬別,如可以通過比較提取出的特征數(shù)據(jù)的相似程度對文本進(jìn)行分類,可以在文件檢索中提供給檢索者相關(guān)特征詞的文件,還可以對文本進(jìn)行自動文檔摘要處理等。

文本數(shù)據(jù)挖掘與目前數(shù)據(jù)挖掘熱點(diǎn)Web數(shù)據(jù)挖掘也有較大的差別。Web數(shù)據(jù)挖掘?qū)儆邳c(diǎn)擊流數(shù)據(jù)挖掘,主要關(guān)注網(wǎng)頁的鏈接,如Google用“PageRank”來度量網(wǎng)頁重要(興趣)程度,還對網(wǎng)頁使用者的個人信息、使用習(xí)性等進(jìn)行挖掘,以更好的檢索信息、改進(jìn)Web內(nèi)容結(jié)構(gòu)等,從理論上講還包括文本數(shù)據(jù)挖掘,但在目前應(yīng)用中還對文本數(shù)據(jù)內(nèi)容本身關(guān)注較少。文本數(shù)據(jù)挖掘主要關(guān)注于文本內(nèi)容本身,先對文本信息進(jìn)行結(jié)構(gòu)化處理,再利用挖掘算法發(fā)現(xiàn)文本中的未知知識或找出文本之間的關(guān)聯(lián)信息等。文本數(shù)據(jù)挖掘也與Web搜索不同,Web搜索是查找事先已知的內(nèi)容,而文本數(shù)據(jù)挖掘則是發(fā)現(xiàn)文本中的相關(guān)知識,這些相關(guān)知識是事先未知的。

3 文本數(shù)據(jù)挖掘系統(tǒng)設(shè)計分析

文本數(shù)據(jù)是一種僅具有有限結(jié)構(gòu)甚至是根本沒有結(jié)構(gòu)的數(shù)據(jù)體,文本的格式可能存在著段落、縮進(jìn)以及正文與圖形表格等形式的差別,但對內(nèi)容而言是完全不同的。對一個純文本進(jìn)行無背景知識關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘第一步是通過完全統(tǒng)計文本中二字詞、三字詞、……、n字短語出現(xiàn)的頻率提取文本中的特征數(shù)據(jù)。所謂“特征數(shù)據(jù)”在中文文本中主要指按字?jǐn)?shù)分詞處理后得到的詞匯。其前提依據(jù)是出現(xiàn)的頻率越高,這些特征詞就對該文本越具有文本語義上的特征描述性,這些高頻率的詞就在一定程度上代表全文的主題思想。通過分析還發(fā)現(xiàn)文本數(shù)據(jù)的存儲結(jié)構(gòu)方面,每個漢字和標(biāo)點(diǎn)符號等文本數(shù)據(jù)占兩個字節(jié),而文本中的英文字符則占一個字節(jié):漢字和標(biāo)點(diǎn)符號文本數(shù)據(jù)之間沒有間隔符,而每個英文單詞的文本數(shù)據(jù)之間則有間隔符來分隔。由于文本數(shù)據(jù)之間的這些特性造成了對中文文本文件數(shù)據(jù)進(jìn)行無背景知識統(tǒng)計分析容易引入一些亂碼,這些亂碼一方面可以通過頻率值門限值清除,另一方面還要通過數(shù)據(jù)清理清除。文本數(shù)據(jù)挖掘的第二步就是要對統(tǒng)計出的數(shù)據(jù)進(jìn)行清理,把亂碼數(shù)據(jù)和一些達(dá)到統(tǒng)計頻率門限值的特征數(shù)據(jù)清除掉,保證提取出的特征數(shù)據(jù)既能表達(dá)文本的特征信息,又能保證數(shù)據(jù)挖掘數(shù)據(jù)正確性的要求,最后把提取出的特征數(shù)據(jù)加入到數(shù)據(jù)庫中。

文本特征值提取是文本關(guān)聯(lián)挖掘系統(tǒng)中的一個關(guān)鍵步驟,而文本關(guān)聯(lián)挖掘系統(tǒng)的困難之一便是特征值空間的維數(shù)過高,特征值的維數(shù)對應(yīng)著文本中不同詞匯的個數(shù)。數(shù)量巨大的特征值維數(shù)一方面導(dǎo)致挖掘算法的代價過高,另一方面導(dǎo)致無法準(zhǔn)確地提取文檔的特征信息,造成挖掘效果不佳。需要在不犧牲提取特征質(zhì)量的前提下盡可能地降低特征項(xiàng)空間的維數(shù)。“特征選取”的任務(wù)就是要將信息量小、“不重要”的詞匯從特征項(xiàng)空間中刪除,從而減少特征項(xiàng)的個數(shù)。特征值提取是一個維數(shù)歸約的過程,即刪除不重要的特征值從而減少特征空間的維數(shù)。文本特征值提取中,不同的詞在文本文件中出現(xiàn)的次數(shù)是不相等的,對文本內(nèi)容的貢獻(xiàn)也就有大有小,因此還要考慮詞在文本中的權(quán)重。把文本特征數(shù)據(jù)提取出來并加載到數(shù)據(jù)庫以后,就要對這些特征數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以發(fā)現(xiàn)這些特征數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘是通過以每個文件名作為標(biāo)識號,以文本的特征數(shù)據(jù)及其權(quán)重值作為文件名標(biāo)識號下的數(shù)據(jù)項(xiàng),對這些數(shù)據(jù)項(xiàng)進(jìn)行關(guān)聯(lián)分析可以發(fā)現(xiàn)文本中隱含的信息和這一組文本文件之間的一些關(guān)系。關(guān)聯(lián)分析算法通過統(tǒng)計交易數(shù)據(jù)庫中每項(xiàng)交易記錄中每個候選集出現(xiàn)的次數(shù)作為該項(xiàng)集的支持計數(shù),然后比較支持計數(shù)和其支持度期望,得到頻繁項(xiàng)集,最后生成關(guān)聯(lián)規(guī)則。本系統(tǒng)原型采用加權(quán)關(guān)聯(lián)規(guī)則算法。這些挖掘結(jié)果既可以用于單文檔的自動關(guān)鍵字提?。哼€可用于信息關(guān)聯(lián)檢索,提供給用戶信息檢索時更廣闊的密切相關(guān)的信息,幫助人們提高處理大量文本數(shù)據(jù)的效率;以及發(fā)現(xiàn)隱藏在文本文件之間的語義內(nèi)容知識。

4 文本數(shù)據(jù)挖掘系統(tǒng)原型方案

本文在對分析文本數(shù)據(jù)挖掘相關(guān)理論算法基礎(chǔ)之上,設(shè)計實(shí)現(xiàn)文本數(shù)據(jù)挖掘系統(tǒng)原型TextMiner方案。TextMiner將文本分析、數(shù)據(jù)庫和文本數(shù)據(jù)挖掘技術(shù)有機(jī)地結(jié)合起來,實(shí)現(xiàn)了文本特征值提取、特征值清理入庫和關(guān)聯(lián)規(guī)則挖掘等功能。TextMiner主要由數(shù)據(jù)抽取、特征值清理、特征值入庫、關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘和規(guī)則應(yīng)用幾部分構(gòu)成。

(1)確定目標(biāo)樣本:由用戶選擇確定挖掘目標(biāo)的文本樣本,用于數(shù)據(jù)抽取模塊進(jìn)行文本特征值的提取。

(2)數(shù)據(jù)抽取:對用戶指定的純文本文檔集,按照用戶指定的特征值最低統(tǒng)計計數(shù)提取文本中的特征值。特征值抽取是采用無背景知識的抽取方法,對文本的二字詞組、三字詞組、……、n字詞組出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計,若出現(xiàn)次數(shù)超過指定的最低計數(shù)則把這個詞組作為該文本的一個特征值。

(3)特征值清理:對數(shù)據(jù)抽取得到的特征值進(jìn)行清洗。文本文件的抽取是在文本中按位置讀出,一些位置上出現(xiàn)一些無自然語義的控制符也被讀入形成無意義的亂碼,若這些亂碼超過最低統(tǒng)計計數(shù),則也被加入到特征值中,所以有必要對特征值中這些無意義的亂碼進(jìn)行清洗,以保證數(shù)據(jù)庫中數(shù)據(jù)的一致性和準(zhǔn)確性。

(4)特征值入庫:把數(shù)據(jù)清理后的特征值加入到數(shù)據(jù)庫中,同時入庫的還有文本文件的相關(guān)屬性值,如文件名、文件路徑、創(chuàng)建時間、最后修改日期、入庫時間等。

(5)關(guān)聯(lián)規(guī)則挖掘:特征值裝載入數(shù)據(jù)庫后,每一個文本文件對應(yīng)一個特征值向量,與商品交易數(shù)據(jù)庫中交易標(biāo)識號和交易記錄類似。運(yùn)用加權(quán)關(guān)聯(lián)規(guī)則算法對這些特征值向量進(jìn)行關(guān)聯(lián)挖掘,得到關(guān)聯(lián)規(guī)則。

(6)應(yīng)用:TextMiner主要考慮把系統(tǒng)挖掘出的關(guān)聯(lián)規(guī)則用于未知知識發(fā)現(xiàn)、文本內(nèi)容檢索,其它擴(kuò)展應(yīng)用還有文本聚類、自動文本關(guān)鍵字提取、自動文本摘要等。

圖1 文本數(shù)據(jù)挖掘系統(tǒng)原型方案

5 結(jié)束語

文本內(nèi)容挖掘才剛剛起步,其前景十分廣闊,將成為信息檢索和情報分析中的一個重要課題,同時把文本內(nèi)容挖掘的研究成果應(yīng)用到搜索技術(shù)中將為人們提供更準(zhǔn)確的有價值的搜索結(jié)果。

參考文獻(xiàn):

[1] 鐘艷花,余偉紅,余永權(quán).web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J].計算機(jī)工程與應(yīng)用,2006(34):167.

[2] 湛燕,陳昊,袁方.文本挖掘研究進(jìn)展[J].河北大學(xué)學(xué)報(白然科學(xué)版).2005,23(2):221.

[3] 薛為民,陸玉昌.文本挖掘技術(shù)研究[J].北京聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2005,19(4).

[4] 范亞芹,劉穎,李興男.web數(shù)據(jù)挖掘原理及實(shí)現(xiàn)[J].吉林大學(xué)學(xué)報,2004(21).

[5] 高潔,吉根林.文本分類技術(shù)研究[J].計算機(jī)應(yīng)用研究.2006.7.

收稿日期:2008-04-13

猜你喜歡
系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
基于PowerPC+FPGA顯示系統(tǒng)
基于UG的發(fā)射箱自動化虛擬裝配系統(tǒng)開發(fā)
半沸制皂系統(tǒng)(下)
FAO系統(tǒng)特有功能分析及互聯(lián)互通探討
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統(tǒng) 德行天下
PLC在多段調(diào)速系統(tǒng)中的應(yīng)用
重訪 Duffing 系統(tǒng)中的對稱破裂分岔與激變