王姝
摘要:
互聯(lián)網(wǎng)為人們獲取大量的文本數(shù)據(jù)提供便利,然而這些文本數(shù)據(jù)的質(zhì)量相對偏低,難以充分發(fā)揮文本數(shù)據(jù)的利用價值,為此要重點研究和探討計算要文本信息挖掘的文本表示和術(shù)語識別兩項技術(shù),進(jìn)行文本信息的合理高效分類、過濾和篩選,幫助使用者獲得真正需要的知識,挖掘海量文本信息中的隱藏知識和信息,較好地提高計算機文本信息獲取質(zhì)量。
關(guān)鍵詞:
計算機;文本信息;挖掘;文本表示;術(shù)語識別
中圖分類號:
TP391.1;F724.6;F274
文獻(xiàn)標(biāo)識碼:
A
文章編號:
1672-9129(2020)15-0004-01
互聯(lián)網(wǎng)為人們獲取、發(fā)布、交換和共享信息提供了便利,然而人們獲得的文本信息數(shù)據(jù)大多相對表淺,難以真正挖掘到具有價值的知識和信息。本文重點探討計算機文本表示技術(shù)和術(shù)語識別技術(shù),幫助人們快速高效地進(jìn)行文本信息的搜集、分類、過濾、篩選和利用,提高計算機文本信息獲取質(zhì)量和效率。
1 計算機文本信息挖掘技術(shù)概述
文本信息挖掘技術(shù)要從海量的計算機文本數(shù)據(jù)中抽取隱藏的、具有價值的知識和信息,并對其進(jìn)行重新組織、分類、標(biāo)引、過濾和篩選,僅限于對文本數(shù)據(jù)的挖掘,重點針對非結(jié)構(gòu)化或半結(jié)構(gòu)化自然語言文本的挖掘,其主要的文本信息挖掘任務(wù)包括有以下幾種:(1)文本分類。這是一種有監(jiān)督的機器學(xué)習(xí)方法,需要一定數(shù)量的有類別標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行先驗引領(lǐng)和指導(dǎo),是對文本語料庫中的每個文本賦予其一個或多個類別標(biāo)記的過程,主要用于信息檢索、搜索引擎、領(lǐng)域知識加工和服務(wù)等活動。(2)文本聚類。這是一種無監(jiān)督的機器學(xué)習(xí)方法,無須訓(xùn)練過程,是將文本語料庫的數(shù)據(jù)自動聚集為若干個類別簇,包括文本表示、文本距離度量標(biāo)準(zhǔn)的選擇、聚類算法的選擇等流程。
2 計算機文本信息挖掘技術(shù)分析
2.1文本表示技術(shù)。文本表示關(guān)鍵技術(shù)是在計算機技術(shù)、統(tǒng)計學(xué)和語言學(xué)知識的依托下,對自然語言形式的文本進(jìn)行轉(zhuǎn)換,使之成為計算機內(nèi)部能夠直接處理的數(shù)據(jù)模型,其基本流程包括有:特征提取、特征降維、特征權(quán)重計算等,快速高效地抽取文本特征相關(guān)信息,具體來說包括有:(1)統(tǒng)計信息。文本中關(guān)鍵詞的統(tǒng)計分布規(guī)律信息,如:關(guān)鍵詞的詞頻、逆文本頻率、關(guān)鍵詞之間的互信息、共現(xiàn)頻率等。(2)語義信息。主要是指計算機文本中關(guān)鍵詞的語義信息,如:上下文環(huán)境中的特定信息、關(guān)鍵詞之間的同義/反義信息等。
由于自然語言文本體現(xiàn)出天然的線性結(jié)構(gòu),因而通常采用布爾模型、向量空間模型和概率模型將文本表示為線性結(jié)構(gòu)的文本向量,并采用關(guān)鍵詞作為文本特征,從而簡單直觀地表達(dá)出線性文本的結(jié)構(gòu)。其中:布爾模型主要采用0或1的布爾值表示其關(guān)鍵詞,無須進(jìn)行關(guān)鍵詞特征的降維處理,衍生的模型有擴(kuò)展布爾模型和模糊集合模型,然而其缺陷在于無法精準(zhǔn)地計算關(guān)鍵詞的權(quán)重。概率模型主要是利用概率論基礎(chǔ)知識和概率排序原理,計算關(guān)鍵詞的權(quán)重,衍生出的文本表示模型有推理網(wǎng)絡(luò)模型和信任度模型,有著良好的應(yīng)用前景;然而其缺陷在于關(guān)鍵詞權(quán)重計算過于繁瑣復(fù)雜。向量空間模型是應(yīng)用最為廣泛的文本表示模型,關(guān)鍵詞權(quán)重計算方法更加簡潔、準(zhǔn)確和有效,然而其不足之處在于缺乏文本語義表示能力,可以采用基于短語的VSM和基于概念的VSM進(jìn)行文本特征提取的優(yōu)化,并采用統(tǒng)計語言模型、奇異值分解進(jìn)行文本特征權(quán)重計算的改進(jìn)和優(yōu)化。
2.2術(shù)語識別技術(shù)。術(shù)語是特定專業(yè)領(lǐng)域中表達(dá)一般概念的指標(biāo),是用于文本信息處理領(lǐng)域中概念表達(dá)的書面語,字符長度通常在2-8個字符,主要特性主要表現(xiàn)為以下幾個方面:(1)語言特性。是指術(shù)語的內(nèi)外部結(jié)構(gòu)特性與一定的語言學(xué)或統(tǒng)計學(xué)規(guī)律相契合,大多由名詞、動詞、形容詞組成。(2)單元性。術(shù)語的單元性用于描述術(shù)語內(nèi)部的高內(nèi)聚性和外部的低依賴性特點,較好地評測術(shù)語在字符串結(jié)構(gòu)上的穩(wěn)定性。(3)術(shù)語性。主要用于評測和度量語言學(xué)單元及其所屬語料領(lǐng)域的強弱相關(guān)性,有時需要借助于背景語料進(jìn)行完整清晰的描述和表達(dá)。(4)領(lǐng)域相關(guān)性和一致性。術(shù)語在其所處的領(lǐng)域中分布相對均勻,而在其他領(lǐng)域語料中則表現(xiàn)出分布不均勻的狀態(tài)。
對于常用術(shù)語來說,可以采用如下方法加以識別和表達(dá):(1)基于規(guī)則的方法。主要是借助于文本語料庫中詞語的語言特性構(gòu)建詞性規(guī)則模板的集合,并以此匹配語料庫中詞序列作為術(shù)語。這種方法需要極強的專業(yè)領(lǐng)域和計算機語言學(xué)背景,在規(guī)則模板的制定上存在差異性,難以滿足領(lǐng)域術(shù)語更新的需求,表現(xiàn)出對領(lǐng)域的極強依賴性,無法進(jìn)行該方法的擴(kuò)展應(yīng)用。(2)基于統(tǒng)計的方法??梢栽O(shè)計一種中文術(shù)語識別系統(tǒng),利用文本語料中字符串的穩(wěn)定性,抽取候選術(shù)語集合,再剔除基本詞,獲悉術(shù)語識別結(jié)果。也可以利用關(guān)鍵詞的TF-IDF值及關(guān)鍵詞在文本中出現(xiàn)的位置,提取文本的主題關(guān)鍵詞。以新聞術(shù)語為例,可以下載網(wǎng)絡(luò)新聞?wù)Z料,借助于互信息參數(shù)抽取語料中的質(zhì)串,識別具有復(fù)雜結(jié)構(gòu)的合串,將其作為新聞術(shù)語。(3)基于規(guī)則和統(tǒng)計相結(jié)合的方法。主要是將術(shù)語的語言特征和統(tǒng)計特征相結(jié)合,判斷詞序列結(jié)構(gòu)的穩(wěn)定性,抽取術(shù)語候選,再利用語言規(guī)則進(jìn)行后處理,獲悉術(shù)語集合。(4)基于機器學(xué)習(xí)的方法。這是利用一定規(guī)模的語料生成機器學(xué)習(xí)模型,進(jìn)行術(shù)語的最終識別。
結(jié)語:綜上所述,計算機文本信息挖掘是文本信息處理的重要內(nèi)容,要重點研究和探討計算機文本表示技術(shù)和術(shù)語識別技術(shù),進(jìn)行語義的精準(zhǔn)量化描述和表達(dá),并快速準(zhǔn)確地進(jìn)行術(shù)語識別,為計算機信息檢索、搜索引擎、信息抽取、領(lǐng)域本體構(gòu)建及自然語言處理提供信息支持,更好地推進(jìn)計算機文本挖掘技術(shù)的發(fā)展,后續(xù)還要進(jìn)一步提高文本信息挖掘技術(shù)的可擴(kuò)展性,提高術(shù)語識別效果的收斂值。
參考文獻(xiàn):
[1]李愛琳.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用研究[J].數(shù)字通信世界,2020(02):199.
[2]管祥甫,管子涵.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(21):184-185.