互聯(lián)網(wǎng)隱式文本特征的提取

2018-01-17 09:26:48陳君

電子技術(shù)與軟件工程 2017年23期

關(guān)鍵詞：聚類算法

摘要隨著互聯(lián)網(wǎng)環(huán)境下大數(shù)據(jù)的極速膨脹，其文本信息也變得越發(fā)復(fù)雜，同時存在大量的隱式文本，針對隱式文本信息，當(dāng)前缺乏有效的特征數(shù)據(jù)提取方法，為了解決該問題，提出了擴充CRFs模型的聚類提取方法。首先采用CRFs模型對候選文本對象進行建模，根據(jù)知識庫擴充候選文本的特征詞集合；然后利用聚類算法提取隱式文本對象集，經(jīng)過迭代計算，得到特征詞的匹配程度，并據(jù)此進行文本對象的分類；提出改進的特征去噪方法，結(jié)合權(quán)重計算提取得到目標(biāo)文本對象。通過實驗數(shù)據(jù)的分析，驗證了本文提出的方法可以有效應(yīng)用于隱式文本對象的特征數(shù)據(jù)提取上，提高了隱式文本特征提取的查全率和準(zhǔn)確率。

【關(guān)鍵詞】隱式文本特征數(shù)據(jù) CRFs模型聚類算法

1 引言

當(dāng)下人們大部分的信息數(shù)據(jù)都是來自互聯(lián)網(wǎng)，個人用戶可以通過評價對比某商品是否值得購買，企業(yè)可以通過搜集個人用戶的評價和訪問等行為指導(dǎo)企業(yè)發(fā)展方向。但是隨著大數(shù)據(jù)的急速膨脹，如何從中提取出目標(biāo)數(shù)據(jù)，成為了行業(yè)內(nèi)亟待解決的難題。目前針對顯式特征數(shù)據(jù)提取的研究比較眾多，且較為完善，而對于隱式特征數(shù)據(jù)提取的研究，則寥寥無幾。

為了更好地實現(xiàn)隱式特征數(shù)據(jù)的提取，本文提出了擴充CRFs模型的聚類提取方法。該方法適用于互聯(lián)網(wǎng)環(huán)境下，中文隱式文本特征的提取，下面將對方法進行具體說明。

2 互聯(lián)網(wǎng)隱式文本提取

2.1 候選對象CRFs模型

隱式文本對象的特征集具有不確定性，考慮到實際情況的復(fù)雜程度，結(jié)合CRFs模型進行互聯(lián)網(wǎng)環(huán)境下的隱式文本的分析，其公式表示如下：

結(jié)合該模型分析隱式文本對象的優(yōu)點是無需知道特征集的相互關(guān)系，并且可以在不改變模型本身的情況下，向模型中添加其它的新特征。在對隱式文本對象識別時，根據(jù)文本語句的語義和句式，將包含的名詞、動詞與形容詞分別用np，vp，ap進行表示，于是，vp和ap可以用來表示候選隱式文本對象的特征詞，而np則代表了文本語句包含的候選文本對象。根據(jù)np與vp，np與ap關(guān)系又可以構(gòu)造得到二元組C（np，vp）與C（np，ap），通過得到的二元組信息便可以很好的反映出文本語句的主干。

2.2 特征詞擴充

利用相似詞匯以及相似短語對C（np，vp）與C（np，ap）構(gòu)成的候選文本對象模型進行相應(yīng)的合理擴充。擴充的方法采用HowNet知識庫，該知識庫不僅支持英語，對中文漢語也有很好的支持，采用將漢語文本詞匯分割成最小語義的方法，實現(xiàn)對漢語文本詞匯的識別?；趎p，vp，ap屬性文本詞匯，利用HowNet知識庫分割出最小語義npi，npj，vpk，并將它們放入特征詞集合T，實現(xiàn)擴充，擴充后集合表示為T=（ap，N，A）或者T=（vp，N，V），N表示np的集合，A表示ap的集合，V表示vp的集合。至此，候選文本對象的模型可以表示為：C（np，T）。

2.3 候選文本對象的聚類

為了可以清晰引導(dǎo)文本語義，使用Kmeans對模型C（np，T）進行聚類計算。設(shè)定Kmeans算法的輸入?yún)?shù)分別為聚類數(shù)與候選文本對象集，并依次表示為k、D，算法輸出為聚類的結(jié)果。聚類處理的過程中，首先選定原始聚類中心Ki，選定的方法是在候選文本對象集中，任意抽取k數(shù)量的對象；然后通過迭代計算得到候選對象Cj和其它任何一個候選對象的匹配程度，并根據(jù)匹配程度把Cj放入匹配度最高的聚類里；再次計算得到新的Ki；最后判斷算法是否達到成熟，如果沒有成熟，重新返回迭代循環(huán)，相反則計算結(jié)束，結(jié)束的判斷依據(jù)是：不再有新的Ki產(chǎn)生；Cj的聚類趨于穩(wěn)定，不再發(fā)生變化。

在計算C（np，T）匹配程度的過程中，是通過集合T內(nèi)部各元素間匹配程度的平均值計算而來，對于候選文本對象集中的任意兩個元素Ci和Cj，它們的匹配程度計算如下：

2.4 隱式文本特征數(shù)據(jù)的識別

根據(jù)IG算法，對于某個特征項t，它對應(yīng)C的增益計算公式為：

其中Ci是候選特征數(shù)據(jù)的類別集，p表示概率。利用IG可以對特征存在與否進行分析，特征不存在的分析對于隱式文本對象提取是很重要的，可是這種分析在文本的分類同時也增加了噪聲的干擾，為了避免該問題的出現(xiàn)，采用改進IG算法，公式如下：

對于低頻特征詞或者稀疏特征詞，該方法能夠避免其權(quán)重的失效，因此結(jié)合權(quán)重計算有助于提高特征數(shù)據(jù)提取的準(zhǔn)確度。

3 實驗數(shù)據(jù)與結(jié)果分析

利用租房平臺網(wǎng)頁上下載的房源評論作為實驗數(shù)據(jù)，來分析驗證本文所提方法的性能。

3.1 擴展CRFs模型聚類結(jié)果

首先對基于擴展CRFs模型聚類的結(jié)果與常規(guī)聚類結(jié)果進行實驗對比。由于租房人的需求不同，他們所關(guān)注房源的特征也有所差別，大部分租戶關(guān)注的評價對象主要包括：租金、交通、地段、戶型、面積、樓層、朝向、裝修、租住方式、房屋配套設(shè)施、小區(qū)配套設(shè)施、周邊配套設(shè)施。因此，根據(jù)列出的12項主要評價對象，實驗中采用的聚類數(shù)取值為[5，12]，并計算得到每種數(shù)量聚類的平均純度，以此作為評價標(biāo)準(zhǔn)，實驗結(jié)果如表1所示。

表1所示為擴展CRFs模型聚類的結(jié)果與常規(guī)聚類結(jié)果的數(shù)據(jù)對比，從表中數(shù)據(jù)分析能夠看出，擴展CRFs模型聚類后的平均純度更高，表明其聚類中，任意聚類只對應(yīng)單個類別的成分更大。

3.2 隱式特征提取結(jié)果

實驗中，是對隱式文本特征進行提取，因此，采用召回率和準(zhǔn)確率來評價隱式特征提取的性能。針對不同聚類數(shù)，依次進行特征提取，同時，為了驗證本文方法中改進IG去噪的性能，首先在不加入IG去噪時進行一次特征提取實驗，實驗結(jié)果如表2所示，然后加入IG去噪，使用本文提出的完整方法重新進行實驗，實驗結(jié)果如表3所示。

通過表2和表3的結(jié)果對比，清晰看出加入改進IG去噪方法后，準(zhǔn)確率得到提高，說明該方法有效克服了特征數(shù)據(jù)的不均衡，濾除了模型建立過程中產(chǎn)生的噪聲。

根據(jù)表3數(shù)據(jù)顯示，本文提出的方法在聚類增加的時候，其召回率呈上升趨勢，準(zhǔn)確率也得到提高，當(dāng)聚類達到一定程度的時候，準(zhǔn)確率就會趨于穩(wěn)定，通過實驗結(jié)果，證明了所提方法在隱式特征數(shù)據(jù)提取中的有效性，并且具有良好的提取性能。

4 結(jié)束語

目前針對互聯(lián)網(wǎng)環(huán)境下隱式特征數(shù)據(jù)提取問題的研究還有待于深入，尤其對中文文本的特征提取，缺乏有效方法，為此，本文提出一種隱式中文文本特征的提取方法。該方法首先通過CRFs模型獲得特征詞集，擴展后利用聚類算法得到隱式文本對象分類，再通過去噪處理，結(jié)合權(quán)重計算提取出隱式特征。通過實驗對提出的方法進行驗證，分別驗證了擴展CRFs模型聚類的有效性，以及改進IG去噪的有效性，證明了所提方法提高了隱式文本特征提取的準(zhǔn)確性和完整性。

參考文獻

[1]胡海斌.引入特征傾向性的高仿網(wǎng)絡(luò)文本數(shù)據(jù)挖掘[J].計算機仿真，2015，32（05）：436-440.

[2]王晶晶，李壽山，黃磊.中文微博用戶性別分類方法研究[J].中文信息學(xué)報，2014，28（06）：150-155.

[3]甘麗新，萬常選，劉德喜等.基于句法語義特征的中文實體關(guān)系抽取[J].計算機研究與發(fā)展，2016，53（02）：284-302.

[4]李國，張春杰，張志遠.一種基于加權(quán)LDA模型的文本聚類方法[J].中國民航大學(xué)學(xué)報，2016，34（02）：46-51.

[5]ZHAO J，LIU K，WANG G.Adding redundant features for CRFs-based sentence sentiment classification[C].Proceedings of the Conference on Empirical Methods in Natural Language Processing，2008：117-126.

作者簡介

陳君（1977-），女，湖北省漢川縣人。碩士研究生。講師。主要研究方向為計算機軟件。

作者單位

湖北大學(xué)知行學(xué)院湖北省武漢市 430011endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

互聯(lián)網(wǎng)隱式文本特征的提取