国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網(wǎng)新聞話題特征選擇與構(gòu)建

2015-12-25 08:07趙旭劍鄧思遠李波張暉楊春
軟件 2015年7期
關(guān)鍵詞:特征選擇

趙旭劍++鄧思遠++李波++張暉++楊春明++喻瓊++王耀彬

摘要:新聞話題的特征表示是建立話題模型以及進行話題聚類(融合)的基礎(chǔ),傳統(tǒng)的特征構(gòu)建一般采用關(guān)鍵字構(gòu)成的向量表示模型,未對特征的選取、分類以及質(zhì)量等方面進行完整的研究,因此本文擬針對互聯(lián)網(wǎng)新聞文檔進行特征提取、特征構(gòu)建以及話題聚類質(zhì)量分析等方面的系統(tǒng)研究,闡明話題特征的選擇與構(gòu)建對文本話題研究的影響,為后續(xù)的話題檢測與追蹤等應(yīng)用提供更科學(xué)的特征理論模型。實驗結(jié)果表明經(jīng)過話題特征優(yōu)選后的聚類效果有助于提高話題模型的準(zhǔn)確性,避免噪聲特征帶來的話題歧義。

關(guān)鍵詞:話題特征;話題模型;話題聚類;特征選擇

中圖分類號:TP391

文獻標(biāo)識碼:A

DOI: 10.3969/j.issn.1003-6970.2015.07.004

0 引言

信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)的迅速普及,在線新聞文檔數(shù)據(jù)成爆炸式增長。然而,這些文檔數(shù)據(jù)大部分是半結(jié)構(gòu)化或者非結(jié)構(gòu)化的文本數(shù)據(jù),人們要想從中快速、準(zhǔn)確地找到自己所想要的內(nèi)容極其困難。因此,如何合理、有效地組織和管理這些信息,從而提高人們檢索數(shù)據(jù)的速度和準(zhǔn)確程度,已經(jīng)成為信息檢索和數(shù)據(jù)挖掘領(lǐng)域中的熱點課題,文本聚類和分類作為處理這一難題的有力手段,已經(jīng)成為研究的熱點課題。文本聚類、分類等針對互聯(lián)網(wǎng)新聞的分析和挖掘技術(shù)在推薦系統(tǒng)、信息過濾、輿情分析和個性化推薦等領(lǐng)域具有較高的應(yīng)用價值。實現(xiàn)對新聞話題的挖掘應(yīng)用,需要首先對新聞報道構(gòu)建話題模型,將話題轉(zhuǎn)化為可進行計算和比較的信息表示模型,因此,如何有效選擇話題特征構(gòu)建話題模型將對互聯(lián)網(wǎng)的新聞話題挖掘研究產(chǎn)生重要影響。

有效的特征選擇方法不僅可以降低文本的特征向量維數(shù),刪除冗余特征,保留類別區(qū)分能力較強的特征,而且在處理非平衡數(shù)據(jù)集分類時,也應(yīng)該能夠克服類別當(dāng)中特征分布不平衡的問題,提高正類樣本的識別率,從而有助于提高分類器的整體性能;合理的特征加權(quán)方法可以扼制噪聲特征對分類的負面影響,并將特征代表文檔屬于某個類別的能力差別最大化。從話題模型的類別來看,目前話題特征的選擇主要采用三種方式。首先,作為信息檢索領(lǐng)域一種重要的文本表示模型,向量空間模型(Vector Space Model, VSM)以其結(jié)構(gòu)簡單、方便計算等特點得到了諸多學(xué)科和應(yīng)用的廣泛關(guān)注,該模型主要采用詞項作為話題特征,而概率主題模型(Probabilistic Topic Model,PTM)則根據(jù)詞項、文檔和話題三者的貝葉斯概率來表示話題特征,具有扎實的數(shù)學(xué)基礎(chǔ)。詞項與詞項之間的語義關(guān)聯(lián)體現(xiàn)了話題的線索,因此,采用詞匯鏈的方式構(gòu)建話題特征也具有一定代表性。然而,傳統(tǒng)的話題特征選擇方法未闡明特征選擇與構(gòu)建對話題挖掘性能的影響,沒有考慮特征的分類和選擇策略,針對該問題,本文擬針對互聯(lián)網(wǎng)新聞文檔進行特征提取、特征構(gòu)建以及話題聚類質(zhì)量分析等方面的系統(tǒng)研究,建立面向互聯(lián)網(wǎng)新聞話題的話題特征選擇和構(gòu)建機制,為話題挖掘研究提供科學(xué)的特征模型。

1 話題特征提取

對于新聞文檔,我們采用報道中的詞項作為話題特征的基本對象,通過對詞項的選擇構(gòu)建新聞報道的話題特征。因此,本文首先利用自然語言處理技術(shù)對新聞文本進行話題特征提取。

1.1 停用詞過濾和命名實體識別

在信息檢索中,為節(jié)省存儲空間和提高搜索效率,在處理自然語言數(shù)據(jù)(或文本)之前或之后會自動過濾掉某些字或詞,這些字或詞即被稱為Stop Words(停用詞)。對于一個給定的目的,任何一類的詞語都可以被選作停用詞。通常意義上,停用詞大致分為兩類。一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如'the'、'iS'、at、'which'、'on'等。另一類詞包括詞匯詞,這些詞應(yīng)用十分廣泛,但是對詞搜索引擎無法保證能夠給出真正相關(guān)的搜索結(jié)果,難以幫助縮小搜索范圍,同時還會降低搜索的效率,所以通常會把這些詞從文本中移去,從而提高搜索性能。中文中常見的停用詞包括“一下”,“一直”,“三番兩次”,“不僅…而且”,“具體地說”等等。

而命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。本文正是基于不同命名實體的類別,并結(jié)合詞項的其余特征,進行話題特征的選擇,因此,命名實體的識別性能將影響話題特征的選擇。命名實體識別的過程通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構(gòu)名或其他)。英語中的命名實體具有比較明顯的形式標(biāo)志(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務(wù)的重點是確定實體的類別。和英語相比,漢語命名實體識別任務(wù)更加復(fù)雜,而且相對于實體類別標(biāo)注子任務(wù),實體邊界的識別更加困難。

1.2 詞性標(biāo)注

詞性標(biāo)注即判定給定句子中每個詞的語法范疇,確定其詞性并加以標(biāo)注的過程。因為在中文中一個詞語往往會有很多種詞性,為了更加精準(zhǔn)的區(qū)分每個詞在句中的含義,所以我們需要使用詞性標(biāo)注。在本文的研究中,我們認為詞性體現(xiàn)了話題的語義信息,通過對詞項詞性進行篩選,有助于提高話題特征的準(zhǔn)確性。針對600篇中文新聞的新聞標(biāo)題,我們進行了中文分詞和詞性標(biāo)注,得到如表1所示的統(tǒng)計結(jié)果。從表格數(shù)據(jù)不難發(fā)現(xiàn)新聞核心四元素主要集中來源于五類詞語,即名詞、動詞、非謂語形容詞、時態(tài)詞以及數(shù)詞。因此,對于標(biāo)注后的結(jié)果我們只需要關(guān)注以上五類詞語,在細化抽取對象的同時排除助詞、連詞等噪聲詞語對于話題抽取的干擾。

1.3 特征權(quán)重計算

構(gòu)建話題特征模型后,每一維特征值根據(jù)詞項的TF-IDF模型計算得到。文檔的權(quán)重向量d表示為 ,其中

是詞組t在文檔d中出現(xiàn)的頻率(一個局部參數(shù)), 可是逆向文件頻率(一個全局參數(shù)),IDI是文件集中的文件總數(shù), 是含有詞組t的文件數(shù)。因此,文件 和q之間的余弦相似度可通過公式3計算得到。

猜你喜歡
特征選擇
正交基低冗余無監(jiān)督特征選擇法
網(wǎng)絡(luò)入侵檢測場景下的特征選擇方法對比研究
基于實例學(xué)習(xí)和協(xié)同子集搜索的特征選擇方法
基于最大信息系數(shù)和近似馬爾科夫毯的特征選擇方法
Kmeans 應(yīng)用與特征選擇
基于GA和ELM的電能質(zhì)量擾動識別特征選擇方法
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇聚類方法的稀疏TSK模糊系統(tǒng)
非線性電路多軟故障的智能優(yōu)化遞階特征選擇診斷方法
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
秭归县| 崇明县| 鹤庆县| 共和县| 安福县| 开封市| 霍州市| 阳山县| 额济纳旗| 宣威市| 漳平市| 富平县| 方正县| 绿春县| 馆陶县| 佛教| 深水埗区| 常州市| 正蓝旗| 岫岩| 沿河| 迁西县| 曲靖市| 秭归县| 土默特左旗| 西华县| 新沂市| 天祝| 凤凰县| 姚安县| 兴化市| 雷州市| 治多县| 花垣县| 肃北| 新巴尔虎右旗| 固始县| 荥阳市| 灵宝市| 寻乌县| 双辽市|