陳濤 劉世洪
摘要:針對如何高效地發(fā)現(xiàn)農(nóng)業(yè)輿情話題,提出了一種基于敘詞表的輿情話題發(fā)現(xiàn)算法。該算法首先基于《農(nóng)業(yè)敘詞表》和綜合性詞表及網(wǎng)絡(luò)新詞構(gòu)建敘詞詞典,作為中文分詞軟件的詞典;然后運(yùn)用TF-IDF計(jì)算特征詞的權(quán)值,選取前P個(gè)特征詞表示文本,并基于敘詞間的關(guān)系計(jì)算詞語相似度;最后,以敘詞為節(jié)點(diǎn)構(gòu)建無向圖,通過對無向圖聚類實(shí)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)現(xiàn)。分析結(jié)果表明,該算法的最小識(shí)別代價(jià)為0.3534,算法運(yùn)行效率相比傳統(tǒng)算法較高。
關(guān)鍵詞:敘詞表;農(nóng)業(yè)輿情話題;語義相似度;無向圖;聚類
中圖分類號(hào):S-058
文獻(xiàn)標(biāo)識(shí)號(hào):A
文章編號(hào):1001-4942(2015)10-0112-04
隨著互聯(lián)網(wǎng)的不斷發(fā)展,各類網(wǎng)站已經(jīng)成為大眾獲取信息的主要來源之一。網(wǎng)絡(luò)中許多重要信息常常被海量數(shù)據(jù)淹沒,因此,快速有效發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)話題,已經(jīng)成為輿情監(jiān)控、情報(bào)競爭等領(lǐng)域的熱點(diǎn)。近年來,我國網(wǎng)民數(shù)量和農(nóng)業(yè)網(wǎng)站數(shù)量不斷增加,互聯(lián)網(wǎng)涉農(nóng)信息數(shù)量急劇膨脹,涉農(nóng)網(wǎng)絡(luò)輿情呈幾何級(jí)數(shù)增長,因此,如何快速有效地發(fā)現(xiàn)話題,是非常有必要的。話題發(fā)現(xiàn)的研究主要起始于美國國防部高級(jí)研究計(jì)劃署(DARPA)支持的話題檢測與追蹤(Topic detection and track-ing,TDT)項(xiàng)目,該項(xiàng)目主要致力于新話題檢測和跟蹤方面的研究。隨著技術(shù)的不斷發(fā)展,國內(nèi)外話題發(fā)現(xiàn)的相應(yīng)研究成果不斷豐富起來。李恒訓(xùn)等以主題詞為線索,采用多特征話題模型,實(shí)現(xiàn)了網(wǎng)絡(luò)熱點(diǎn)話題的發(fā)現(xiàn)。王巍等通過將報(bào)道內(nèi)容之間的關(guān)聯(lián)關(guān)系層次化,并采用基于單遍聚類思想引入話題中心的策略,實(shí)現(xiàn)了熱點(diǎn)話題的發(fā)現(xiàn)。龍志祎等以特征詞為聚類對象,采用基于互信息的詞聚類算法產(chǎn)生熱點(diǎn)話題。在上述研究的基礎(chǔ)上,本研究提出一種基于敘詞表的農(nóng)業(yè)輿情話題發(fā)現(xiàn)算法,定義話題的表示方法,通過文本信息提取特征詞,進(jìn)而結(jié)合農(nóng)業(yè)敘詞表進(jìn)行特征詞與敘詞轉(zhuǎn)化,通過敘詞的等同、等級(jí)、相關(guān)關(guān)系對敘詞進(jìn)行聚類構(gòu)造話題樹,最終實(shí)現(xiàn)話題的發(fā)現(xiàn)。endprint