法陳雪 胡曉峰 徐浩
摘 要:針對當前短文本的突發(fā)事件分析不能較為簡易且準確地描述事件發(fā)展過程的問題,提出一種新的基于短文本的突發(fā)事件發(fā)展過程表示方法。首先,提出一種事件狀態(tài)值,它被用于描述事件在各個時間點的狀態(tài),以便于用戶分析事件的發(fā)展過程;其次,根據(jù)短文本的結(jié)構(gòu)化信息,將事件狀態(tài)值從文本信息和用戶信息兩個方面考慮;然后,考慮文本信息的影響因子,構(gòu)造相關(guān)公式計算文本信息權(quán)重;再次,考慮用戶信息的影響因子,提出一種改造的PageRank算法和用戶分層思想,構(gòu)造相關(guān)公式計算用戶信息權(quán)重;最后,根據(jù)文本信息權(quán)重和用戶信息權(quán)重計算事件狀態(tài)值。實驗結(jié)果表明依次考慮用戶信息、采用改造的PageRank算法以及采用分層思想均能修正1~2個描述點,提高事件發(fā)展過程表示的準確度。
關(guān)鍵詞:事件分析;PageRank;分層;短文本;狀態(tài)值
中圖分類號:TP391 文獻標志碼:A英文標題