吳伊萍
(1.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 泉州 362021;2.泉州師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 泉州 362000)
面向網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)的文本處理技術(shù)研究
吳伊萍1,2
(1.華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 泉州 362021;2.泉州師范學(xué)院 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 泉州 362000)
論壇、博客、微博、QQ空間等都是重要的網(wǎng)絡(luò)社交載體,但各自的網(wǎng)頁(yè)結(jié)構(gòu)和語(yǔ)言風(fēng)格又有差異.本文根據(jù)網(wǎng)絡(luò)論壇的網(wǎng)頁(yè)結(jié)構(gòu)和數(shù)據(jù)特點(diǎn),闡述了應(yīng)用于話題檢測(cè)的網(wǎng)絡(luò)論壇數(shù)據(jù)處理的相關(guān)技術(shù),包括文本預(yù)處理和特征選擇技術(shù).介紹了這些技術(shù)的發(fā)展現(xiàn)狀和研究成果,論述了命名實(shí)體信息在論壇話題檢測(cè)中的作用,討論了論壇中時(shí)間信息的識(shí)別與規(guī)范化處理.
網(wǎng)絡(luò)論壇;話題檢測(cè);特征選擇;命名實(shí)體
互聯(lián)網(wǎng)是把雙刃劍,它既提供了大量進(jìn)步、健康、有益的信息,也滋生了不少反動(dòng)、迷信、低級(jí)的誤導(dǎo)性言論.互聯(lián)網(wǎng)的開放性、虛擬性、隱蔽性和隨意性等特點(diǎn),使得越來(lái)越多的網(wǎng)民通過(guò)互聯(lián)網(wǎng)傳播信息,表達(dá)觀點(diǎn),互聯(lián)網(wǎng)已成為最草根、最有效的監(jiān)督平臺(tái).在當(dāng)前動(dòng)蕩的政治、經(jīng)濟(jì)環(huán)境下,論壇、博客、微博和各種聊天工具成為當(dāng)今網(wǎng)絡(luò)信息傳播的主要載體.地方網(wǎng)絡(luò)論壇聚焦著當(dāng)?shù)氐母黝愋畔?,且具有傳播快速、反映?qiáng)烈、影響大的特點(diǎn),是當(dāng)?shù)鼐W(wǎng)絡(luò)輿情的“晴雨表”.對(duì)本地論壇進(jìn)行有效監(jiān)測(cè),有利于快速了解地方信息,對(duì)一些人民群眾關(guān)注度高的問(wèn)題予以及時(shí)疏導(dǎo)和解決,有利于地方經(jīng)濟(jì)、政治和社會(huì)環(huán)境的穩(wěn)定.
網(wǎng)絡(luò)論壇具有不同于普通網(wǎng)頁(yè)的網(wǎng)頁(yè)結(jié)構(gòu),數(shù)據(jù)噪音大,用戶語(yǔ)言主觀性強(qiáng).近年來(lái)對(duì)網(wǎng)絡(luò)論壇的研究主要集中在論壇數(shù)據(jù)爬取與自動(dòng)抽取,論壇影響力發(fā)現(xiàn),論壇熱點(diǎn)話題發(fā)現(xiàn),網(wǎng)絡(luò)論壇輿情監(jiān)測(cè),BBS觀點(diǎn)挖掘等.本文根據(jù)網(wǎng)絡(luò)論壇的網(wǎng)頁(yè)結(jié)構(gòu)和數(shù)據(jù)特點(diǎn),闡述了面向熱點(diǎn)話題檢測(cè)的論壇數(shù)據(jù)處理的相關(guān)技術(shù),其中包括文本預(yù)處理和特征選擇技術(shù).文章介紹了這些技術(shù)當(dāng)前國(guó)內(nèi)外的相關(guān)研究方法、進(jìn)展和工具.在特征選擇方面,突出了命名實(shí)體中地名和機(jī)構(gòu)名的重要作用,對(duì)時(shí)間信息的識(shí)別與規(guī)范化處理進(jìn)行了探討.
話題發(fā)現(xiàn)研究最初起源于TDT(話題檢測(cè)與追蹤),它是1996年美國(guó)國(guó)防高級(jí)研究計(jì)劃委員會(huì)發(fā)起的,聯(lián)合卡內(nèi)基梅隆大學(xué)、Dragon系統(tǒng)公司和馬薩諸塞大學(xué)一起開展的.TDT的研究目標(biāo)是從連續(xù)的廣播、電視新聞節(jié)目的語(yǔ)音或文字記錄中識(shí)別出系統(tǒng)未知的話題以及與該話題相關(guān)的報(bào)道,或發(fā)現(xiàn)與某一已知話題有關(guān)的新報(bào)道.TDT評(píng)測(cè)提供了新聞方面的語(yǔ)料TDT2和TDT4,研究者可從LDC(Linguistic Data Consortiun)網(wǎng)站[10]上申請(qǐng)獲得.
最初,話題檢測(cè)是對(duì)新聞報(bào)道流依據(jù)不同的話題做聚類,使用的是文本聚類技術(shù).之后,隨著網(wǎng)絡(luò)的發(fā)展,TDT的方法和技術(shù)應(yīng)用于各大門戶網(wǎng)站取代人工完成自動(dòng)專題生成和熱點(diǎn)新聞生成等任務(wù),以及QQ空間、網(wǎng)絡(luò)論壇、博客等的熱點(diǎn)話題生成.如騰訊為每位QQ空間用戶提供熱點(diǎn)話題的服務(wù),Google推出的新聞推薦等個(gè)性化的內(nèi)容服務(wù).
定義1 輿情是指一定時(shí)期一定范圍的社會(huì)群體對(duì)某些社會(huì)現(xiàn)象的主觀反映,是民眾思想、情緒、心理、意見和要求的綜合表現(xiàn).
定義2 網(wǎng)絡(luò)論壇又稱為Internet Forum[1],BBS,網(wǎng)絡(luò)社區(qū).維基百科[]里簡(jiǎn)稱為論壇或討論區(qū)或討論版,它是一種提供在線討論的程序,或由這些程序建立的以在線討論為主的網(wǎng)站.雖然在技術(shù)上代替BBS服務(wù),很多論壇還保有BBS的名稱.國(guó)內(nèi)著名的論壇有天涯論壇、西祠胡同、貓撲等.
定義3 話題在TDT中指由一個(gè)種子事件或活動(dòng)以及與其直接相關(guān)的事件或活動(dòng)組成的.根據(jù)話題的定義,一篇報(bào)道只要描述的事件或活動(dòng)與種子事件有直接聯(lián)系,就與該話題相關(guān).在論壇中,話題又稱為線索(thread),它由首貼和回帖組成.首貼的標(biāo)題為主標(biāo)題及整個(gè)話題的標(biāo)題,回帖即為副標(biāo)題.
定義4 帖子是指論壇中的會(huì)員發(fā)表的公開的單個(gè)信息,它可以是一個(gè)發(fā)起討論話題的首貼,也可以是回復(fù)某一話題的回帖.
論壇采用層次的樹形結(jié)構(gòu),一般分為三層頁(yè)面:版塊頁(yè)面、帖子列表頁(yè)面、帖子內(nèi)容頁(yè)面.論壇版塊頁(yè)面為一個(gè)論壇的總?cè)肟?,用戶可以從不同的版塊入口進(jìn)入相應(yīng)的帖子列表頁(yè)面.帖子列表頁(yè)面是各個(gè)帖子的集合,它包括:帖子主題、帖子作者、帖子回復(fù)數(shù)、帖子瀏覽數(shù)、最后回帖時(shí)間和作者,以及是否為精華帖、置頂帖及熱帖等屬性.帖子內(nèi)容包括首帖和回帖內(nèi)容.
論壇中站長(zhǎng)擁有論壇的所有權(quán),按照不同討論題材分成不同的版塊,各個(gè)版塊由版主管理,為鼓勵(lì)會(huì)員發(fā)言設(shè)有會(huì)員積分系統(tǒng).
論壇中主要包含兩類數(shù)據(jù),一是系統(tǒng)自動(dòng)生成的,如作者、發(fā)表時(shí)間、標(biāo)簽等;二是用戶創(chuàng)建的,如帖子標(biāo)題、內(nèi)容.網(wǎng)絡(luò)論壇中的數(shù)據(jù)多為短文本,具有以下特點(diǎn):(1)實(shí)時(shí)性非常強(qiáng),數(shù)量巨大.(2)以發(fā)表時(shí)間排序.(3)同一話題常出現(xiàn)在不同的版塊,內(nèi)容交叉、雜亂.(4)每一條消息包括正文(帖子)、標(biāo)題、作者、發(fā)帖時(shí)間等特征.(5)回帖信息多為短為本,且用語(yǔ)不規(guī)范,主觀性詞語(yǔ)多,噪音大,存在大量省略、縮寫、指代及拼寫錯(cuò)誤等現(xiàn)象.(6)網(wǎng)絡(luò)論壇數(shù)據(jù)之間存在回復(fù)關(guān)系,源消息為新發(fā)布的帖子,回復(fù)消息為一個(gè)帖子的回帖.例如A為源消息,B、C、D直接回復(fù) A,E、F直接回復(fù)D,構(gòu)成的回復(fù)關(guān)系樹如圖1.(7)語(yǔ)義漂移:隨著消息數(shù)量的增加,消息序列上不可避免地出現(xiàn)語(yǔ)義漂移的現(xiàn)象,即用戶討論的中心議題發(fā)生轉(zhuǎn)變[7].
圖1 回復(fù)關(guān)系樹
本節(jié)介紹了文本預(yù)處理中的常用工具和主要思想,分析了網(wǎng)絡(luò)論壇特征選擇中的國(guó)內(nèi)外思路,歸納出面向本地網(wǎng)絡(luò)論壇的基于命名實(shí)體的話題檢測(cè)方法,并對(duì)時(shí)間信息的識(shí)別和規(guī)范化進(jìn)行了描述.
文本預(yù)處理是指對(duì)抽取出的帖子進(jìn)行分詞、去除停用詞、詞項(xiàng)歸一化,建立文檔的向量空間模型.停用詞可以使用停用詞表.論壇中的短文本數(shù)據(jù)的文本預(yù)處理與長(zhǎng)文本相似.論壇數(shù)據(jù)文本預(yù)處理的具體的步驟如下:
詞是文檔的最小組成單位[9].在英文中,詞之間由空格或標(biāo)點(diǎn)符號(hào)分開,因此英文的分詞較容易實(shí)現(xiàn).而中文文本除了標(biāo)點(diǎn)符號(hào)之外詞語(yǔ)之間沒(méi)有明顯的分隔符.我們可以借助一些中文分詞工具.在中文分詞領(lǐng)域,研發(fā)的分詞系統(tǒng)有“庖丁解牛”Poading Analysis①,中科院的ICTCLAS分詞系統(tǒng)②,北京語(yǔ)言大學(xué)的GWPS系統(tǒng)③,以及哈工大的語(yǔ)言技術(shù)平臺(tái)LTP④.
停用詞(stop word)是指在文本中出現(xiàn)頻率高但含義虛泛的詞語(yǔ),如英語(yǔ)中的a,an,the,and等,中文中的“的,得,地,這,那,但是,和,然而”等.一個(gè)常用的生成停用詞表的方法是,將詞項(xiàng)按照文檔集頻率(每個(gè)詞項(xiàng)在文檔集中出現(xiàn)的頻率)從高到低排列,然后手工選擇那些語(yǔ)義內(nèi)容與文檔主題關(guān)系不大的高頻詞作為停用詞.
此外,一些詞項(xiàng)在整個(gè)文檔集中出現(xiàn)的頻率很低,也不適合作為文本的特征項(xiàng),通常設(shè)定一個(gè)詞頻閾值,只要詞項(xiàng)頻率低于詞頻閾值的詞即被去除.
詞項(xiàng)歸一化指將看起來(lái)不完全一致的多個(gè)詞項(xiàng)歸納成一個(gè)等價(jià)類,以便在它們之間進(jìn)行匹配.英文可以使用Wordnet,中文可以使用Hownet語(yǔ)義資源得出詞之間的語(yǔ)義相似度從而識(shí)別同義詞對(duì),也可以使用同義詞詞典擴(kuò)展.除近義詞、同義詞外,英文中還存在大小寫轉(zhuǎn)換、詞干還原和詞形歸并等問(wèn)題.
經(jīng)文本預(yù)處理后建立的詞項(xiàng)-文檔矩陣是一個(gè)高維的向量空間,使用特征選擇的方法以達(dá)到降維的目的.特征選擇是從原始特征集合中選出它的一個(gè)子集來(lái)構(gòu)成新的特征空間.
Zhang Zhonghui等人[2]認(rèn)為網(wǎng)絡(luò)論壇中的文本特征選擇,一需要突出話題信息豐富的詞語(yǔ);二為克服論壇文本信息長(zhǎng)度差異顯著的不良因素,按照文本特征——人物或機(jī)構(gòu)、地點(diǎn)、名詞、動(dòng)詞和其他五類表示,基于不同類別主題抽取特征.Hila Bechker等人[3]從社交媒體中挖掘出描述事件的文本,社交媒體中的文本內(nèi)容具有的核心特征包括:作者、標(biāo)題、標(biāo)簽、日期或時(shí)間、地點(diǎn).通過(guò)這些特征識(shí)別出與某事件相關(guān)的社交站點(diǎn)的文本.張衛(wèi)[7]在網(wǎng)絡(luò)論壇數(shù)據(jù)的特征提取方面,考慮帖子標(biāo)題的重要性,修改權(quán)重計(jì)算TF×IDF,增加帖子標(biāo)題中單詞的權(quán)重;其次鑒于網(wǎng)絡(luò)論壇回帖多為短文本,存在關(guān)鍵詞稀疏、信息不完備,他根據(jù)帖子之間的回復(fù)關(guān)系構(gòu)建回復(fù)關(guān)系樹,根據(jù)樹上特征的傳遞調(diào)整權(quán)重.吳昊等人[8]提出基于聚類的主題發(fā)現(xiàn),使用潛在語(yǔ)義分析計(jì)算回帖的相似度,結(jié)合時(shí)空因素對(duì)BBS中的主題進(jìn)行聚類,發(fā)現(xiàn)主題.
簡(jiǎn)而言之,在論壇數(shù)據(jù)的特征提取中,需根據(jù)主題類別抽取特征.一要突出話題信息豐富的詞語(yǔ),如標(biāo)題、作者、人物或機(jī)構(gòu)、日期或時(shí)間、地點(diǎn)、動(dòng)詞和名詞等.二需鑒別回帖與首貼之間的相關(guān)性,不能盲目認(rèn)為回帖數(shù)高和瀏覽數(shù)量高就是熱點(diǎn)話題.
命名實(shí)體包括人名(People)、地名(Locations)、機(jī)構(gòu)名(Organizations)、日期(Date)、時(shí)間(Time)、數(shù)字(Digit)等.命名實(shí)體的識(shí)別是從文本中識(shí)別出現(xiàn)的專有名稱和有意義的數(shù)量短語(yǔ)并加以歸類.命名實(shí)體識(shí)別已有二十年左右的發(fā)展歷史,主要的方法有基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和二者結(jié)合.常用的模型有隱馬爾科夫模型(HMM)和條件隨機(jī)場(chǎng)模型(CRF).
命名實(shí)體的識(shí)別工具有中科院的ICTCLAS②,哈工大的LTP④、OpenNLP⑤、Stanford Named Entity Recognizer⑥等.ICTCLAS和LTP適用于中文命名實(shí)體識(shí)別,而OpenNLP和Stanford Named Entity Recognizer適用于英文命名實(shí)體識(shí)別.ICTCLAS除可以進(jìn)行中文分詞外,還具有識(shí)別人名、地名和機(jī)構(gòu)名的功能.LTP中的命名實(shí)體識(shí)別模塊可識(shí)別人名、地名、機(jī)構(gòu)名、專有名詞、日期、時(shí)間和數(shù)量短語(yǔ)等七類實(shí)體.它采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,先使用最大熵(ME)方法對(duì)文本初始標(biāo)注,再使用規(guī)則的方法對(duì)錯(cuò)標(biāo)或漏標(biāo)結(jié)果進(jìn)行修正.OpenNLP能夠識(shí)別人名、地名、機(jī)構(gòu)名、日期、時(shí)間、財(cái)務(wù)數(shù)據(jù)和百分?jǐn)?shù).Stanford Named Entity Recognizer使用條件隨機(jī)場(chǎng)(CRF,Conditional Random Field)序列模型從文本中抽取出機(jī)構(gòu)名、人名和地名.
在新聞報(bào)道的話題檢測(cè)中,同一話題內(nèi)的相關(guān)新聞報(bào)道往往被時(shí)間、地點(diǎn)、人物等命名實(shí)體要素所連接,合理使用命名實(shí)體有助于提升話題檢測(cè)的性能.Giridhar Kumaran等人[4]深入研究命名實(shí)體在話題檢測(cè)中的應(yīng)用效果,發(fā)現(xiàn)在不同類別的文檔中命名實(shí)體的使用效果不同.對(duì)于科技類的報(bào)道,人名和機(jī)構(gòu)名的作用更強(qiáng);對(duì)于自然災(zāi)害類的報(bào)道,地名更為重要.余軍和陳曉鷗[6]對(duì)人名、地名、機(jī)構(gòu)名等中文命名實(shí)體的識(shí)別進(jìn)行研究,使用CRF(條件隨機(jī)場(chǎng))模型和特征模板獲得不錯(cuò)的識(shí)別效果.
本地網(wǎng)絡(luò)論壇主要聚焦地方基礎(chǔ)設(shè)施建設(shè)、公共醫(yī)療、教育、住房、出行等問(wèn)題,例如,溫陵社區(qū)⑦中的品讀泉州子論壇,主要版塊有:城市建設(shè)管理大家談,城市論壇,民生民聲,報(bào)料曝光,天下泉商,樓市大家談,閩南文化,新聞時(shí)評(píng)等.其中城市論壇的主題是關(guān)注發(fā)展、關(guān)注城市,反映弊端、建言獻(xiàn)策;民生民聲的主題是客觀反映、理性建言,關(guān)注民生、傾聽民聲.在這些版塊中,主要的話題都集中在當(dāng)?shù)匕傩丈?、教育、醫(yī)療、出行等相關(guān)的問(wèn)題,因此當(dāng)?shù)氐孛?、機(jī)構(gòu)名在帖子中出現(xiàn)的概率也就大于其他命名實(shí)體.如圖2所示,2011年7月25日溫陵社區(qū)截圖.在網(wǎng)絡(luò)論壇的話題檢測(cè)中,合理使用命名實(shí)體將有助于改善論壇話題檢測(cè)的效果.
圖2 2011年7月25日溫陵社區(qū)截圖
論壇的信息是動(dòng)態(tài)演化的,隨著時(shí)間的變化而發(fā)展,每個(gè)話題都將經(jīng)歷出現(xiàn)、成長(zhǎng)、成熟、消退四個(gè)階段,每個(gè)話題在不同的階段有不同的側(cè)重點(diǎn),二不同時(shí)刻的話題內(nèi)容之間具有關(guān)聯(lián)性.時(shí)序性是話題的另一重要特征.
時(shí)間信息包括事件發(fā)生的時(shí)間、報(bào)道或發(fā)帖的時(shí)間、帖子的最后編輯時(shí)間.時(shí)間信息的表達(dá)包括精確的時(shí)間表達(dá)式、模糊的時(shí)間表達(dá)式和指代的時(shí)間表達(dá).精確的時(shí)間表達(dá),如 2011/7/22,21:34分;模糊的時(shí)間表達(dá),如“今年年初”;指代的時(shí)間表達(dá),如“昨天,今天下午,去年”時(shí)間信息的規(guī)范化.時(shí)間信息的識(shí)別包括時(shí)間詞語(yǔ)的收集和時(shí)間短語(yǔ)邊界信息的收集.時(shí)間信息的規(guī)范化指將所有的時(shí)間表達(dá)式表示成為統(tǒng)一的、顯示的格式.對(duì)于模糊的時(shí)間表達(dá)式和指代的時(shí)間表達(dá)根據(jù)帖子的編輯時(shí)間和發(fā)帖時(shí)間進(jìn)行時(shí)間信息的規(guī)范化.規(guī)范化要處理的問(wèn)題涉及:(1)時(shí)間規(guī)范形式的表達(dá);(2)基準(zhǔn)時(shí)間的確定,以便規(guī)范相對(duì)時(shí)間信息;(3)時(shí)間指代詞的消解,以便找到對(duì)應(yīng)的精確顯示的時(shí)間表達(dá)等.規(guī)范化形式:“****年**月某**日**時(shí)**分**秒”.
由于時(shí)間信息的抽取比較困難,通常將數(shù)據(jù)按照時(shí)間目錄存放.如文件夾20110701,代表2011年7月1日的帖子.
地方網(wǎng)絡(luò)論壇是當(dāng)?shù)孛裆?、民情、民意的集中反映,?duì)當(dāng)?shù)卣搲M(jìn)行話題檢測(cè)有利于及早發(fā)現(xiàn)不和諧因素,進(jìn)行及時(shí)疏導(dǎo)解決問(wèn)題.文本預(yù)處理和特征選擇技術(shù)是話題檢測(cè)的基礎(chǔ).根據(jù)不同主題,合理使用命名實(shí)體和時(shí)間信息有助于改善話題檢測(cè)的效果.今后將繼續(xù)深入本地網(wǎng)絡(luò)論壇話題檢測(cè)的相關(guān)技術(shù),如構(gòu)建人名、地名和機(jī)構(gòu)名本體或數(shù)據(jù)庫(kù),選擇合適的聚類技術(shù)生成初步的話題簇等.
注 釋:
①http://code.google.com/p/paoding/.
②http://ictclas.org/.
③http://democlip.blcu.edu.cn:8081/gpws/.
④http://ir.hit.edu.cn/ltp/
⑤http://incubator.apache.org/opennlp/;
⑥http://nlp.stanford.edu/software/CRF-NER.shtml.
⑦h(yuǎn)ttp://bbs.qzwb.com.
〔1〕Internet Forum http://en.w ikipedia.org/w iki/Internet_forum.2011-07-24.
〔2〕Zhang Zhonghui;W u Bin,Document sim ilarity measure for topic detection in BBS,FKSD 2010,2354–2357,2010
〔3〕Hila Bechker,Mor Naaman,Luis Gravano.Learning Sim ilarity Metrics for Event Identification in Social Media[C].WSDM'10,February 4-6,2010,New York City,New York,USA.
〔4〕Giridhar Kumaran,James Allan.Text classification and named entities for new event detection[C].Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval,July 25-29,2004,Sheffield,United Kingdom.
〔5〕網(wǎng)絡(luò)論壇.http://zh.w ikipedia.org/.維基百科.2011-07-24.
〔6〕余軍,陳曉鷗.命名實(shí)體識(shí)別:One-at-a-time or All-atonce?Word-based or Character-based?[C].第七屆中文信息處理國(guó)際會(huì)議,2007.
〔7〕張衛(wèi).網(wǎng)絡(luò)輿情分析中的特征提取研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2008.
〔8〕吳昊,耿煥同,吳祥.一種基于聚類分析的BBS主題發(fā)現(xiàn)算法研究[J].安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(1).
〔9〕Christoper D.Manning,Prabhakar Raghavan,H inrich Schütze.信息檢索導(dǎo)論[M].北京:人民郵電出版社,2010.
〔10〕LDC,http://www.ldc.upenn.edu/DataSheets/.2011-07-24.
TP393.094
A
1673-260X(2011)11-0032-03