祝天剛,郭旦懷,王學志,黎建輝,周園春
1. 中國科學院計算機網(wǎng)絡信息中心,北京 100190;2. 中國科學院大學,北京 100049
應用
基于短文本的食源性疾病事件探測技術
祝天剛1,2,郭旦懷1,王學志1,黎建輝1,周園春1
1. 中國科學院計算機網(wǎng)絡信息中心,北京 100190;2. 中國科學院大學,北京 100049
微博數(shù)據(jù)是短文本事件探測的典型數(shù)據(jù)源,由于微博內容的多樣性、稀疏性和碎片性,現(xiàn)有事件探測方法使用的數(shù)據(jù)源單一且噪聲較大,在時空信息的發(fā)現(xiàn)上粒度過大,導致結果的準確性差。因此,在事件探測算法上提出動態(tài)上下文窗口算法,構建候選微博進行事件探測,提高了事件探測的效率和精度。并提出利用微博內容發(fā)現(xiàn)特定事件地理位置信息的算法,提高了事件時空信息的獲取精度。最后應用于食源性疾病事件的自動探測中,相比以往的事件探測方法,擴大了數(shù)據(jù)來源,且時間和空間維度上的準確性得到顯著提高。
短文本;事件探測;時空信息;微博;食源性疾病
隨著互聯(lián)網(wǎng)的全面普及,大量的數(shù)據(jù)隨之產(chǎn)生[1,2],經(jīng)常為人提及的“信息爆炸”迅速具體化為“數(shù)據(jù)爆炸”。每一名互聯(lián)網(wǎng)用戶,不僅可以是互聯(lián)網(wǎng)信息的瀏覽者,同時也是互聯(lián)網(wǎng)信息的制造者[3]。大量數(shù)據(jù)的涌現(xiàn)可以充分豐富人們的信息來源,但是人們獲得高質量信息的難度大大增加[4]。這一問題在短文本領域表現(xiàn)更為突出。從大量繁雜的短文本數(shù)據(jù)中找到有價值的信息,即基于短文本的事件探測,目前正成為文本領域最熱的研究話題之一。
微博數(shù)據(jù)作為一種典型的短文本數(shù)據(jù),成為了基于短文本事件探測的典型數(shù)據(jù)來源。每個人能隨時隨地、方便快捷地將發(fā)生在自身或身邊的事通過微博共享給整個網(wǎng)絡。因此微博數(shù)據(jù)除了擁有短文本數(shù)據(jù)的特點之外,還具有數(shù)據(jù)量大、內容豐富且轉換快、群體性強和有時序性等典型特點[5,6]。微博的大數(shù)據(jù)量、廣覆蓋度和高活躍度等特性使其數(shù)據(jù)本身蘊含豐富的有價值的事件。微博數(shù)據(jù)也成了短文本分析的高質量數(shù)據(jù)[7,8]。
食源性疾病是指通過攝食而進入人體的有毒有害物質(包括生物性病原體)等致病因子所造成的疾病,目前已經(jīng)成為我國食品安全的頭等問題。隨著人們生活水平的不斷提高,對食源性疾病的關注程度也迅速增長。微博作為人們日常生活中網(wǎng)絡社交的最主要手段之一,大量的數(shù)據(jù)中含有各種有關食源性疾病的信息[9]。從微博數(shù)據(jù)中,利用短文本數(shù)據(jù)事件探測的關鍵技術發(fā)現(xiàn)食源性疾病事件,不僅擁有很高的可行性,而且具有很大的價值。
本文以基于微博數(shù)據(jù)的食源性疾病事件探測為例,對基于短文本的事件探測關鍵技術進行了研究和實踐。以微博作為數(shù)據(jù)源,利用其數(shù)據(jù)量大、內容豐富且實時性強等特點,對引起人們廣泛關注的食源性疾病進行事件探測。其中包括兩個重要部分:一是從大量的微博數(shù)據(jù)中,發(fā)現(xiàn)有關某特定食源性疾病事件,并抽取出合適的關鍵詞來描述該事件;二是確定食源性疾病事件后,找到該事件的時空信息。
在文本挖掘領域,基于短文本的事件發(fā)現(xiàn)占有極重要的位置。隨著移動互聯(lián)網(wǎng)時代的到來,“碎片化”已經(jīng)成為現(xiàn)在互聯(lián)網(wǎng)數(shù)據(jù)的一個最典型特點[10],其中最具代表性的莫過于微博數(shù)據(jù)。由于微博數(shù)據(jù)本身的特點,事件發(fā)生的時間可以直接獲取,事件的兩個重要要素(即事件的關鍵詞[11,12]和事件發(fā)生[13]的地點)則成為基于微博數(shù)據(jù)的事件發(fā)現(xiàn)這一問題的研究重點。
隨著互聯(lián)網(wǎng)時代的到來和廣泛普及,微博的使用用戶越來越多,微博的功能也越來越豐富。微博不僅可以方便用戶在任何時候獲取世界各地的信息,還使每一個微博用戶成為一個信息提供者,甚至是新聞發(fā)布者。人們頻繁地、實時地發(fā)布信息,使得微博成為發(fā)現(xiàn)事件的一個重要信息來源[14-17],基于微博數(shù)據(jù)的事件探測,可以幫助人們解決越來越多的問題。例如眾多體育賽事的戰(zhàn)況,可以在微博中近乎實時地獲得[18,19];通過實時分析Twitter數(shù)據(jù),在偵測地震事件中其響應速度甚至超過了任何一家傳統(tǒng)媒體[20-22]。但是,利用微博數(shù)據(jù)對人們日益關心的食源性疾病事件進行探測、分析的相關研究還比較少。主要面臨如下兩方面的挑戰(zhàn):一是微博內容比較短、信息噪音比較大[23,24]、主題變化快[25,26],每條微博最多只能寫140個字,而且用戶比較隨意,導致微博內容中會有大量短語、簡略語等,與標準的語句略有不同,噪聲較大[27-29],而且微博有很高的實時性[30,31],導致相鄰微博可能完全表達不同主題的事件[32,33];二是事件地理位置信息難以獲取[34],微博數(shù)據(jù)中食源性疾病事件的地理位置信息數(shù)據(jù)可以通過用戶簽到信息獲取,但是這類數(shù)據(jù)十分稀疏[35],而通過其他途徑獲取事件地理位置信息則十分困難[36]。
針對上述挑戰(zhàn),本文提出了動態(tài)上下文窗口算法,構建候選微博集合,擴充了較高質量數(shù)據(jù)源來進行事件探測,提高了事件探測的效率和精度;又提出利用微博內容發(fā)現(xiàn)特定事件地理位置信息的算法,提高了事件時空信息的獲取精度。
基于微博數(shù)據(jù)的食源性疾病事件探測主要需要解決兩個問題:一是從微博數(shù)據(jù)中發(fā)現(xiàn)食源性疾病事件;二是確定食源性疾病事件時空信息。針對這兩個問題,本文提出了新的方法,即動態(tài)確定事件的上下文微博來發(fā)現(xiàn)食源性疾病事件;利用指定微博內容結合輔助數(shù)據(jù),準確獲取事件時空信息。本節(jié)將對這兩個方法進行詳細的介紹。
3.1 數(shù)據(jù)預處理
盡管微博數(shù)據(jù)量很大,很有價值,但是其中含有的噪音數(shù)據(jù)也很多。為了能夠更好地進行后續(xù)實驗、研究,需要對微博數(shù)據(jù)進行一定的過濾等預處理工作。抓取的是從2014年8-10月北京用戶的新浪微博,并從中進行篩選。從北京市疾病防控中心獲得食源性疾病的癥狀表現(xiàn)描述詞,然后通過領域專家,即醫(yī)院相關門診醫(yī)生對該詞表中的詞進行選擇并口語化,最終得到一份描述食源性疾病的關鍵詞詞表,共32個詞(吞咽困難、口干、虛脫、腹部不適、脹痛、脹氣、血尿、昏迷等)。在篩選微博時,用最基本的字符串匹配方式,如果一條微博中含有食源性疾病關鍵詞表中的一個或多個詞,那么該微博用戶的最近200條微博就被選取留下。按照這種規(guī)則,選取了共93萬戶左右的用戶,他們的微博中至少含有一個食源性疾病關鍵詞。這些用戶的微博總共9 500多萬條。這樣篩選過的微博都是與食源性疾病相關的微博,篩選過的微博用戶都是與食源性疾病有關的用戶。
為了避免微博營銷賬戶、“僵尸”賬戶等非真實賬戶的負面影響,利用SVM[37]算法訓練分類器,根據(jù)微博賬戶分類特征(關注數(shù)、粉絲數(shù)、個人描述長度、微博總數(shù)、平均轉發(fā)數(shù)、平均點贊數(shù)、平均評論數(shù)、微博平均長度、微博發(fā)布時間段、平均@數(shù)、微博平均鏈接數(shù)),對微博數(shù)據(jù)進行過濾,得到占總量31%左右的微博數(shù)據(jù)。對過濾后得到的微博數(shù)據(jù)進行分詞,并建立詞向量等,為進行食源性疾病事件探測做準備。
為了更準確地利用微博數(shù)據(jù)進行食源性疾病事件探測,本文還使用了其他外部數(shù)據(jù)作為輔助。通過對食源性疾病本身特點和發(fā)病人群的分析發(fā)現(xiàn),大部分食源性疾病事件的發(fā)生通常都是人們在某飯店就餐后。而在微博中,人們通常不會準確寫出飯店的地理位置,而是會直接提及飯店名。為了從微博數(shù)據(jù)中獲取準確的時間、地理位置信息,利用大眾點評網(wǎng)(www. dianping.com)上的飯店信息數(shù)據(jù)作為輔助數(shù)據(jù)。其中含有大量商戶信息,包括商戶地理位置信息。另外,在用戶的微博內容中還有可能提及街道名、地名等行政區(qū)劃名稱,雖然口語化嚴重,但仍然可以為事件地理位置的確定提供重要線索。利用博雅信息網(wǎng)上北京地區(qū)的行政區(qū)劃信息,可以準確地確定微博內容中提及的地理位置信息,從而大大提高食源性疾病事件探測中事件地理位置發(fā)現(xiàn)的準確性。
3.2 發(fā)現(xiàn)食源性疾病事件關鍵詞
由于微博本身具有數(shù)據(jù)量大、實時性高、碎片性強、話題轉換快等缺點,單條微博所含信息量太小,很難完成食源性疾病事件探測。擴展數(shù)據(jù)來源就成為提高事件探測準確率的必要手段[38]。利用上下文窗口方法選定更多的微博作為事件候選微博。假設一名用戶微博的時間序列為S= {T1,T2,…,Tk,…,T200}。Tk為這名用戶含有食源性疾病關鍵詞的一條微博。如果簡單地采取關鍵詞字符串匹配的方法選擇微博,只有Tk這條微博會被選出,但是其他相關微博也可能含有有關食源性疾病的其他重要信息,如地理位置等。為了避免這種狀況發(fā)生,一般方法是設置上下文窗口選取多條微博,構成候選微博集,從而擴充數(shù)據(jù)源,可用式(1)表示。
C表示利用固定上下文窗口得到的候選微博集,上下文窗口為[TP, TQ],即將Tk之前的P條微博到Tk之后的Q條微博,加入候選微博集中。具體過程如算法1所示。
算法1 固定上下文窗口算法。
輸入:一名微博用戶按時間排序的微博序列S;微博上下文窗口上界P;微博上下文窗口下界Q;食源性疾病所在微博Tk。
輸出:候選微博序列C。
初始化參數(shù)C←空;
利用固定上下文窗口算法,雖然可以有效擴充微博數(shù)據(jù)來源,避免數(shù)據(jù)稀疏帶來的事件探測不準確的問題,但所選微博之間沒有任何語義關系,由于微博內容主題變換極快,導致上、下界之間的候選微博很可能并不是描述食源性疾病事件,形成明顯的噪聲數(shù)據(jù),最后影響食源性疾病事件探測的結果。
為了解決以上問題,設計了動態(tài)設定上下文窗口算法。微博的上下文窗口依據(jù)微博之間的語義相似度,通過計算微博詞向量之間的余弦值計算,兩個向量之間的余弦值越大,相似度越高。具體過程如算法2所示。
算法2 動態(tài)上下文窗口算法。
輸入:一名微博用戶按時間排序的微博序列S;衰減率η;微博相似度閾值U;微博上下文窗口上界P;微博上下文窗口下界Q;食源性疾病所在微博Tk。
輸出:候選微博序列C。
初始化參數(shù)T←Tk,C←空
動態(tài)下文窗口構建候選微博集的方法,在確定食源性疾病關鍵詞所在微博Tk后,分別向前、向后利用微博間的文本相似性來確定上下文窗口。每一條微博與它本身到Tk之間所有的微博之和(即微博分詞結果的并集)求相似度,如果相似度大于一定閾值U,這條微博就會被選入候選微博集。以此類推,最終會動態(tài)確定上下文窗口,并得到候選微博集。該算法在選定候選微博時,充分考慮了微博間的語義關系,保證所選出的微博與食源性疾病事件有很大的相關性。在有效避免了微博數(shù)據(jù)稀疏性缺點的同時,也避免了過多的噪音微博被選入,從而提高了食源性疾病事件探測的準確率。
從文本中提取關鍵詞,最常見且簡單易實現(xiàn)的方法是利用TF/IDF的方法,本文的實驗選擇該方法作為基準。但是,這種方法僅僅考慮了詞語的統(tǒng)計性質,并沒有考慮詞與詞之間的出現(xiàn)關系,會忽略掉低頻詞語的影響。這顯然不適合微博文本短、詞語多變性強這一特點。
TextRank是基于詞圖模型的關鍵詞抽取算法,不需要提前對語料進行訓練,保證了該算法的簡潔、有效,可以廣泛應用。TextRank的思想來源于信息檢索中著名的PageRank算法,通過把文本分割成若干組成單元并建立圖模型,利用投票機制對文本中的重要成分進行排序,即可獲取按重要程度排序的關鍵詞。TextRank算法僅利用單篇較短文本本身的信息即可實現(xiàn)關鍵詞的抽取。
3.3 發(fā)現(xiàn)食源性疾病事件地理位置信息
通過微博數(shù)據(jù)獲得食品安全事件后,還希望獲得關于該事件多維度的更全面的信息。其中,事件發(fā)生的時間和地點是最關注的。由于每條微博都有其發(fā)出時間,所以獲取事件的時間并不難,而獲取事件發(fā)生的地點相對較難。微博數(shù)據(jù)中,用戶的個人注冊信息含有地理位置,但該地理位置信息通常是區(qū)縣級別,這一級的地理位置信息粒度明顯太大,精度太低。而移動端的微博還有簽到信息,可以精確地反映用戶發(fā)表微博的地點。但是簽到信息數(shù)據(jù)過于稀疏,很難說明問題。
本文提出了一種通過微博內容來獲取事件地理位置信息的方法。通過對人們日常行為和微博數(shù)據(jù)的分析不難發(fā)現(xiàn),人們在微博上表達食品安全事件時,微博很大可能會包含食源地點信息,如飯店名或食物名。利用大眾點評網(wǎng)中關于飯店名和位置的數(shù)據(jù),結合食物名在百度地圖API上返回的數(shù)據(jù),通過設計的相近點算法,便可以最大程度上獲取用戶食品安全事件的地理位置信息。圖11是獲取食品安全事件地理位置的流程。
經(jīng)過對食源性疾病候選微博的內容進行分析發(fā)現(xiàn),微博中所含有關地理位置的信息主要包括:飯店名、食物名、直接地理位置信息和用戶注冊的地理位置信息。其中,飯店名可以通過大眾點評數(shù)據(jù)找到地理位置信息,如“麥當勞”。而食物名可以通過百度地圖API檢索,找到所含該食物的飯店名及其地理位置信息,如食物名“水煮魚”可以找到“沸騰魚鄉(xiāng)”這個飯店。將這兩種飯店地理位置信息統(tǒng)稱為A,這是用戶飲食發(fā)生的具體地理位置,A可能有多個地理位置。微博內容中直接含有的地理位置信息,如“中關村”,可以通過博雅地名網(wǎng)(http://www.tcmap.com.cn/ beijing/)提供的北京市行政區(qū)劃數(shù)據(jù)來找到該詞的準確地理位置信息。將這類地理位置稱為B,這是用戶可能活動的具體地理位置,B可能有多個地理位置。將微博用戶注冊信息中的地理位置信息稱為C,這是用戶可能活動的地理位置信息,粒度比較大,通常為區(qū)縣級別,如“海淀區(qū)”,C只有一個地理位置。一個用戶的食源性疾病候選微博中,一定含有C,而A和B可能含有,也可能不含有。根據(jù)微博中含有的A、B、C這3類信息,可以相對準確地找到食源性疾病事件的地理位置信息。
圖1 事件地理位置信息發(fā)現(xiàn)流程
當拿到一個用戶的食源性疾病候選微博數(shù)據(jù)時,一定含有C類信息,而A、B類信息則不確定。本文根據(jù)不同情況,設計了不同的算法來發(fā)現(xiàn)事件的地理位置信息。如果微博數(shù)據(jù)中同時含有A類和B類信息,那么,利用計算相近距離的方法確定事件的最終地理位置信息。如算法3,計算A中地理位置與B中地理位置的距離,找到距離最近的兩點Ai和Bj,Ai為最終的地理位置信息。
算法3 事件地理位置發(fā)現(xiàn)算法1。
輸入:微博所含的3類地理位置信息A、B、C。
輸出:地理位置信息Location。
初始化參數(shù)Location←空,D←Max
當微博中只含有A而沒有B時,尋找A中屬于C的地理位置信息作為事件發(fā)生的地理位置信息。也就是說,微博中含有多個(或一個)飯店地理位置信息,而沒有直接地理位置信息,但是該用戶注冊信息中含有地理位置信息C,這是該用戶注冊的行政區(qū)域。選擇屬于該行政區(qū)域內的飯店地理位置信息作為事件發(fā)生的地理位置,算法4描述了這一過程。
算法4 事件地理位置發(fā)現(xiàn)算法2。
輸入:微博所含的3類地理位置信息A、B、C。
輸出:地理位置信息Location。
初始化參數(shù)Location←空
當微博中只含有B而沒有A時,尋找B中屬于C的地理位置信息作為事件發(fā)生的地理位置信息。也就是說,微博中含有多個(或一個)用戶的直接地理位置信息,而沒有飯店地理位信息,但是該用戶注冊信息中含有地理位置信息C,這是該用戶注冊的行政區(qū)域。選擇屬于該行政區(qū)域內的用戶直接地理位置信息作為事件發(fā)生的地理位置信息。當微博中不含有A,也不含有B時,直接利用C來代表事件發(fā)生的地理位置信息。
利用這種方法,盡可能地利用了候選微博數(shù)據(jù)中的地理位置信息來確定事件發(fā)生的地理位置。
4.1 數(shù)據(jù)預處理
本文所使用的微博數(shù)據(jù)為北京市在2014年8-10月產(chǎn)生的所有含有食源性疾病關鍵詞的新浪微博數(shù)據(jù)。這個數(shù)據(jù)集中一共包含933 313個微博用戶,每個用戶200條新浪微博,共9 500萬條微博,將近80 GB的數(shù)據(jù)。為過濾營銷賬號和“僵尸”賬號,利用微博用戶的關注、粉絲比、微博總數(shù)量等作為篩選條件,選出真正的個人微博賬戶及他們的微博,符合條件的微博占31%。對這些數(shù)據(jù)分詞,并建立詞向量。
抓取了外部數(shù)據(jù)進行輔助實驗。抓取了大眾點評網(wǎng)上北京地區(qū)餐飲數(shù)據(jù),包括飯店名和飯店地理位置,共160 429條數(shù)據(jù),還抓取了博雅地名網(wǎng)上北京地名及行政區(qū)劃數(shù)據(jù),共305個地名。
4.2 發(fā)現(xiàn)食源性疾病事件關鍵詞
本文的實驗共分為4組:固定上下文窗口獲取候選微博,分別利用TF/IDF算法和TextRank算法抽取食品安全事件關鍵詞;利用動態(tài)上文窗口法確定食品安全事件候選微博,分別利用TF/IDF算法和TextRank算法抽取食品安全事件關鍵詞。對這4種方法的實驗結果進行了比較。
主要的評價指標是事件發(fā)現(xiàn)的準確率。隨機選擇了一部分數(shù)據(jù),通過人工標注,先找出其中的食品安全事件關鍵詞,以此代表食品安全事件。如果算法找出的事件關鍵詞有80%以上與人工標注的事件關鍵詞相同,就代表事件關鍵詞準確。對上述4種方法進行實驗,根據(jù)不同方法得到的結果與人工標注結果的對比,得到不同方法的準確率,其比較結果見表11和表22。
表11展示了固定上下文窗口獲取候選微博,分別利用TF/IDF算法和TextRank算法抽取食品安全事件關鍵詞的實驗結果??梢悦黠@看出,TextRank算法在關鍵詞抽取的準確率上,明顯高出TF/IDF算法。
表22展示了動態(tài)上下文窗口獲取候選微博,分別利用TF/IDF算法和TextRank算法抽取食品安全事件關鍵詞的實驗結果。同樣,TextRank算法在關鍵詞抽取的準確率上,明顯高出TF/IDF算法。
表1 固定上下文窗口,不同關鍵詞抽取算法的結果
表 2 動態(tài)上下文窗口,不同關鍵詞抽取算法的結果
從上述4種方法的實驗結果可以看出,相比固定上下文窗口選取候選微博,動態(tài)上下文窗口法的準確率明顯高出固定上下文窗口法。動態(tài)上下文窗口是利用微博間的語義關系來確定候選微博的,候選微博的主題更統(tǒng)一,噪聲數(shù)據(jù)更少,故而實驗結果表現(xiàn)更突出。而在關鍵詞抽取上,TextRank考慮了詞語之間的指向關系,比只考慮頻率的TF/IDF在短文本的關鍵詞抽取上更具優(yōu)勢。
4.3 發(fā)現(xiàn)食源性疾病事件地理位置信息
本文還實現(xiàn)了利用相近點確定地理位置信息的方法,利用用戶的微博內容,結合大眾點評網(wǎng)、百度地圖API、博雅地名網(wǎng)等數(shù)據(jù),盡可能地確定食品安全事件發(fā)生的地理位置信息,從而對傳統(tǒng)的事件地理位置信息的獲取提供強有力的補充。本實驗主要對同時包含上文中提到的A、B、C 3類信息的微博數(shù)據(jù)進行相近點算法驗證。這樣的數(shù)據(jù)大概占所有數(shù)據(jù)的13%,同時含有A、C類地理信息的數(shù)據(jù)占19%。同時含有B、C類地理信息的數(shù)據(jù)占16%,只含有C類地理信息的數(shù)據(jù)占52%,如圖22所示。
主要評價指標是地理位置信息發(fā)現(xiàn)的準確率。選擇了一部分同時包含上文提到的A、B、C 3類地理信息的微博數(shù)據(jù),人工標注出事件的地理位置,然后對實驗結果進行對比,得到算法的準確率,見表33。
圖2 3類地理位置信息分布
表33是事件地理位置發(fā)現(xiàn)的實驗結果,將人工標注數(shù)據(jù)分為500條、1 000條、1 500條、2 000條、2 500和3 000條6組數(shù)據(jù),分別統(tǒng)計準確率。
本節(jié)全面介紹了基于微博數(shù)據(jù)的食源性疾病事件探測實驗相關內容,包括數(shù)據(jù)預處理、實驗過程和實驗結果。通過分析得知,利用動態(tài)上下文窗口算法,可以更準確地選取微博,擴充數(shù)據(jù)來源。實驗結果顯示,在該算法基礎上抽取事件關鍵詞,準確率明顯提高。而在充分利用了微博內容數(shù)據(jù)和外部輔助數(shù)據(jù)之后,也得到了更多的食源性疾病事件地理位置信息,其準確率在65%左右。
本文基于新浪微博數(shù)據(jù)對食源性疾病事件探測進行了深入研究,提出了面向短文本數(shù)據(jù)挖掘的事件探測方法,并應用于食源性疾病事件的自動探測中,相比以往的事件探測方法,擴大了數(shù)據(jù)來源,時間和空間維度上的準確性得到顯著提高。在下一步工作中,將融合微博用戶好友關系、微博評論內容等多源數(shù)據(jù)進行食源性疾病事件探測的研究。
表3 事件地理位置信息實驗結果
[1] 中國互聯(lián)網(wǎng)絡信息中心. 第32次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R], 北京:中國互聯(lián)網(wǎng)絡信息中心,2013. CNNIC. The 32th Chinese Internet Development Report[R], Beijing: CNNIC, 2013.
[2] 祝華新, 單學剛, 胡江春, 等. 2011年中國互聯(lián)網(wǎng)輿情分析報告[R]. [出版地不詳:出版者不詳], 2011. ZHU H X, SHAN X G, HU J C, et al. 2011 China Internet Public Opinion Analysis Report[R]. [S.l.:s.n.], 2011.
[3] LI R, LEI K H, KHADIWALA R, et al. Tedas: a twitter-based event detection and analysis system[C]// IEEE 28th International Conference on Data Engineering (ICDE), April 1-5, 2012, Arlington, Virginia, USA. New Jersey: IEEE Press, 2012: 1273-1276.
[4] GUPTA M, LI R, CHANG K C C. Towards a social media analytics platform: event detection and user profiling for twitter[C]// The 23rd International World Wide Web Conference, April 7-11, 2014, Seoul, Korea. [S.l: s.n.], 2014: 193-194.
[5] LI C, SUN A, DATTA A. Twevent: segmentbased event detection from tweets[C]// The 21st ACM International Conference on Information and Knowledge Management, Oct 29-Nov 2, 2012, Maui, USA. New York: ACM Press, 2012: 155-164.
[6] L E E K, AG TAWA L A, C H O U D H A RY A. Real-time disease surveillance using twitter data: demonstration on flu and cancer[C]// The 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 11-14, 2013, Chicago, USA. New York: ACM Press, 2013: 1474-1477.
[7] 黃永光, 劉挺, 車萬翔, 等. 面向變異短文本的快速聚類算法[J]. 中文信息學報, 2007, 21(2): 63-68. HUANG Y G, LIU T, CHE W X, et al. A fast clustering algorithm for abnormal and short texts[J]. Journal of Chinese Information Processing, 2007, 21(2): 63-68.
[8] 楊震, 段立娟, 賴英旭. 基于字符串相似性聚類的網(wǎng)絡短文本輿情熱點發(fā)現(xiàn)技術[J]. 北京工業(yè)大學學報, 2010, 36(5): 669-673. YANG Z, DUAN L J, LAI Y X. Online public opinion hotspot detection and analysis based on short text clustering using string distance[J]. Journal of Beijing University of Technology, 2010, 36(5): 669-673.
[9] 徐君飛, 張居作. 2001-2010 年中國食源性疾病暴發(fā)情況分析[J]. 中國農(nóng)學通報, 2012, 28(27): 313-316. XU J F, ZHANG J Z. Analysis of foodborne disease outbreaks in China between 2001 and 2010[J]. Chinese Agricultural ScienceBulletin, 2012, 28 (27):313-316.
[10] PARKER J, WEI Y, YATES A, et al. A framework for detecting public health trends with Twitter[C]// The 2013 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, Aug 25-28, 2013, Niagara Falls, Canada. New Jersey: IEEE Press, 2013: 556-563.
[11] PETROVI? S, OSBORNE M, LAVRENKO V. Streaming first story detection with application to Twitter[C]// Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics, June 2, 2010, Rochester, NY, USA. [S.l: s.n.], 2010: 181-189.
[12] M A T H I O U D A K I S M, K O U D A S N. Twittermonitor: trend detection over the twitter stream[C]// The 2010 ACM SIGMOD International Conference on Management of Data, June 6-11, 2010, Indianapolis, USA. New York: ACM Press, 2010: 1155-1158.
[13] M A R C H E T T E D J, H O H M A N E. Tracking Disease Outbreaks Using Twitter[R]. [S.l: s.n.], 2014.
[14] C H E N G Z, C A V E R L E E J, L E E K. You are where you tweet: a contentbased approach to geo-locating twitter users[C]// The 19th ACM International Conference on Information and Knowledge Management, October 26-30, 2010, Toronto, Canada. New York: ACM Press, 2010: 759-768.
[15] C U L O T TA A. To w a r d s d e t e c t i n g influenza epidemics by analyzing Twitter messages[C]// The 1st Workshop on Social Media Analytics, July 25, 2010, Washington DC, USA. [S.l: s.n.], 2010: 115-122.
[16] THOM D, BOSCH H, KRüGER R, et al. Using large scale aggregated knowledge for social media location discovery[C]// IEEE 47th Hawaii International Conference on System Sciences (HICSS), January 6-9, 2014,Washington DC, USA. New Jersey: IEEE Press, 2014: 1464-1473.
[17] MAHMUD J, NICHOLS J, DREWS C. Where is this tweet from?Inferring home locations of Twitter users[C]// The 6th International AAAI Conference on Weblogs and Social Media, June 4-8, 2012, Dublin, Ireland. Palo Alto: AAAI Press, 2012: 511-514.
[18] PAUL M J, DREDZE M. You are what you tweet: analyzing Twitter for public health[C]// The 6th International AAAI Conference on Weblogs and Social Media, June 4-7, 2011, Barcelona, Spain. Palo Alto: AAAI Press, 2011: 265-272.
[19] SIGNORINI A, SEGRE A M, POLGREEN P M. The use of Twitter to track levels of disease activity and public concern in the US during the influenza A H1N1 pandemic[J]. PLoS One, 2011, 6(5): e19467.
[20] HARRIS J K, MANSOUR R, CHOUCAIR B, et al. Health department use of social media to identify foodborne illness-Chicago, Illinois, 2013-2014[J]. MMWR Morb Mortal Wkly Rep, 2014, 63(32): 681-685.
[21] PAUL M, DREDZE M. A model for mining public health topics from Twitter[D]. Baltimore: The Johns Hopkins University, 2011.
[22] IMRAN M, CASTILLO C, DIAZ F, et al. Processing social media messages in mass emergency: a survey[J]. arXiv Preprint, 2014, arXiv:1407.7071.
[23] SAY YADI H, HURST M, MAYKOV A. Event detection and tracking in social streams[C]//The 3rd International AAAI Conference on Weblogs and Social Media,May 17-20, 2009, San Jose, California, USA. Palo Alto: AAAI Press, 2009: 1-4.
[24] SCALLAN E, HOEKSTRA R M, ANGULO F J, et al. Foodborne illness acquired in the United States-major pathogens[J]. Emerging Infectious Diseases, 2011, 17(1): 1339-40.
[25] A L V A N A K I F, S E B A S T I A N M, RAMAMRITHAM K, et al. EnBlogue: emergent topic detection in web 2.0 streams[C]// The 2011 ACM SIGMOD International Conference on Management of Data, June 12-16, 2011, Athens, Greece. New York: ACM Press, 2011: 1271-1274.
[26] PAL A, COUNTS S. Identifying topical authorities in microblogs[C]// The 4th ACM International Conference on Web Search and Data Mining, February 9-12, 2011, Hong Kong, China. New York: ACM Press, 2011: 45-54.
[27] CHEW C, EYSENBACH G. Pandemics in the age of Twitter: content analysis of tweets during the 2009 H1N1 outbreak[J]. PLoS One, 2010, 5(11): e14118.
[28] WENG J, LEE B S. Event detection in Twitter[C]// The 6th International AAAI Conference on Weblogs and Social Media, June 4-7, 2012, Barcelona, Spain. Palo Alto: AAAI Press, 2011: 401-408.
[29] YANG Y, PIERCE T, C AR BO NELL J. A study of retrospective and on-line event detection[C]//The 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, New York, USA. New York: ACM Press, 1998: 28-36.
[30] H U T WAG N E R L C, M A LO N E Y E K, BEAN N H, et al. Using laboratorybased surveillance data for prevention: an algorithm for detecting Salmonella outbreaks[J]. Emerging Infectious Diseases, 1997, 3(3): 395.
[31] STERN L, LIGHTFOOT D. Automated outbreak detection: a quantitative retrospective analysis[J]. Epidemiology and Infection, 1999, 122(1): 103-110.
[32] C H U N A R A R, A N D R E W S J R, BROWNSTEIN J S. Social and news media enable estimation of epidemiological patterns early in the 2010 Haitian cholera outbreak[J]. The American Journal of Tropical Medicine and Hygiene, 2012, 86(1): 39-45.
[33] POLGREEN P M, CHEN Y, PENNOCK D M, et al. Using internet searches for influenza surveillance[J]. Clinical Infectious Diseases, 2008, 47(11): 1443-1448.
[34] AR AMAKI E, MASK AWA S, MORITA M. Twitter catches the flu: detecting influenza epidemics using Twitter[C]// The Conference on Empirical Methods in Natural Language Processing, July 27-31, 2011, Edinburgh, UK. [S.l: s.n.], 2011: 1568-1576.
[35] BUSANI L, SCAVIA G, LUZZI I, et al. Laboratory surveillance for prevention and control of foodborne zoonoses[J]. Annali Dell’Istituto Superiore Di Sanità, 2005, 42(4): 401-404.
[36] COLLIER N, DOAN S, K AWA ZOE A, et al. BioCaster: detecting public health rumors with a web-based text mining system[J]. Bioinformatics, 2008, 24(24): 2940-2941.
[37] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv Preprint, 2013, arXiv:1310.4546.
[38] 劉知遠. 基于文檔主題結構的關鍵詞抽取方
法研究[D]. 北京: 清華大學, 2011. LIU Z Y. Research on keyword extraction using document topical structure[D]. Beijing: Tsinghua University, 2011.
郭旦懷(1973-),男,博士,中國科學院計算機網(wǎng)絡信息中心副研究員、碩士生導師,主要研究方向為海量時空數(shù)據(jù)挖掘、大數(shù)據(jù)可視分析。
王學志(1979-),男,中國科學院計算機網(wǎng)絡信息中心副研究員,主要研究方向為海量時空數(shù)據(jù)處理與分析。
黎建輝(1973-),男,博士,中國科學院計算機網(wǎng)絡信息中心研究員、博士生導師,主要研究方向為大數(shù)據(jù)管理、大數(shù)據(jù)分析與處理。
周園春(1975-),男,博士,中國科學院計算機網(wǎng)絡信息中心研究員、博士生導師,主要研究方向為數(shù)據(jù)挖掘、大數(shù)據(jù)分析與處理。
Foodborne diseases event detection based on short text
ZHU Tiangang1,2, GUO Danhuai1, WANG Xuezhi1, LI Jianhui1, ZHOU Yuanchun1
1. Computer Network Information Center, Chinese Academy of Science, Beijing 100190, China 2. University of the Chinese Academy of Sciences, Beijing 100049, China
MicroBlog is a typical short text data source for event detection. Because of diversity, sparsity and debris in MicroBlog content, using existing event detection method is ineffective, and the event spatio-temporal information is inaccurate. To the end, a dynamic context window algorithm was proposed, improved the efficiency and precision of event detection of foodborne diseases based on MicroBlog. Moreover, an algorithm was developed which can get spatio-temporal information from MicroBlog more accurate. Finally, extensive experiments on event detection of foodborne diseases show the proposed method can help to expand the data source and improve the accuracy of time and space dimension.
short text, event detection, spatio-temporal information, MicroBlog, foodboorne disease
TP399
A
10.11959/j.issn.2096-0271.2016022
祝天剛(1988-),男,中國科學院大學碩士生,主要研究方向為數(shù)據(jù)挖掘。
2015-09-30
周園春,zyc@cnic.cn
國家自然科學基金資助項目(No.91224006);國家“十二五”科技支撐計劃資助項目(No.2013BAD15B02);中國科學院戰(zhàn)略性先導專項資助項目(No.XDA06010307);國家衛(wèi)生和計劃生育委員會行業(yè)專項資助項目(No.201302005)
Foundation Items: The National Natural Science Foundation of China(No.91224006), The 12th Five-Year Plan for Science & Technology Support (No.2013BAD15B02), The Strategic Priority Research Program of the Chinese Academy of Sciences (No.XDA06010307), Special Research Funding of National Health and Family Planning Commission of China (No.201302005)