,,,,,
醫(yī)療衛(wèi)生行業(yè)是關(guān)乎家庭幸福的重大民生工程,醫(yī)療問題是網(wǎng)民最為關(guān)注的熱點(diǎn)之一。在我國醫(yī)療衛(wèi)生改革與發(fā)展的過程中,體制性矛盾、醫(yī)療糾紛和突發(fā)公共衛(wèi)生事件都會引發(fā)大小不一、影響各異的輿情事件;同時,互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展以及網(wǎng)民數(shù)量劇增所致的信息快速、廣泛傳播,進(jìn)一步加劇了醫(yī)療衛(wèi)生事件在全國范圍內(nèi)的影響力和爆發(fā)力,使醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情總體呈現(xiàn)觸點(diǎn)多、燃點(diǎn)低、熱度高的特點(diǎn),更加多發(fā)易發(fā)[1]。尤其是一些負(fù)面輿情的持續(xù)發(fā)酵,激化了醫(yī)患矛盾,引發(fā)了醫(yī)藥衛(wèi)生行業(yè)的形象危機(jī),進(jìn)而屢陷輿論漩渦[2-3]。
在全國醫(yī)療衛(wèi)生行業(yè)互聯(lián)網(wǎng)輿情井噴、相關(guān)部門對互聯(lián)網(wǎng)輿情管控難度劇增的態(tài)勢下,除了需要在制度、管理等方面逐步完善以外,也需要充分利用現(xiàn)有的信息技術(shù),及時地發(fā)現(xiàn)和處理這些輿情事件。做好互聯(lián)網(wǎng)輿情信息的監(jiān)測,及時、科學(xué)應(yīng)對,已成為相關(guān)醫(yī)療機(jī)構(gòu)和政府部門的工作重點(diǎn)[4-5]?;诖宋覀冊O(shè)計并開發(fā)了醫(yī)療衛(wèi)生行業(yè)的互聯(lián)網(wǎng)輿情監(jiān)測預(yù)警信息系統(tǒng),結(jié)合具有衛(wèi)生行業(yè)背景的專業(yè)輿情分析師的人工處理分析和研判,開展行業(yè)輿情監(jiān)測分析工作,為行政管理機(jī)構(gòu)及醫(yī)療計生單位對互聯(lián)網(wǎng)輿情的全面掌控和有效應(yīng)對提供專業(yè)可信的依據(jù)。系統(tǒng)的架構(gòu)和功能實(shí)現(xiàn)介紹如下。
本項(xiàng)目開發(fā)的醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)主要實(shí)現(xiàn)互聯(lián)網(wǎng)信息獲取、互聯(lián)網(wǎng)信息處理、輿情分析、輔助決策支持4個方面功能。其中互聯(lián)網(wǎng)輿情信息獲取的快與準(zhǔn)、內(nèi)容分析的確定性、輿情研判的準(zhǔn)確性、輿情響應(yīng)的及時性、信息跟蹤的及時性等目標(biāo)的實(shí)現(xiàn),是本系統(tǒng)開發(fā)技術(shù)的關(guān)鍵點(diǎn)和輿情分析研究的主要著力點(diǎn)[6]。
互聯(lián)網(wǎng)輿情的來源十分復(fù)雜,包括新聞網(wǎng)站、論壇、博客等,主要表現(xiàn)形式為動態(tài)網(wǎng)頁,具有主題發(fā)散、形式多樣、時效性強(qiáng)等特點(diǎn)?;ヂ?lián)網(wǎng)信息獲取的目的就是要采集和提取這些動態(tài)網(wǎng)頁中的非結(jié)構(gòu)化信息。
新聞、論壇帖子、博文等頁面包含有效信息,同時也包含垃圾信息,因此在輿情分析前必須去偽存真。網(wǎng)絡(luò)信息的處理目的是對頁面內(nèi)容進(jìn)行過濾,并提煉成概要信息,便于查詢和檢索。再經(jīng)過人工的二次審核,確保保留信息的準(zhǔn)確性,以提升輿情分析的準(zhǔn)確性和科學(xué)性。
網(wǎng)民討論的話題極為發(fā)散,如何從海量信息中找到熱點(diǎn)、敏感話題,并對其趨勢變化進(jìn)行追蹤,成為公共衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)的重點(diǎn)。系統(tǒng)需要從實(shí)時采集到的數(shù)據(jù)中篩選出重要的敏感信息,及時推送給有關(guān)部門以達(dá)到預(yù)警的目的。對于持續(xù)追蹤的輿情,系統(tǒng)可自動生成相應(yīng)圖表,并進(jìn)行人工分析,最終形成準(zhǔn)確、專業(yè)、全面的輿情分析報告。
醫(yī)療衛(wèi)生互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)需為相關(guān)部門的決策服務(wù),因此需要將各種輿情分析結(jié)果接入個人工作平臺,服務(wù)于實(shí)際工作。
系統(tǒng)架構(gòu)遵循先進(jìn)性、可靠性、安全性、標(biāo)準(zhǔn)化、成熟性、適用性、可擴(kuò)展性原則,按層次架構(gòu)進(jìn)行設(shè)計,每層之間通過松散藕合的方式相互通信,從下而上分別由采集模塊、過濾模塊、分析模塊、應(yīng)用系統(tǒng)組成(圖1)。
圖1 醫(yī)療衛(wèi)生網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)架構(gòu)
網(wǎng)絡(luò)輿情散布于網(wǎng)絡(luò)的各個部分,如新聞、論壇、微信、微博、博客等。這些信息實(shí)時更新,動態(tài)變化。信息獲取的目標(biāo)是對相關(guān)信息進(jìn)行采集,對已有數(shù)據(jù)進(jìn)行周期性的更新以獲取其最新的轉(zhuǎn)發(fā)和評論狀態(tài)。采集的信息源以及采集頻率都可以根據(jù)用戶需要,進(jìn)行定制化配置,靈活性強(qiáng)。用戶還可自定義特定主題或事件,如“莆田系”,從而對特定主題或事件進(jìn)行專題監(jiān)測和追蹤,并由系統(tǒng)生成專題報道。由于不同數(shù)據(jù)源的格式千差萬別,在獲取信息前要對每個站點(diǎn)進(jìn)行采集配置,以確保能夠及時準(zhǔn)確從網(wǎng)頁中采集標(biāo)題、內(nèi)容、作者、發(fā)文時間等內(nèi)容,并格式化存儲以方便之后的量化統(tǒng)計分析。
由于互聯(lián)網(wǎng)數(shù)據(jù)質(zhì)量參差不齊,各種垃圾信息(如廣告)充斥其中,智能的垃圾文識別算法可有效過濾廣告等無用信息。然后,可根據(jù)每個角色自身業(yè)務(wù)需求,進(jìn)一步將這些數(shù)據(jù)分門別類,最終實(shí)現(xiàn)根據(jù)不同的需求呈現(xiàn)不同的數(shù)據(jù)。
信息分析模塊能實(shí)現(xiàn)輿情信息自動提取摘要,自動識別與主題相關(guān)的內(nèi)容并自動聚類,對信息內(nèi)容進(jìn)行正負(fù)面情感傾向性分析。除了及時篩選出重要的輿情信息之外,還要能識別出熱點(diǎn)話題,并根據(jù)該話題事件輿情信息的各個維度,包括人群分布、媒體分布、時間趨勢、地域分布、觀點(diǎn)分類等的統(tǒng)計及對數(shù)據(jù)的有效組織、分類,從多方面分析輿情信息的具體分布情況,從而分析事件的整體發(fā)展趨勢和現(xiàn)狀,以及網(wǎng)民對事件的觀點(diǎn)傾向。
系統(tǒng)采用跨平臺的JAVA技術(shù),使采集系統(tǒng)可以在各種操作系統(tǒng)上運(yùn)行。同時,為了解決數(shù)據(jù)量大引發(fā)的擴(kuò)展性問題,底層數(shù)據(jù)的存儲和分發(fā)采用hadoop的相關(guān)技術(shù)實(shí)現(xiàn),機(jī)器學(xué)習(xí)相關(guān)的算法采用weka實(shí)現(xiàn)。
采集器構(gòu)架(圖1)不但可以采集普通采集器所能實(shí)現(xiàn)的簡單的網(wǎng)頁采集,還可以執(zhí)行網(wǎng)頁上的動態(tài)腳本(如javascript,ajax等),以得到普通采集方式通過抓取靜態(tài)頁面無法獲取的信息。
3.1.1 動態(tài)網(wǎng)頁的采集
越來越多的網(wǎng)站采用了動態(tài)頁面技術(shù)(即javascript、ajax等),典型的如博客、微博等網(wǎng)站,通過普通的靜態(tài)頁面只能采集到部分信息,甚至采集不到真正的頁面內(nèi)容。本系統(tǒng)的采集器內(nèi)采用了頁面動態(tài)構(gòu)建技術(shù),可以使采集到的頁面執(zhí)行頁面動態(tài)腳本得到與普通瀏覽器完全一致的頁面內(nèi)容。
3.1.2 采集范圍廣泛
目前采集器的采集目標(biāo)包括微信公眾號、新聞、論壇、博客、微博、RSS等各種類型的站點(diǎn)。除了采集系統(tǒng)所設(shè)的目標(biāo)網(wǎng)站外,還能獲取各大搜索引擎的內(nèi)容,以獲取采集目標(biāo)站點(diǎn)外的信息作為重要補(bǔ)充。由于系統(tǒng)包含各目標(biāo)站點(diǎn)類型的配置信息,除了普通網(wǎng)絡(luò)采集器能夠采集到的網(wǎng)頁標(biāo)題、網(wǎng)頁更新時間、網(wǎng)頁內(nèi)容外,最大特點(diǎn)是可以根據(jù)此配置信息自動解析出普通網(wǎng)頁中輿情處理的結(jié)構(gòu)化信息,如標(biāo)題、內(nèi)容、發(fā)表時間、閱讀數(shù)、回復(fù)量、最新回復(fù)時間等。系統(tǒng)有定時的網(wǎng)站格式分析及監(jiān)測,在網(wǎng)站結(jié)構(gòu)改變時,能夠及時調(diào)整系統(tǒng)針對站點(diǎn)的配置設(shè)定以及時獲取正確的信息。采集系統(tǒng)除了采用常規(guī)的關(guān)鍵詞采集外,還能夠?qū)χ付ǖ恼军c(diǎn)實(shí)現(xiàn)全采集,即地毯式搜索,不遺漏任何輿情信息。另外,系統(tǒng)也能夠采集某些需要登錄才能看到內(nèi)容的網(wǎng)站,如某些論壇和微博站點(diǎn),并且能夠采取各種措施有效繞過網(wǎng)站的反爬蟲技術(shù)實(shí)現(xiàn)輿情采集。
信息過濾模塊主要包括文章去重,垃圾文過濾和輿情預(yù)警3個部分。
3.2.1 文章去重
互聯(lián)網(wǎng)中存在大量的重復(fù)頁面,統(tǒng)計表明系統(tǒng)所采集的數(shù)據(jù)中有超過50%的重復(fù)。檢測重復(fù)頁面對于減少重復(fù)工作量,提高數(shù)據(jù)質(zhì)量至關(guān)重要。同時,由于每天采集的文章量巨大,要實(shí)時計算每篇文章是否是近似重復(fù)文章對算法的計算速度具有很高的要求。因此系統(tǒng)采用了TF-IDF,I-match[7-8],Shingling[9-10]和Jaccard Index相結(jié)合的方式計算,對每篇文檔進(jìn)行分詞,找出所有的停用詞,停用詞后面的連續(xù)兩個非停用詞詞串作為代表這篇文檔的詞串;計算所有這些詞串的IDF,去掉IDF太大和太小的詞串;利用I-match算法[7-8]計算和已經(jīng)有的文檔是否相似,如果相似則該篇文檔的計算結(jié)束,如果不相似則對每篇文檔計算其選取詞串的TFIDF,然后根據(jù)LSH計算是否和已經(jīng)有的文檔相似;對每篇文檔利用Shingling方法[9-10]計算其是否和已有文檔相似;對于任何可能相似的情況進(jìn)一步計算所有詞串的Jaccard Index來過濾掉假陽性。
3.2.2 垃圾文過濾
網(wǎng)絡(luò)所采集的大量文章中,很多都和醫(yī)療衛(wèi)生不相關(guān)。本系統(tǒng)采用weka文本分類技術(shù)對每篇采集的文本進(jìn)行分類,可以將和醫(yī)療相關(guān)的文章篩選出來,過濾掉垃圾文。這一步篩選至關(guān)重要,其準(zhǔn)確性直接影響到后續(xù)數(shù)據(jù)分析中統(tǒng)計的正確性。
3.2.3 輿情預(yù)警
系統(tǒng)通過關(guān)鍵詞匹配的方式從醫(yī)療衛(wèi)生相關(guān)的信息中過濾出敏感的輿情事件。為此,我們收集整理了和醫(yī)療衛(wèi)生相關(guān)的負(fù)面詞庫,其中包括諸如“醫(yī)鬧”“醫(yī)患”“單獨(dú)兩孩”等詞。然后在系統(tǒng)過濾的基礎(chǔ)上,通過人工研判識別的方式篩選出重要信息,并根據(jù)信息的重要性和緊急程度,分成一般、重要、緊急3個級別,通過WEB端、PC端和手機(jī)客戶端等方式推送預(yù)警,以確保用戶能隨時隨地及時掌握最新重要輿情。
圍繞過濾之后的數(shù)據(jù),系統(tǒng)會進(jìn)行多方位的分析。其中分析技術(shù)包括熱點(diǎn)識別、熱詞發(fā)現(xiàn)、傾向性分析、地域識別、趨勢分析和媒體分析等?;谶@些分析結(jié)果,系統(tǒng)可通過圖形化的方式展示,具有較好的可視化效果。
3.3.1 熱點(diǎn)事件
系統(tǒng)根據(jù)新聞熱點(diǎn)、關(guān)鍵詞、專題等信息進(jìn)行熱度分析,考慮了信息來源、所處網(wǎng)頁位置、轉(zhuǎn)載、點(diǎn)擊、評論、回復(fù)和報道率等關(guān)鍵因素,對這些因素進(jìn)行綜合排名,并支持以半小時為間隔的任意時間段進(jìn)行統(tǒng)計分析,同時提供1天、3天、7天等時間序列的符合用戶精確度要求的分類熱點(diǎn)排行。此外,系統(tǒng)還可以對熱點(diǎn)信息進(jìn)行持續(xù)追蹤,并通過趨勢分析圖和傳播鏈分析圖等技術(shù)幫助用戶了解熱點(diǎn)事件的報道趨勢以及來龍去脈,幫助用戶更好地對輿情進(jìn)行研判。
3.3.2 熱詞發(fā)現(xiàn)
系統(tǒng)在不斷更新的信息中尋找一定時期熱度較高的短語,如人名、地名、機(jī)構(gòu)名和其他常見短語。很多網(wǎng)絡(luò)熱詞是詞典中未收錄的新詞語,因此計算熱詞的時候,系統(tǒng)主要考慮兩個方面,一是出現(xiàn)的頻率信息越多,熱度越高;二是歷史波動信息曲線越陡,熱度越高。
3.3.3 傾向性分析
情感傾向性分析具有極強(qiáng)的行業(yè)領(lǐng)域依賴性[11]。本系統(tǒng)通過建立面向衛(wèi)生行業(yè)領(lǐng)域的情感詞典,對輿情進(jìn)行觀點(diǎn)傾向性分析,自動分析文章的傾向性為正面、負(fù)面還是中性,從而為輿情處理提供重要的分析依據(jù)。在實(shí)現(xiàn)上,本系統(tǒng)同樣采用weka技術(shù)實(shí)現(xiàn)文本的傾向性分類。
3.3.4 地域識別
系統(tǒng)采用了實(shí)體名識別技術(shù),對其中的地域名詞進(jìn)行識別,并且將每一個地域名詞歸類到全國的地域?qū)蛹壣?,從而?shí)現(xiàn)全國范圍內(nèi)的地域識別。
我們設(shè)計開發(fā)的輿情監(jiān)測系統(tǒng)可實(shí)現(xiàn)7×24小時不間斷采集互聯(lián)網(wǎng)信息,通過系統(tǒng)智能過濾、強(qiáng)大的分析功能配合人工精細(xì)化服務(wù)的研判分析,及時有效地從互聯(lián)網(wǎng)上篩選出醫(yī)療衛(wèi)生行業(yè)相關(guān)的輿情事件并進(jìn)行預(yù)警、專題追蹤和趨勢分析,同時通過Web端、PC輿情助手和手機(jī)客戶端,確保用戶隨時隨地都能準(zhǔn)確有效地掌握最新輿情動態(tài)并做出有效應(yīng)對。和其他輿情分析系統(tǒng)相比,本系統(tǒng)采集的數(shù)據(jù)源更廣,數(shù)據(jù)分類更智能,數(shù)據(jù)分析更完備,結(jié)合人工分析服務(wù),使輿情研判和預(yù)警更加精準(zhǔn)。但實(shí)際運(yùn)行過程中尚存在一些需要完善的地方,主要包括以下3個方面。
一是輿情事件的分析。一件輿情事件可能涉及到幾百至上百萬的文章,如何將每篇文章自動準(zhǔn)確地歸類于某一事件尚需進(jìn)一步探索。雖然通過關(guān)鍵詞等方式可以解決大部分問題,但是有很多長尾文章不能簡單地通過關(guān)鍵詞的方式過濾。
二是傾向性分析。由于自然語言處理的復(fù)雜性,對于一個事件的正負(fù)面評價以及網(wǎng)民評論傾向性分析并不是一件容易的事情,需要不斷完善系統(tǒng)中傾向性分類器的精度。
三是境外外語輿情監(jiān)測功能欠缺[12]。主要存在聯(lián)通不暢、語言不支持、抓取不及時等短板,需加強(qiáng)境外站點(diǎn)的配置、語種語料庫等設(shè)置。