国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數據環(huán)境下的危機信息整合模型研究

2017-01-16 02:06李欣
現(xiàn)代情報 2016年12期

李欣

〔摘 要〕大數據環(huán)境下,突發(fā)事件的危機數據來源復雜多樣,通過使用詞語相似度計算和Folksonomy自由標記語言,把多模態(tài)的危機信息轉化成基于內容特征項集合的單一情報信息源,建立危機信息采集萃取的整合組織模型。整合模型包括3個部分:危機信息內容特征項集的提取、RDF資源的統(tǒng)一描述存儲和文本內容特征域的聚類劃分。通過整合聚類危機信息源,從而實現(xiàn)不同危機信息源載體的規(guī)范化整合與組織,為危機的應急管理提供統(tǒng)一化的情報信息數據源。積極發(fā)揮情報效用,為突發(fā)事件的應急管理提供案例分析和情報預警。

〔關鍵詞〕多模態(tài)信息;相似度計算;Folksonomy;RDF;文本聚類

〔中圖分類號〕G250.73 〔文獻標識碼〕A 〔文章編號〕1008-0821(2016)12-0036-04

〔Abstract〕In a BIG DATA environment,the source of the crisis is complex,by using word similarity computation and network users free marking technology,the paper transfed the multimodal crisis information into a single information source,and an integrated model for the extraction of crisis information was established.The integrative course included three processes:collect information and extract features;describe and storage metadata;divide the feature domain.Realizing the integration of different sources of information sources,the paper provided a uniform information platform for emergency response of the crisis,to provide case analysis and intelligence warning.

〔Key words〕multimodal data;similarity computation;Folksonomy;RDF;text clustering

隨著2015年“8.12”天津港的爆炸事件,應對突發(fā)事件的公共危機安全問題愈發(fā)受到了全社會的強烈關注。回顧近幾年的公共安全突發(fā)事件[1],既有諸如“汶川”大地震的地質自然災害,也有諸如“H7N9”禽流感的公共衛(wèi)生事件。在網絡化和信息化飛速發(fā)展的大數據環(huán)境下,面對諸如此類的公共安全突發(fā)事件,危機信息的呈現(xiàn)方式和載體形態(tài)逐漸多樣化,采集的信息樣本除了傳統(tǒng)的結構化數據外,還有半結構化的文本數據和非結構化的圖像數據。海量的多模態(tài)危機信息使管理決策部門迷失在信息的洪流中,給危機管理應對過程的預警機制和應急處理帶來了巨大障礙,如何把形態(tài)各異的不同載體形式的海量危機信息進行統(tǒng)一標準和規(guī)范的整合與組織,為危機應對提供情報支持,是應對公共危機預警機制的重要環(huán)節(jié),并受到了國內情報學領域專家的高度關注和積極探索。

畢玉青通過分析發(fā)現(xiàn)信息化社會中公共危機載體形態(tài)呈現(xiàn)出規(guī)模海量、影響廣泛、未知性強、分散與集中相結合的大數據特質,提出應對危機管理的政府管理建議,從而提高危機應對的有效性[2]。

熊楓從傳統(tǒng)政府危機信息管理中存在的問題出發(fā),結合當前大數據時代的到來給政府危機信息管理帶來的契機,進而深入探討大數據時代政府有效管理危機信息,以彌補傳統(tǒng)危機信息管理之不足的策略[3]。

武漢大學的李陽等通過分析大數據環(huán)境下的突發(fā)事件應急決策情報需求,提升應急決策情報支持能力,探索一種新的應急決策情報支持架構——以情報工程化為主導、情報平行化為支撐的“兩融合”應急決策情報服務模式[4]。

吳春玉從政府決策過程入手,在分析不同決策過程信息需求的基礎上,選定政府決策信息源,借鑒信息資源庫的建設方法,構建政府決策信息采集模型[5]。

通過筆者對當前危機信息的相關文獻整理研究后發(fā)現(xiàn),危機情報的應急處理基本上都是圍繞大數據環(huán)境下的情報需求,從研究作用機理入手,構建危機應對管理模型。本文通過理論研究和實例分析,使用詞語相似度計算和Folksonomy自由標記語言,通過定量和定性相結合的分析手段,整合海量數據下不同載體形態(tài)的危機信息數據,按照統(tǒng)一的元數據標準規(guī)范進行存儲,把多模態(tài)的危機信息轉化成單一的情報信息源,聚類劃分文本內容特征域集,從而為危機管理中的決策部門提供精準的危機情報。

1 TF.IDF、Folksonomy、RDF的概念及其模型

1.1 TF.IDF的概念及定義

著名的信息檢索系統(tǒng)Smart中提出過一套詞語權重的計算方法,這種度量詞語在文檔中反復出現(xiàn)程度的形式化指標稱為TF.IDF。TF.IDF是信息檢索領域常用的方法[6],計算詞語的TF.IDF權重值,權重得分高的詞語就是文本文檔的主題詞和關鍵特征詞。

TF.IDF的定義如下:

定義1:假定文檔集中有N篇文檔,詞項i在ni篇文檔中出現(xiàn),并且fij為詞項i在文檔j中出現(xiàn)的次數,詞項i在文檔j中的TF.IDF得分計算公式如下:

TFij.IDFi=(fij/maxkfkj)log2(N/ni)

TF是詞項頻率,是指詞項在文檔中出現(xiàn)次數和文檔中所有詞項出現(xiàn)的最大次數的比值,那么文檔中出現(xiàn)次數最多的詞項的TF值是1,文檔中其余詞項的頻率都小于1;IDF是逆文檔頻率。

1.2 Folksonomy的概念及模型

隨著WEB2.0的興起,淡化了信息提供者和信息使用者之間的界限[7],網絡用戶越來越多的參與到資源的組織和共享中去。用戶通過自己的主觀認知和對資源的理解程度,對網絡共享資源進行標記和整理,使得資源更加具體化并便于檢索。從而形成了一種嶄新的文獻分類方法——自由分類法,即Folksonomy標記語言。

Folksonomy包含資源、標簽和用戶3個屬性,基于Folksonomy的自由分類法是通過鼓勵網絡用戶的興趣愛好,針對網絡資源標記標簽的過程。譬如網絡用戶A和網絡用戶B,針對共享資源S1和S2,都標記了自己的標簽Label1、Labe2、Labe3、Labe4。Folksonomy模型如圖1所示。

1.3 RDF的概念與定義

資源描述框架(RDF)是面向語義Web的標準框架,是語義關聯(lián)數據模型的重要組成部分,語義網的基本特征是面向文本所表示的數據,實現(xiàn)計算機自主閱讀和理解的網絡化搜索模式。語義網通過使用RDF資源描述框架直接進行深度的資源描述,RDF以標準的XML形式表達,提供一種表述、交換和利用元數據的框架[8]。

RDF的定義如下:

定義2:RDF通常采用三元組(R,D,F(xiàn))的資源描述框架來描述信息資源或數據對象,其中R是表示資源信息或者數據對象的本身。di∈D={d1,d2,……dm}(i≤m),D是表示資源的m個屬性,或者是事物的某些特性。fi∈F={f1,f2,……fm}(i≤m),F(xiàn)表示資源的每個屬性相對應的鍵值等具體內容。

2 多模態(tài)危機信息的組織整合模型研究

網絡泛在環(huán)境下,突發(fā)事件的危機數據來源復雜多樣,因此采集獲得的信息具有多元性和不確定性。危機信息的來源包括諸如危機管理平臺以及遙感監(jiān)控平臺等途徑,危機管理平臺記錄和收集了大量的文本類型數據集,而遙感監(jiān)控平臺則記錄了大量的圖像類型數據集。危機數據的組織整理是獲得危機情報的基礎工作,危機信息的組織整合過程包括數據集合內容特征項集的提取、信息的RDF資源描述存儲和文本內容特征域的聚類劃分3個階段。危機信息的組織整合模型如圖2所示。

2.1 內容特征項的提取

針對收集整理過程中生成的文本和圖像數據載體信息,需要通過使用文本表示語言和網絡用戶自由標記的途徑,把不同模態(tài)的危機信息源轉化成計算機可以理解和閱讀的單一的自然語言信息源,即通過文本數據和圖像數據的語義降維模式,把多模態(tài)的信息源轉化成基于內容特征項的詞語集合表示。

2.2 元數據的統(tǒng)一存儲

危機信息經過特征項的提取后,通過使用基于語義分析的RDF本體語言來描述危機信息的屬性和概念,生成危機信息的資源描述框架,從而進行更深層次的資源信息組織。根據語義網技術RDF三元組的定義,重新進行深度的描述和整理,使非結構化的數據有序化、結構化和整體化,從而為危機信息數據的采集和萃取整合提供數據級的保障基礎。

2.3 文本內容特征域的聚類劃分

經過信息的整理和特征項集的采集提取之后,形成了以內容特征項集作為標識的詞語集合。為了聚類發(fā)現(xiàn)已經存儲的信息特征項集,通過采用計算詞語集合的文本相似度距離來進行聚類計算,把規(guī)范化的信息集進行自組織分類,從而為危機信息的預警分析提供相同類型的案例。

3 多模態(tài)危機信息的內容特征項提取

公共危機信息采集的數據主要來源有兩種:一種來源途徑是危機管理平臺通過采集網絡社交網站的輿論信息而形成的文本數據;另外一種來源途徑就是通過城市攝像頭等傳感設備采集到的圖像數據格式。由于文本文檔和圖像文檔都是不屬于結構化的數據形態(tài),為了使計算機能夠識別和存儲采集的危機信息,需要通過使用詞語相似度計算和Folksonomy自由標記語言,轉換成基于內容特征項的詞語集合。

3.1 文本數據的內容特征項提取

文本載體類型的數據信息組織和存儲,需要對文本文檔的內容進行字詞切分處理后,從文字中抽取能代表文檔內容特征和彰顯文檔主題特征的關鍵詞。把獲得的關鍵詞作為文檔的項特征集合表示,使用文本內容的項特征集來描述相應的文本文檔。描述主題的特征詞的提取可以通過計算詞語在文檔中的重要程度來形式化表示,TF.IDF是信息檢索中常見的形式化表示模型。

TF.IDF模型是測度詞語在文本中重要程度的量化表示。其中TF是通過統(tǒng)計學的知識來衡量詞語的重要性,是詞語項在本文檔中的出現(xiàn)頻率,與詞語在文檔中出現(xiàn)次數成正比。IDF是逆文檔頻率,是樣本集合中文檔總數與出現(xiàn)詞語項文檔數的比值的對數,與詞語項在樣本集合中出現(xiàn)的次數成反比,TF.IDF模型通過測度TF和IDF的乘積,通過抑制單純的詞語頻率度量方法,調整TF權值,可以有效的區(qū)分不同文檔。

通過計算詞語的TF.IDF權重值,選擇TF.IDF計算得分最高的m個詞語作為文本文檔的特征詞項,從而把文本載體型數據描述成m個詞語項的集合進行信息存儲。

文本載體型數據的內容特征項提取算法如下:

輸入:N篇文檔

輸出:N個集合,每個集合包含m個詞語

Begin

Step1.使用2-shingling算法進行字詞的切分處理

Step2.調用停用詞表刪除文檔中的停用詞

Step3.計算詞語文檔中的TF.IDF權重,選擇權重最大的m個詞語作為文本的特征詞項

Repeat Step1,Step2,Step3

Until所有文檔處理完畢;

文本數據的內容特征項提取,即是通過使用詞語相似度計算的表示算法,使用特征詞語集合來表示文本內容,從而把獲取的危機信息文本載體型數據進行結構化的統(tǒng)一表示和存儲。

3.2 圖像數據的內容特征項提取

圖像數據的計算機存儲是以圖像的像素數組來構成,我們可以計算圖像像素的平均數目等簡單屬性,但是無法給出任何圖像特征的內容項。但是自由標記語言使得我們對圖像內容的辨認和識別有了可能性,F(xiàn)olksonomy的自由標記語言允許和鼓勵用戶對網絡上導航發(fā)布的圖像信息數據庫進行標記,因此針對圖像數據的存儲可以通過采用用戶自由標記的關鍵詞Tag項作為其內容特征的識別方法,使非結構化的圖像載體類文件可以通過結構化的數據表示。

大數據環(huán)境下,F(xiàn)olksonomy中海量的用戶參與資源信息的標記為我們確定圖像的特征詞項提供了數據基礎,偶爾的錯誤標記也不會對該圖像內容屬性造成大的影響。自由標記語言統(tǒng)計圖像的用戶標簽頻次,通過可視化技術使資源的標簽按照頻次多少進行上浮和下沉,然后選擇標引頻次最高的關鍵詞作為該圖像的特征詞項,從而完成圖像載體形態(tài)數據的結構化表示過程。

圖像數據的內容特征項提取算法如下:

輸入:N個圖像

輸出:N個集合,每個集合包含m個詞語

Begin

Step1.計算圖像的所有標記詞語的頻率次數

Step2.選擇頻率次數最高的m個詞語作為文本文檔的特征詞項

Repeat Step1,Step2

Until所有圖像處理完畢;

根據圖像數據表示的處理算法,把獲取的危機信息圖像格式數據進行文本表示,把圖像數據的用戶標記進行頻次統(tǒng)計,提取對應的關鍵詞項集合。

3.3 特征項集的RDF描述存儲

文本文檔格式和圖像格式的危機信息數據經過提取代表內容特征的詞語集合進行表示,萃取后的詞語集合不但能夠代表相應的數據源特征,而且能夠把不同的數據來源進行歸一化處理,轉換成能夠被計算機識別存儲的結構化數據。

基于語義網關聯(lián)數據挖掘算法的出現(xiàn)讓突發(fā)事件應對相關的危機全數據采集成為可能。語義網是新一代的互聯(lián)網核心,語義關聯(lián)數據模型是指基于語義關聯(lián)的數據表達和結構組織模型,該模型不但包含資源信息,同時也包含信息之間異構的語義結構。從而進行更深層次的資源信息組織,為危機數據的聚類計算提供基礎條件。

危機信息中的資源描述框架中,R是危機信息來源,D是危機信息的內容特征屬性,F(xiàn)是能夠表示該危機內容特征的屬性值,即特征項的集合。使用RDF三元組來表示和描述歸一化處理后的危機數據,可以更深層次的揭示危機信息的內容特征屬性,同時是非結構化的危機數據有序化。危機信息的元數據的RDF/XML表述如下:

〈?xml version=″1.0″?〉

〈rdf:RDF

xmlns:rdf=http:∥www.w3.org/1999/02/22-rdf-syntax-ns#

xmlns:dc=″WB000002″〉

〈rdf:Description〉

〈dc:feature〉

〈rdf:Bag〉

〈rdf:li〉關鍵詞1〈/rdf:li〉

〈rdf:li〉關鍵詞2〈/rdf:li〉

〈rdf:li〉關鍵詞3〈/rdf:li〉

〈/rdf:Bag〉

〈/dc:feature〉

〈/rdf:Description〉

〈/rdf:RDF〉

危機信息的特征詞項集合通過上述的RDF語義關聯(lián)結構來描述和存儲,把非結構化的多種數據存在形式轉換成統(tǒng)一的、計算機可以識別的語義結構表示,為危機信息的聚類分析和情報預警提供數據級的基礎保障。

4 基于Map-Reduce的危機信息聚類研究

公共危機信息經過采集后,形成了以內容項為特征的詞語集合,因此可以通過采用計算不同詞語集合之間的相似度距離來進行聚類計算,把采集的公共危機進行自組織分類,自動聚類已經存儲的危機信息特征項集合,發(fā)現(xiàn)該危機的類型并建立危機模型,從而在危機預警期間為危機的管理決策部門提供相同類型的分析案例和預警方案,提高突發(fā)危機事件的應急處理能力。

本文詞語集合之間的組織分類采用距離計算中的Jaccard距離度量。給定詞語集合A和詞語集合B,那么詞語集合A和詞語集合B的距離計算公式如下:

Jaccard(A,B)=1-SIM(A,B)(1)

SIM(A,B)=A∩B/A∪B(2)

假定詞語集合A={關鍵詞1;關鍵詞2;關鍵詞3;關鍵詞4}和詞語集合B={關鍵詞1;關鍵詞2;關鍵詞3;關鍵詞5},因此集合A和集合B的并集共有5個關鍵詞語,集合A和集合B的交集是3個相同關鍵詞,由公式(1)、(2)可知,詞語集合A和詞語集合B的距離Jaccard(A,B)=1-3/5=0.4,假定給定的距離閾值是0.5,距離閾值可以根據分類的實際效果進行設定。由于Jaccard(A,B)<0.5,因此詞語集合A和詞語集合B是相似度高的詞語集合,即詞語集合A和詞語集合B所表示的危機信息被認定是屬于同一類型的危機。如果兩個詞語集合的Jaccard距離大于給定的距離閾值,就表明這個詞語集合相似度比較低,那么這兩個詞語集合所表示的危機信息則不會被計算機認定為同一類型。通過計算危機信息的詞語集合Jaccard距離,可以很容易的把危機信息進行類別劃分,從而在危機預警過程中匹配同類型的預警案例。

在網絡泛在環(huán)境下,通過各種渠道獲得的危機信息是單個人和單臺機器無法計算和處理的。面對海量的數據,分布式的高效存儲系統(tǒng)具有高度的容錯性和并發(fā)性,是處理海量數據的基礎條件,同時分布式的高效處理系統(tǒng)就更加顯得非常重要。Map-Reduce是非常強大的分布式計算方法,通過使用Map-Reduce計算模式的投影算法能滿足非關系型危機數據的分布處理需要,支撐起組分異質型數據的融合處理,從而滿足海量數據的同步計算和分布處理,保障大數據環(huán)境下海量危機信息數據的分類組織,為危機的預警管理提供情報支持。

5 結束語

針對危機信息中常見的兩種存在形式,本文通過使用詞語相似度計算和Folksonomy自由標記語言,把不同模態(tài)的危機信息源轉化成單一的基于內容特征項的詞語集合。然后通過使用基于語義分析的RDF本體語言來描述危機信息的屬性和概念,生成危機信息的資源描述框架,聚類劃分文本內容特征域集,把規(guī)范化的信息資源進行自組織分類,從而進行更深層次的資源信息組織和整合,為危機信息的預警分析提供相同類型的案例。但是還要加強其他信息情報機構的參與和縱向合作[9],為危機管理中的決策部門提供精準的危機情報,從而積極發(fā)揮情報效用,為突發(fā)事件的應急管理進行案例分析和情報預警。

參考文獻

[1]鄭紅玲.突發(fā)事件應急管理面臨的挑戰(zhàn)及對策[J].領導科學,2010,29:55-56.

[2]畢玉青.基于大數據視野下的地方政府公共危機管理研究[J].現(xiàn)代經濟信息,2016,(2):141,143.

[3]熊楓.基于大數據時代的政府危機信息管理研究[J].蘭州學刊,2015,(5):193-197.

[4]李陽,李綱.工程化與平行化的融合:大數據時代下的應急決策情報服務構思[J].圖書情報知識,2016,(3):4-14.

[5]吳春玉.政府決策信息采集模型研究[J].情報科學,2006,(3):373-376.

[6]覃世安,李法運.文本分類中TF-IDF方法的改進研究[J].現(xiàn)代圖書情報技術,2013,(10):27-30.

[7]余本功,顧佳偉.基于Folksonomy和RDF的信息組織與表示[J].現(xiàn)代圖書情報技術,2014,(11):24-30.

[8]馬張華.信息組織(第3版)[M].北京:清華大學出版社,2008:53-77.

[9]宋丹,高峰.美國自然災害應急管理情報服務案例分析及其啟示[J].圖書情報工作,2012,20:79-84.

(責任編輯:孫國雷)