朱鵬 朱星圳 王莉
〔摘 要〕為探究突發(fā)事件信息瀑布溯源機(jī)理,本文設(shè)計了基于時間序列與信息融合的信息瀑布溯源模型。論文以“美聯(lián)航拖拽亞裔”突發(fā)事件為案例,運(yùn)用TF-IDF與TextRank算法進(jìn)行關(guān)鍵信息抓取,借助OWL本體技術(shù)、時間序列及信息融合模型,實現(xiàn)了突發(fā)事件信息瀑布的溯源,并提醒相關(guān)職能機(jī)構(gòu)等控制事態(tài)發(fā)展。本研究是對信息溯源方法的探索與補(bǔ)充,能幫助相關(guān)管理機(jī)構(gòu)對信息瀑布實行預(yù)測與調(diào)控。
〔關(guān)鍵詞〕突發(fā)事件;信息瀑布;時間序列;信息融合模型;溯源方法
DOI:10.3969/j.issn.1008-0821.2018.10.006
〔中圖分類號〕G206.2 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)10-0038-05
〔Abstract〕In order to explore the traceability mechanism of emergencies information cascades,this paper designs an information cascades traceability model based on time series and information fusion.This study takes“United Airlines dragging Asian Americans”as a case,uses TF-IDF and TextRank algorithm to capture key information,then takes OWL ontology technology,time series and information fusion model to trace the origin of emergencies information cascade,and remind the relevant functional agencies to control the development of events.This work is an exploration and supplement to the method of information traceability,it can help the relevant management institutions to predict and control the information cascade.
〔Key words〕emergencies;information cascade;time series;information fusion;tracing method
隨著云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)的興起和發(fā)展,信息以井噴式的速度增長,海量信息資源開發(fā)與共享的時代已經(jīng)來臨,使得突發(fā)事件的研究進(jìn)入了新階段。近年來,各類高關(guān)注度的突發(fā)事件層出不窮,如馬航MH370失蹤事件,美國波士頓馬拉松爆炸事件,美國聯(lián)合航空公司強(qiáng)行拖拽亞裔乘客事件等。這類突發(fā)事件會產(chǎn)生極大的社會影響,快速形成突發(fā)事件信息瀑布,此類信息瀑布發(fā)展態(tài)勢迅猛,往往會對依存的環(huán)境與組織帶來顛覆性與毀滅性的破壞[1]。深入研究突發(fā)事件信息瀑布,厘清其發(fā)生機(jī)制、演化特征,對理解與治理突發(fā)事件輿情有著重要的理論與現(xiàn)實意義[2]?;诖?,本文從信息瀑布溯源的角度探究突發(fā)事件信息瀑布發(fā)生發(fā)展的演進(jìn)過程,從而為突發(fā)事件信息瀑布治理提供策略支持。目前,已有不少根據(jù)追蹤路徑重現(xiàn)信息歷史狀態(tài)與演變過程,實現(xiàn)數(shù)據(jù)信息歷史檔案追溯的技術(shù)[3],但由于信息具有易復(fù)制、易擴(kuò)散等特性,其溯源存在一定的難度。針對此,本文設(shè)計了基于時間序列與信息融合的突發(fā)事件信息瀑布溯源的新方法,挖掘突發(fā)事件信息瀑布各時間節(jié)點的源頭,以期為信息瀑布的調(diào)控治理提供策略支持。
1 相關(guān)工作
信息溯源(Information Provenance)又稱信息起源[4],Simmhan等人[5]將數(shù)據(jù)溯源定義為從元數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的衍生過程信息追蹤。Glavic等人在其研究中認(rèn)為數(shù)據(jù)溯源是對目標(biāo)數(shù)據(jù)衍生前的原始數(shù)據(jù)以及演變過程的描述[6];Interlandi等在此基礎(chǔ)上進(jìn)行了拓展,認(rèn)為數(shù)據(jù)溯源作為一種元數(shù)據(jù),記錄工作流演變過程、標(biāo)注信息以及實驗過程等信息[7]。
國內(nèi)來看,戴超凡等[8]在前人理論研究的基礎(chǔ)上,將數(shù)據(jù)溯源定義為“記錄數(shù)據(jù)從產(chǎn)生到消亡或轉(zhuǎn)換的整個生命周期內(nèi)所發(fā)生的變化和經(jīng)過處理的信息”;明華等[9]在研究中將其定義為“根據(jù)追蹤路徑重現(xiàn)數(shù)據(jù)的歷史狀態(tài)和演變過程,實現(xiàn)數(shù)據(jù)歷史檔案追溯的一種追本溯源技術(shù)”。由此可見,信息溯源的重點在于追蹤強(qiáng)調(diào)數(shù)據(jù)處理過程、流轉(zhuǎn)產(chǎn)生的數(shù)據(jù)流、流經(jīng)節(jié)點、使用情況等的信息,以服務(wù)于流程再造,追本溯源。也就是說,數(shù)據(jù)溯源可定義為根據(jù)數(shù)據(jù)運(yùn)動產(chǎn)生的數(shù)據(jù)流信息,在面臨個人數(shù)據(jù)隱私泄露溯源等需要時,重現(xiàn)個人數(shù)據(jù)的歷史演變路徑的溯源過程,從而確定泄露源或發(fā)出者的身份、位置等信息[10]。
數(shù)據(jù)溯源重點在于建立數(shù)據(jù)溯源模型,由于數(shù)據(jù)結(jié)構(gòu)越來越復(fù)雜,數(shù)據(jù)量越來越大,需要考慮數(shù)據(jù)的異構(gòu)性,形成結(jié)合時間、過程和異構(gòu)分布特征的模型,再將這些數(shù)據(jù)信息存儲為帶有溯源信息的異構(gòu)數(shù)據(jù)庫,通過數(shù)據(jù)庫接口連接成目標(biāo)數(shù)據(jù)庫,最終從這個目標(biāo)數(shù)據(jù)庫進(jìn)行逆操作實現(xiàn)數(shù)據(jù)溯源[11]。目前最具代表性的溯源方法有兩種:基于查詢反演(QueryInversion)的數(shù)據(jù)溯源方法[12]和基于標(biāo)注(Annotation)的數(shù)據(jù)溯源方法[13]。前者是對查詢或演化過程構(gòu)造逆查詢或反向推導(dǎo),后者是指原始數(shù)據(jù)的傳播過程中加入標(biāo)注信息一起傳播,通過對結(jié)果數(shù)據(jù)的分析和推導(dǎo)找到標(biāo)注信息從而找到數(shù)據(jù)起源。
綜合來看,目前關(guān)于信息溯源的研究已經(jīng)取得了豐厚的成果,然而尚有部分內(nèi)容值得探究。具體變現(xiàn)為:首先,大數(shù)據(jù)時代效率尤為重要,但基于標(biāo)注的信息溯源方法產(chǎn)生的標(biāo)注信息量甚至大于原始數(shù)據(jù)量,這使得數(shù)據(jù)信息在傳輸過程的速度大大降低;而基于查詢反演的溯源方式則在信息傳遞一段時間后難以根據(jù)反函數(shù)得出準(zhǔn)確結(jié)果,其誤差會隨著信息傳播時間的長度發(fā)生正向增長。其次,作為動態(tài)數(shù)據(jù)流,高頻率的數(shù)據(jù)輸入對溯源系統(tǒng)的開銷和吞吐量有著極高的要求,而標(biāo)注信息和反向推導(dǎo)的過程都占據(jù)了大量的空間和時間。基于此,本文將這兩種傳統(tǒng)方法融合取其精粹,提出了基于時間序列與信息融合的信息溯源方法,并將其應(yīng)用到突發(fā)事件信息瀑布溯源領(lǐng)域。
2 研究模型
2.1 突發(fā)事件信息瀑布時間序列
突發(fā)事件信息瀑布類型多樣,但都具有其最基本的時間序列特征,都要經(jīng)歷形成、傳播、漂移、嬗變與演進(jìn)五個階段[14],且突發(fā)事件信息瀑布的產(chǎn)生一般難以預(yù)測,突發(fā)事件一旦發(fā)生,人們就爭相通過互聯(lián)網(wǎng)來交流相關(guān)信息,提出諸多意見并多次轉(zhuǎn)發(fā)傳播從而形成突發(fā)事件信息瀑布,對社會穩(wěn)定造成不利影響[15];形成和傳播是突發(fā)事件信息瀑布發(fā)生質(zhì)變后產(chǎn)生巨大影響的過程。由于事件被推向大眾面前,其產(chǎn)生過程中逐步積累起來的種種意識形態(tài)通過網(wǎng)絡(luò)數(shù)據(jù)信息的形式快速傳遞,產(chǎn)生巨大的影響力,給整個社會帶來不同程度的動蕩[16];漂移與嬗變期是指在突發(fā)事件信息瀑布廣泛傳播之后,由此帶來的人們的議論,形成社會輿論,超過了相關(guān)部門可以管控的階段。許多情況下,漂移與嬗變之間沒有明顯的界線劃分,兩者是同時進(jìn)行的[17];整個突發(fā)事件信息瀑布發(fā)展穩(wěn)定之后進(jìn)入演進(jìn)的節(jié)點。這一時期按照不同的標(biāo)準(zhǔn)會有不同的結(jié)論。而信息瀑布在經(jīng)歷這些時間序列后,會步入新信息瀑布形成階段,從管理的角度出發(fā),可以以社會恢復(fù)正常運(yùn)行狀態(tài)為結(jié)束標(biāo)志;從過程的角度出發(fā),可以以危害和影響完全消除作為結(jié)束標(biāo)志[18]。本文設(shè)計的突發(fā)事件信息瀑布時間序列如圖1所示,與此同時,針對時間序列我們提出了各階段可能對應(yīng)的平臺或過程。
如圖1所示,突發(fā)事件信息瀑布時間序列的每個過程都有具體的平臺或相應(yīng)機(jī)構(gòu),在不同的時間節(jié)點承擔(dān)不同的調(diào)控職責(zé),在突發(fā)事件信息瀑布時間序列的演化過程中,可以通過平臺或機(jī)構(gòu)來檢測突發(fā)事件現(xiàn)象,一旦事態(tài)不能正常發(fā)展,可以溯源找到責(zé)任人,同時實現(xiàn)對突發(fā)事件信息瀑布做出應(yīng)對與調(diào)控。因而,追蹤與捕獲突發(fā)事件信息瀑布時間序列的各個階段中引發(fā)突發(fā)事件的實體行為可以更好地進(jìn)行問題溯源。
2.2 突發(fā)事件信息瀑布信息融合模型設(shè)計
信息融合是將各種途徑、任意時間和空間上獲得的信息作為一個整體進(jìn)行綜合分析處理,為決策以及控制服務(wù)[19]。信息融合模型至少需要有原始數(shù)據(jù)層、特征層以及決策層。其信息抽象程度由低向高逐層劃分。其中原始數(shù)據(jù)層是對收集到的數(shù)據(jù)的存儲、檢測和過濾,進(jìn)行數(shù)據(jù)的錄入和簡單篩選,在包括時間序列數(shù)據(jù)、焦平面數(shù)據(jù)等像素或分辨單位上進(jìn)行;特征數(shù)據(jù)層則是對上一層中的原始信息進(jìn)行處理后存儲的內(nèi)容。收集到的原始信息多種多樣,而儲存的特征數(shù)據(jù)則是對這些信息的融合,特征層數(shù)據(jù)的融合是將信息特征進(jìn)行信息聚類、分類等數(shù)據(jù)處理過程,為決策層提供數(shù)據(jù)輸入;決策層則是根據(jù)不同形式的數(shù)據(jù)輸入輸出目標(biāo),將特征數(shù)據(jù)進(jìn)行融合。決策層融合的輸出分為兩種形式:硬決策是輸出最終結(jié)論,而軟決策是同時給出各個結(jié)論的支持程度[20]。在上述3個層次中,特征層是最重要的環(huán)節(jié),它在整個信息融合模型中起到了承上啟下的作用。
在本文中,主要依托時間序列數(shù)據(jù),構(gòu)建實現(xiàn)突發(fā)事件信息瀑布溯源的信息融合模型,具體步驟如下:
Step 1:明確本體構(gòu)建的領(lǐng)域范圍。對于突發(fā)事件信息瀑布來說,應(yīng)當(dāng)選定具體的突發(fā)事件,盡可能涵蓋所選領(lǐng)域中的所有知識和線索,但范圍不能過大,極大的本體范圍會對整個模型造成難以承受的負(fù)荷。本文擬選擇美聯(lián)航拖拽乘客的事件,本體領(lǐng)域是與美聯(lián)航相關(guān)的所有信息資源,其時間上既包含事件發(fā)生前的相關(guān)信息,又包括后續(xù)報道等,形成較為完整的突發(fā)事件信息瀑布時間序列。
Step 2:獲取領(lǐng)域知識、定義關(guān)系。一旦選定某一突發(fā)事件,便可以將與之相關(guān)的數(shù)據(jù)信息都收集進(jìn)數(shù)據(jù)倉庫,明確數(shù)據(jù)之間的關(guān)系,定義明確、清晰的類,確定屬性,找出類之間的邏輯關(guān)系。將其作為原始數(shù)據(jù),即作為信息融合模型中的原始數(shù)據(jù)層。明確美聯(lián)航事件中涉及的人事物等,整理其中的關(guān)系。
Step 3:用OWL表示本體。OWL本體包含有類、屬性和個體的描述,將抽象出來的時間序列數(shù)據(jù)信息放到模型中的特征數(shù)據(jù)層。本體本身就是從現(xiàn)實知識世界中抽象剝離出來的,因此本體將獲取到的領(lǐng)域知識轉(zhuǎn)化成了其可處理的具有特征項的編碼。本文中美聯(lián)航突發(fā)事件信息瀑布的本體抽象如圖2所示。
在圖2中,左側(cè)是有關(guān)航空產(chǎn)業(yè)(owl:Thing)的部分概念,整個航空產(chǎn)業(yè)中包含有航空公司和乘客兩個部分,這兩個子類之間是互斥關(guān)系(owl:disjointWith)。右側(cè)是美聯(lián)航(美國聯(lián)合航空公司)的一個個體,是左側(cè)概念在現(xiàn)實世界中反映的一個值,乘客的值域是群眾,但同時群眾也可以是乘客,兩者為互逆關(guān)系(owl:inverseOf),且兩者都有個體的屬性。最后再對每個類添加個體,如:亞裔乘客,媒體等,表示現(xiàn)實世界中的聯(lián)系,見圖3。
通過圖3中OWL本體的邏輯關(guān)系可以看出:最底層取自于現(xiàn)實世界,是客觀存在的個體,是現(xiàn)實知識的收集,是本體的來源;中間層是知識概念化,本體模型是從現(xiàn)實知識體系中抽象出來的,代表了所選領(lǐng)域的特征,獨立于任何表示語言;頂層是機(jī)器可識別的編碼層,是用特定的OWL語言將前面層的知識轉(zhuǎn)化成計算機(jī)語言[21]。
Step 4:提出信息融合模型。本文采用關(guān)聯(lián)數(shù)據(jù)思想進(jìn)行模型連接,關(guān)聯(lián)數(shù)據(jù)采用RDF數(shù)據(jù)模型。由于每個數(shù)據(jù)的網(wǎng)址URL就是其名稱標(biāo)識(包含各種格式的元數(shù)據(jù)信息),因此在關(guān)聯(lián)數(shù)據(jù)的基礎(chǔ)上建立的信息融合模型中存儲的數(shù)據(jù)本身就是結(jié)構(gòu)化數(shù)據(jù)。準(zhǔn)確來說,關(guān)聯(lián)數(shù)據(jù)是指網(wǎng)絡(luò)上傳播的信息或數(shù)據(jù),可以與外部數(shù)據(jù)相互鏈接[22]。OWL作為本體表示語言繼承了RDF的基本事實陳述方式、類和屬性分層結(jié)構(gòu),用該語言對數(shù)據(jù)倉庫中的關(guān)聯(lián)數(shù)據(jù)構(gòu)架本體,形成機(jī)器可處理的有語義的編碼。
本文提出的時間序列信息融合模型,主要通過采集美聯(lián)航突發(fā)事件形成的輿情信息瀑布,構(gòu)建美聯(lián)航突發(fā)事件OWL本體,并基于OWL本體設(shè)計突發(fā)事件信息與責(zé)任機(jī)構(gòu)雙重交互的模塊。該模塊既鏈接突發(fā)事件信息瀑布的時間序列(形成、傳播、嬗變、漂移、演進(jìn)),又實現(xiàn)了責(zé)任機(jī)構(gòu)的溯源問責(zé),能根據(jù)突發(fā)事件的具體時間節(jié)點和事件狀態(tài),實現(xiàn)突發(fā)事件信息瀑布的管控與問責(zé)。具體模型如圖4所示。
3 實驗與結(jié)果分析
構(gòu)建時間序列突發(fā)事件信息瀑布信息融合模型后,本研究選取2017年4月9日發(fā)生的美國聯(lián)合航空公司強(qiáng)行拖拽亞裔乘客事件作為模型驗證的實驗案例,此突發(fā)事件發(fā)生后引發(fā)廣大人民群眾的熱議,隨著事件的發(fā)展,人們對涉事人員的態(tài)度也褒貶不一,其中不乏一些激進(jìn)的言論和行為,形成了較為強(qiáng)烈的信息瀑布。
實驗首先通過從網(wǎng)站等媒體平臺中抓取了美國聯(lián)合航空公司強(qiáng)行拖拽亞裔乘客事件信息瀑布的新聞并提取關(guān)鍵
詞;其次,通過分析突發(fā)事件信息瀑布的本體領(lǐng)域、獲取領(lǐng)域知識及定義關(guān)系,并用OWL表示本體;再次,使用TF-IDF算法和TextRank算法進(jìn)行突發(fā)事件信息瀑布的篩選與重點提??;最后,將美國聯(lián)合航空公司強(qiáng)行拖拽亞裔乘客突發(fā)事件信息瀑布時間序列的關(guān)鍵節(jié)點帶入信息融合模型,通過映射挖掘相關(guān)平臺或機(jī)構(gòu),實現(xiàn)突發(fā)事件信息瀑布的溯源與問責(zé)。
3.1 TF-IDF算法信息瀑布關(guān)鍵詞提取
該算法中使用到了Lucene jar包和je分詞包。在本案例中,首先對爬取的突發(fā)事件信息瀑布數(shù)據(jù)進(jìn)行分詞,并求得其TF值,具體數(shù)值見表1。
其次,對每個詞在整個語料庫中的權(quán)重進(jìn)行計算,得出IDF值。其中詞條‘受損、‘借口、‘一些、‘手段、‘航空業(yè)的IDF值均為0.60206,而‘媒的IDF值為0.12493875。最后,根據(jù)前面算出的TF值和IDF值相乘得出最終值,并以此判斷是否為信息瀑布關(guān)鍵詞。
根據(jù)結(jié)果可以看出,雖然其事件都是圍繞美聯(lián)航,但每篇文章的關(guān)鍵詞和重點都不同,3.txt中側(cè)重于整個事件的過程:乘客遭到航空公司威脅;2.txt中:美聯(lián)航支持員工行為;1.txt當(dāng)中則是:乘客因為飛機(jī)票被拖拽;5.txt中:涉事警員被停職。由此可見對不同的文章,其表述內(nèi)容不同,引發(fā)的信息瀑布現(xiàn)象也不同。
3.2 基于TextRank算法的信息瀑布關(guān)鍵內(nèi)容提取分析 TextRank算法借助了Jieba分詞和Snowlp所提供的與TextRank相關(guān)的關(guān)鍵詞提取以及摘要生成[24]。TextRank先將文章拆分為句子,過濾停用詞等,保留分詞后的結(jié)果,將最終的詞作為節(jié)點,詞所構(gòu)成的句子形成窗口,每個句子(即每個窗口)中的詞之間的線段既沒有方向,也沒有權(quán)重。而句子之間的線段則是根據(jù)句子之間的相似度計算權(quán)重。
由于突發(fā)事件信息瀑布評論數(shù)據(jù)量巨大,在實驗中先在數(shù)據(jù)庫中將評論篩選1次,對單條評論字?jǐn)?shù)超過20的進(jìn)行關(guān)鍵詞提取,但仍舊有著極大的數(shù)量,因而實驗進(jìn)行了多次重要關(guān)鍵詞的提取與分析。
3.3 突發(fā)事件信息瀑布溯源結(jié)果分析
3.3.1 基于時間序列突發(fā)事件信息瀑布溯源分析
每個事件都有其發(fā)生的時間序列,當(dāng)事件成為突發(fā)事件時,最初爆發(fā)的時間點就成為突發(fā)事件的起點,所有與該時間點相近的時刻所產(chǎn)生的相關(guān)言論、評論都極有可能會和該突發(fā)事件信息瀑布產(chǎn)生根源處的聯(lián)系。按時間序列溯源就是找出突發(fā)事件信息瀑布的形成、傳播、漂移、嬗變、演進(jìn)的各個時間節(jié)點,對這些時刻附近的與該突發(fā)事件相關(guān)的信息抓取下來,找出對應(yīng)信息的發(fā)布人,從而達(dá)到確定責(zé)任人的目的。這是溯源過程中最簡單的方式。其效果對新聞網(wǎng)站上的信息瀑布作用比較大,新聞網(wǎng)站上的信息大多是基于一定事實根據(jù)的,所以其發(fā)布的信息在網(wǎng)絡(luò)上的流傳也較為有效,形成的信息瀑布也比較固定規(guī)范,按時間序列溯源也很容易找到最初發(fā)布信息的網(wǎng)站或集體。
3.3.2 根據(jù)信息融合模型對突發(fā)事件信息瀑布溯源分析
實驗中,運(yùn)用了TF-IDF和TextRank兩種算法提取關(guān)鍵信息,在信息融合模型中建立了有關(guān)部門和關(guān)鍵信息的詞典,該詞典中包含有各個部門以及與部門相關(guān)的事件關(guān)鍵詞,通過對收集到關(guān)鍵詞與詞典中關(guān)鍵詞的匹配,盡可能多的選取相關(guān)的部門作為責(zé)任方。
通過多次計算,可以得出,在本文收集到的新聞數(shù)據(jù)中的關(guān)鍵信息為:美聯(lián)航、強(qiáng)行、拖拽乘客、下飛機(jī)、醫(yī)生;評論數(shù)據(jù)中的關(guān)鍵詞為:美國、歧視、華人、選、機(jī)票。由此可以看出事件發(fā)生后媒體報道的新聞重點在于整個事件的過程以及涉及的人或單位;而評論中含有群眾的主觀想法,這些想法會進(jìn)一步形成信息瀑布,引發(fā)社會議論與沖動性行為,如果不及時處理可能會引起社會化激進(jìn)行為,產(chǎn)生不良的社會影響。從評論中流落出的主觀思想來看,人民群眾對該突發(fā)事件十分憤慨,更是在嚴(yán)厲譴責(zé)美聯(lián)航的行為,如果任由事件發(fā)展下去,會對美聯(lián)航的極為負(fù)面的影響,不僅會受到乘客的聯(lián)合抗議與抵制,受到華人的強(qiáng)烈譴責(zé),另外中美的航空產(chǎn)業(yè)發(fā)展也可能因此受到影響。為了控制事態(tài)發(fā)展,找出解決對策,在該案例中通過時間序列信息融合模型溯源提取出來的關(guān)鍵詞可以幫助追溯相關(guān)的責(zé)任單位,匹配到的與之相關(guān)的責(zé)任者。
4 結(jié) 論
本研究通過對信息瀑布溯源的探討,借助TF-IDF、TextRank和OWL本體技術(shù)分析數(shù)據(jù)來源的多樣性和復(fù)雜性,基于時間序列與信息融合模型,設(shè)計了運(yùn)用多種算法提取關(guān)鍵信息的方法,對抓取到的信息瀑布數(shù)據(jù)進(jìn)行處理分析,通過對分析處理的結(jié)果進(jìn)行溯源,找到突發(fā)事件過程中的關(guān)鍵人物以及相關(guān)部門。論文以美國聯(lián)合航空公司強(qiáng)行拖拽亞裔乘客突發(fā)事件為案例,驗證了模型和方法的可行性,并認(rèn)為通過時間序列和信息融合模型對信息瀑布溯源是行之有效的。本研究能為政府等機(jī)構(gòu)組織控制突發(fā)事件事態(tài)發(fā)展提供決策支持,研究方法是對信息溯源的增量補(bǔ)充。
參考文獻(xiàn)
[1]Sattari M,Zamanifar K.A Cascade Information Diffusion Based Label Propagation Algorithm for Community Detection in Dynamic Social Networks[J].Journal of Computational Science,2018,25:122-133.
[2]李建標(biāo),巨龍,任廣乾.鈍化信念維系的信息瀑布及其應(yīng)用[J].經(jīng)濟(jì)評論,2011,(3):30-35.
[3]沈志宏,張曉林.語義網(wǎng)環(huán)境下數(shù)據(jù)溯源表達(dá)模型研究綜述[J].現(xiàn)代圖書情報技術(shù),2011,(4):1-8.
[4]Stamatogiannakis M,Athanasopoulos E,Bos H,et al.PROV2R:Practical Provenance Analysis of Unstructured Processes[J].ACM Transactions on Internet Technology,2017,17(4):37.
[5]Simmhan Y L,Plale B,Gannon D.A Framework for Collecting Provenance in Data-Centric Scientific Workflows[J].Icws,2006:427-436.
[6]Glavic,Boris,Dittrich,Klaus.Data Provenance:A Categorization of Existing Approaches[J].Symposium on Combustion,2007,23(1):693-698.
[7]Interlandi M,Shah K,Tetali S D,et al.Titian:Data Provenance Support in Spark[J].Proceedings of the Vldb Endowment,2015,9(3):216-227.
[8]戴超凡,王濤,張鵬程.數(shù)據(jù)起源技術(shù)發(fā)展研究綜述[J].計算機(jī)應(yīng)用研究,2010,27(9):3216-3221.
[9]明華,張勇,符小輝.數(shù)據(jù)溯源技術(shù)綜述[J].小型微型計算機(jī)系統(tǒng),2012,(9):1917-1923.
[10]殷建立,王忠.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)溯源管理體系研究[J].情報科學(xué),2016,35(2):139-143.
[11]倪靜,孟憲學(xué).關(guān)聯(lián)數(shù)據(jù)環(huán)境下數(shù)據(jù)溯源描述語言的比較研究[J].現(xiàn)代圖書情報技術(shù),2013,29(2):18-23.
[12]Fan H.Tracing Data Lineage Using Automed Schema Transformation Pathways[M].Advances in Databases.Springer Berlin Heidelberg,2002:50-53.
[13]Chiticariu L,Tan W C,Vijayvargiya G.DBNotes:A Post-it System for Relational Databases Based on Provenance[C].ACM SIGMOD International Conference on Management of Data,Baltimore,Maryland,Usa,June.DBLP,2005:942-944.
[14]Zhao Xin,Barber Stuart,Taylor Charles C.,et al.Classification Tree Methods for Panel Data Using Wavelet-transformed Time Series[J].Computational Statistics & Data Analysis,2018,127:204-216.
[15]張玉亮.基于發(fā)生周期的突發(fā)事件網(wǎng)絡(luò)輿情風(fēng)險評價指標(biāo)體系[J].情報科學(xué),2012,(7):1034-1037.
[16]楊長春,袁敏.基于交互關(guān)系的突發(fā)事件熱度預(yù)測研究[J].現(xiàn)代情報,2017,37(3):40-45.
[17]蘭月新.突發(fā)事件網(wǎng)絡(luò)謠言傳播規(guī)律模型研究[J].圖書情報工作,2012,56(14):57-61.
[18]李綱,陳璟浩.突發(fā)公共事件網(wǎng)絡(luò)輿情研究綜述[J].圖書情報知識,2014,(2):111-119.
[19]曹高輝,徐元,梁夢麗,等.基于情境的信息融合模型研究[J].情報學(xué)報,2017,36(6):537-546.
[20]杜元偉,楊娜,DUYuan-wei,等.大數(shù)據(jù)環(huán)境下雙層分布式融合決策方法[J].中國管理科學(xué),2016,24(5):127-138.
[21]顧益軍.融合LDA與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2014,30(7):41-47.
[22]丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報,2011,(6):50-53.
[23]Wu H C,Luk R W P,Wong K F,et al.Interpreting TF-IDF Term Weights as Making Relevance Decisions[J].Acm Transactions on Information Systems,2008,26(3):55-59.
[24]王子璇,樂小虬,何遠(yuǎn)標(biāo).基于WMD語義相似度的TextRank改進(jìn)算法識別論文核心主題句研究[J].現(xiàn)代圖書情報技術(shù),2017,1(4):1-8.
(責(zé)任編輯:孫國雷)