国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖數(shù)據(jù)庫(kù)的貴州省大數(shù)據(jù)政策知識(shí)建模研究*

2020-05-09 00:51:10張維沖王芳黃毅
數(shù)字圖書館論壇 2020年4期
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù)庫(kù)政策

張維沖 王芳 黃毅

(1.南開大學(xué)商學(xué)院,天津 300071;2.中電科大數(shù)據(jù)研究院有限公司,貴陽(yáng) 550081;3.南開大學(xué)網(wǎng)絡(luò)社會(huì)治理研究中心,天津 300071)

國(guó)家治理現(xiàn)代化離不開政府治理現(xiàn)代化,建設(shè)數(shù)字政府是推進(jìn)政府治理和國(guó)家治理現(xiàn)代化的重要途徑。當(dāng)前數(shù)字政府建設(shè)中,普遍存在政務(wù)數(shù)據(jù)“擁而難用、匯而不慧”的現(xiàn)象。雖然政務(wù)數(shù)據(jù)共享開放工作不斷深入,跨部門數(shù)據(jù)流通渠道逐漸建立,但對(duì)海量政務(wù)數(shù)據(jù)仍然缺乏有效的整合分析,數(shù)據(jù)挖掘分析多停留在簡(jiǎn)單的相關(guān)性分析層面,碎片化政務(wù)數(shù)據(jù)難以轉(zhuǎn)化為可供決策使用的知識(shí)和智慧[1]。政府公文,作為政務(wù)數(shù)據(jù)的一種,既是政府部門日常辦公處理的重要內(nèi)容,也是重要的知識(shí)資源[2]。自然語(yǔ)言處理、知識(shí)圖譜與深度學(xué)習(xí)等技術(shù)的迅速發(fā)展,為政府公文的知識(shí)發(fā)現(xiàn)、管理與利用創(chuàng)造了基本條件。為實(shí)現(xiàn)新時(shí)期政策制定的科學(xué)化、智慧化、精準(zhǔn)化,持續(xù)推進(jìn)政府治理能力現(xiàn)代化,亟需將大規(guī)模、碎片化的政策性公文中的知識(shí)進(jìn)行關(guān)聯(lián)聚合,以實(shí)體為基本單位對(duì)政務(wù)數(shù)據(jù)進(jìn)行挖掘分析,揭示各實(shí)體間的復(fù)雜關(guān)系,實(shí)現(xiàn)知識(shí)層面的數(shù)據(jù)融合與集成,更大程度地釋放政策數(shù)據(jù)價(jià)值,進(jìn)而為政府、企業(yè)、組織、公眾提供知識(shí)服務(wù)。

然而在政策公文時(shí)空關(guān)聯(lián)研究上,現(xiàn)有成果主要集中于處理小規(guī)模數(shù)據(jù)的信息計(jì)量方法[3-4],以及基于詞語(yǔ)、句子的淺層統(tǒng)計(jì)分析方法[5-7]等。趙洪等[8]基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建基于大規(guī)模政府公文智能處理的算法,實(shí)驗(yàn)結(jié)果表明有較好的性能,但未對(duì)公文間的關(guān)聯(lián)關(guān)系進(jìn)行分析。鑒于政府公文智能處理研究對(duì)政策文本挖掘所具有的基礎(chǔ)指導(dǎo)及其應(yīng)用價(jià)值,本研究將在其基礎(chǔ)上進(jìn)一步研究公共政策間的關(guān)聯(lián)及聚合技術(shù)。

政策文本關(guān)聯(lián)聚合表現(xiàn)為多維關(guān)系和多粒度信息對(duì)象的組織、關(guān)聯(lián)、排序與呈現(xiàn),是基于信息組織的多源信息單元融合與重組技術(shù)。在多維關(guān)系的文本關(guān)聯(lián)聚合研究上,已有研究開展了基于語(yǔ)義關(guān)系的聚合[9]、基于引用關(guān)系的聚合[10]和基于社會(huì)關(guān)系網(wǎng)絡(luò)的聚合[11]等。同時(shí),面向不同的文本信息粒度,依靠?jī)?nèi)容的相似度計(jì)算,進(jìn)行基于多粒度信息單元的聚合[12]及多源文本片段的信息融合[13]等。這些研究為關(guān)聯(lián)文本間關(guān)系的有效揭示提供了很有價(jià)值的研究參考,但在對(duì)不同類型信息資源的解構(gòu)與重組技術(shù)上也表現(xiàn)出較大差異,表明深度關(guān)聯(lián)聚合技術(shù)研究存在較大的領(lǐng)域特性和策略差異,在特定的文本對(duì)象上還需進(jìn)行更深入的研究。

大數(shù)據(jù)作為信息化發(fā)展的新階段,對(duì)人類社會(huì)生產(chǎn)生活都產(chǎn)生巨大影響。把握大數(shù)據(jù)發(fā)展方向,推動(dòng)大數(shù)據(jù)開發(fā)應(yīng)用,發(fā)展大數(shù)據(jù)產(chǎn)業(yè),對(duì)于地方經(jīng)濟(jì)社會(huì)發(fā)展具有十分重要的戰(zhàn)略意義和現(xiàn)實(shí)意義。2013年以來(lái),貴州省深入實(shí)施大數(shù)據(jù)戰(zhàn)略行動(dòng),持續(xù)推動(dòng)大數(shù)據(jù)探索實(shí)踐,取得了顯著成效,其政策制定的成功經(jīng)驗(yàn)值得借鑒。

本文即以貴州省大數(shù)據(jù)政策為樣本數(shù)據(jù),對(duì)其涉及大數(shù)據(jù)的關(guān)鍵表述進(jìn)行建模分析,抽取細(xì)粒度知識(shí)元組,并基于圖數(shù)據(jù)庫(kù)Neo4j對(duì)Cypher語(yǔ)言的知識(shí)查詢、知識(shí)管理、知識(shí)推理等關(guān)鍵技術(shù)進(jìn)行研究,從而實(shí)現(xiàn)基于政策/政令多粒度知識(shí)發(fā)現(xiàn)的公文間關(guān)系分析與推理,為提升政策制定的系統(tǒng)性和科學(xué)性提供方法參考。

1 圖數(shù)據(jù)庫(kù)Neo4j簡(jiǎn)介

在面臨大規(guī)模知識(shí)管理需求時(shí),需要考慮用數(shù)據(jù)庫(kù)管理系統(tǒng)(Database Management System,DBMS)對(duì)知識(shí)進(jìn)行存儲(chǔ)。常用的數(shù)據(jù)庫(kù)管理系統(tǒng)可分為關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(Relational DBMS)、圖數(shù)據(jù)庫(kù)管理系統(tǒng)(Graph DBMS)、RDF存儲(chǔ)系統(tǒng)(RDF Stores)[14]。其中,圖數(shù)據(jù)庫(kù)(Graph Database)是基于圖論(Graph Theory)思想和算法而實(shí)現(xiàn)的高效處理復(fù)雜關(guān)系網(wǎng)絡(luò)的新型數(shù)據(jù)庫(kù)系統(tǒng),善于高效處理大規(guī)模、復(fù)雜、互連、多變的數(shù)據(jù),其計(jì)算效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)[15],在社交網(wǎng)絡(luò)、實(shí)時(shí)推薦、征信系統(tǒng)、人工智能等領(lǐng)域被廣泛應(yīng)用。常見的圖數(shù)據(jù)庫(kù)有Neo4j、Microsoft Azure Cosmos DB、ArangoDB、OrientDB等,根據(jù)DB-Engines網(wǎng)站發(fā)布的圖數(shù)據(jù)庫(kù)使用熱度[16],近年來(lái)Neo4j一直排名居首。

Neo4j是基于Java的高性能、高可靠性、可擴(kuò)展性強(qiáng)的開源圖數(shù)據(jù)庫(kù),完全兼容ACID,即原子性(atomicity)、一致性(consistency)、隔離性(isolation)、持久性(durability)。Neo4j目前應(yīng)用廣泛,社區(qū)活躍,生態(tài)成熟,企業(yè)版支持高可用集群。國(guó)外的ebay、Walmart和PitneyBowes等公司均選用Neo4j圖數(shù)據(jù)庫(kù),實(shí)現(xiàn)對(duì)企業(yè)級(jí)大數(shù)據(jù)中關(guān)系的有效處理。Neo4j社區(qū)版具有英文版[17]和簡(jiǎn)體中文版[18]兩種。

基于Neo4j的圖數(shù)據(jù)庫(kù)模型如圖1所示,Neo4j的信息建模包括節(jié)點(diǎn)、邊和屬性3種構(gòu)造單元。數(shù)據(jù)庫(kù)圖形中的節(jié)點(diǎn)可以與其他任何節(jié)點(diǎn)建立關(guān)系,每個(gè)節(jié)點(diǎn)可以設(shè)置多個(gè)屬性。圖形中的每一個(gè)關(guān)系必須擁有一個(gè)開始節(jié)點(diǎn)和一個(gè)終止節(jié)點(diǎn),每個(gè)關(guān)系也可以設(shè)置多個(gè)屬性。

圖1 基于Neo4j的圖數(shù)據(jù)庫(kù)模型

Neo4j的數(shù)據(jù)導(dǎo)入有5種方式:①Cypher語(yǔ)句中的CREATE命令;②Cypher語(yǔ)句中的LOAD CSV命令,加載CSV數(shù)據(jù);③官方提供的Java API—Batch Inserter;④官方提供的Neo4j-import工具;⑤第三方開發(fā)的工具。Neo4j數(shù)據(jù)維護(hù)簡(jiǎn)單,每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于關(guān)系數(shù)據(jù)庫(kù)中的一個(gè)記錄,節(jié)點(diǎn)和邊的屬性相當(dāng)于記錄中的字段,屬性內(nèi)容和個(gè)數(shù)可以動(dòng)態(tài)變化,節(jié)點(diǎn)之間的邊也可以自由刪減且不會(huì)影響已有數(shù)據(jù)結(jié)構(gòu)的邏輯。Neo4j數(shù)據(jù)查詢使用Cypher語(yǔ)言[19],Cypher是一種聲明式、表達(dá)能力強(qiáng)的描述性圖形查詢語(yǔ)言,主要使用的關(guān)鍵字有create(主要用于創(chuàng)建圖形節(jié)點(diǎn)、關(guān)系及屬性)、match(在已有圖形數(shù)據(jù)庫(kù)中匹配目標(biāo)信息)、where(是match功能的條件)、return(完成匹配后,返回指定值)。

圍繞Neo4j的配套應(yīng)用開發(fā)也日趨成熟。例如,Neo4j Bloom可視化工具能夠?qū)崿F(xiàn)Neo4j中數(shù)據(jù)集的導(dǎo)航和編輯,性能上可以輕松、平滑地在普通個(gè)人電腦上顯示數(shù)萬(wàn)節(jié)點(diǎn)和它們之間的關(guān)系;Neo4j函數(shù)存儲(chǔ)包APOC(Awesome Procedure On Cypher),包含豐富的函數(shù)和存儲(chǔ)過程,涵蓋各種圖論算法,是Cypher的有力補(bǔ)充。

2 基于Neo4j的科技政策知識(shí)建模

2.1 政策公文的知識(shí)建構(gòu)

簡(jiǎn)單而言,知識(shí)是人類通過觀察、學(xué)習(xí)和思考有關(guān)客觀世界的各種現(xiàn)象而獲得和總結(jié)出的所有事實(shí)、概念、規(guī)則或原則的集合[20]。知識(shí)世界是意義世界的鏡像。通觀知識(shí)的復(fù)雜性,從微觀的知識(shí)元、知識(shí)結(jié)構(gòu),到宏觀的知識(shí)體系,知識(shí)世界的建構(gòu)模型必然是一個(gè)多建模實(shí)施主體、多層次、多類型、多視角構(gòu)成的“知識(shí)聯(lián)結(jié)網(wǎng)”。政府公文領(lǐng)域的知識(shí)建構(gòu)也是如此,由文獻(xiàn)單元向知識(shí)單元的深入必然是一個(gè)復(fù)雜的過程。

關(guān)于知識(shí)基本構(gòu)成單元的形式和概念還沒有形成統(tǒng)一認(rèn)識(shí),知識(shí)元[21]、知識(shí)單元[22]、知識(shí)因子[23]和知識(shí)基因[24]等是主要的代表性觀點(diǎn)。圖書情報(bào)學(xué)和計(jì)算機(jī)科學(xué)是知識(shí)構(gòu)成單元的主要研究領(lǐng)域。盡管觀點(diǎn)不一致,但多數(shù)學(xué)者認(rèn)同知識(shí)元是知識(shí)控制與處理的基本單位,是知識(shí)結(jié)構(gòu)的基元。具有如下特點(diǎn)[25]:①知識(shí)元具有語(yǔ)義相對(duì)完整性,即有實(shí)際意義和相對(duì)獨(dú)立性;②知識(shí)元用于表達(dá)特定的知識(shí),如一個(gè)科學(xué)概念或一條基本原理;③知識(shí)元相對(duì)于它所表達(dá)的特定知識(shí)而言,應(yīng)該是最小的、不可再拆分的;④知識(shí)元表現(xiàn)為具體的知識(shí)內(nèi)容,在文獻(xiàn)中表現(xiàn)為概念、原理、方法、定理、定律、結(jié)論等形式。宋艷輝等[26]通過重點(diǎn)分析知識(shí)單元研究中有爭(zhēng)議或者理解不一致的問題后認(rèn)為,知識(shí)元可以按照一定的知識(shí)關(guān)聯(lián)進(jìn)行自由組合,組合而成新的知識(shí)體,稱為知識(shí)單元;知識(shí)單元通過知識(shí)關(guān)聯(lián)組合而成新的知識(shí)單元,或者更高層級(jí)、宏觀意義上的知識(shí)體系。關(guān)于知識(shí)體系如何分類,陳洪瀾[27]列舉了知識(shí)分類的10種方式,分別是按照知識(shí)效用分類、按照研究對(duì)象分類、按照知識(shí)屬性分類、按照知識(shí)形態(tài)分類、按事物運(yùn)動(dòng)形式分類、按照思維特征分類、按照自然現(xiàn)象和社會(huì)現(xiàn)象分類、按照知識(shí)研究方法分類、按照知識(shí)的內(nèi)在聯(lián)系分類、按照學(xué)科發(fā)展趨勢(shì)分類。這些方法各有長(zhǎng)短,需要根據(jù)客觀條件和主觀需求靈活應(yīng)用。

由以上看來(lái),政府公文作為一種知識(shí)資源,通過知識(shí)體系建構(gòu)的方式對(duì)內(nèi)容進(jìn)行解構(gòu)是可行的,并且公文中知識(shí)建構(gòu)所達(dá)到的廣度、深度和精度決定了對(duì)政策知識(shí)建模的效果。本文嘗試基于知識(shí)元理論構(gòu)建知識(shí)表示體系,進(jìn)而運(yùn)用知識(shí)抽?。▽?shí)體識(shí)別、關(guān)系抽?。?、知識(shí)融合(知識(shí)異構(gòu)、實(shí)體匹配)、知識(shí)存儲(chǔ)(圖數(shù)據(jù)庫(kù)管理系統(tǒng))等知識(shí)挖掘技術(shù),對(duì)政策/政令中主體、對(duì)象、事項(xiàng)等知識(shí)進(jìn)行關(guān)系推理。

2.2 構(gòu)建過程

為實(shí)現(xiàn)對(duì)科技政策文本的知識(shí)建模、知識(shí)獲取、知識(shí)存儲(chǔ)與可視化圖譜展示,本文基于已有數(shù)據(jù)和算法研究,構(gòu)建貴州大數(shù)據(jù)政策知識(shí)圖譜,具體過程如下。

(1)數(shù)據(jù)收集。在自建大規(guī)模公文數(shù)據(jù)庫(kù)中以全文包含“大數(shù)據(jù)”為檢索條件,以“發(fā)布機(jī)關(guān)代碼=202 or 204”為限定條件(貴州省級(jí)政府及下轄部門),總計(jì)獲得貴州省各級(jí)單位發(fā)布的全文中包含“大數(shù)據(jù)”的政策性公文716篇,保存為數(shù)據(jù)集data.json。該數(shù)據(jù)也可通過網(wǎng)絡(luò)公開數(shù)據(jù)獲得。

(2)“大數(shù)據(jù)”關(guān)鍵表述抽取。即抽取每篇公文中包含“大數(shù)據(jù)”的句子,結(jié)果保存為數(shù)據(jù)集data_keysentence.txt,核心程序段如表1所示。政策性公文是一類主題復(fù)合型文本,幾乎每篇公文包含的主題都不止一項(xiàng)。如《省人民政府辦公廳關(guān)于支持貴安新區(qū)發(fā)展若干政策措施的意見》中僅有部分語(yǔ)段涉及“大數(shù)據(jù)”,這時(shí)候就需要將全部這些語(yǔ)段抽取出來(lái),剔除非相關(guān)的冗余語(yǔ)句。該步驟也是對(duì)知識(shí)粒度的第一次細(xì)化。

(3)實(shí)體抽取。Python環(huán)境下調(diào)用hanlp模塊對(duì)形成的關(guān)鍵表述語(yǔ)料進(jìn)行實(shí)體抽取,并人工校對(duì),結(jié)果保存為數(shù)據(jù)集data_entity.txt。該步驟是對(duì)知識(shí)粒度的第二次細(xì)化。經(jīng)過實(shí)驗(yàn)對(duì)比,研究發(fā)現(xiàn),基于pyhanlp的enableOrganizationRecognize模塊較基于pyltp的NamedEntityRecognizer模塊和基于StanfordCoreNLP的ner模塊,在機(jī)構(gòu)識(shí)別、命名實(shí)體抽取方面的效果更優(yōu),更適合于新詞發(fā)現(xiàn)。將抽取結(jié)果同原始數(shù)據(jù)合并,得到的數(shù)據(jù)結(jié)果樣例如圖2所示。

(4)關(guān)系構(gòu)建?;趯?duì)實(shí)體抽取結(jié)果的內(nèi)容分析,制定實(shí)體類別標(biāo)簽體系,同時(shí)將實(shí)體與發(fā)布機(jī)關(guān)、公文標(biāo)題進(jìn)行關(guān)聯(lián),構(gòu)建實(shí)體、關(guān)系標(biāo)簽體系,標(biāo)簽類別如表2所示。依據(jù)標(biāo)簽體系分別對(duì)實(shí)體和關(guān)系進(jìn)行標(biāo)注,并補(bǔ)全實(shí)體標(biāo)注信息(實(shí)體名稱、實(shí)體標(biāo)簽)和關(guān)系標(biāo)注信息(實(shí)體1標(biāo)簽、實(shí)體1名稱、關(guān)系、實(shí)體2標(biāo)簽、實(shí)體2名稱)。至此,貴州省大數(shù)據(jù)政策的知識(shí)獲取工作完成,得到細(xì)粒度知識(shí)元組與關(guān)系對(duì)。

(5)知識(shí)存儲(chǔ)。將上述步驟形成的實(shí)體和關(guān)系數(shù)據(jù)轉(zhuǎn)化為圖數(shù)據(jù)庫(kù)Neo4j需要的格式[28],并進(jìn)行數(shù)據(jù)批量導(dǎo)入。本文采用的Neo4j版本為微云數(shù)聚研制的Neo4j簡(jiǎn)體中文版,支持?jǐn)?shù)據(jù)驅(qū)動(dòng)節(jié)點(diǎn)、連線的顏色、節(jié)點(diǎn)的大小、連線的粗細(xì)等不同顯示,支持批量執(zhí)行Cypher語(yǔ)句。

(6)知識(shí)分析。基于Cypher語(yǔ)言進(jìn)行圖數(shù)據(jù)庫(kù)分析。

如圖3所示,Neo4j類似于一個(gè)基于網(wǎng)頁(yè)的外殼環(huán)境,其應(yīng)用界面分為3個(gè)部分。①左側(cè)功能列表,可收起為邊框擴(kuò)展欄。邊欄擴(kuò)展顯示不同的功能面板,用于常見的查詢和信息。研究通過構(gòu)建“貴州大數(shù)據(jù)”專項(xiàng)選欄和下拉菜單,可實(shí)現(xiàn)快捷查看“戰(zhàn)略定位”“政策支持產(chǎn)業(yè)”“政策支持項(xiàng)目”“政策支持應(yīng)用平臺(tái)”“政策支持示范區(qū)”等知識(shí)圖譜。②右上方區(qū)域?yàn)榫庉嬈?。編輯器是輸入和運(yùn)行命令的主要接口,通過輸入Cypher查詢來(lái)處理圖數(shù)據(jù)。③右下方區(qū)域?yàn)榉治鼋Y(jié)果區(qū),按操作順序滾動(dòng)呈現(xiàn),點(diǎn)擊圖譜中任意節(jié)點(diǎn)即可查看節(jié)點(diǎn)信息,圖查詢后可導(dǎo)出表格結(jié)果和可視化結(jié)果。

表1 “大數(shù)據(jù)”關(guān)鍵表述抽取及實(shí)體抽取算法核心程序段

圖2 數(shù)據(jù)處理結(jié)果樣例

表2 知識(shí)抽取標(biāo)簽體系

3 建模實(shí)例

前述對(duì)貴州大數(shù)據(jù)政策/政令中的知識(shí)進(jìn)行了表示、抽取與鏈接,本節(jié)對(duì)該建模方法進(jìn)行實(shí)例驗(yàn)證,基于Neo4j圖數(shù)據(jù)查詢實(shí)現(xiàn)知識(shí)圖譜生成和知識(shí)發(fā)現(xiàn),包括單一關(guān)系分析、復(fù)雜關(guān)系分析和公文引文分析。

圖3 Neo4j應(yīng)用界面

3.1 單一關(guān)系分析

圖4為9種單一關(guān)系分析實(shí)現(xiàn)的效果樣例。實(shí)現(xiàn)方法為,編輯器輸入Cypher查詢語(yǔ)言“MATCH()-[r:`戰(zhàn)略定位|政策支持產(chǎn)業(yè)|涉及行業(yè)|鼓勵(lì)重要開放窗口|鼓勵(lì)發(fā)展基地|政策涉及組織機(jī)構(gòu)|政策涉及研發(fā)組織機(jī)構(gòu)|鼓勵(lì)發(fā)展產(chǎn)業(yè)園|政策支持應(yīng)用平臺(tái)`]->()RETURN r LIMIT 100”。其中,“()”為節(jié)點(diǎn)信息,“[]”內(nèi)為關(guān)系信息,通過LIMIT后面的數(shù)字可限制節(jié)點(diǎn)的數(shù)量。研究還對(duì)大數(shù)據(jù)政策涉及的基地、資金支持、活動(dòng)、重要發(fā)展平臺(tái)、機(jī)制、工程、大數(shù)據(jù)應(yīng)用、項(xiàng)目、領(lǐng)域、集聚區(qū)、示范區(qū)、第三方權(quán)威組織機(jī)構(gòu)、大數(shù)據(jù)產(chǎn)業(yè)空間布局、專項(xiàng)規(guī)劃、試驗(yàn)區(qū)、基礎(chǔ)設(shè)施、專項(xiàng)行動(dòng)等單一映射關(guān)系進(jìn)行了分析。

從政策關(guān)聯(lián)結(jié)果來(lái)看,貴州省各級(jí)政府高度重視大數(shù)據(jù)發(fā)展,發(fā)布的各類政策疊加效應(yīng)明顯,為加速資源集聚、推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供了充分保障。各政府部門結(jié)合當(dāng)?shù)貙?shí)情與發(fā)展需要,深入推進(jìn)大數(shù)據(jù)、大扶貧、大生態(tài)、大健康、大旅游、大文化、大招商、大生態(tài)文創(chuàng)等戰(zhàn)略行動(dòng)(關(guān)聯(lián)關(guān)系如圖4a),優(yōu)化資源配置、強(qiáng)化技術(shù)支撐、創(chuàng)新發(fā)展模式,大力發(fā)展電子信息、電子商務(wù)大數(shù)據(jù)云計(jì)算、互聯(lián)網(wǎng)金融、移動(dòng)電子商務(wù)、大數(shù)據(jù)網(wǎng)絡(luò)信息安全等大數(shù)據(jù)重點(diǎn)產(chǎn)業(yè),以及中藥材、食用菌、吊瓜、消費(fèi)品工業(yè)、林業(yè)、煤炭、石材、現(xiàn)代高效農(nóng)業(yè)、呼叫中心、白酒等地方性產(chǎn)業(yè),通過大數(shù)據(jù)的發(fā)展支持航空、生態(tài)農(nóng)業(yè)、醫(yī)藥制造業(yè)、旅游業(yè)、民族藥材、磷化工、新型建筑材料、電子元器件、有機(jī)農(nóng)產(chǎn)品、高端裝備、新能源化工等相關(guān)產(chǎn)業(yè)發(fā)展,形成完整的大數(shù)據(jù)相關(guān)產(chǎn)業(yè)體系(見圖4b和圖4c)。

貴州省充分利用生態(tài)文明貴陽(yáng)國(guó)際論壇、云上貴州·大數(shù)據(jù)國(guó)際年會(huì)、大數(shù)據(jù)博覽會(huì)、大數(shù)據(jù)商業(yè)模式大賽、中國(guó)電子商務(wù)創(chuàng)新發(fā)展大會(huì)、貴州省旅游發(fā)展大會(huì)等重要開放窗口的作用(關(guān)聯(lián)關(guān)系見圖4d),舉辦形式多樣的交流、展覽、招商等活動(dòng),聚集優(yōu)質(zhì)發(fā)展要素,推進(jìn)國(guó)際化進(jìn)程。支持鼓勵(lì)發(fā)展大數(shù)據(jù)發(fā)展基地,包括大數(shù)據(jù)產(chǎn)業(yè)基地、國(guó)家級(jí)大數(shù)據(jù)基地、國(guó)家級(jí)文化和科技融合示范基地、中關(guān)村貴陽(yáng)科技園大數(shù)據(jù)基地、教育實(shí)踐和培訓(xùn)基地、貴安新區(qū)大數(shù)據(jù)存儲(chǔ)基地、貴陽(yáng)高新云平臺(tái)應(yīng)用基地、貴州大數(shù)據(jù)綜合試驗(yàn)區(qū)實(shí)驗(yàn)基地、惠普·貴州國(guó)際金貿(mào)云基地、貴陽(yáng)高新云計(jì)算基地、貴陽(yáng)云計(jì)算大數(shù)據(jù)創(chuàng)新孵化基地、貴安大數(shù)據(jù)中心、貴安新區(qū)數(shù)據(jù)中心等(關(guān)聯(lián)關(guān)系見圖4e);支持發(fā)展大數(shù)據(jù)飛地產(chǎn)業(yè)園區(qū)、凱里物聯(lián)網(wǎng)科教產(chǎn)業(yè)園、貴安新區(qū)電子信息產(chǎn)業(yè)園、富士康產(chǎn)業(yè)園、三大運(yùn)營(yíng)商數(shù)據(jù)中心、貴安新區(qū)節(jié)能環(huán)保產(chǎn)業(yè)園、貴陽(yáng)跨境電子商務(wù)產(chǎn)業(yè)園等大數(shù)據(jù)產(chǎn)業(yè)園(關(guān)聯(lián)關(guān)系見圖4h)。作為貴州省會(huì),貴陽(yáng)市重點(diǎn)規(guī)劃建立了“一軸兩基地多園”的大數(shù)據(jù)產(chǎn)業(yè)空間布局。貴州省不斷完善大數(shù)據(jù)系統(tǒng)應(yīng)用,深入推進(jìn)應(yīng)用平臺(tái)建設(shè),包括數(shù)據(jù)鐵籠、社會(huì)和云、數(shù)據(jù)民生、城市交通大數(shù)據(jù)、農(nóng)業(yè)大數(shù)據(jù)信息管理、支撐數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)共享開放平臺(tái)、數(shù)據(jù)增值應(yīng)用平臺(tái)、互聯(lián)網(wǎng)+醫(yī)療健康數(shù)據(jù)、“云上貴州”系統(tǒng)、旅游塊數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)交換、互聯(lián)網(wǎng)數(shù)據(jù)中心、電子政務(wù)網(wǎng)絡(luò)、綜合治稅應(yīng)用平臺(tái)等(關(guān)聯(lián)關(guān)系見圖4i)。

圖4 單一關(guān)系分析實(shí)現(xiàn)效果樣例

3.2 復(fù)雜關(guān)系分析

常規(guī)關(guān)系分析方法有聚類分析、多維尺度分析、中心度分析等,但這些方法不足以展現(xiàn)大規(guī)模實(shí)體間的復(fù)雜關(guān)系,且不具備推理功能、因果關(guān)系分析功能。而圖數(shù)據(jù)庫(kù)有望彌補(bǔ)這些不足。Neo4j不僅能實(shí)現(xiàn)對(duì)眾多客觀實(shí)體的管理,還可以進(jìn)行實(shí)體間復(fù)雜關(guān)系的查詢與推理,支持邏輯語(yǔ)言查詢與面向約束的推理。圖5為4種復(fù)雜關(guān)系分析的實(shí)現(xiàn)效果樣例。

圖5a為機(jī)構(gòu)-機(jī)構(gòu)關(guān)聯(lián)分析,查詢貴州省人民政府和安順市人民政府有哪些政策相互關(guān)聯(lián)。實(shí)現(xiàn)語(yǔ)句為“MATCH p =(:政策發(fā)布機(jī)關(guān) {名稱:‘貴州省人民政府’})-[*..3]-(:政策發(fā)布機(jī)關(guān) {名稱:‘安順市人民政府’})RETURN p”。其中,“[*..3]”限定關(guān)系不超過3階。

圖5b為機(jī)構(gòu)-事項(xiàng)關(guān)聯(lián)分析,查詢貴州省人民政府的戰(zhàn)略定位和支持的產(chǎn)業(yè)。實(shí)現(xiàn)語(yǔ)句為“MATCH(:政策發(fā)布機(jī)關(guān) {名稱:‘貴州省人民政府’})-[r:‘政策支持產(chǎn)業(yè)’|:‘戰(zhàn)略定位’]->()RETURN r LIMIT 100”。

圖5 復(fù)雜關(guān)系分析實(shí)現(xiàn)效果樣例

圖5c為模糊匹配,檢索名稱中包含“貴陽(yáng)”或“貴州”的政策發(fā)布機(jī)關(guān)。實(shí)現(xiàn)語(yǔ)句為“MATCH(n:‘政策發(fā)布機(jī)關(guān)’)WHERE REDUCE(hit=false,name in [n.‘姓名’,n.‘名稱’,n.‘name’,n.‘title’] | hit or name=~‘.*(?i)貴陽(yáng).*’)with n MATCH(m)WHERE REDUCE(hit=false,name in [m.‘姓名’,m.‘名稱’,m.‘name’,m.‘title’] | hit or name=~‘.*(?i)貴州.*’)with n,m MATCH r=allShortestPaths((n)-[*]-(m))RETURN r LIMIT 100”。

圖5d為多階復(fù)合關(guān)系分析,即檢索連續(xù)3階以上的關(guān)聯(lián)關(guān)系。實(shí)現(xiàn)語(yǔ)句為“MATCH r=()-[:‘引用’]->()<-[:‘發(fā)布政策’]-()RETURN r LIMIT 50”。

通過對(duì)以上復(fù)雜關(guān)系的實(shí)驗(yàn)研究表明,基于Neo4j的政策多粒度知識(shí)關(guān)聯(lián)聚合具有以下優(yōu)勢(shì):①高效的信息檢索能力;②能夠通過節(jié)點(diǎn)、關(guān)系、屬性值的設(shè)定實(shí)現(xiàn)很好的聚類性能和分類精度;③比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)更適合處理大規(guī)模關(guān)聯(lián)數(shù)據(jù),特別適合多跳查詢、計(jì)算最短路徑、推理分析等特殊網(wǎng)絡(luò)分析需求;④圖數(shù)據(jù)庫(kù)基于圖論基礎(chǔ),支持路徑搜索、中心性、社群發(fā)現(xiàn)等圖論算法,對(duì)社會(huì)網(wǎng)絡(luò)分析(SNA)的相關(guān)研究視角和方法依然適用,包括中心性分析,二元組分析、三元組分析,塊模型分析、社群分析,凝聚子群分析,結(jié)構(gòu)均衡分析,網(wǎng)絡(luò)同質(zhì)性分析,動(dòng)態(tài)演化分析,統(tǒng)計(jì)網(wǎng)絡(luò)分析等;⑤有望通過關(guān)聯(lián)網(wǎng)絡(luò)探究因果集群,進(jìn)而探究多要素的因果關(guān)系;⑥性能上,實(shí)時(shí)速度每秒達(dá)數(shù)以百萬(wàn)跳,能夠滿足大規(guī)模圖數(shù)據(jù)的運(yùn)算[29]。

3.3 公文引文分析

政策性公文同學(xué)術(shù)論文一樣,也存在廣泛的援引、引用情況。公文引文分析通過公文的引用和被引等流動(dòng)過程,揭示政策的引用現(xiàn)象、過程和規(guī)律,具有較強(qiáng)的實(shí)踐價(jià)值和方法論意義。目前相關(guān)研究多為定性描述,缺少量化依據(jù)。李江等[30]深入探討了適用于量化評(píng)價(jià)政策主題變遷、政策主體合作模式、政策體系的結(jié)構(gòu)與演進(jìn)的“政策文獻(xiàn)計(jì)量”方法。劉曉光等[31]以“中央一號(hào)文件”為案例進(jìn)行了引文量化分析,進(jìn)一步指出公共政策研究在解決綜合、復(fù)雜的現(xiàn)實(shí)問題時(shí),仍面臨不小的挑戰(zhàn)。隨著政策資源庫(kù)的建設(shè)和語(yǔ)義解析技術(shù)的提升,大規(guī)模政府公文的引文關(guān)系自動(dòng)解析成為可能,為通過公文引文關(guān)系探究政策演化變遷、政策擴(kuò)散規(guī)律、政策影響力、府際關(guān)系等提供了新路徑。

本文基于貴州大數(shù)據(jù)政策數(shù)據(jù),按照被引用公文的類別,對(duì)引用關(guān)系進(jìn)行了細(xì)分。生成的政府公文引用關(guān)系圖譜如圖6所示。實(shí)現(xiàn)語(yǔ)句為“MATCH()-[r:‘引用-意見’|:‘引用-優(yōu)惠政策’|:‘引用-辦法’|:‘引用-規(guī)劃’|:‘引用-行動(dòng)計(jì)劃’|:‘引用-決定’|:‘引用-實(shí)施方案’|:‘引用-標(biāo)準(zhǔn)’|:‘引用-規(guī)范’|:‘引用-函’|:‘引用-通知’|:‘引用-工作要點(diǎn)’|:‘引用-規(guī)定’|:‘引用-標(biāo)準(zhǔn)規(guī)范’|:‘引用-工作制度’|:‘引用-制度’|:‘引用-計(jì)劃’|:‘引用-預(yù)案’|:‘引用-指南’|:‘引用-通告’|:‘引用-批復(fù)’|:‘引用-公告’|:‘引用-法律’|:‘引用-工作規(guī)則’|:‘引用-意見辦法’|:‘引用-決定規(guī)范’|:‘引用-行動(dòng)計(jì)劃規(guī)范’]->()RETURN r LIMIT 100”。其中,各種引用類別可以任意組合。

圖6 公文引文分析實(shí)現(xiàn)效果樣例

從方法的實(shí)現(xiàn)效果來(lái)看,基于知識(shí)建模的公文引文分析能夠較好實(shí)現(xiàn)引文網(wǎng)絡(luò)圖譜的構(gòu)建,通過Neo4j可視化圖譜可以按照實(shí)際需求動(dòng)態(tài)、清晰地呈現(xiàn)公文間的引用關(guān)系、關(guān)聯(lián)網(wǎng)絡(luò),適合輔助探究綜合、復(fù)雜問題。如根據(jù)圖6樣例分析可知,貴州省人民政府印發(fā)《關(guān)于加快大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)用若干政策的意見》《貴州省大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)用規(guī)劃綱要(2014—2020年)》《省人民政府辦公廳關(guān)于印發(fā)貴州省醫(yī)藥產(chǎn)業(yè) 健康養(yǎng)生產(chǎn)業(yè)發(fā)展任務(wù)清單的通知》等公文被引用率明顯較高,與其他公文的關(guān)聯(lián)關(guān)系較多,并且公文間的引用關(guān)系錯(cuò)綜復(fù)雜,并非單純的上下級(jí)公文引用。

文獻(xiàn)的引用是文獻(xiàn)價(jià)值、重要性及影響力的指標(biāo),而政策性公文作為一類由黨政機(jī)關(guān)在行使職權(quán)或?qū)嵤┕芾磉^程中形成的具有法定效用的文件材料,其相互引用必然具有更多的現(xiàn)實(shí)意義。文獻(xiàn)計(jì)量學(xué)中的影響力評(píng)價(jià)(影響因子)、文獻(xiàn)老化規(guī)律(半衰期)、共被引分析、引文耦合分析等理論與方法對(duì)于公文引文分析是否適合有待進(jìn)一步驗(yàn)證,能否指導(dǎo)公文引文分析需要繼續(xù)探索。未來(lái)公文引文分析有望不斷豐富政策文獻(xiàn)計(jì)量方法體系。

4 結(jié)語(yǔ)

本文通過對(duì)716篇貴州省大數(shù)據(jù)政策的知識(shí)建模,抽取細(xì)粒度知識(shí)元組,并基于圖數(shù)據(jù)庫(kù)Neo4j實(shí)現(xiàn)對(duì)政策/政令的多粒度知識(shí)發(fā)現(xiàn)和關(guān)聯(lián)聚合,經(jīng)過單一關(guān)系分析、復(fù)雜關(guān)系分析、公文引文分析3類實(shí)例驗(yàn)證,結(jié)果表明,Neo4j可較好地實(shí)現(xiàn)基于政策/政令多粒度知識(shí)發(fā)現(xiàn)的公文間關(guān)系分析與推理,本文所提方法為提升政策制定的系統(tǒng)性和科學(xué)性提供參考。基于圖數(shù)據(jù)庫(kù)Neo4j的政策多粒度知識(shí)關(guān)聯(lián)聚合具有高效的檢索能力、大規(guī)模關(guān)聯(lián)數(shù)據(jù)處理能力、較好的聚類性能和分類精度、滿足網(wǎng)絡(luò)分析需求等優(yōu)勢(shì),在探究公共政策的知識(shí)發(fā)現(xiàn)、演化變遷、擴(kuò)散規(guī)律、府際關(guān)系等方面具有廣闊的應(yīng)用前景。

猜你喜歡
關(guān)聯(lián)數(shù)據(jù)庫(kù)政策
政策
政策
助企政策
政策
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
數(shù)據(jù)庫(kù)
智趣
讀者(2017年5期)2017-02-15 18:04:18
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
乌鲁木齐市| 崇义县| 河间市| 吉林市| 时尚| 陆河县| 上蔡县| 安义县| 龙里县| 大埔区| 高密市| 汽车| 嘉定区| 湘潭县| 金华市| 灵宝市| 丰城市| 奉化市| 永吉县| 平陆县| 英吉沙县| 铁岭县| 廊坊市| 子洲县| 丹凤县| 奉新县| 根河市| 阜城县| 浦北县| 衡东县| 慈溪市| 沙坪坝区| 寿宁县| 广州市| 禄劝| 永定县| 溆浦县| 武鸣县| 崇阳县| 卢氏县| 昌乐县|