国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Wikidata的COVID-19信息組織策略研究

2023-06-22 23:01:01楊倩李小麗
現(xiàn)代信息科技 2023年3期
關(guān)鍵詞:維基百科數(shù)據(jù)模型知識庫

楊倩 李小麗

摘? 要:對Wikidata數(shù)據(jù)模型以及其對COVID-19信息組織等模式進(jìn)行研究,以期對國內(nèi)信息組織等相關(guān)領(lǐng)域的研究以及COVID-19數(shù)據(jù)整合的相關(guān)工作提供借鑒和參考。首先對主流的三個知識庫進(jìn)行對比分析,其次將Wikidata中的中國COVID-19數(shù)據(jù)與中國國家衛(wèi)生健康委員會的疫情數(shù)據(jù)進(jìn)行多個維度的比較分析,最后對Wikidata中的COVID-19數(shù)據(jù)可視化基礎(chǔ)框架進(jìn)行分析,以探索Wikidata對COVID-19信息組織策略。Wikidata具有靈活的數(shù)據(jù)模型,使用RDF三元組的形式存儲數(shù)據(jù),并通過限定符和參考引用提供基本語句的附加特性和來源。Wikidata記錄的COVID-19數(shù)據(jù)具有多種可獲取途徑和較高的準(zhǔn)確性,但在數(shù)據(jù)及時性和完整性方面有待進(jìn)一步完善。

關(guān)鍵詞:Wikidata;COVID-19;信息組織;COVIWD

中圖分類號:TP391;G254? 文獻(xiàn)標(biāo)識碼:A? 文章編號:2096-4706(2023)03-0001-07

Research on COVID-19 Information Organization Strategy Based on Wikidata

YANG Qian, LI Xiaoli

(School of Public Administration, Sichuan University, Chengdu? 610065, China)

Abstract: This paper studies the Wikidata data model and its mode on COVID-19 information organization, with a view to providing reference for the research of domestic information organization and the relevant work of COVID-19 data integration. First, the three mainstream knowledge bases are compared and analyzed. Secondly, the COVID-19 data from China in Wikidata and the epidemic data of the National Health Commission of China are compared and analyzed from multiple dimensions. Finally, the basic framework of COVID-19 data visualization in Wikidata is analyzed to explore the strategy of Wikidata to COVID-19 information organization. Wikidata has a flexible data model, stores data in the form of RDF triples, and provides additional features and sources of basic statements through qualifiers and reference. The COVID-19 data recorded by Wikidata has multiple access ways and high accuracy, but the timeliness and integrity of the data need to be further improved.

Keywords: Wikidata; COVID-19; information organization; COVIWD

0? 引? 言

2019年新型冠狀病毒感染(COVID-19)的爆發(fā)對全球的政治、經(jīng)濟(jì)、生活等各方面產(chǎn)生了巨大的影響。截至2022年10月11日,全球累計確診病例已達(dá)61 916萬人,累計死亡人數(shù)已達(dá)653萬[1],由此,各領(lǐng)域需要采取多種行動來抗擊COVID-19的傳播。COVID-19的爆發(fā)導(dǎo)致世界各地?zé)o時無刻不在產(chǎn)生著海量的數(shù)據(jù),因此,對COVID-19各類數(shù)據(jù)進(jìn)行有效的組織與整合是當(dāng)下研究的熱點話題,同時,對結(jié)構(gòu)化的COVID-19數(shù)據(jù)的開放共享,有利于推進(jìn)各領(lǐng)域?qū)OVID-19相關(guān)工作的開展以及學(xué)術(shù)界的研究。

Wikidata是一個開放、協(xié)作的平臺,集成了各類主題的結(jié)構(gòu)化數(shù)據(jù),截至2022年1月20日,總計包含9 666 172個數(shù)據(jù)條目[2],其數(shù)據(jù)主要來源于維基百科和其他維基媒體的數(shù)據(jù)條目,采用眾包的模式建立,支持包含中文版本在內(nèi)的多種語言,是一個機(jī)器和人都能編輯的免費、開放的知識庫。Wikidata整合了COVID-19各類主題的數(shù)據(jù),用戶可以免費查詢和獲取有關(guān)數(shù)據(jù),眾包模式允許任何人添加或編輯其專業(yè)知識領(lǐng)域或感興趣的主題信息,便于對COVID-19科學(xué)數(shù)據(jù)的開放獲取,旨在改善關(guān)于新冠病毒和大流行的公開,提高語義關(guān)聯(lián)數(shù)據(jù)的可用性。

儀表盤主要整合大量不同主題的數(shù)據(jù),并提供可視化服務(wù)。目前,國外已經(jīng)有多個領(lǐng)域?qū)x表盤進(jìn)行了研究及應(yīng)用,如美國亞特蘭大市政府機(jī)構(gòu)于2002年提出了一個業(yè)績衡量系統(tǒng),即亞特蘭大儀表盤,主要用于評估市政業(yè)績的各個方面,從而提高市政服務(wù)的效率和效力[3];私營部門基于不同制造目標(biāo)群體關(guān)鍵績效指標(biāo)的調(diào)查結(jié)果,設(shè)計了三個具有代表性的制造儀表盤,包括工人操作儀表盤、經(jīng)理戰(zhàn)術(shù)儀表盤和高管戰(zhàn)略儀表盤,用于制造企業(yè)[4];在醫(yī)療保健領(lǐng)域,有學(xué)者提出一種醫(yī)療儀表盤——BESTBoard,并在一家三甲醫(yī)院中的所有病房實施[5]。

在新冠疫情背景下,國外針對COVID-19數(shù)據(jù)開發(fā)出了許多儀表盤可視化平臺,如世界衛(wèi)生組織[6]、約翰霍普金斯大學(xué)[7]和Worldometers[8]。除此之外,Wikidata也提供了COVID-19相關(guān)主題數(shù)據(jù)的可視化服務(wù)——COVID-19 Wikidata的儀表盤(COVIWD),COVIWD采用了RDF技術(shù)進(jìn)行數(shù)據(jù)建模,以及SPARQL構(gòu)建查詢,是最早利用開放知識圖譜及相關(guān)技術(shù)提供實時、直觀的COVID-19數(shù)據(jù)的應(yīng)用,其中包含了疫情病例癥狀、風(fēng)險因素、各國病例和死亡人數(shù)的比較以及隨時間的變化趨勢,并以可視化的形式呈現(xiàn)給用戶,用戶可以通過該儀表盤快速了解到相關(guān)主題數(shù)據(jù)的信息。目前,國內(nèi)對儀表盤的研究及應(yīng)用較少,本文對Wikidata的COVIWD分析,以期為國內(nèi)相關(guān)領(lǐng)域的研究提供借鑒和啟示。

本文基于Wikidata知識庫,在對其數(shù)據(jù)模型分析的基礎(chǔ)上,針對Wikidata上的COVID-19主題數(shù)據(jù)進(jìn)行調(diào)查分析,并通過與中國國家衛(wèi)生健康委員會的疫情數(shù)據(jù)進(jìn)行對比分析,旨在對Wikidata整合的COVID-19數(shù)據(jù)進(jìn)行可訪問性、準(zhǔn)確性、及時性和完整性四個維度的評價,并根據(jù)提供的COVIWD可視化儀表盤,構(gòu)建SPARQL查詢及可視化呈現(xiàn)。Wikidata作為一個開放、協(xié)作的平臺,國內(nèi)學(xué)者可以很好地借鑒并使用,從而促進(jìn)我國信息組織領(lǐng)域和新冠疫情數(shù)據(jù)整合等方面的研究。

1? Wikidata知識庫概述

1.1? Wikidata、DBpedia和YOGO對比分析

語義網(wǎng)是由Berners-Lee等于2001年提出的,其思想是以語義化結(jié)構(gòu)的方式在Web上發(fā)布和查詢知識[9]。在實現(xiàn)其思想過程中,知識圖譜的概念被提出,并被視為其最重要的組件之一。目前,《本體論手冊》一書中將知識圖譜定義為知識庫,即本體與本體中類與實例的組合,包含大量有關(guān)實體的事實[10]。近年來,有關(guān)知識圖譜的研究及應(yīng)用日益流行,各種各樣的知識圖譜可以在諸如Wikidata、DBpedia、YAGO、OpenCyc、NELL和ConceptNet等網(wǎng)站上找到。維基百科是目前最大的公共知識庫之一,也是網(wǎng)絡(luò)上最大的百科全書,包含各種主題的文本和結(jié)構(gòu)化數(shù)據(jù),但并不支持任何語言進(jìn)行數(shù)據(jù)查詢訪問數(shù)據(jù)或下載轉(zhuǎn)儲,目前Wikidata、DBpedia、YAGO等知識庫抽取維基百科頁面的數(shù)據(jù)信息,并將數(shù)據(jù)存儲為RDF三元組形式,實現(xiàn)了維基百科中數(shù)據(jù)的查詢和獲取。因此,本節(jié)選取Wikidata、DBpedia、YAGO三個使用最廣泛的知識庫,進(jìn)行多個維度的對比分析,比較結(jié)果如表1所示。

DBpedia從維基百科中提取結(jié)構(gòu)化信息,其包含了大多數(shù)其他知識庫如Wikipedia、YAGO、Wikidata、Freebase等的鏈接,DBpedia是一個靜態(tài)的知識圖譜,從維基百科的靜態(tài)轉(zhuǎn)儲中定期更新,信息提取過程比較繁雜。由于維基百科的內(nèi)容每秒鐘都在更新,Mohamed Morsey等人于2012年提出DBpedia LIVE[11]版本,其目的是為了提供與維基百科同步的信息,但其數(shù)據(jù)質(zhì)量依賴于維基百科的內(nèi)容和提取算法/模板映射,不如Wikidata和YAGO的人工評估。

YAGO是最早自動創(chuàng)建的知識庫學(xué)術(shù)項目之一[12],其主要思想是從維基百科中獲取有關(guān)實體的信息,并將獲取的信息與WordNet[13]中類派生的本體結(jié)合。YAGO創(chuàng)建者對數(shù)據(jù)提取、過濾過程以及本體、關(guān)系的選擇、語義約束的嚴(yán)格控制,提高了YAGO知識庫數(shù)據(jù)的質(zhì)量,人工驗證的準(zhǔn)確率達(dá)到95%[14]。然而,盡管新版本YAGO 4在之前版本的范圍和規(guī)模上有了巨大的飛躍以及高度精準(zhǔn)的特點,但對維基百科信息框的關(guān)注意味著YAGO還沒有達(dá)到Wikidata的規(guī)模。

綜合上述維度的對比分析可知,Wikidata與其他兩個知識庫相比,擁有更大規(guī)模的數(shù)據(jù)量、更廣泛的數(shù)據(jù)來源以及靈活的數(shù)據(jù)結(jié)構(gòu),并支持多種數(shù)據(jù)格式的獲取,其實體以唯一的ID來標(biāo)識,Wikidata的數(shù)據(jù)模型允許用戶對某個特定主題靈活、及時地表示,例如Wikidata創(chuàng)建了候選疫苗的條目(Q28051899),但由于其沒有出現(xiàn)在維基百科上,因此該概念在DBpedia中也沒有出現(xiàn)。綜合來說,Wikidata具有開放協(xié)作、多語言、結(jié)構(gòu)化的特點[15],其為每個條目添加聲明,并記錄了其來源,使得數(shù)據(jù)更具有可靠性和真實性。故本文選取Wikidata知識庫,對其數(shù)據(jù)模型進(jìn)行分析,并對Wikidata中的COVID-19維基項目進(jìn)行進(jìn)一步的探析,以期借鑒Wikidata知識庫的信息組織模式,促進(jìn)國內(nèi)相關(guān)領(lǐng)域研究的發(fā)展,引發(fā)對COVID-19數(shù)據(jù)有效整合的進(jìn)一步思考。

1.2? Wikidata數(shù)據(jù)模型分析

Wikidata的主要目的是存儲維基百科頁面中任何語言描述的實物的結(jié)構(gòu)化數(shù)據(jù),換言之,Wikidata是結(jié)構(gòu)化數(shù)據(jù)的集成。而Wikibase是Wikidata的軟件基礎(chǔ)設(shè)施,可以將其理解為一個實體集,這些實體是知識庫的基本元素,可以用Wikibase數(shù)據(jù)模型來描述和引用[16]。MediaWiki是為維基百科和其他維基媒體項目開發(fā)和使用的特定wiki引擎。Wikibase數(shù)據(jù)模型描述了在Wikibase中處理的數(shù)據(jù)的結(jié)構(gòu),它指定了用戶可以向系統(tǒng)提供具體類型的信息。在更抽象的層面上,Wikibase數(shù)據(jù)模型提供了一個元模型或本體來描述現(xiàn)實世界的實體。

Wikidata上數(shù)據(jù)的組織包含三個命名空間[17]:

(1)主命名空間,主要存儲Wikidata上的條目,在Wikidata數(shù)據(jù)模型中,每個概念都有相應(yīng)的條目,Wikidata上存儲的信息通常與條目的主題相關(guān)。

(2)屬性命名空間,用于存儲數(shù)據(jù)的屬性并生成描述性語句。

(3)查詢命名空間,用于定義查詢和顯示信息的方法。

Wikidata條目的字段包含:多語言標(biāo)簽(label)、標(biāo)識符(ID)、多語言描述(description)、多語言別稱(aliases)、陳述(statements)或聲明(claims)等。Wikidata上COVID-19大流行的數(shù)據(jù)結(jié)構(gòu)如圖1所示。

Wikidata中的基本語句是RDF三元組的形式,即主語、謂語和賓語,主語即各種條目,謂語是每個條目對應(yīng)的屬性,賓語是另一個條目或?qū)傩?。Wikidata為每個條目分配唯一標(biāo)識符,用Q+ID表示,同時,為每個屬性分配唯一標(biāo)識符,用P+ID表示。部分屬性將條目作為賓語關(guān)聯(lián)起來,如實例(P31)、子類(P279)和部分(P361),也可以是重要人物(P3342)、用于治療的藥物(P2176)或癥狀(P780)。大多數(shù)情況下,屬性所連接的賓語是一個值,如病例數(shù)(P1603)、時間點(P585)、URL(如官方網(wǎng)站[P856])、字符串(如官方名稱[P1448])或外部標(biāo)識符(如疾病本體ID[P699])。Wikidata向每個條目添加了限定符和參考引用,通過限定符或參考引用提供其限定條件或參考來源,使數(shù)據(jù)更具有真實性和可靠性,用戶也可通過參考來源對該條目進(jìn)行進(jìn)一步的了解。

1.3? Wikidata相關(guān)研究綜述

國外在Wikidata等知識庫的研究相對比較成熟,其研究內(nèi)容主要集中是將Wikidata應(yīng)用于數(shù)據(jù)重用以及對Wikidata數(shù)據(jù)質(zhì)量的評估等方面。DENNY和MARKUS對Wikidata的基本情況進(jìn)行了闡述,包括Wikidata的基本目標(biāo),即抽取包括維基百科等網(wǎng)站頁面結(jié)構(gòu)化數(shù)據(jù),實現(xiàn)數(shù)據(jù)的可見性和實用性,以及Wikidata的眾包模式,允許全球社區(qū)編輯數(shù)據(jù)[18]。Erxleben等人將Wikidata連接到關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò),引入了新的RDF導(dǎo)出,從而解決了Wikidata中豐富、復(fù)雜的數(shù)據(jù)不能以RDF形式提供的問題,并探討了Wikidata的數(shù)據(jù)模型及其RDF編碼[19]。Malyshev等人探討了Wikidata發(fā)揮其全部潛力的主要挑戰(zhàn),即數(shù)據(jù)共享與查詢提供的服務(wù),并分析了Wikidata依賴的語義網(wǎng)技術(shù)以及Wikidata的底層基礎(chǔ)設(shè)施,包括Wikidata及其RDF編碼和導(dǎo)出服務(wù)、SPARQL服務(wù)等[20]。此外,國外還有學(xué)者對Wikidata數(shù)據(jù)貢獻(xiàn)者進(jìn)行了研究,Piscopo等人提出了一個用于評估本體質(zhì)量的框架,利用回歸模型,研究了Wikidata中不同用戶角色與Wikidata本體質(zhì)量之間的關(guān)系,并探討了每種角色是如何影響本體質(zhì)量的[21]。

國內(nèi)Wikidata相關(guān)的研究較少,主要研究學(xué)者是賈君枝教授及其團(tuán)隊,研究內(nèi)容集中在對Wikidata上的人物類、機(jī)構(gòu)類等結(jié)構(gòu)化數(shù)據(jù)集的分析。賈君枝和馮婕運用因果鏈求解算法挖掘Wikidata人物親屬關(guān)系,通過羅馬親等方法計算親屬關(guān)系遠(yuǎn)近,并構(gòu)建了個人實體關(guān)聯(lián)模型[22]。賈君枝和崔西燕對Wikidata的屬性特征進(jìn)行了分析,并根據(jù)屬性特征利用Gephi工具進(jìn)行進(jìn)一步的挖掘研究[23]。劉超針對Wikidata編纂條目,構(gòu)建了PROV起源模型,并評估了Wikidata條目編纂的可信度,對其數(shù)據(jù)來源和質(zhì)量進(jìn)行有效追溯[24]。賈君枝和葉壯壯基于Wikidata上的機(jī)構(gòu)類,利用子類和實例屬性,構(gòu)建機(jī)構(gòu)類目范疇樹并在此基礎(chǔ)上提出了對其優(yōu)化方法,可有效地解決機(jī)構(gòu)類層級混亂等問題[25]。賈君枝和趙宇飛對Wikidata上的人物類條目進(jìn)行研究,實現(xiàn)其與名稱規(guī)范檔數(shù)據(jù)的聚合,并在此基礎(chǔ)上,構(gòu)建了D2R三元組映射模型,初步實現(xiàn)名稱規(guī)范檔人物數(shù)據(jù)的語義化整合[26]。

Wikidata與其他知識庫相比,在數(shù)據(jù)源、數(shù)據(jù)量、數(shù)據(jù)質(zhì)量等各方面具有一定的優(yōu)勢,目前國外在Wikidata數(shù)據(jù)模型以及利用其對新冠疫情數(shù)據(jù)進(jìn)行整合集成研究上相對成熟,而國內(nèi)的相關(guān)研究較少,盡管在新冠疫情數(shù)據(jù)整理方面,國內(nèi)各政府部門每日發(fā)布實時數(shù)據(jù),但目前尚未形成一個全面的數(shù)據(jù)組織模式。Wikidata:COVID-19維基項目整合了新冠疫情相關(guān)的各方面數(shù)據(jù),并以可視化形式呈現(xiàn)給用戶,分析Wikidata數(shù)據(jù)模型以及其對疫情數(shù)據(jù)在信息組織與發(fā)布的模式對國內(nèi)疫情大數(shù)據(jù)的有效組織集成具有重要意義,值得進(jìn)一步的探討和借鑒。

2? Wikidata COVID-19開放數(shù)據(jù)分析

2.1? Wikidata COVID-19主要條目

Wikidata中COVID-19知識圖譜的核心包含三個主要條目:COVID-19(Q84263196)、SARS-CoV-2(Q82069695)和COVID-19大流行(Q81068910),這三個核心條目之間存在一定的關(guān)系:SARS-CoV-2病毒導(dǎo)致了COVID-19疾病的產(chǎn)生,而COVID-19疾病本身就具有導(dǎo)致COVID-19大流行的因素。Wikidata中與COVID-19各方面相關(guān)的所有條目都與這三個核心條目相互鏈接,其基本數(shù)據(jù)模型如圖2所示,該圖可從Wikidata網(wǎng)站上獲取[27]。

圖2中內(nèi)圓部分表示與COVID-19相關(guān)的三個主要條目,Wikidata上與這三個條目相關(guān)的其他條目在圖中外圓部分顯示,它們之間的關(guān)系用箭頭進(jìn)行連接,相關(guān)類別中每個條目的陳述數(shù)量都標(biāo)注在條目旁邊。由圖可知三個核心條目相關(guān)的學(xué)術(shù)文章對應(yīng)的發(fā)表數(shù)量,可以看出,目前在COVID-19方面的學(xué)術(shù)研究數(shù)量最多,而在COVID-19大流行方面相對較少。

2.1.1? COVID-19

COVID-19疫情條目在Wikidata上由Q84263196唯一標(biāo)識,陳述部分的內(nèi)容主要描述了COVID-19與Wikidata上其他條目的關(guān)系。COVID-19的屬性大致可分為兩類:通用屬性和醫(yī)學(xué)特有屬性。通用屬性包含:實例(P31)、子類(P279)、圖像(P18)、重要人物(P3342)、等;醫(yī)學(xué)特有屬性包含健康專業(yè)(P1995)、癥狀和體征(P780)、基本繁殖數(shù)(P3492)、病原體傳播過程(P1060)等。用戶可以直接了解到COVID-19的基本信息以及在生物醫(yī)學(xué)領(lǐng)域的專業(yè)知識。

2.1.2? SARS-CoV-2

SARS-CoV-2(Q82069695)是COVID-19條目的病因(P828)的屬性值。SARS-CoV-2的通用屬性包括實例(P31)和圖像(P18)等,其病毒特有屬性包括寄主(P2975)、分類單元名稱(P225)、分類單元等級(P105)、基因組大?。≒2143)和親本分類單元(P171)。通過這些屬性關(guān)系,領(lǐng)域研究者可以追溯與SARS-CoV-2嚴(yán)重急性呼吸綜合征相關(guān)的冠狀病毒,還可以追溯其祖父母(即薩爾貝病毒)等,Wikidata上建立的SARS-CoV-2相關(guān)信息對生物醫(yī)學(xué)領(lǐng)域有著重要意義,能對其他病毒的溯源追溯和控制提供一定的幫助。

2.1.3? COVID-19大流行

COVID-19大流行(Q81068910)是指SARS COV-2引起的持續(xù)性大流行,在該主題下,概述了COVID-19從國家到省份,再到城市等不同實體的流行病學(xué)演變狀況,實體層面可以細(xì)分到COVID-19的確診病例數(shù)、死亡人數(shù)、痊愈人數(shù)。該條目下包含了各個國家關(guān)于COVID-19流行的數(shù)據(jù)信息,即每個國家都有針對COVID-19的特定的Wikidata條目,這樣有利于檢測COVID-19在各個國家的傳播情況,也便于數(shù)據(jù)的組織和訪問。

2.2? Wikidata COVID-19其他相關(guān)主題

Wikidata中COVID-19的相關(guān)數(shù)據(jù)主要圍繞三個核心條目展開,同時也包含了其他相關(guān)的主題。在生物醫(yī)學(xué)方面,Wikidata記錄了COVID-19相關(guān)的分類群,包括親本分類群(P171)和其他乙型冠狀病毒(Q16532287),還記錄了基因組、蛋白質(zhì)等信息,有助于醫(yī)學(xué)研究者追溯COVID-19病原體以及相關(guān)的醫(yī)學(xué)信息。在醫(yī)學(xué)科學(xué)數(shù)據(jù)方面,Wikidata實現(xiàn)了對各國COVID-19相關(guān)出版物(包括學(xué)術(shù)文章、預(yù)印本等)的有效整合和開放獲取,并提供了多種文獻(xiàn)服務(wù)平臺,如Allen人工智能研究所和其他研究小組發(fā)布的COVID-19開放研究數(shù)據(jù)集[28],收錄了在1951—2020年期間來自不同來源的出版物約有47 000份,包括:

(1)PubMed的PMC開放獲取文集。

(2)來自世衛(wèi)組織維護(hù)的文集的COVID-19研究文章。

(3)bioRxiv和medRxiv預(yù)印本。

用戶可以在這些平臺上檢索和獲取相關(guān)文獻(xiàn),實現(xiàn)構(gòu)建學(xué)術(shù)命運共同體,從而促進(jìn)對COVID-19有效管控。除此之外,Wikidata還建立了社會、經(jīng)濟(jì)方面影響有關(guān)的條目,但這些條目的信息相對來說并不完整,還有待進(jìn)一步完善。

2.3? Wikidata中的中國疫情數(shù)據(jù)分析

Wikidata的COVID-19項目記錄了各國的COVID-19大流行的條目,如中國COVID-19大流行(Q83872271)。中國國家衛(wèi)生健康委員會(簡稱國家衛(wèi)健委)是國務(wù)院組成部門,其發(fā)布的數(shù)據(jù)具有一定的權(quán)威性,本文選取國家衛(wèi)健委發(fā)布的數(shù)據(jù),從數(shù)據(jù)可獲取性、準(zhǔn)確性、及時性、完整性四個維度與Wikidata上的中國COVID-19大流行數(shù)據(jù)進(jìn)行對比。

2.3.1? 可獲取性

Wikidata提供了一個公共SPARQL端點來訪問數(shù)據(jù)集,可通過瀏覽器或編程語言進(jìn)行訪問,而國家衛(wèi)健委提供的數(shù)據(jù)可通過官方網(wǎng)站直接訪問每日疫情通報鏈接,但在獲取和利用數(shù)據(jù)方面,衛(wèi)健委尚未提供數(shù)據(jù)獲取途徑。

2.3.2? 準(zhǔn)確性

中國的疫情數(shù)據(jù)統(tǒng)計主要依靠健全的行政組織來完成,Wikidata上的COVID-19數(shù)據(jù)主要來源于約翰霍普金斯大學(xué)系統(tǒng)科學(xué)與工程中心(CSSE)的COVID-19數(shù)據(jù)存儲庫[29],其存儲的中國數(shù)據(jù)源來自中國衛(wèi)健委和中國疾病預(yù)防控制中心以及國內(nèi)權(quán)威科普網(wǎng)站“丁香園”。霍普金斯大學(xué)存儲的COVID-19數(shù)據(jù)實時更新,準(zhǔn)確率高且具備糾錯能力,是相當(dāng)權(quán)威的疫情數(shù)據(jù),因此,Wikidata上記錄的COVID-19數(shù)據(jù)具有較高的準(zhǔn)確性。

2.3.3? 及時性

中國COVID-19大流行條目下的病例數(shù)據(jù)是實時更新的,但就及時性來說,仍不及國家衛(wèi)健委官方網(wǎng)站公布的數(shù)據(jù)。截至2022年1月25日,Wikidata上的中國COVID-19大流行條目下的病例數(shù)據(jù)更新至2022年1月22日,而國家衛(wèi)健委的數(shù)據(jù)已經(jīng)更新至2022年1月24日。

2.3.4? 完整性

Wikidata上的中國COVID-19大流行數(shù)據(jù)中,以表格的形式記錄了各省份的基本數(shù)據(jù),但其表格頁面的編輯和維護(hù)在2021年7月后停止更新。由此可見,Wikidata上中國的COVID-19各省份數(shù)據(jù)的更新尚不完整。從國家衛(wèi)健委疫情通報內(nèi)容上看,每日公布的疫情數(shù)據(jù)中包含了病例的具體省份、市區(qū)等,以及密切接觸者、醫(yī)學(xué)觀察者的相關(guān)信息,而Wikidata上的COVID-19數(shù)據(jù)相對來說尚不完整和直觀,可根據(jù)相關(guān)方面的內(nèi)容進(jìn)一步完善。

3? Wikidata COVIWD基礎(chǔ)框架分析

COVIWD(Wikidata:COVID-19儀表盤)為Wikidata上的COVID-19相關(guān)主題提供一站式信息及可視化服務(wù)。COVIWD的主要數(shù)據(jù)來源為Wikidata上存儲的COVID-19相關(guān)的數(shù)據(jù),其核心依賴于RDF和SPARQL技術(shù)。Wikidata中的數(shù)據(jù)以RDF三元組的形式進(jìn)行存儲,并提供了一個SPARQL端點,可以通過SPARQL查詢語言高效地查詢所需要的數(shù)據(jù),從大規(guī)模知識圖中動態(tài)地提取三重信息,其查詢結(jié)果在COVIWD中以不同形式的可視化視圖展示。當(dāng)用戶訪問COVIWD頁面時,對應(yīng)的每個主題版塊可對Wikidata進(jìn)行實時查詢,并將查詢結(jié)果的可視化視圖組成的界面呈現(xiàn)給用戶。

全球COVID-19病例數(shù)、死亡人數(shù)、痊愈人數(shù)可通過SPARQL查詢進(jìn)行可視化呈現(xiàn),直觀地了解到全球各國COVID-19傳播現(xiàn)狀以及對人口帶來的影響。相關(guān)的主要屬性及條目包括病例數(shù)(P1603)、國家(Q3624078),以各國確診病例數(shù)的最大值作為最新病例數(shù)。如圖3所示。

同時,還可以按國家每10萬人中的病例數(shù)進(jìn)行查詢,查詢結(jié)果如圖4所示。

由圖3可知,美國COVID-19病例數(shù)在全球最高,但從圖4可以得知,全球確診病例每10萬人中人數(shù)最高的國家是圣馬力諾共和國(San Marino)。同樣,該查詢也適用于比較各國的COVID-19死亡人數(shù)、痊愈人數(shù),從而了解各國COVID-19發(fā)展現(xiàn)狀,為各國COVID-19管控或研究提供一定的事實依據(jù)。

自COVID-19爆發(fā)以來,學(xué)術(shù)界一直致力于各方面的研究,以期有效控制COVID-19蔓延,由此,學(xué)界在COVID-19研究中發(fā)表了很多相關(guān)的出版物,包括預(yù)印本(Q580922)和學(xué)術(shù)文章(Q13442814)。COVID-19主題相關(guān)的學(xué)術(shù)文章標(biāo)題進(jìn)行關(guān)鍵詞形成的氣泡圖如圖5所示。

由此可見,COVID-19相關(guān)的研究大多數(shù)集中在疫情大流行主題中,但由于查詢僅選取了1 000個出版物條目進(jìn)行關(guān)鍵詞提取,故查詢結(jié)果可能會存在一定的偏差。除此之外,還可以對其關(guān)鍵詞進(jìn)行共現(xiàn)研究,以期實現(xiàn)對電子文獻(xiàn)更廣泛的查詢和獲取。

除了上述對COVID-19相關(guān)數(shù)據(jù)的示例查詢與可視化呈現(xiàn)外,Wikidata上還有很多方面的數(shù)據(jù)可以做進(jìn)一步的研究。此外,Wikidata上也存在一些數(shù)據(jù)缺失,例如Wikidata目前并未對各國每年更新的社會經(jīng)濟(jì)信息進(jìn)行記錄,如失業(yè)率(P1198)和國民生產(chǎn)總值(P2131)等,因此不利于將知識圖譜技術(shù)應(yīng)用于研究COVID-19對全球經(jīng)濟(jì)的影響。同時,Wikidata在COVID-19相關(guān)法律規(guī)定方面的數(shù)據(jù)也不完整,如居家令、口罩等方面的政策,因此,審核和驗證Wikidata不同主題內(nèi)容的標(biāo)準(zhǔn)化方法有待進(jìn)一步的完善。Wikidata通過COVID-19關(guān)聯(lián)數(shù)據(jù)發(fā)布,以及COVIWD提供SPARQL查詢以及可視化形式呈現(xiàn),能夠直觀地將COVID-19數(shù)據(jù)呈現(xiàn)給用戶,實現(xiàn)了數(shù)據(jù)的開放獲取,值得國內(nèi)相關(guān)領(lǐng)域的學(xué)習(xí)和借鑒。

4? 結(jié)? 論

本文旨在通過對Wikidata數(shù)據(jù)模型以及其對COVID-19信息組織等模式上的研究,以期對國內(nèi)信息組織等相關(guān)領(lǐng)域的研究以及中國COVID-19大流行的相關(guān)工作提供借鑒和參考。目前,本文完成了:

(1)對當(dāng)前主流的Wikidata、DBpedia、YAGO三個知識庫進(jìn)行多維度的對比分析,分析發(fā)現(xiàn)Wikidata主要區(qū)別在于使用RDF三元組的形式存儲數(shù)據(jù),并通過使用限定符和參考引用來提供基本語句的附加特性和來源。

(2)基于Wikidata中記錄的COVID-19數(shù)據(jù)進(jìn)行主要條目和其他相關(guān)主題的調(diào)查分析。

(3)將國家衛(wèi)健委的疫情數(shù)據(jù)與Wikidata的中國COVID-19大流行數(shù)據(jù)進(jìn)行四個維度的比較分析,結(jié)果表明,Wikidata記錄了實時更新且數(shù)據(jù)質(zhì)量真實可靠的COVID-19數(shù)據(jù),其數(shù)據(jù)在目前的基礎(chǔ)上,可從密切接觸者數(shù)、醫(yī)學(xué)觀察人數(shù)、市區(qū)病例數(shù)等方面進(jìn)一步完善。

本文僅對Wikidata及其記錄的COVID-19數(shù)據(jù)進(jìn)行了的初步分析和研究,并未在實踐上實現(xiàn)對其數(shù)據(jù)的應(yīng)用。從Wikidata數(shù)據(jù)發(fā)布者來看,機(jī)構(gòu)知識庫是其數(shù)據(jù)發(fā)布者的主要組成,目前已經(jīng)有VIAF、GND等許多機(jī)構(gòu)知識庫參與到Wikidata數(shù)據(jù)發(fā)布中,而國內(nèi)機(jī)構(gòu)知識庫參與其中的較少。在信息組織、開放數(shù)據(jù)的發(fā)布及語義網(wǎng)技術(shù)應(yīng)用等方面,Wikidata是一個很好的平臺,在未來的研究中,將繼續(xù)對Wikidata開放數(shù)據(jù)的組織、發(fā)布及應(yīng)用進(jìn)行研究,并深入探討國內(nèi)知識庫與Wikidata數(shù)據(jù)發(fā)布的連接,從而提高國內(nèi)數(shù)據(jù)的開放性和可獲取性。

參考文獻(xiàn):

[1] World Health Organization. Coronavirus (COVID-19) data [EB/OL].(2022-01-20)[2022-09-12].https://www.who.int/data.

[2] Wikidata [EB/OL].(2022-01-20)[2022-09-12].https://www.wikidata.org.

[3] EDWARDS D,THOMAS J C. Developing a Municipal Performance-Measurement System:Reflections on the Atlanta Dashboard [J].Public administration review,2005,65(3):369-376.

[4] TOKOLA H,GR?GER C,J?RVENP?? E,et al. Designing Manufacturing Dashboards on the Basis of a Key Performance Indicator Survey [J].Procedia CIRP,2016,57:619-624.

[5] LEE K,JUNG S Y,HWANG H,et al. A novel concept for integrating and delivering health information using a comprehensive digital dashboard:An analysis of healthcare professionals' intention to adopt a new system and the trend of its real usage [J].International Journal of Medical Informatics,2017,97:98-108.

[6] World Health Organization. WHO Coronavirus(COVID-19)Dashboard [EB/OL].(2022-01-20)[2022-09-15].https://covid19.who.int/.

[7] Johns Hopkins University. COVID-19 Dashboard [EB/OL].(2022-01-20)[2022-09-15].https://coronavirus.jhu.edu/map.html.

[8] Worldometer. COVID-19 CORONAVIRUS PANDEMIC [EB/OL].(2022-01-20)[2022-09-15].https://www.worldometers.info/coronavirus/.

[9] BERNERS-LEE T,HENDLER J,LASSILA O. The semantic web [J]. Scientific American,2001,284(5):34-43.

[10] STAAB S,STUDER R. Handbook on Ontologies:Second Edition [M].[S.I.]:Springer,2010.

[11] MORSEY M,LEHMANN J,AUER S,et al. DBpedia and the live extraction of structured data from Wikipedia [J].Program:electronic library and information systems,2012,46(2):157-181.

[12] SUCHANEK F,KASNECI G M,WEIKUM G M. YAGO:A Core of Semantic Knowledge Unifying WordNet and Wikipedia [C]//WWW'07:16th International World Wide Web Conference.Banff:Association for Computing Machinery.2007:697-706.

[13] FELLBAUM C,MILLER G. WordNet:An Electronic Lexical Database [M].[S.I.]:A Bradford Book,1998.

[14] TANON T P,WEIKUM G,SUCHANEK F. YAGO 4:A Reason-able Knowledge Base [EB/OL].[2022-09-15].http://videolectures.net/eswc2020_tanon_paper_110/.

[15] ERXLEBEN F,G?NTHER M,KRTZSCH M,et al. Introducing Wikidata to the Linked Data Web [C]//The Semantic Web – ISWC 2014.Riva del Garda:Springer,2014:50–65.

[16] mediawiki. Wikibase [EB/OL].[2022-09-15].https://www.mediawiki.org/wiki/Category:Wikibase.

[17] 賈君枝,薛秋紅.Wikidata的特點、數(shù)據(jù)獲取與應(yīng)用 [J].圖書情報工作,2016,60(17):136-141+148.

[18] VRANDE?I? D,KR?TZSCH M. Wikidata:a free collaborative knowledgebase [J]. Communications of the ACM,2014,57(10):78-85.

[19] ERXLEBEN F,G?NTHER M,KR?TZSCH M,et al. Introducing Wikidata to the Linked Data Web [C]//International semantic web conference.Riva del Garda:Springer,Cham,2014:50-65.

[20] MALYSHEV S,KR?TZSCH C M,GONZ?LEZ L,et al. Getting the Most Out of Wikidata:Semantic Technology Usage in Wikipedia's Knowledge Graph [C]//International Semantic Web Conference. Monterey:Springer,Cham,2018:376-394.

[21] PISCOPO A,SIMPERL E. Who Models the World? Collaborative Ontology Creation and User Roles in Wikidata [J].Proceedings of the ACM on Human-Computer Interaction, 2018,2(CSCW):1-18.

[22] 賈君枝,馮婕.基于因果鏈求解算法的人物關(guān)系挖掘研究——以Wikidata知識庫為例 [J].情報學(xué)報,2017,36(3):221-230.

[23] 賈君枝,崔西燕.Wikidata屬性特征及關(guān)系分析 [J].情報科學(xué),2019,37(6):80-86+118.

[24] 劉超.維基數(shù)據(jù)條目編纂起源管理與起源可信度應(yīng)用 [D].太原:山西大學(xué),2019.

[25] 賈君枝,葉壯壯.基于Wikidata的機(jī)構(gòu)類目范疇樹構(gòu)建與優(yōu)化 [J].國家圖書館學(xué)刊,2018,27(1):56-64.

[26]賈君枝,趙宇飛.Wikidata與名稱規(guī)范檔數(shù)據(jù)聚合實現(xiàn) [J].情報科學(xué),2018,36(11):72-77+82.

[27] Wikidata. COVID-19 on Wikidata [EB/OL].[2022-08-22].https://commons.wikimedia.org/wiki/File:COVID-19_on_Wikidata.svg.

[28] Allen Institute for A1. CORD-19 Explorer [EB/OL].[2022-08-24].https://cord-19.apps.allenai.org/.

[29] github. CSSEGISandData/COVID-19 [EB/OL].[2022-08-24].https://github.com/CSSEGISandData/COVID-19.

作者簡介:楊倩(1998—),女,藏族,四川瀘定人,碩士研究生在讀,研究方向:信息檢索與情報服務(wù);李小麗(1998—),女,漢族,四川德陽人,碩士研究生在讀,研究方向:信息檢索與情報服務(wù)。

收稿日期:2022-10-08

猜你喜歡
維基百科數(shù)據(jù)模型知識庫
維基百科影響司法
英語世界(2023年10期)2023-11-17 09:18:46
維基百科青年
英語文摘(2021年8期)2021-11-02 07:17:46
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
面板數(shù)據(jù)模型截面相關(guān)檢驗方法綜述
加熱爐爐內(nèi)跟蹤數(shù)據(jù)模型優(yōu)化
電子測試(2017年12期)2017-12-18 06:35:36
高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
APP
IBM的監(jiān)視
意林(2014年2期)2014-02-11 11:09:17
面向集成管理的出版原圖數(shù)據(jù)模型
闻喜县| 定州市| 抚远县| 安吉县| 确山县| 搜索| 利川市| 象山县| 彭阳县| 延寿县| 乐至县| 兰坪| 紫金县| 佛冈县| 监利县| 田东县| 洞口县| 郧西县| 鹰潭市| 淮南市| 容城县| 扶风县| 梁平县| 韶山市| 双牌县| 莱州市| 嘉兴市| 镇康县| 磴口县| 稻城县| 壶关县| 恩施市| 黄陵县| 静海县| 桐城市| 新乡市| 元朗区| 宁安市| 涟源市| 资兴市| 吉水县|