王曉光 宋寧遠(yuǎn)
[摘 要] 語義出版物是科學(xué)交流和學(xué)術(shù)出版領(lǐng)域一種新興的數(shù)字出版物模型,適應(yīng)了機(jī)器讀取和理解文獻(xiàn)內(nèi)容的需要。本文以科學(xué)交流理論、文本功能理論和修辭結(jié)構(gòu)理論為基礎(chǔ),在系統(tǒng)論視角下重點(diǎn)關(guān)注語義出版物內(nèi)容組織架構(gòu)中兩個(gè)核心基本要素:組件單元和語義關(guān)系,并以語義出版物發(fā)展過程中的兩個(gè)關(guān)鍵模型——納米出版物模型和微型出版物模型為例,從模型架構(gòu)、核心組件、語義關(guān)系、論證模式四個(gè)角度對(duì)語義出版物的內(nèi)容組織架構(gòu)進(jìn)行探索性分析。研究表明,微型出版物模型具有明顯的模塊化、結(jié)構(gòu)化、形式化和網(wǎng)絡(luò)化特點(diǎn),但在知識(shí)表示能力和內(nèi)容組織架構(gòu)上仍存在不足。揭示和形式化表示敘事性論文中的潛在知識(shí)是語義出版物內(nèi)容組織架構(gòu)設(shè)計(jì)面臨的挑戰(zhàn)。
[關(guān)鍵詞] 語義出版 納米出版物 微型出版物 內(nèi)容組織架構(gòu) 比較研究
[中圖分類號(hào)] G254 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1009-5853 (2017) 04-0020-08
Content Schema of Semantic Publication:A Comparative Analysis Based on NanoPublication
and MicroPublication
Wang Xiaoguang Song Ningyuan
(School of Information Management, Wuhan University,Wuhan,430072)
[Abstract] Semantic Publication(SP) is a new kind of digital publishing model for scientific communication and academic publishing, suitable for machine reading and understanding. This article is based on the scientific communication theory, textual function theory, and rhetorical structure theory. From the view of system theory, we focus on two core elements, which are article component and semantic relations. And two key SP models, Nanopublication and Mircopublication are chosen as the two instances to conduct a comparative analysis from four lens, in order to figure out the knowledge organization architecture of SP models. The results demonstrate that MicroPubilcation is more powerful than NanoPublication in knowledge representation and knowledge organization structure, and has four special features, which are structuralization, explicitness, formalization, and networking. But these SP models are still not enough detail on the granularity of knowledge organization, and the free transformation from traditional narrative text to machine-readable is still a challenge along with the development in semantic publishing.
[Key words] Semantic publishing Publication model NanoPulication MicroPublication Comparative analysis
1 引 言
科學(xué)交流是科研活動(dòng)的重要環(huán)節(jié)。自1865年第一本學(xué)術(shù)期刊出版以來,代表正式科學(xué)交流形式的科學(xué)論文的結(jié)構(gòu)基本上沒有改變過。作為印刷時(shí)代的產(chǎn)物,論文在內(nèi)容組織與知識(shí)表示上一直受到紙張媒介的天然約束,比如版式結(jié)構(gòu)固定、內(nèi)容難以重用、閱讀方式單一、結(jié)果難于驗(yàn)證等。近年來,隨著語義出版的快速發(fā)展,傳統(tǒng)論文的固有缺陷正在被消除[1],威利(Wiley)[2]、愛思唯爾(Elsevier)[3]、美國(guó)科學(xué)公共圖書館(PLoS)[4]等知名出版機(jī)構(gòu)和SWJ [5]、Cite4Me [6]、DOMEO [7]、Reflect [8] 等語義出版項(xiàng)目的實(shí)踐都表明對(duì)論文進(jìn)行語義增強(qiáng),如結(jié)構(gòu)化處理、添加語義標(biāo)簽、增加實(shí)體鏈接等可以改進(jìn)讀者的信息獲取效率[9]。語義增強(qiáng)后的論文常被稱為增強(qiáng)型出版物(Enhanced Publication),其內(nèi)容形式的豐富性和互動(dòng)性都有較大提升[10],但還是沒有從根本上改變科學(xué)論文的內(nèi)容組織架構(gòu)。
在增強(qiáng)型出版物快速發(fā)展的同時(shí),全新的語義出版物也悄然浮現(xiàn)。2009年以來,多個(gè)語義出版物模型陸續(xù)出現(xiàn),如納米出版物模型(NanoPublication)[11]和微型出版物模型(MicroPublication)[12]。與增強(qiáng)型出版物模型不同,這兩種出版物模型并非傳統(tǒng)論文的內(nèi)容增強(qiáng)版,而是具備全新內(nèi)容組織架構(gòu)的語義出版物模型。
為了分析語義出版物的特點(diǎn),本文以納米出版物與微型出版物兩類語義出版物模型為代表,通過比較分析深入探索語義出版物模型在組件單元、語義關(guān)系和組織模式上的特征及其演化邏輯,并以此為基礎(chǔ),對(duì)出版物內(nèi)容組織架構(gòu)的發(fā)展方向進(jìn)行展望。
2 語義出版物的產(chǎn)生與定義
2.1 語義出版物的產(chǎn)生與發(fā)展
從出版物模型的發(fā)展歷程來看,出版物內(nèi)容組織架構(gòu)的創(chuàng)新與XML語言的應(yīng)用關(guān)系密切。正是在XML語言支撐下,科學(xué)論文可以被表示成樹狀的有序分層內(nèi)容對(duì)象(OHCO)[13],基于這種思想,語義出版物模型日益浮現(xiàn)。此外,論文內(nèi)容模塊化的思想也促進(jìn)了語義出版物的提出與發(fā)展。1998年,克爾茲(J. Kircz)提出模塊化論文模型,將科學(xué)論文拆分為摘要、研究現(xiàn)狀、研究方法等獨(dú)立模塊,認(rèn)為不同模塊可以按照一定邏輯關(guān)聯(lián)進(jìn)行重組[14]。2008年,亨特(J. Hunter)等人提出了科學(xué)出版物包裹(Scientific Publication Packages)的概念[15],同樣強(qiáng)調(diào)科學(xué)論文的模塊化結(jié)構(gòu)。
近年來,科學(xué)交流領(lǐng)域“超越PDF”的呼聲漸起,增強(qiáng)型論文開始出現(xiàn)[16],并逐漸得到主流學(xué)術(shù)出版機(jī)構(gòu)的認(rèn)可。增強(qiáng)型論文借助可交互的圖表和外部資源的鏈接實(shí)現(xiàn)論文可理解性(Understandability)的增強(qiáng),但主要還是面向讀者的內(nèi)容增強(qiáng),而非面向機(jī)器可讀性(Readable)的增強(qiáng),所以本質(zhì)上屬于數(shù)字環(huán)境下科學(xué)論文內(nèi)容組織模型的優(yōu)化。
2009年以來,較為成熟的語義出版物模型逐漸浮現(xiàn),如巴瑞安德·蒙斯(Barend Mons)和楊·維爾特?。↗an Velteron)提出的納米出版物模型;2010年,吉安奇格里安(Giunchiglia)等提出的液體出版物模型(Liquid Publication)[17];2013年,艾莉森·卡拉漢(Alison Callahan)等提出的 (Ovopub)模型[18];2014年,哈利德·貝哈伊姆(Khalid Belhajjame)等提出的研究對(duì)象套件模型(Research Object Suit)[19]、克里斯蒂安·波爾林(Christian B?lling)等提出的語義證據(jù)模型(Semantic Evidence)[20]以及蒂姆·克拉克(Tim Clark)等提出的微型出版物模型。這類語義出版物通過關(guān)聯(lián)數(shù)據(jù)、RDF、本體、知識(shí)表示等技術(shù)與思想,優(yōu)化出版物知識(shí)組織模式,提高機(jī)器可讀性,是一種新型的出版物知識(shí)組織架構(gòu)。
作為一種人工產(chǎn)物,不同的語義出版物模型設(shè)計(jì)思想不同,注重解決的問題也不一樣,從而造成內(nèi)容對(duì)象及關(guān)聯(lián)方式的差異。比如液體出版物模型側(cè)重于動(dòng)態(tài)重組不同粒度的知識(shí)對(duì)象;研究對(duì)象套件模型側(cè)重于提供一種結(jié)構(gòu)化的容器,用于封裝研究數(shù)據(jù)、研究方法及元數(shù)據(jù)信息;語義證據(jù)模型借助RDF對(duì)論證框架下的科學(xué)論斷、證據(jù)、支撐材料等進(jìn)行關(guān)聯(lián);Ovopub模型設(shè)計(jì)了對(duì)數(shù)據(jù)及相關(guān)信息的結(jié)構(gòu)化描述方案,側(cè)重于對(duì)科研數(shù)據(jù)的整合與應(yīng)用;納米出版物形式化表達(dá)并關(guān)聯(lián)了科學(xué)論斷;微型出版物則表達(dá)了科學(xué)論文內(nèi)容的論述過程。
納米出版物模型和微型出版物模型一經(jīng)提出就受到學(xué)界的強(qiáng)烈關(guān)注,因?yàn)樗鼈兙哂腥碌闹R(shí)組織架構(gòu),是兩種面向未來的、具有實(shí)用價(jià)值的語義出版物模型。
2.2 語義出版物的定義
語義出版物是借助語義技術(shù)實(shí)現(xiàn)的,能夠揭示概念、命題、論證等顯性和隱性科學(xué)知識(shí),有利于知識(shí)重組和再利用的新型出版物模型,具備結(jié)構(gòu)化、模塊化、網(wǎng)絡(luò)化等特征。語義出版物能夠提高出版物的機(jī)器可讀性,有利于機(jī)器代理(Agents)操作知識(shí)單元,實(shí)現(xiàn)更高級(jí)的知識(shí)服務(wù)[21]。
設(shè)計(jì)新型的語義出版物需要從提升出版物知識(shí)結(jié)構(gòu)化水平和表現(xiàn)能力兩個(gè)方面入手。近年來出現(xiàn)的大部分語義出版模型都圍繞這兩方面進(jìn)行了創(chuàng)新設(shè)計(jì)。知識(shí)結(jié)構(gòu)化的目的是提高知識(shí)對(duì)機(jī)器的可理解性。結(jié)構(gòu)化可以分為兩個(gè)層次,第一個(gè)層次是對(duì)構(gòu)成論文的顯性章節(jié)、段落、語句等邏輯單元進(jìn)行置標(biāo),形成帶有結(jié)構(gòu)化標(biāo)簽的論文,例如使用期刊標(biāo)注標(biāo)簽集(JATS)表示的論文。第二個(gè)層次是要對(duì)論文內(nèi)的知識(shí)單元、論證結(jié)構(gòu)等潛在知識(shí)進(jìn)行顯性化和形式化表示,借助RDF表示論文內(nèi)各種類型的知識(shí)單元及其相互之間的關(guān)系,以此讓機(jī)器“讀懂”論文。知識(shí)表現(xiàn)性增強(qiáng)是為了提高知識(shí)對(duì)人的可理解性,包括提高內(nèi)容的可視化程度、增加實(shí)體鏈接(Entity Linking)以便于讀者理解關(guān)鍵術(shù)語和概念等。
圖1展示了不同語義出版物模型的差異。液體出版物模型側(cè)重于揭示論文內(nèi)的不同知識(shí)單元,語義證據(jù)模型側(cè)重于表示論文的論證結(jié)構(gòu),帶有結(jié)構(gòu)化標(biāo)簽的出版物側(cè)重于揭示論文的章節(jié)結(jié)構(gòu),增強(qiáng)型出版物側(cè)重于提高知識(shí)表現(xiàn)能力。與這四種語義出版物模型相比較而言,納米出版物模型和微型出版物模型具有更優(yōu)秀的知識(shí)組織架構(gòu),特別是在內(nèi)容結(jié)構(gòu)化維度上有較大改進(jìn),十分有利于機(jī)器讀取內(nèi)容。下文我們將對(duì)這兩種模型進(jìn)行比較分析,以期發(fā)現(xiàn)語義出版物模型中知識(shí)組織架構(gòu)的基本特征、演化邏輯和發(fā)展趨勢(shì)。
3 語義出版物的內(nèi)容組織架構(gòu)分析框架
科學(xué)論文是知識(shí)的容器,具有不同語義功能的內(nèi)容組件包含了大量知識(shí)實(shí)體,并通過組件間的關(guān)聯(lián)關(guān)系進(jìn)行組織。語義出版物內(nèi)容組織架構(gòu)針對(duì)語篇邏輯結(jié)構(gòu),主要考慮出版物內(nèi)容的組件單元及組件單元間的語義關(guān)系,通過形式化語言對(duì)組成語篇的內(nèi)容組件單元及關(guān)系進(jìn)行建模,進(jìn)而實(shí)現(xiàn)對(duì)出版物內(nèi)容的組織與關(guān)聯(lián)。
3.1 組件單元
出版物組件單元的設(shè)計(jì)必須考慮其所承載的科學(xué)交流功能。從現(xiàn)有科學(xué)論文組件單元的相關(guān)研究來看,論文是由情報(bào)功能各不相同的各種粒度形式的組件單元組成,包括細(xì)粒度的術(shù)語、實(shí)體、公式、圖像,中粒度的句子和段落,以及粗粒度的章節(jié)、數(shù)據(jù)集、附加資料等。這些不同粒度的組件單元之間相互組配形成論文的各個(gè)模塊和有機(jī)整體。明確定義和劃分組件單元的類型雖然十分重要,但是學(xué)界對(duì)組件單元的分類一直缺乏完整的框架,而且不同的學(xué)科看待論文內(nèi)容的視角不同,導(dǎo)致對(duì)組件單元的分類也有較大差別。
在情報(bào)學(xué)領(lǐng)域,研究者側(cè)重于從出版物內(nèi)容的功能屬性進(jìn)行組件單元的定義。國(guó)內(nèi)學(xué)者提出知識(shí)單元的概念,并自頂向下(Top-down)地探討了知識(shí)單元的概念和類型。王子舟等人曾將知識(shí)單元定義為客觀知識(shí)系統(tǒng)中有實(shí)際意義的基本單位[22],溫有奎等人[23]、趙蓉英[24]、文庭孝[25]等人采納類似的觀點(diǎn),他們側(cè)重于分析知識(shí)單元的特征,但沒有提出更為具體的知識(shí)單元分類框架。國(guó)外的研究并不強(qiáng)調(diào)知識(shí)單元,使用了更為具體的概念,如核心科學(xué)概念和功能單元,而且在方法論上更側(cè)重于自下向上的(Down-top)枚舉式定義。列卡塔(Liakata)在核心科學(xué)概念(Core Scientific Concept)框架中定義了假設(shè)(Hypothesis)、動(dòng)機(jī)(Motivation)、目標(biāo)(Goal)等11種科學(xué)概念[26][27]。張蕾(Zhang Lei)以體裁分析(Genre Analysis)為基礎(chǔ),對(duì)科學(xué)論文中的41類功能單元進(jìn)行定義,包括研究回顧(Review Previous Research)、結(jié)果總結(jié)(Summarize Results)、陳述發(fā)現(xiàn)(State Findings)、提出猜想(Present Hypothesis)、實(shí)驗(yàn)步驟(Experiment Procedures)等[28]。
在學(xué)術(shù)出版物研究領(lǐng)域,研究者側(cè)重于從修辭功能的角度對(duì)出版物組件單元進(jìn)行規(guī)范化定義,形成了適用于不同目的的科學(xué)論文內(nèi)容本體。具有代表性的內(nèi)容本體諸如篇章要素本體(Discourse Element Ontology,DEO)[29]、修辭塊本體(Ontology of Rhetorical Block,ORB)[30]、文獻(xiàn)組件本體(Document Ontology,DoCO)[31]等。修辭塊本體定義了科學(xué)論文內(nèi)容的修辭框架,在將科學(xué)論文內(nèi)容分為頭部(Head)、主體(Body)和尾部的同時(shí),結(jié)合IMRD模型將主體部分定義為引言(Introduction)、方法(Method)、結(jié)果(Result)、討論(Discussion)四個(gè)部分。篇章要素本體借鑒了修辭塊本體,詳細(xì)定義了諸如數(shù)據(jù)(Data)、材料(Materials)、方法(Methods)、模型(Models)等論文內(nèi)容組件。文獻(xiàn)組件本體在篇章要素本體的基礎(chǔ)上,從結(jié)構(gòu)特征和修辭功能兩個(gè)角度定義了文獻(xiàn)組件。
總之,科學(xué)論文是知識(shí)型內(nèi)容的容器,不同粒度的知識(shí)單元是構(gòu)成論文組件的基礎(chǔ)。
3.2 關(guān)聯(lián)關(guān)系
科學(xué)論文是一種語篇類型,關(guān)聯(lián)關(guān)系是將論文中的組件單元聯(lián)結(jié)形成一個(gè)有機(jī)整體的關(guān)鍵。傳統(tǒng)的語篇研究主要從修辭結(jié)構(gòu)理論視角展開。在此理論視角下,科學(xué)論文由各具功能的文本塊(Text Span)組成,較小的文本塊組合成較大的文本塊,直至生成整個(gè)語篇[32]。語篇具有整體性和連貫性,它們?cè)从诟鱾€(gè)文本塊都服從于語篇的中心思想這一原則。語篇的修辭結(jié)構(gòu)有三種類型,分別是類型結(jié)構(gòu)、句法結(jié)構(gòu)和關(guān)系結(jié)構(gòu),其中關(guān)系結(jié)構(gòu)是多語句語篇的主要結(jié)構(gòu)。關(guān)系結(jié)構(gòu)揭示了句子之間的關(guān)系,英語語篇中大約包含20種非對(duì)稱性修辭關(guān)系[33]。這些修辭關(guān)系揭示了語篇的結(jié)構(gòu)性知識(shí),或者說是句子型知識(shí)單元之間的關(guān)聯(lián)關(guān)系,對(duì)于語篇整體意義的形成具有十分重要的價(jià)值。修辭結(jié)構(gòu)在任何由自然語言形成的多語句語篇中都是天然存在的。只要語義出版物支持自然語言,并包含多語句形成的文本塊,就必然包含修辭結(jié)構(gòu)和修辭關(guān)系。語義出版物的知識(shí)組織模型設(shè)計(jì)要在可計(jì)算性上強(qiáng)于傳統(tǒng)出版物模型,就必須對(duì)修辭結(jié)構(gòu)和修辭關(guān)系進(jìn)行顯性化編碼處理,而且編碼越清晰越便于機(jī)器閱讀和“理解”內(nèi)容間的語義關(guān)系。
論證結(jié)構(gòu)是傳統(tǒng)的科學(xué)論文內(nèi)容必備要素之一??茖W(xué)論文的論證系統(tǒng)由論證要素、論證過程與論證結(jié)構(gòu)組成,它是保障論文內(nèi)容可信性的關(guān)鍵。圖爾敏(Tou Lmin)[34]曾提出論證的六要素,分別為斷言(Claim)、數(shù)據(jù)(Data)、保證(Warrant)、反駁(Rebuttal)、支援(Backing)和修飾語(Qualifiers)。此外,還定義了諸如支持(Support)、證明(Prove)、挑戰(zhàn)(Challenge)等論證關(guān)系。維爾哈吉(Verheij)在圖爾敏的論證理論基礎(chǔ)上,使用形式語言對(duì)論證框架進(jìn)行重構(gòu),并引入人工智能領(lǐng)域,進(jìn)而得到廣泛應(yīng)用[35]。
對(duì)任何形式的科學(xué)論文而言,命題、觀點(diǎn)、論據(jù)和結(jié)論都是論證系統(tǒng)的必備要素,常以語句或圖表數(shù)據(jù)的形式存在,但論證過程和論證結(jié)構(gòu)常常隱藏在語篇之下,難以被發(fā)現(xiàn),而它恰恰是一篇論文被學(xué)界同行接受的關(guān)鍵。任何語義出版物內(nèi)容組織結(jié)構(gòu)的設(shè)計(jì)都不能忽略論證系統(tǒng)的內(nèi)嵌和自洽性設(shè)計(jì),即使它不體現(xiàn)語篇的敘事邏輯,也要為論文觀點(diǎn)和結(jié)論的可信性提供足夠的和必要的支撐。
4 納米出版物模型與微型出版物模型的比較
4.1 納米出版物模型
納米出版物模型是巴瑞安德·蒙斯和楊·維爾特隆[36]在2009年提出的一種新型科學(xué)文獻(xiàn)模型,也是一種全新的科學(xué)知識(shí)表示與組織模式。隨后,保羅·格魯斯(Paul Groth)[37]對(duì)納米出版物的結(jié)構(gòu)進(jìn)行更深入的剖析,提出概念關(guān)聯(lián)及構(gòu)建納米出版物的具體方式。納米出版物模型是一種以陳述為基礎(chǔ)(Statement-based)的模型。其中,Nano代表“具有科學(xué)意義的、機(jī)器可讀的、最小的出版信息單元”。從整體結(jié)構(gòu)上看,納米出版物包括內(nèi)容性和功能性兩個(gè)部分。內(nèi)容性部分又分為結(jié)論(Assertion)、出處(Provenance)、支持性信息(Supporting Information)三部分,其中結(jié)論是納米出版物的基礎(chǔ),包括作者得出的科學(xué)事實(shí)、實(shí)驗(yàn)結(jié)果或結(jié)論,以及實(shí)驗(yàn)得出的有效性指標(biāo)等。出處即結(jié)論的出處和起源,包括結(jié)論的發(fā)布時(shí)間、發(fā)布者、版權(quán)所有者等信息。支持性信息提供了結(jié)論的背景和語境信息,包括實(shí)驗(yàn)條件、實(shí)驗(yàn)室環(huán)境,以及結(jié)論的引用情況、其他人對(duì)結(jié)論的觀點(diǎn)、同行評(píng)議信息等。功能性部分包括納米出版物ID和完整性秘鑰(Integrity Keys)。納米出版物ID是用于識(shí)別納米出版物的唯一標(biāo)識(shí)符。完整性密鑰則提供納米出版物作者身份的認(rèn)證以及納米出版物版本的控制。
目前,納米出版物模型在自然科學(xué)與人文領(lǐng)域都有應(yīng)用,如蛋白質(zhì)知識(shí)平臺(tái)neXtProt項(xiàng)目[38],哲學(xué)事實(shí)集成項(xiàng)目EMTO項(xiàng)目[39]。納米出版物模型最知名的應(yīng)用是開放醫(yī)學(xué)概念三元組庫(Open Pharmacological Concept Triple Store,Open PHACTS)項(xiàng)目[40],該項(xiàng)目以納米出版物模型為基礎(chǔ),集成了多種藥物信息,用于支持藥物發(fā)現(xiàn)研究。
4.2 微型出版物模型
微型出版物模型(MircoPublication)是由哈佛大學(xué)的蒂姆·克拉克等人在2014年提出的一種新型語義出版物模型,該模型以圖爾敏論證理論為基礎(chǔ),在吸收維爾哈吉的相關(guān)研究成果后,完成了對(duì)科學(xué)論文論證框架的建構(gòu),不僅適應(yīng)機(jī)器讀取和“理解”內(nèi)容,也適合被人閱讀。相較于其他形式的語義出版物模型而言,微型出版物模型結(jié)合科學(xué)論文的具體語境,突出了論證結(jié)構(gòu)在科學(xué)論文知識(shí)組織中的重要地位。
從整體上看,微型出版物的構(gòu)成要素分為兩大部分。一部分是概念,分為基礎(chǔ)類,包括實(shí)體(Entities)和代理(Agent)。實(shí)體是現(xiàn)實(shí)存在或想象中的事物,代理指人和機(jī)構(gòu)。人工產(chǎn)物(Artifacts)是一種實(shí)體,由代理創(chuàng)作,擁有特定的屬性;還有表達(dá)類(Representation),表達(dá)是一種人工產(chǎn)物,說明(represents)了某種實(shí)體,主要形式包括以句子形式存在的聲明(Statement)、情景(Context)、限定(Qualifier),此外還有作為證據(jù)存在的數(shù)據(jù)(Data)、方法(Method)、材料(Material)等。另一部分是概念之間的關(guān)系屬性,包括支持關(guān)系(Supports)、挑戰(zhàn)關(guān)系(Challenges)、討論關(guān)系(Discusses)、子類關(guān)系(isA)、限定(Qualifies)關(guān)系、有屬性(HasAttribution)關(guān)系等;微型出版物的核心模型結(jié)構(gòu)如圖3所示。
微型出版物是另一種以陳述為基礎(chǔ)(Statement-based)的模型,主要用于生物醫(yī)學(xué)領(lǐng)域,因其支持對(duì)證據(jù)、資格、斷言的建模,所以解決了納米出版物模型知識(shí)組織結(jié)構(gòu)過于簡(jiǎn)單的不足,將證據(jù)和支持關(guān)系引入模型,使得模型更為強(qiáng)大,為構(gòu)建跨文檔的支持圖譜(support graph)和斷言圖譜(claim graph)等不同形式的復(fù)雜知識(shí)網(wǎng)絡(luò)奠定了基礎(chǔ)。
4.3 兩者的差異與發(fā)展邏輯
納米出版物和微型出版物作為兩種典型的語義出版物模型代表,其發(fā)展過程能體現(xiàn)語義出版物模型發(fā)展的邏輯,為了分析這種演進(jìn)邏輯,筆者對(duì)這兩個(gè)模型進(jìn)行細(xì)致比較,如表1所示。
表示方式的規(guī)范化。語義出版物模型表達(dá)方式的選擇取決于其構(gòu)建目標(biāo)與知識(shí)組織方式。納米出版物用于關(guān)聯(lián)不同的命題及斷言,強(qiáng)調(diào)知識(shí)實(shí)體間的聯(lián)系,沒有過多涉及對(duì)不同納米出版物之間語義關(guān)系的定義,所以使用弱語義的RDF作為模型表示語言。微型出版物側(cè)重對(duì)論證結(jié)構(gòu)的表示與關(guān)聯(lián),定義了更為豐富的組件單元與關(guān)系類型,需要復(fù)雜的條件約束與推理機(jī)制,因而選擇更為規(guī)范的OWL 2做為模型構(gòu)建語言。
表達(dá)方式的規(guī)范化程度決定語義出版物語義表達(dá)能力的強(qiáng)弱。相較于納米出版物,微型出版物使用OWL 2準(zhǔn)確地定義更復(fù)雜的語義關(guān)系,揭示文獻(xiàn)的論證結(jié)構(gòu),語義表達(dá)能力更強(qiáng)。
組件類型豐富。從知識(shí)表示和組織的角度來看,出版物模型中的組件單元定義越細(xì)致,意味著出版物模型越強(qiáng)大。語義出版物中的組件單元都有其明確的定義和語用功能,并且具有較高的獨(dú)立性,在出版物自洽性形成過程中扮演著不可獲取的角色,所以組件單元類型越多,意味著出版物的模塊化屬性越明顯。
圖2和圖3分別描繪了納米出版物和微型出版物的本體結(jié)構(gòu),由此可以看出納米出版物核心部件是結(jié)論,它是納米出版物所要表達(dá)和傳播的核心知識(shí),支持信息和出處信息為結(jié)論提供了支撐作用,但沒有受到足夠重視。微型出版物模型中類的定義和分類更為豐富和準(zhǔn)確,如大類實(shí)體、子類人造物、子子類陳述等。這種詳細(xì)的組件類型定義意味著微型出版物的知識(shí)組織模式更為精細(xì),知識(shí)組織模型的描述能力更強(qiáng)。
論證知識(shí)的顯性化??茖W(xué)論文作為科學(xué)知識(shí)的一種容器,內(nèi)部隱含了很多類型的知識(shí)。論證過程是一種隱藏在文字符號(hào)表面之下的知識(shí)類型。從表現(xiàn)形式來看,納米出版物借助RDF三元組生成的命名圖(Named Graph)作為出版物的基本表現(xiàn)形式,形式化表示與發(fā)布知識(shí)。雖有結(jié)論、支持信息和出處三個(gè)部分,但是論證知識(shí)的表示不明顯,這就無法解決論文閱讀過程中的可信性判斷問題,屬于明顯的知識(shí)組織模型缺陷,無法承擔(dān)科學(xué)論文數(shù)據(jù)化處理的重任。
微型出版物模型強(qiáng)化了論證這種隱性知識(shí)的表示,通過組件定義的豐富,明確定義論點(diǎn)(一種特定類型的敘述)、論據(jù)(包括數(shù)據(jù)、方法、材料等形式的敘述)、論證結(jié)構(gòu)(由論點(diǎn)和論據(jù)構(gòu)成的論證過程和論證方式)。相比較而言,微型出版物模型借助本體技術(shù)和OWL語言在知識(shí)類型的形式化和明確化表示上更進(jìn)了一步。
語義關(guān)系的明確化。語義關(guān)系指的是知識(shí)單元之間的聯(lián)結(jié)關(guān)系,分為兩大類,一類是論文內(nèi)部各類細(xì)粒度知識(shí)單元之間的關(guān)系,另一類是論文整體之間的關(guān)系。由于組件單元定義的豐富,組件單元之間的語義關(guān)系也可以更加明確地定義,所以在新開發(fā)的微型出版物模型中知識(shí)單元之間的關(guān)系定義更加清晰,如論文內(nèi)部各知識(shí)單元之間的屬類關(guān)系(isA)、表示關(guān)系(represent)、支持關(guān)系(support)、挑戰(zhàn)關(guān)系(challenge)、情景關(guān)系(hasContext)等。論文之間的關(guān)系得到明確,出現(xiàn)了有元素關(guān)系(hasElements)、聲明關(guān)系(asserts)、引述關(guān)系(quotes)、支持關(guān)系(supportedBy)、質(zhì)疑關(guān)系(challengedBy)等關(guān)系。這一進(jìn)步意味著我們可以在跨論文層面進(jìn)行知識(shí)組織,構(gòu)建諸如支持圖譜(support graph)和質(zhì)疑圖譜(challenge graph),這為知識(shí)融合和整體性知識(shí)網(wǎng)絡(luò)構(gòu)建提供了支撐。
5 討 論
5.1 面向機(jī)器和面向讀者目標(biāo)之間的平衡
語義出版物的設(shè)計(jì)目標(biāo)顯然是增強(qiáng)論文中各種知識(shí),包括隱性知識(shí)和顯性知識(shí)的表示能力,提高機(jī)器“理解”和操作出版物組件單元的水平,便于各種智能代理高效地抽取、集成和再利用科學(xué)知識(shí),最終形成可挖掘的知識(shí)資源數(shù)據(jù)集。為了實(shí)現(xiàn)這一目標(biāo),語義出版物徹底改變了傳統(tǒng)出版物利用線性的敘事型文本進(jìn)行科學(xué)知識(shí)記錄與表達(dá)的模式,轉(zhuǎn)而利用以RDF和XML為基礎(chǔ)的結(jié)構(gòu)化文本實(shí)現(xiàn)科學(xué)知識(shí)的記錄和表示。
從語義出版物知識(shí)組織架構(gòu)的演進(jìn)過程來看,早期的納米出版物是一種中間形態(tài)的出版物類型,它難以被讀者直接閱讀,但十分適合機(jī)器讀取,所以該類型出版物主要用于知識(shí)存儲(chǔ)和知識(shí)資源間的關(guān)聯(lián),以支持溯源、探索、推理等知識(shí)發(fā)現(xiàn)活動(dòng)。面向讀者閱讀時(shí),納米出版物需要在表現(xiàn)形式層上做轉(zhuǎn)換。微型出版物比納米出版物更加強(qiáng)大,它滿足了文字?jǐn)⑹屡c內(nèi)容計(jì)算兩種需求,既支持自然語言,又支持形式語言;既適合機(jī)器讀取,又適合人類閱讀,是一種調(diào)和型數(shù)字文獻(xiàn)形式。這種發(fā)展變化顯示,語義出版物并非完全面向機(jī)器讀取的文獻(xiàn)形式,而應(yīng)該結(jié)合人工閱讀和機(jī)器讀取雙重目標(biāo),并在雙向選擇中尋找一種兼容和平衡機(jī)制,以滿足科學(xué)知識(shí)被科研工作者理解的終極目的。
5.2 語義出版物在科學(xué)知識(shí)網(wǎng)絡(luò)構(gòu)建過程中的角色
在修辭結(jié)構(gòu)理論、論證理論和功能單元理論基礎(chǔ)上,語義出版物實(shí)現(xiàn)了科學(xué)知識(shí)表示與組織模式的創(chuàng)新,應(yīng)用了謂詞邏輯表示法和語義網(wǎng)絡(luò)表示方法[42]。在這些方法支撐下,出版物內(nèi)部以觀點(diǎn)、假設(shè)、事實(shí)、結(jié)論等科學(xué)陳述為基本形式的陳述型語義元素和以文字、圖片、數(shù)據(jù)為代表的多模態(tài)數(shù)據(jù)型語義元素都得到形式化表示與組織[43]。從傳統(tǒng)出版物向語義出版物轉(zhuǎn)換過程中,大量開放性的主題詞表和領(lǐng)域本體用于概念消岐、映射和關(guān)聯(lián),由此實(shí)現(xiàn)不同知識(shí)單元的互聯(lián)與序化,進(jìn)而形成可追溯的和可擴(kuò)展的語義網(wǎng)絡(luò)。這使得傳統(tǒng)的以論文發(fā)表為主的科學(xué)交流過程,變成協(xié)作式的知識(shí)網(wǎng)絡(luò)構(gòu)建過程,使得語義出版物模型從一開始就為實(shí)現(xiàn)“情報(bào)組織從文獻(xiàn)層面向知識(shí)單元層面過渡”的宏偉目標(biāo)奠定了基礎(chǔ)[44]。
5.3 語義出版物對(duì)科學(xué)交流系統(tǒng)的影響
科學(xué)交流系統(tǒng)以學(xué)術(shù)文獻(xiàn)為核心,包括創(chuàng)作、評(píng)審、出版、集成、檢索等任務(wù)。近年來,隨著科學(xué)研究活動(dòng)進(jìn)入數(shù)據(jù)密集型研究范式時(shí)代,科研數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。數(shù)據(jù)密集型研究范式要求更高的數(shù)據(jù)透明性與可驗(yàn)證性,更加注重科學(xué)數(shù)據(jù)的溯源與重用、實(shí)驗(yàn)方法的開放、文獻(xiàn)知識(shí)的關(guān)聯(lián)和融合[45]。語義出版物模型從一開始就將科研數(shù)據(jù)與學(xué)術(shù)文本進(jìn)行統(tǒng)一的表達(dá)與組織,使得數(shù)據(jù)和科學(xué)論斷之間建立較為明確的語義關(guān)聯(lián),這在一定程度上克服了傳統(tǒng)論文結(jié)論難以重復(fù)和驗(yàn)證的天然缺陷,提高了科研數(shù)據(jù)可用性以及科學(xué)交流系統(tǒng)整體的有效性。
從科學(xué)交流系統(tǒng)的發(fā)展走向來看,科研領(lǐng)域存量論文的結(jié)構(gòu)化處理與語義化編輯工作是一項(xiàng)長(zhǎng)期任務(wù),短期內(nèi)語義出版物并不會(huì)取代傳統(tǒng)的出版物。隨著結(jié)構(gòu)化知識(shí)資源的積累、數(shù)字知識(shí)基礎(chǔ)設(shè)施的完善和語義出版平臺(tái)的創(chuàng)新,語義出版物的創(chuàng)作門檻和加工成本將大大降低,智能化的編寫軟件與各種“語義插件”將支持科學(xué)論文從寫作一開始就以語義出版物的形式存在。由此產(chǎn)生的網(wǎng)絡(luò)效應(yīng)將加速語義出版物對(duì)傳統(tǒng)出版物的替代步伐,所以從整體上看,隨著語義網(wǎng)的發(fā)展和普及應(yīng)用,新型的語義出版物可能會(huì)最終替代傳統(tǒng)的論文模型,成為科學(xué)交流系統(tǒng)中的主流知識(shí)組織模式。
5.4 現(xiàn)有語義出版物模型的不足
目前,語義出版物模型仍然存在一定的不足,主要表現(xiàn)在四個(gè)方面:(1)語義出版物內(nèi)容組織架構(gòu)中的內(nèi)容單元定義不夠細(xì)致,無法揭示和規(guī)范化表示對(duì)于科學(xué)交流必要的各種潛在知識(shí),比如命題論證過程。(2)語義出版物內(nèi)容與傳統(tǒng)的敘事性內(nèi)容如何協(xié)同工作考慮不周?,F(xiàn)有模型突出了內(nèi)容的機(jī)器可讀性,但也導(dǎo)致人工閱讀不夠方便,如何實(shí)現(xiàn)兩類內(nèi)容的協(xié)同工作以及自由轉(zhuǎn)換還需考慮。(3)論文內(nèi)容的驗(yàn)證問題仍未解決。盡管語義出版物模型能夠?qū)?shù)據(jù)集作為證據(jù)用于論證網(wǎng)絡(luò)的構(gòu)建,但囿于模型本身的推理機(jī)制缺失,導(dǎo)致論文內(nèi)容特別是各種科學(xué)論斷仍難以由機(jī)器自動(dòng)驗(yàn)證,如何與領(lǐng)域本體協(xié)同支撐科學(xué)知識(shí)的推理驗(yàn)證是一個(gè)難題。(4)適用領(lǐng)域有限。相比較而言,現(xiàn)有的語義出版物模型更適用于自然科學(xué)領(lǐng)域,較難用于人文社會(huì)科學(xué)領(lǐng)域。如何開發(fā)適用于人文社科領(lǐng)域的模型,也需要進(jìn)一步研究。
6 總 結(jié)
語義出版物是語義網(wǎng)時(shí)代的新型數(shù)字出版物形式,對(duì)于實(shí)現(xiàn)語義出版系統(tǒng)和高級(jí)知識(shí)服務(wù)具有重要意義。從語義出版實(shí)踐進(jìn)展來看,增強(qiáng)型出版物已經(jīng)被出版商和讀者接受,但新型語義出版物的實(shí)例應(yīng)用仍不多見。
本文從模型架構(gòu)、組件類型、語義關(guān)系、論證結(jié)構(gòu)四個(gè)角度對(duì)納米出版物和微型出版物進(jìn)行比較分析,以此探索語義出版物的知識(shí)組織架構(gòu)。研究表明,語義出版物內(nèi)容組織架構(gòu)在發(fā)展過程中體現(xiàn)出明顯的演化邏輯,即表現(xiàn)方式的規(guī)范化、組件類型的豐富化、論證知識(shí)的顯性化以及語義關(guān)系的明確化。盡管語義出版物模型仍有許多不足,可以肯定的是,隨著語義網(wǎng)的普及應(yīng)用和科學(xué)交流系統(tǒng)的發(fā)展,語義出版物的內(nèi)容組織架構(gòu)會(huì)進(jìn)一步得到優(yōu)化和改進(jìn)。
注 釋
[1]Shotton D. Semantic publishing:the coming revolution in scientific journal publishing[J]. Learned Publishing, 2009, 22(2):85-94
[2]The Smart Article [OL]. [2016-09-10]. http://as.wiley.com/WileyCDA/Section/id-817760.html
[3]Aalbersberg I J, Heeman F, Koers H, et al. Elseviers Article of the Future enhancing the user experience and integrating data through applications[J]. Insights, 2012, 25(1):33-43
[4]Creative ways to semantically enrich an Open Access PLoS research article [OL]. [2016-09-10]. http://blogs.plos.org/everyone/2009/04/27/creative-ways-to-semanticallyenrich-an-open-access-plos-research-article/
[5]Hu Y, Janowicz K, Mckenzie G, et al. A Linked-Data-Driven and Semantically-Enabled Journal Portal for Scientometrics[C]// The International Semantic Web Conference(ISWC 2013). 2013:114-129
[6]Nunes B P, Fetahu B, Dietze S, et al. Cite4Me:a semantic search and retrieval web application for scientific publications[C]// The International Conference on Posters & Demonstrations Track. 2013:25-28
[7]Ciccarese P, Ocana M, Clark T. Open semantic annotation of scientific publications using DOMEO[J]. Journal of Biomedical Semantics, 2012, 3(S1):1-14
[8]Reflect [OL]. [2016-09-10]. http://reflect.ws
[9]Shotton D, Portwin K, Klyne G, et al. Adventures in Semantic Publishing:Exemplar Semantic Enhancements of a Research Article[J]. Plos Computational Biology, 2009, 5(4):e1000361
[10]Breure L, Voorbij H, Hoogerwerf M. Rich Internet Publications:‘Show What You Tell[J]. Journal of Digital Information, 2011, 12(1)
[11][41]吳思竹,李峰,張智雄. 知識(shí)資源的語義表示和出版模式研究——以Nanopublication 為例[J]. 中國(guó)圖書館學(xué)報(bào), 2013,39(4):102-109
[12]Clark T, Ciccarese P N, Goble C A. Micropublications:a semantic model for claims, evidence, arguments and annotations in biomedical communications[J]. Journal of Biomedical Semantics, 2014, 5(1):1-33
[13]Derose S J, Durand D G, Mylonas E, et al. What is text, really? [J]. Journal of Computing in Higher Education, 1990, 1(2):3-26
[14]Kircz J G. Modularity:the next form of scientific information presentation? [J]. Journal of Documentation, 1998, 54(2):210-235
[15]Hunter J. Scientific Publication Packages–A selective approach to the communication and archival of scientific output[J]. International Journal of Digital Curation, 2008, 1(1):33-52.
[16]Bardi A, Manghi P. Enhanced Publications:Data Models and Information Systems[J]. Liber Quarterly the Journal of European Research Libraries, 2014, 22(4):240-273
[17]Baez M, Mussi A, Casati F, et al. Liquid journals:scientific journals in the Web 2.0 era[C]//Proceedings of the 10th Annual Joint Conference on Digital libraries. ACM, 2010:395-396
[18]Callahan A, Dumontier M. Ovopub:Modular data publication with minimal provenance[J/DB]. arXiv preprint arXiv:1305.6800, 2013
[19]Belhajjame K, Zhao J, Garijo D, et al. The Research Object suite of ontologies:Sharing and exchanging research data and methods on the open web[J/DB]. arXiv preprint arXiv:1401.4307, 2014
[20]B?lling C, Weidlich M, Holzhütter H G. SEE:structured representation of scientific evidence in the biomedical domain using Semantic Web techniques[J]. Journal of Biomedical Semantics, 2014,5(S1):1-22
[21]Schmidt N. Tackling complexity in an interdisciplinary scholarly network:Requirements for semantic publishing[J]. First Monday,2016,21(5)
[22]王子舟,王碧瀅. 知識(shí)的基本組分:文獻(xiàn)單元和知識(shí)單元[J]. 中國(guó)圖書館學(xué)報(bào), 2003, 29(1):5-11
[23]溫有奎,焦玉英. 基于范疇論的知識(shí)單元組織與檢索研究[J]. 情報(bào)學(xué)報(bào),2010,29(3):387-392
[24]趙蓉英. 知識(shí)網(wǎng)絡(luò)研究(Ⅱ)—知識(shí)網(wǎng)絡(luò)的概念、內(nèi)涵和特征[J]. 情報(bào)學(xué)報(bào), 2007, 26(3):470-476
[25] 文庭孝, 羅賢春, 劉曉英,等. 知識(shí)單元研究述評(píng)[J]. 中國(guó)圖書館學(xué)報(bào), 2011(5):75-86
[26] King R D, Liakata M, Lu C, et al. On the formalization and reuse of scientific research[J]. Journal of the Royal Society Interface,2011,8(63):1440–1448
[27] Liakata M, Saha S, Dobnik S, et al. Automatic recognition of conceptualization zones in scientific articles and two life science applications[J]. Bioinformatics, 2012, 28(7):991-1000
[28] Zhang L. A study of functional units for information use of scholarly journal articles[D]. Vancouver:University of British Columbia, 2011
[29] The Discourse Element Ontology [EB/OL]. [2016-09-15] .http://www.sparontologies.net/ontologies/deo/source.html
[30] 馬雨萌, 祝忠明. 科學(xué)篇章修辭塊本體標(biāo)準(zhǔn)及其應(yīng)用分析[J]. 情報(bào)雜志, 2012, 31(10):112-116
[31] Contantin A, Peroni S, Pettifer S, et al. The Document Components Ontology(DoCO)[J]. Semantic Web, 2016,7(2):167-181
[32] Mann W C, Thompson S A. Rhetorical structure theory:Toward a functional theory of text organization[J]. Text-Interdisciplinary Journal for the Study of Discourse, 1988, 8(3):243-281
[33] 王偉. “修辭結(jié)構(gòu)理論”評(píng)介(上)[J]. 當(dāng)代語言學(xué),1994(4):8-13
[34] Toulmin S E. The uses of argument[M]. London:Cambridge University Press, 2003:25-27
[35] Verheij B. The toulmin argument model in artificial intelligence[M]//Argumentation in artificial intelligence. Springer US, 2009:219-238
[36] Mons B, Velterop J. Nano-Publication in the e-science era[C]//Workshop on Semantic Web Applications in Scientific Discourse(SWASD 2009). 2009:14-15
[37] Groth P, Gibson A, Velterop J. The anatomy of a nanopublication[J]. Information Services and Use, 2010, 30(1-2):51-56
[38] Gaudet P, Argoud-Puy G, Cusin I, et al. neXtProt:organizing protein knowledge in the context of human proteome projects[J]. Journal of proteome research, 2012, 12(1):293-298
[39] EMTO Nanopub [OL]. [2016-09-10]. http://nanopub.org/wordpress/?page_id=644
[40] Williams A J, Harland L, Groth P, et al. Open PHACTS:semantic interoperability for drug discovery[J]. Drug discovery today,2012,17(21)1188-1198
[42] 徐寶祥, 葉培華. 知識(shí)表示的方法研究[J].情報(bào)科學(xué),2007,25(5):690-694
[43] 李楠, 孫濟(jì)慶, 馬卓. 面向?qū)W術(shù)文獻(xiàn)的語義出版技術(shù)研究[J]. 出版科學(xué),2015,23(6):85-92
[44] 馬費(fèi)成. 情報(bào)學(xué)的進(jìn)展與深化[J]. 情報(bào)學(xué)報(bào),1996(5):337-343
(收稿日期:2017-04-10)