[編者按] “交流是科學(xué)的本質(zhì)”,而以學(xué)術(shù)期刊和學(xué)術(shù)專著為代表的科技出版是300多年來全球科學(xué)交流活動的根基。從20世紀(jì)下半葉開始,以計算機和網(wǎng)絡(luò)為核心的數(shù)字技術(shù)持續(xù)改變著科技出版的文獻型態(tài)、業(yè)務(wù)模式、資源獲取方式乃至出版者、圖書情報機構(gòu)與同時作為作者和用戶的研究人員之間的關(guān)系。本刊約請“武漢大學(xué)‘70后’學(xué)者學(xué)術(shù)發(fā)展計劃”數(shù)字科學(xué)交流團隊成員撰寫了一組有關(guān)科技出版最新發(fā)展趨勢的文章。其中《數(shù)據(jù)密集、語義、可視化與互動出版:全球科技出版發(fā)展趨勢研究》廣泛探討了全球科技出版領(lǐng)域的幾個顯著發(fā)展趨勢;《語義出版:數(shù)字時代科學(xué)交流系統(tǒng)新模型》集中論述語義出版這種科技出版的新形態(tài);《不同載體環(huán)境下學(xué)術(shù)期刊文獻被引規(guī)律實證研究》分析了在紙質(zhì)載體和紙質(zhì)—數(shù)字混合載體等不同載體條件下,學(xué)術(shù)期刊論文被引情況的變化;《科學(xué)交流中的著作權(quán)責(zé)任分析:基于P2P共享環(huán)境的分析》討論新型技術(shù)條件下科學(xué)交流和科學(xué)出版中的著作權(quán)責(zé)任問題。
[摘 要] 探討全球科技出版領(lǐng)域呈現(xiàn)的數(shù)據(jù)密集型出版、語義出版、可視化出版與互動出版等趨勢。指出數(shù)據(jù)密集型出版從宏觀層面構(gòu)建海量數(shù)據(jù)的框架藍圖,為科學(xué)范式的轉(zhuǎn)變提供基礎(chǔ)環(huán)境;語義出版通過對各種文獻進行標(biāo)引關(guān)聯(lián),從微觀層面鋪設(shè)結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)設(shè)施,解決數(shù)據(jù)和信息的機器理解問題;可視化出版作為重要的直觀表達工具,從文獻組成部分、文獻架構(gòu)、文獻網(wǎng)絡(luò)三個層面最大限度地提升科研人員獲取信息的效率和效果;互動出版目前以學(xué)術(shù)維基出版物和全新的同行評議為主要特色,既是“無形學(xué)院”在網(wǎng)絡(luò)環(huán)境下的延伸,也滲透于正式科學(xué)交流中,從讀者和用戶層面打破科學(xué)信息開放、共享、交流的主要障礙。
[關(guān)鍵詞] 數(shù)據(jù)密集 語義出版 可視化 互動
[中圖分類號] G237 [文獻標(biāo)識碼] A [文章編號] 1009-5853(2012) 04-0073-08
1990年代末以來,數(shù)字化技術(shù)潮流急劇地影響并改變著全球科技出版的整體面貌。跨國科技出版集團紛紛完成了紙質(zhì)期刊和圖書的數(shù)字化,并實現(xiàn)了較好的營收。其中斯普林格出版集團1996年啟動旗下期刊的數(shù)字化轉(zhuǎn)檔工作,2004年完成包括過刊在內(nèi)所有紙質(zhì)期刊的數(shù)字化工作。2011年,約翰·威利出版公司數(shù)字化的學(xué)術(shù)類產(chǎn)品與服務(wù)收入達9.99億美元,占學(xué)術(shù)類出版總收入的59%[1]。然而,這一波科技出版和科學(xué)交流的發(fā)展植根于科學(xué)研究本身的范式轉(zhuǎn)換[2],因此其表現(xiàn)不限于數(shù)字技術(shù)推動的載體遷移與升級,而是朝著增強型科學(xué)出版和交流的方向發(fā)展,并集中體現(xiàn)在數(shù)據(jù)密集型出版、語義出版、可視化出版和互動出版等方面。從科學(xué)出版和交流的內(nèi)容來看,新增海量數(shù)據(jù)將轉(zhuǎn)化為有效的結(jié)構(gòu)型數(shù)據(jù),并向著語義和智能出版方向發(fā)展;從科學(xué)出版和交流的工具來看,科技文獻將普遍采用3D圖像、視頻、動畫、虛擬現(xiàn)實等多種媒介呈現(xiàn)方式和技術(shù);從科研成果的組織方式來看,科學(xué)信息和內(nèi)容將根據(jù)用戶需求從線性向非線性組織方式發(fā)展,并表現(xiàn)出更強的交互性特征。
1 數(shù)據(jù)密集型出版
歷史上每一次重大變革都源于需求與現(xiàn)實的可能性,數(shù)據(jù)密集型科學(xué)的誕生也是歷史發(fā)展的必然。一方面,科學(xué)領(lǐng)域的數(shù)據(jù)量呈爆炸性增長態(tài)勢。到2020年,全球以數(shù)字形態(tài)存在的數(shù)據(jù)總量將是2009年時的44倍,達到35澤字節(jié)(zettabytes)[3]。以生物醫(yī)學(xué)文獻為例,其增長率每20年翻一番,截至2008年該領(lǐng)域編目在冊的文獻已達1800萬篇,其中當(dāng)年新產(chǎn)生的文獻80多萬篇。研究顯示,在目前的知識接收方式和狀況下,若想在流行病學(xué)領(lǐng)域保持領(lǐng)先地位,研究者平均每天大約要花21小時進行閱讀。正如東尼·海(Tony Hey)在《第四范式:下一次科技革命》中所言:專家們正在被大量數(shù)據(jù)淹沒。另一方面,借助性能更加強大的計算機,對海量數(shù)據(jù)進行計算和挖掘已成為可能。因此,如何幫助科研人員突破紛繁數(shù)據(jù)的遮蔽,發(fā)現(xiàn)隱藏在海量數(shù)據(jù)之中的重要規(guī)律,成為數(shù)據(jù)密集型科學(xué)所要解決的核心問題。而數(shù)據(jù)的出版、存儲、解析、交換和再利用成為解決科學(xué)問題的關(guān)鍵。
其實早在上世紀(jì)70年代,世界科學(xué)技術(shù)情報系統(tǒng)(UNISIST)提出的UNISIST科學(xué)交流模型就將表單渠道作為交換科學(xué)信息和研究成果的渠道之一。該渠道包含的主要內(nèi)容便是科技數(shù)據(jù)[4]。該模型的提出在當(dāng)時極富預(yù)見性。它指出未來科學(xué)數(shù)據(jù)必將以一種獨立信息源的方式存在并被加以處理。而當(dāng)科學(xué)項目產(chǎn)生的數(shù)據(jù)量步入千萬億字節(jié)的時候[5],圍繞科研成果所展開的數(shù)據(jù)加工、組織、發(fā)布等一系列出版活動也將發(fā)生根本變化。今后科研成果的出版將實現(xiàn)數(shù)據(jù)與文獻的充分融合。正如吉姆·格雷(Jim Gray)所說:“所有科學(xué)文獻都上網(wǎng),所有科學(xué)數(shù)據(jù)都上網(wǎng),而且它們之間具備可互操作性。”(見圖1)這也使得基于數(shù)據(jù)重用的薈萃分析(Meta-analysis)等研究方法得以施展:研究者可以從互聯(lián)網(wǎng)上調(diào)用前人存儲的數(shù)據(jù)直接納入自己的數(shù)據(jù)集中,用以分析或檢驗自己的研究。由歐盟資助的“促進科學(xué)記錄永久存取項目”(PARSE Insight)發(fā)布報告,針對數(shù)據(jù)與文獻相互整合的需求提出7大標(biāo)準(zhǔn),分別是可獲取性、可發(fā)現(xiàn)性、可解析性、可重用性、可引用性、可管理性和長期保存性[6]。
要實現(xiàn)上述科技出版和科學(xué)交流的發(fā)展目標(biāo),必須有開放標(biāo)準(zhǔn)、互操作協(xié)議與相應(yīng)的制度規(guī)范予以保障。技術(shù)標(biāo)準(zhǔn)和協(xié)議涉及數(shù)字對象標(biāo)識(DOI)、開放資源定位協(xié)議(OpenURL)、資源描述框架(RDF)、元數(shù)據(jù)獲取協(xié)議(OAI-PMH)等,主要用以實現(xiàn)信息對象的標(biāo)識、定位及交互使用;目標(biāo)是將全球的數(shù)據(jù)集合起來,形成龐大的動態(tài)數(shù)據(jù)集供科研人員使用。2011年,美國科學(xué)基金會(National Science Foundation,NSF)開始要求所有基金項目申請者提交相應(yīng)的數(shù)據(jù)管理與共享計劃[8],以便對研究過程中產(chǎn)生的數(shù)據(jù)進行有效管理。從2012年4月開始,自然出版集團為旗下《自然神經(jīng)科學(xué)》(Nature Neuroscience)開設(shè)補充信息提交系統(tǒng),并對相關(guān)數(shù)據(jù)信息進行嚴(yán)格的同行評議。另外,由多家期刊聯(lián)合發(fā)起的國際數(shù)據(jù)倉儲項目Dryad也為科學(xué)期刊文章中出現(xiàn)的科學(xué)數(shù)據(jù)集提供登記、描述、保存和公共獲取服務(wù)[9]。但從PARSE Insight調(diào)查結(jié)果來看,科研人員對科學(xué)數(shù)據(jù)出版的認(rèn)知狀況不甚理想,67%的科研人員對DC、OAI-ORE、OAI-PMH等數(shù)據(jù)交換標(biāo)準(zhǔn)一無所知[10]。此外,科研人員、出版商、圖書館及數(shù)據(jù)中心等利益相關(guān)者的訴求也存在差異。其中,科研人員和圖書情報機構(gòu)比較關(guān)注數(shù)據(jù)存放的安全性和數(shù)據(jù)的版權(quán)歸屬。前述調(diào)查顯示41%的被調(diào)查者認(rèn)為版權(quán)問題是阻礙數(shù)據(jù)分享的主要問題[11]。出版商則比較關(guān)注如何建立跨組織的數(shù)據(jù)獲取和檢索規(guī)范等問題。
未來的科研將建立在密集型數(shù)據(jù)及其出版、利用的基礎(chǔ)之上。這無疑具有劃時代意義。在此過程中,除了技術(shù)標(biāo)準(zhǔn)不斷創(chuàng)新、數(shù)據(jù)開放性與互操作性等前提條件,能否貫徹開放科學(xué)的發(fā)展理念或許是未來科研和科技出版活動能否健康發(fā)展的更深層次的決定因素。
2 語義出版
早在提出“語義網(wǎng)”概念之初,蒂姆·伯納斯-李(Tim Berners- Lee)這位萬維網(wǎng)的締造者就將語義網(wǎng)與科技出版緊緊聯(lián)系在一起了。近幾年,隨著語義網(wǎng)相關(guān)技術(shù)不斷成熟,語義出版在科技出版領(lǐng)域得到普遍重視。2011年5月,世界語義網(wǎng)大會首次開設(shè)語義出版研討會,并就語義網(wǎng)技術(shù)對出版業(yè)未來的影響以及如何建立語義對象模塊等話題展開討論[12]。2012年,歐洲學(xué)術(shù)出版會議(Academic Publishing in Europe,APE)將主題定為“語義網(wǎng)、數(shù)據(jù)和出版”[13]。全球知名的學(xué)術(shù)與專業(yè)出版商協(xié)會(Association of Learned and Professional Society Publishing,ALPSP)則將“語義網(wǎng)發(fā)展”設(shè)為關(guān)注的熱點話題之一[14]。所謂語義出版,根據(jù)大衛(wèi)·香頓(David Shotton)等人的定義,即一種旨在增強期刊文章的語義,使其能被計算機自動獲取,并使其鏈接至語義相關(guān)文獻,并以可行方式提供文章數(shù)據(jù)的獲取途徑,或者整合不同文章數(shù)據(jù)的全新出版形式[15]。
目前支撐語義出版發(fā)展的技術(shù)和標(biāo)準(zhǔn)包括可擴展標(biāo)記語言(XML)、資源描述框架(RDF)、Web本體語言(OWL)、簡易內(nèi)容聚合(RSS)、SPARQL協(xié)定與RDF查詢語言、簡單知識組織系統(tǒng)(SKOS)等。借助這些技術(shù),語義出版可以實現(xiàn)許多標(biāo)志性功能。其中最主要的是為文本添加語義標(biāo)簽,實現(xiàn)其與外部資源的鏈接。英國皇家學(xué)會(The Royal Society of Chemsitry,RSC)利用國際化學(xué)聯(lián)合會(International Union of Chemistry,IUC)的化學(xué)術(shù)語匯編對旗下《分子生物系統(tǒng)》(Molecular BioSystems)期刊文章中出現(xiàn)的術(shù)語進行標(biāo)記,在讀者點擊術(shù)語后會彈出頁面顯示化學(xué)式等相關(guān)信息[16]。還有針對文章摘要、參考文獻等部分進行的語義標(biāo)記,可結(jié)合本體技術(shù)深入挖掘文獻價值。例如《歐洲生化學(xué)會聯(lián)合會快報》(FEBS Letters)中一篇研究蛋白質(zhì)之間相互影響的論文就采取結(jié)構(gòu)化的數(shù)字摘要形式,通過XML語言將文章中所有關(guān)鍵數(shù)據(jù)和結(jié)論以機讀形式展現(xiàn)[17]。牛津大學(xué)研究小組開發(fā)的“引文類型本體”(CiTO)可根據(jù)援引關(guān)系類型、引文體裁、引文版本以及是否經(jīng)過同行評審等標(biāo)準(zhǔn)對參考文獻進行多種方式的排序[18]。這些功能的實現(xiàn),有利于提高科研人員的工作效率,使其從繁復(fù)的資料收集、整理和比對等勞動中解放出來,將精力集中到資料分析和觀點提煉上。
在語義出版從理念構(gòu)想到實踐的發(fā)展過程中,一系列應(yīng)用工具的開發(fā)起到了關(guān)鍵作用。借助這些工具,出版者甚至創(chuàng)作者本人就能基于對文獻內(nèi)容的理解進行語義標(biāo)記。這樣可以大大減輕后期語義充實的工作量和難度,是提高語義出版效率的良策。2004年,自然出版集團針對臨床醫(yī)生和科學(xué)家提供免費的在線參考文獻管理工具Connotea,該工具能夠快速方便地保存、組織、標(biāo)記、分享和下載參考書目[19]。2009年,全球最大的跨國科技出版集團愛思唯爾推出“愛思唯爾大挑戰(zhàn)競賽”,邀請科研人員描述并設(shè)計語義出版的工具原型[20]。同年,微軟與知識共享組織(Creative Commons)針對Word 2007開發(fā)了一種本體插件[21],該插件可以借助相關(guān)領(lǐng)域本體與受控詞表在科學(xué)文檔中添加語義鏈接,從而提高相關(guān)文獻在語義網(wǎng)環(huán)境中的利用價值。目前,針對科技文獻的語義充實主要有人工和機器自動兩種處理方式。就商業(yè)應(yīng)用而言,后者顯然更具有吸引力。湯森路透的應(yīng)用程序OpenCalais是自動語義標(biāo)引技術(shù)的典型代表,于2008年2月啟動服務(wù)。一般用戶將非結(jié)構(gòu)化的HTML、TXT或XML文檔提交至Calais系統(tǒng),系統(tǒng)借助自然語言理解技術(shù)和龐大的數(shù)據(jù)庫資源迅速對文檔進行語義分析,識別出人物、公司、地點、事件等相關(guān)實體,并將經(jīng)過語義標(biāo)記的文檔返回給用戶[22](見圖2)。該程序自發(fā)布以來每天收到來自9000位用戶的上百萬份文檔處理請求,為進一步滿足用戶需求,路透于次年1月發(fā)布Calais 4.0版本[23]。該版本除了保持原有的元數(shù)據(jù)標(biāo)記功能外,還引入了全球元數(shù)據(jù)傳輸層以進一步實現(xiàn)與其他用戶分享語義元數(shù)據(jù)的目標(biāo)。
科技出版語義化的理想狀態(tài)是基于龐大的語義網(wǎng)基礎(chǔ)設(shè)施,利用RDF、OWL、SPARQL等技術(shù)與協(xié)議使科學(xué)論文和數(shù)據(jù)關(guān)聯(lián),并引入相關(guān)領(lǐng)域本體,支持科研人員采用基于語義相關(guān)的非線性閱讀方式。但目前的發(fā)展還面臨如下障礙:首先,語義出版核心技術(shù)性能還有待提高,主要表現(xiàn)在實體與本體概念的自動識別上。比如OpenCalais盡管在識別人物、地點、機構(gòu)上表現(xiàn)出色,但是面對生物學(xué)等特定領(lǐng)域的術(shù)語則表現(xiàn)一般。針對這一問題,目前已開發(fā)出相應(yīng)的文本挖掘和自然語言處理工具。如開源應(yīng)用軟件AKTive Media[25]通過多個本體庫或受控詞表對相關(guān)概念進行標(biāo)記。此外一定的人工干預(yù)依然必不可少。美國公共科學(xué)圖書館(the Public Library of Science,PloS)旗下期刊《被忽視的熱帶疾病》(PLoS NTD)針對一期雜志所進行的語義增強實驗需要10人協(xié)作工作大約一周時間。其次,相關(guān)標(biāo)準(zhǔn)仍需完善。語義出版涉及大量互操作、數(shù)據(jù)交換、字體編碼、標(biāo)識注冊等技術(shù)標(biāo)準(zhǔn)和網(wǎng)絡(luò)協(xié)議,尤其在未來將嵌入更多本體的情況下,標(biāo)準(zhǔn)制定和推廣至關(guān)重要。由英國聯(lián)合信息委員會(Joint Information Systems Committee,JISC)支持的語義出版和引用本體(Semantic Publishing and Referencing Ontologies,SPAR)整合了FaBiO、CiTO、BiRO 以及 C4O等通用本體系統(tǒng)中的基本屬性,目的是提供面向出版以及引用的語義本體描述[26]。
語義標(biāo)記之于科技出版,就如同基礎(chǔ)設(shè)施對于城市未來發(fā)展的作用,意義是不言而喻的。正如世界語義網(wǎng)大會針對語義出版提出的看法——更多結(jié)構(gòu)化帶來更多自由[27],科技語義出版必將朝著深度標(biāo)引、靈活利用的方向發(fā)展。在此過程中,出版商、編輯、作者與計算機之間需要建立更加緊密的合作關(guān)系,最終為科研用戶創(chuàng)造高效、精準(zhǔn)的基于語義的閱讀體驗。
3 可視化出版
早期的科學(xué)文獻受制于當(dāng)時的技術(shù)條件,往往僅限于文本和二維圖表等表現(xiàn)形式。隨著具有大規(guī)模運算能力的計算機的出現(xiàn)以及相關(guān)算法的成熟,多媒體與可視化技術(shù)工具在科技出版活動中得以廣泛應(yīng)用。2011年2月,國際科技信息委員會(The International Council for Scientific and Technical Information,ICSTI)在微軟的華盛頓雷蒙德園區(qū)召開的“科學(xué)交流的多媒體與可視化創(chuàng)新”主題研討會主要就科技導(dǎo)向的多媒體創(chuàng)新、大規(guī)模數(shù)據(jù)挖掘與可視化、圖像索引與分析、人機交互、虛擬情境等話題展開討論[28]。
從科技出版實踐來看,可視化技術(shù)的應(yīng)用大致可分為文獻數(shù)據(jù)可視化、文獻架構(gòu)可視化與密集型數(shù)據(jù)可視化等。其中文獻數(shù)據(jù)可視化主要建立在文獻中實體對象或數(shù)據(jù)語義標(biāo)記的基礎(chǔ)上,并用大量高清圖像、視頻、Flash應(yīng)用等多媒體方式代替?zhèn)鹘y(tǒng)的文字或二維圖表加以呈現(xiàn)。由于動態(tài)可視化的形象展示,讀者能夠更加直觀深入地理解相關(guān)概念、物質(zhì)結(jié)構(gòu)和模型等對象。目前相關(guān)試驗主要在自然科學(xué)領(lǐng)域展開。美國圣奧拉夫?qū)W院的羅伯特·M. 漢森(Robert M. Hanson)教授開發(fā)出一款針對化學(xué)、結(jié)晶學(xué)、材料、分子生物學(xué)領(lǐng)域3D化學(xué)結(jié)構(gòu)的Java應(yīng)用Jmol[29]。它可用于諸多文獻中化學(xué)結(jié)構(gòu)的形象展示,幫助讀者直觀地理解復(fù)雜的化學(xué)結(jié)構(gòu)。由美國光學(xué)學(xué)會(Optical Society of America,OSA)和美國國家醫(yī)學(xué)圖書館(The United States National Library of Medicine,NLM)合作的“互動科學(xué)出版”項目通過為作者提供相應(yīng)的軟件工具,幫助其將發(fā)表的文章鏈接到2D和3D圖像數(shù)據(jù)集;而讀者則可借助工具仔細瀏覽并分析圖像以提升對文獻信息的理解[30]。牛津大學(xué)研究小組開發(fā)了“論點支持工具提示框”(Supporting Claims Tooltip)[31]。當(dāng)用戶將鼠標(biāo)懸停在經(jīng)過標(biāo)記的文本上時系統(tǒng)會彈出窗口提示參考文獻信息;而針對一些特定化學(xué)物質(zhì),系統(tǒng)還會顯示該物質(zhì)的化學(xué)結(jié)構(gòu)式。自然出版集團在“超越紙質(zhì)載體”實驗項目中提到,在信息空間中需要將期刊文章從二維實體轉(zhuǎn)化為三維實體[32]。它旗下的《自然化學(xué)》(Nature Chemistry)、《自然化學(xué)生物學(xué)》(Nature Chemical Biology)等雜志為文中出現(xiàn)的術(shù)語概念提供豐富的可視化表達。
基于文獻架構(gòu)層面的可視化使原本單調(diào)的線性敘述方式被一種更富于層次感的結(jié)構(gòu)所取代,帶給用戶全新的閱讀體驗。因此,針對文獻架構(gòu)的可視化創(chuàng)新受到大型出版商的密切關(guān)注。2009年6月,愛思唯爾正式推出“未來的論文”實驗項目[33]。該項目充分利用可視化技術(shù)對文本和圖像進行層次化展現(xiàn),讀者可以根據(jù)自身興趣逐層深入挖掘內(nèi)容;另外,文獻采取圖解型摘要等呈現(xiàn)方式,有助于讀者迅速切入與自身研究興趣相關(guān)的結(jié)論或數(shù)據(jù)。在不斷的試驗中,愛思唯爾逐漸意識到不同學(xué)科在可視化需求上的顯著差異,并得出結(jié)論不存在“一刀切”的解決方案。因此在2011年,愛思唯爾針對企業(yè)管理、電化學(xué)、材料科學(xué)、數(shù)學(xué)與計算機科學(xué)、古生物學(xué)等7個學(xué)科門類分別設(shè)計了論文原型框架和可視化方案。該項目特色體現(xiàn)在三個層面:首先,呈現(xiàn)方式(Presentation)采取三欄窗格視圖,左側(cè)導(dǎo)航條主要是對文獻的整體概覽,中間是文章的主體內(nèi)容,右側(cè)是一些補充信息和附加特性[34]。第二,文獻內(nèi)容(Content)包括重點內(nèi)容高亮顯示、圖像式摘要、視頻摘要、互動圖表與樹形圖等[35]。第三,文獻上下文(Context)包括數(shù)據(jù)倉儲與評價數(shù)據(jù)集(Evaluation Datasets)、實驗流程圖、公式演示等[36]。該項目的創(chuàng)新之處在于打破原來基于紙質(zhì)載體的線性層級結(jié)構(gòu),將核心文本與補充信息有機地整合到統(tǒng)一的文獻架構(gòu)中,實現(xiàn)內(nèi)容價值的增值。此外,荷蘭SURF基金會等資助的“增強型出版物”項目著力打造全新的語義出版物[37]。借助Incontext Visualization工具,項目組將語義出版物的底層RDF架構(gòu)以可視化方式展現(xiàn)出來(如圖3)。讀者可以清晰地了解圖書與章節(jié),章節(jié)與作者,視頻與圖書等實體之間的關(guān)系。該項目不失為出版物架構(gòu)可視化的創(chuàng)新。
此外還有基于密集型數(shù)據(jù)的可視化創(chuàng)新。當(dāng)前天文學(xué)、生物學(xué)、地球科學(xué)等領(lǐng)域的科學(xué)家往往要面對無比龐大的信息量,而且其中蘊含復(fù)雜的變量關(guān)系。這就需要借助可視化分析工具對復(fù)雜現(xiàn)象進行直觀表達,從而提高科研人員的信息獲取效率,并發(fā)現(xiàn)信息分析中存在的盲點。2002年,勞倫斯利弗莫爾國家實驗室(Lawrence Livermore National Laboratory,LLNL)針對流體動力不穩(wěn)度進行模擬產(chǎn)生的數(shù)據(jù)量達到幾十兆兆字節(jié)。為此,實驗室通過可視化分析方法對流體基礎(chǔ)模型進行確認(rèn),深入把握細節(jié)特征,最終在基礎(chǔ)物理方面提出有創(chuàng)見的觀點[39]。還有,由瓦爾里奧·帕庫西(Valerio Pascucci)主導(dǎo)開發(fā)的可視化工具ViSUS[40]在處理大型科學(xué)數(shù)據(jù)集上發(fā)揮了重要作用。它將時序要求嚴(yán)格的算法(time-critical algorithms)與逐行多重解析數(shù)據(jù)結(jié)構(gòu)(progressive multi-resolution data-structures)進行耦合,實現(xiàn)端到端的數(shù)據(jù)流優(yōu)化。除此之外,斯普林格利用龐大的作者信息數(shù)據(jù)庫推出在線可視化工具AuthorMapper。它將作者信息與谷歌地圖技術(shù)相結(jié)合,實現(xiàn)基于文獻作者位置和地理狀況的科研趨勢分析[41]。
科學(xué)的目的在于揭示事物的本質(zhì)規(guī)律。如果遵循這一法則,無論今天的科學(xué)內(nèi)容與運算達到多么復(fù)雜的程度,人類依然需要清晰直觀地了解事物的基本面貌。對于文獻所包含的專業(yè)術(shù)語、數(shù)據(jù)乃至文獻本身等,人們希望圖像、視頻或其他多媒體呈現(xiàn)方式能夠幫助理解其中的抽象概念和結(jié)構(gòu)。這也是科技出版可視化的價值所在。
4 互動出版
打破傳統(tǒng)的單向“傳播”模式轉(zhuǎn)而形成作者與用戶之間的雙向 “交流”,這是互聯(lián)網(wǎng)環(huán)境下開放科學(xué)倡導(dǎo)的前進方向。一直以來,科技出版業(yè)也在促進科研工作者之間的互動交流。從方式上看,主要包括以博客、社交網(wǎng)絡(luò)等為代表的互動交流方式;以學(xué)術(shù)維基(wiki)為代表的動態(tài)出版方式;還有以開放式同行評議為代表的互動評價方式。
當(dāng)博客最先興起時,這一嶄新的交流平臺就得到科技出版機構(gòu)的積極采納。2006年,自然出版集團為評議專家和作者分別開設(shè)Peer-to-Peer博客與Nautilus 博客[42]。同年P(guān)LoS的官方博客成立[43]。這些科學(xué)博客的建立為學(xué)者之間分享信息和評論提供了便利。近幾年,互動性更強的社交網(wǎng)站如推特(Twiiter)、臉書(Facebook)等進入科學(xué)交流領(lǐng)域,成為用戶、作者、編輯、出版商等各種角色的主要交流渠道。目前多數(shù)科技出版商都開通社交網(wǎng)絡(luò)賬號以便與用戶交流分享。此外,在線社區(qū)是用戶之間溝通交流的另一重要平臺。PLoS Hub把眾多臨床實驗方面的開放存取文獻收集起來,對某一課題有共同興趣的科研人員可以在社區(qū)分享他們的意見和知識[44]。同時,一些優(yōu)秀的內(nèi)容可以經(jīng)PLoS Hub發(fā)表到PLoS旗下的相關(guān)期刊。從收稿到發(fā)稿一般只需3周時間,而且出版費用相對低廉。美國化學(xué)學(xué)會(the American Chemical Society,ACS)創(chuàng)辦的專業(yè)網(wǎng)絡(luò)社區(qū)ACS network主要方便用戶了解化學(xué)界的最新進展、分享知識信息并實現(xiàn)充分互動[45]。英國皇家學(xué)會(The Royal Society,RS)提供的社會化書簽服務(wù)(Social bookmarking)允許用戶對個人喜歡的文章添加標(biāo)簽、保存及分類并與他人分享,從而擴展閱讀范圍。
除了借助博客、社交網(wǎng)絡(luò)、在線社區(qū)等平臺提供的互動交流方式,另一種促進創(chuàng)作者與讀者之間信息交互的方式,即基于學(xué)術(shù)維基的動態(tài)出版物也在科學(xué)交流領(lǐng)域浮現(xiàn)。從某種程度上說它是維基百科在學(xué)術(shù)領(lǐng)域的應(yīng)用。在2008年第9期《自然遺傳學(xué)》(Nature Genetics)中,羅伯特·霍夫曼(Robert Hoffmann)專門介紹了生命科學(xué)領(lǐng)域的Wikigenes[46]。該網(wǎng)站整體上秉承維基百科的開放理念,用戶可以對網(wǎng)站的每一篇文章進行修改,同時可以查看文章的動態(tài)更新情況,不同于維基百科的是,Wikigenes更注重科研人員的價值訴求并通過相應(yīng)的技術(shù)手段保證其在科學(xué)領(lǐng)域的應(yīng)用價值。其中最具代表性的是對用戶細粒度(fine-grained)貢獻的認(rèn)可,用戶對文獻中任一細節(jié)進行的修正都能獲得該細節(jié)部分的署名權(quán)利。同時,其他用戶根據(jù)每個細節(jié)的內(nèi)容價值對相應(yīng)貢獻者進行評價(如圖4)。通過這種貢獻評價機制,Wikigenes在保障科學(xué)交流互動性的基礎(chǔ)上提升了用戶的參與積極性。目前,類似的學(xué)術(shù)維基網(wǎng)站已有30家左右,比較著名的包括生物學(xué)領(lǐng)域的OpenWetWare、地球科學(xué)領(lǐng)域的Encyclopedia of Earth以及多學(xué)科的Scholarpedia、Citizendium等[47]。盡管具體機制各有差異,但它們普遍堅持科學(xué)交流的開放性和互動性。由于用戶參與程度更高,作者與讀者之間的界限趨向模糊。
同行評議作為一種質(zhì)量控制機制,一直是科技出版的重要組成部分。在全新的數(shù)字化環(huán)境中,原有的封閉式評議機制也逐步向著開放互動的方向發(fā)展。著名的開放存取期刊《大氣物理化學(xué)》(Atmospheric Chemistry and Physics,ACP)就采取互動式同行評議方式[48]:首先,投稿在通過預(yù)篩選程序以后以“討論論文”名義發(fā)表在期刊網(wǎng)站ACPD(Atmospheric Chemistry and Physics Discussions)上;討論期結(jié)束后,作者根據(jù)公開的同行評議和互動討論結(jié)果修改論文;然后編輯決定接受或者拒絕接受修改稿。魯茲·伯曼(Lutz Bornmann)等人對ACP在2001—2006年間的1111篇來稿進行跟蹤研究,證明其新型同行評議系統(tǒng)是有預(yù)測效度的:它將來稿中質(zhì)量最高的論文揀選出來予以發(fā)表[49]。此外,愛思唯爾的投稿系統(tǒng)EES 同樣支持作者、評審人和編輯之間基于平臺實時溝通以討論論文修改等問題[50]。
正如著名的開放科學(xué)數(shù)據(jù)“潘通原則”(Panton Principle)所提出的,科學(xué)研究是建立在對已有知識的建構(gòu)、重用和批判吸收的基礎(chǔ)上的[51]。開放數(shù)據(jù)的本質(zhì)是倡導(dǎo)科學(xué)互動,由此實現(xiàn)科研成果的價值增值。在此目標(biāo)下,為科研用戶之間的互動交流提供堅實的技術(shù)和機制保障,將是科技出版創(chuàng)新繁榮的必由之路。
5 小 結(jié)
在科研信息化(e-science)環(huán)境下,科技出版已不再是一種孤立的靜態(tài)存在,而是動態(tài)地嵌入到整個科研生命周期圍繞數(shù)據(jù)展開相應(yīng)活動?!暗谒姆妒健彼鶑娬{(diào)的數(shù)據(jù)探索本質(zhì)上是一個互動創(chuàng)新過程,需要科研工作者相互協(xié)作,準(zhǔn)確定位信息,發(fā)現(xiàn)內(nèi)在的關(guān)系,然后探討解決方案。鑒于其面臨的大規(guī)模數(shù)據(jù)及分析的復(fù)雜性,該領(lǐng)域迫切需要相應(yīng)的可視化工具予以直觀表達。而要實現(xiàn)大規(guī)模數(shù)據(jù)融合,數(shù)據(jù)集本身是否具有良好結(jié)構(gòu),標(biāo)記粒度是否足夠細,它們之間的互操作性如何等又是必須解決的問題。在此過程中,密集型數(shù)據(jù)出版、語義出版、可視化出版和互動出版之間并不存在嚴(yán)格的分界線,而是體現(xiàn)出相互交織的特點,共同服務(wù)于科學(xué)交流的價值目標(biāo)。面對全新科學(xué)范式帶來的強大動力,全球科技出版唯有從技術(shù)、制度以及科技出版各利益相關(guān)者本身入手進行創(chuàng)新,才有可能迎來真正的繁榮。
注 釋
[1]Jim Milliot. Wiley Posts Gains in Sales and Earnings in Fiscal 2011[EB/OL].[2012-02-10].http://www.publishersweekly.
com/pw/by-topic/industry-news/financial-reporting/article/47637-wiley-posts-gains-in-sales-and-earnings-in-fiscal-2011.html
[2]微軟研究院的科學(xué)家吉姆·格雷(Jim Gray)提出當(dāng)前科學(xué)研究已經(jīng)發(fā)展到“第四范式”,即基于海量數(shù)據(jù)基礎(chǔ)的科學(xué)探索。參見:Tony