■聞 麗 周光睿 謝榮秀
1)中南林業(yè)科技大學(xué)期刊社,湖南省長沙市韶山南路498號 410004
2)新鄉(xiāng)廣播電視大學(xué),新鄉(xiāng)市金穗大道439號 453000
如何快速從科技期刊眾多的來稿中選出具有創(chuàng)新觀點(diǎn)和結(jié)論的科研成果,在出版后對科技論文所含信息進(jìn)行有效管理,實(shí)現(xiàn)信息的高效利用,已成為備受關(guān)注的問題。在20世紀(jì)末發(fā)展起來的語義技術(shù)給這些問題的解決帶來了契機(jī)?;ヂ?lián)網(wǎng)的創(chuàng)始人Tim Berners-Lee在1998年首次提出了語義網(wǎng)(Semantic Web,SWeb)的概念[1]。 語義技術(shù)是通過一些語義標(biāo)簽,將信息標(biāo)識化,主要目的是讓紛繁的信息建立有機(jī)的聯(lián)系,其最大的特點(diǎn)是可以實(shí)現(xiàn)對大數(shù)據(jù)的深度挖掘和智能分析[2]。基于語義技術(shù)的優(yōu)勢,其應(yīng)用前景也極為廣闊,語義技術(shù)在出版中的應(yīng)用已悄然興起。語義出版(Semantic Publishing)是借助信息技術(shù)對傳統(tǒng)數(shù)字出版物進(jìn)行語義標(biāo)注、語義關(guān)聯(lián)等富語義化操作并形成語義出版物的一系列過程。目前,語義出版技術(shù)應(yīng)用最為廣泛的領(lǐng)域之一即學(xué)術(shù)出版[3]。自2009年以來,國外在語義技術(shù)與出版的結(jié)合方面進(jìn)行了有益嘗試,并開發(fā)了智能PDF閱讀終端Utopia及語義出版與參考本體SPAR[4-5]。中國關(guān)于語義技術(shù)的研究雖然較國外稍晚,但自2009年起,其相關(guān)研究逐步進(jìn)入增長期[6]。語義出版已初步實(shí)現(xiàn)了從理念構(gòu)想向?qū)嵺`應(yīng)用的過渡,國內(nèi)部分期刊也開展了語義出版嘗試,多分布在生物、醫(yī)藥、化學(xué)等領(lǐng)域[7]。中國科技期刊由目前的初級數(shù)字出版跨入到數(shù)字語義出版的新時代將是必然趨勢。
目前,關(guān)于語義出版的研究主要集中在相關(guān)的標(biāo)準(zhǔn)規(guī)范、出版物關(guān)聯(lián)數(shù)據(jù)集現(xiàn)狀、語義出版流程與技術(shù)需求,以及語義出版的應(yīng)用場景等方面[3]。關(guān)于語義出版中編輯角色的轉(zhuǎn)變及編輯活動的變化的研究報(bào)道較少,僅見2016年潘安等對傳統(tǒng)編輯如何從自身出發(fā)來應(yīng)對改變提出的建議[8]??萍计诳瘜I(yè)性較強(qiáng),編輯多是本專業(yè)出身,較難理解語義技術(shù)的應(yīng)用原理、技術(shù)路線和應(yīng)用模式等。但語義出版正在深刻地改變著傳統(tǒng)出版的觀念和模式,隨著全面實(shí)現(xiàn)語義特征標(biāo)引的高級階段的到來,究竟會給中國科技期刊帶來什么樣的變化,編輯活動會有怎么樣的相應(yīng)改變,應(yīng)該是科技期刊編輯們普遍關(guān)心的問題。
本文通過分析科技期刊語義出版發(fā)展趨勢,用較為通俗的語言來表述編輯活動的變化及出現(xiàn)的新內(nèi)容,讓編輯對于實(shí)際工作中面臨場景有清晰的感官認(rèn)識。
目前,科研人員通常是通過一些搜索引擎來查找自己所需的信息,但是無論是基于網(wǎng)站分類技術(shù)還是基于全文檢索技術(shù)的搜索引擎,由于用戶表達(dá)模糊、信息孤立、機(jī)械化的關(guān)鍵字匹配、無法進(jìn)行知識整合等弊端的存在[9-10],仍需用戶對一級信息的過濾和組織,且誤查漏查的情況難以避免。借助語義技術(shù)可以實(shí)現(xiàn)輕松分析處理所需信息,使得科技期刊中的信息得以充分利用,實(shí)現(xiàn)戰(zhàn)略性閱讀,獲取“宏知識”。
運(yùn)用語義技術(shù)進(jìn)行出版內(nèi)容的智能化加工整合,改變了中國科技期刊的傳統(tǒng)角色。語義技術(shù)能夠讓中國科技期刊數(shù)字出版服務(wù)的整合和動態(tài)選擇成為可能,科技期刊利用語義技術(shù),可以將出版對象從論文擴(kuò)展到原始數(shù)據(jù),將科學(xué)出版與知識組織單位由“文獻(xiàn)”細(xì)化到“知識單元”[11]。語義技術(shù)不僅豐富了傳統(tǒng)科技期刊的表現(xiàn)形式,提高了內(nèi)容的可操作性和交互性,增強(qiáng)了同類科技期刊間的關(guān)聯(lián)度,更重要的是創(chuàng)新了出版形式,促使內(nèi)容更加結(jié)構(gòu)化,信息粒度越來越小,從而更容易被計(jì)算機(jī)理解和自動集成,有利于信息的再利用和按需重組,實(shí)現(xiàn)出版內(nèi)容的二次深度開發(fā)和大規(guī)模個性化信息服務(wù)。
借助語義技術(shù),實(shí)現(xiàn)科技期刊信息的結(jié)構(gòu)化、關(guān)聯(lián)化、混合化、可操作化、可視化,將文章的理解、分析、綜述、聚合等活動先于用戶完成,使得讀者能夠以盡可能少的搜索與整理工作,獲得最多的可用信息。如,用戶想了解2015年全國各個省份油茶的種植面積,無需要查找很多資料,直接搜索即可獲得答案,并可鏈接至原文,而這些答案是源文獻(xiàn)作者所不知道的。而且語義搜索更具有生產(chǎn)力,通過使用語義標(biāo)簽可以訪問深度互聯(lián)網(wǎng),而不僅局限在一個特定的數(shù)據(jù)庫中。如,化學(xué)結(jié)構(gòu)數(shù)據(jù)庫ChemSpider,它從美國食品藥品監(jiān)督管理局、京都基因與基因組百科全書等490個獨(dú)立來源獲取數(shù)據(jù)源,對于化學(xué)教學(xué)和研究均非常有用,每天被數(shù)以萬計(jì)的各地化學(xué)家所應(yīng)用,目前已成為主要的化學(xué)門戶網(wǎng)站[12]。
在語義出版中,中國科技期刊的市場服務(wù)形式將由初級數(shù)字出版中的“信息推送”轉(zhuǎn)變?yōu)橛脩簟袄⌒畔ⅰ盵13]。運(yùn)用語義技術(shù)提供智能化、個性化服務(wù),提升科技期刊數(shù)字出版在信息消費(fèi)市場的盈利能力。語義技術(shù)與科技期刊的數(shù)字出版的結(jié)合具有無限的商業(yè)價(jià)值。隨著科技的發(fā)展,信息的類型和數(shù)量呈現(xiàn)幾何量級的趨勢增長,讀者要在浩淼的文獻(xiàn)中進(jìn)行過濾和篩選,方便快捷地得到自己需要的數(shù)據(jù)和信息,語義技術(shù)是能讓這些信息得到充分利用的唯一途徑。2012年,愛思唯爾正式發(fā)布了醫(yī)學(xué)信息平臺ClinicalKey,ClinicalKey就是一個按照用戶所想所需進(jìn)行工作的臨床信息平臺,能夠隨時隨地根據(jù)醫(yī)生的日程、工作流程和信息需求設(shè)計(jì),為忙碌的醫(yī)生和醫(yī)學(xué)生提供快速準(zhǔn)確的答案和深入相關(guān)的證據(jù),進(jìn)而幫助提升醫(yī)療質(zhì)量[14]??梢岳谜Z義技術(shù)識別和跟蹤讀者的興趣,通過對讀者行為的分析,鏈接至語義相關(guān)的文獻(xiàn),并提供獲取文章內(nèi)數(shù)據(jù)的可行性途徑,動態(tài)地獲取和組織內(nèi)容,實(shí)現(xiàn)用戶主動“拉取信息”的個性化服務(wù),讓閱讀“活”起來,這種增值性知識服務(wù)將給讀者帶來極大便利,可以讓無數(shù)人產(chǎn)生濃厚興趣,提升了其在信息消費(fèi)市場的競爭力,通過增值服務(wù)創(chuàng)造新的商業(yè)機(jī)會[6]。
與目前的編輯出版活動相比,語義出版的工作內(nèi)容更加細(xì)化、豐富和復(fù)雜,存在能從事所有工作內(nèi)容的編輯個體的可能性較小,對于人員較少的中國科技期刊編輯部來說,單個刊物實(shí)現(xiàn)語義出版的難度較大[15]。語義出版的實(shí)現(xiàn)離不開語義技術(shù)以及領(lǐng)域本體等基礎(chǔ)知識資源的支持,多刊聯(lián)合經(jīng)營,尤其是以學(xué)科聚類的多刊聯(lián)合經(jīng)營將會加速本學(xué)科知識域模型的構(gòu)建,更有利于期刊的發(fā)展。2011年,Open PHACTS項(xiàng)目啟動,該項(xiàng)目是當(dāng)前語義出版物的主要應(yīng)用實(shí)踐,其目標(biāo)是集成不同來源的生命科學(xué)和生物醫(yī)學(xué)信息資源,讓研究者能夠共享利益并提供相關(guān)的工具和服務(wù)。該項(xiàng)目的建設(shè)除了大型的生物制藥公司、出版機(jī)構(gòu)參與,還有中小型企業(yè)、患者組織、學(xué)術(shù)界和其他研究機(jī)構(gòu)、醫(yī)院和公共部門[16]。因?yàn)橥瑢W(xué)科內(nèi)有更多共用的語義標(biāo)簽,且信息輸入越多,模型的智能化程度越高。一種科技期刊就是某學(xué)科大樹上一根枝條,整棵樹就是一個生動的相互關(guān)聯(lián)的知識模型。期刊加入所屬學(xué)科的聯(lián)合體,遵循通用數(shù)據(jù)標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)最終將成為系統(tǒng)的原生資源,而非引入資源。不同學(xué)科的科技期刊共同組成了語義生態(tài)系統(tǒng),加入該系統(tǒng),以開放共享的標(biāo)準(zhǔn)向人們提供自己刊物的特色內(nèi)容將成為中國科技期刊發(fā)展的一個方向。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,眾多科技期刊為了跟上形勢,紛紛在網(wǎng)絡(luò)上發(fā)布電子版本,由于編輯部普遍缺少先進(jìn)的網(wǎng)絡(luò)技術(shù)支撐,多數(shù)只是將紙質(zhì)版的內(nèi)容簡單地搬到網(wǎng)絡(luò)上。語義出版絕非這么簡單,而是涉及出版形式、經(jīng)營方式、營銷模式等多方面,這必將對科技期刊的編輯活動帶來一定的影響,會對編輯活動的效率和專業(yè)性提出更高的要求,除了傳統(tǒng)的文字編校、數(shù)字出版平臺的操作使用外,也會有新的工作內(nèi)容出現(xiàn)。
語義出版中最重要的內(nèi)容是,根據(jù)特定的模型及自然語言處理技術(shù),從全文中抽取知識元,并根據(jù)知識元的語義關(guān)系,構(gòu)建這些知識三元組,然后采用RDF標(biāo)準(zhǔn)來描述這些知識元及其關(guān)系。進(jìn)而實(shí)現(xiàn)整個互聯(lián)網(wǎng)的知識自動關(guān)聯(lián)。RDF是W3C制定的專門用于資源描述的標(biāo)準(zhǔn)語言,也是目前關(guān)聯(lián)數(shù)據(jù)(linked data)采用的主要格式之一,在數(shù)字出版及其他眾多領(lǐng)域中被廣泛使用。其他在數(shù)字出版領(lǐng)域應(yīng)用比較多的語言,還有如 Schema.org、Microdata、Microformat、RDFa、JSON-LD等微語義表達(dá)方式[2],它們大都通過在網(wǎng)頁等文檔中嵌入結(jié)構(gòu)化標(biāo)簽的方式在一定程度上實(shí)現(xiàn)文檔的語義和語義化。語義出版的學(xué)術(shù)期刊基本是以Rich HTML形式發(fā)布,已實(shí)施語義出版的期刊基本實(shí)現(xiàn)了文獻(xiàn)的題錄信息、章節(jié)圖表等內(nèi)容結(jié)構(gòu)與模塊信息的規(guī)范化和結(jié)構(gòu)化等淺層語義特征的描述[9]。
為實(shí)現(xiàn)期刊內(nèi)容自動進(jìn)入人類知識庫,需要按國際標(biāo)準(zhǔn)的方式,來對知識進(jìn)行標(biāo)引。在語義環(huán)境下,對編輯最重要的挑戰(zhàn)就是知識的標(biāo)引,理順每個知識元的關(guān)系,以及對原創(chuàng)知識元的解釋等。由于知識單元的標(biāo)引粒度、準(zhǔn)確性、完備程度、有效性等與關(guān)聯(lián)數(shù)據(jù)的建設(shè)有著密不可分的聯(lián)系,科技期刊內(nèi)容的組織和發(fā)布是語義出版質(zhì)量的根基。而自動語義處理依賴于實(shí)體識別與關(guān)聯(lián)等語義技術(shù)的自動化程度,其結(jié)果可能存在錯誤。編輯不僅需要進(jìn)行傳統(tǒng)的文字加工工作,還要進(jìn)行出版內(nèi)容的語義標(biāo)注、抽取領(lǐng)域詞匯、建立內(nèi)容實(shí)體間的關(guān)聯(lián)等。看似越來越邊緣化的編校工作實(shí)際上仍然是科技期刊出版工作的一項(xiàng)重要內(nèi)容,同時對于編輯人員的專業(yè)要求也更高。如人類基因與蛋白質(zhì)符號的區(qū)別僅在于是否使用斜體,若將“IGF1(胰島素樣生長因子1)”誤作“IGF1”,則可能影響信息提取的精確性。
在語義出版中,期刊內(nèi)容可以自動生成可共享、可重用格式的元數(shù)據(jù),同樣用戶網(wǎng)上任何活動的相關(guān)信息也是語義網(wǎng)的元數(shù)據(jù),這些元數(shù)據(jù)組成其“偏好庫”,而用戶也在不斷地?zé)o意識地完善著元數(shù)據(jù)。圍繞用戶群體,從其“偏好庫”中發(fā)現(xiàn)一些潛在的規(guī)律和關(guān)系,可以幫助科技期刊的編輯及時動態(tài)掌握當(dāng)前的研究熱點(diǎn),迅速獲得各種媒體上對于刊物的反饋信息,從而使得策劃、選題及篩選稿件等活動更有方向性,有利于刊物出版方案的精準(zhǔn)策劃和及時調(diào)整,從而拉近刊物元數(shù)據(jù)與用戶系統(tǒng)的距離。
由于科技期刊語義出版的市場服務(wù)形式為用戶“拉取信息”,保持聯(lián)系將成為編輯人員的巨大優(yōu)先處理事項(xiàng)。與用戶保持聯(lián)系,讓其個人信息及“偏好庫”允許開放,這樣才能實(shí)現(xiàn)“拉”取用戶的信息。由于語義網(wǎng)能做到信息的迅速同步,獲得信息的用戶將以新的方式挑戰(zhàn)科技期刊的小編們,用戶的注釋或反饋能迅速補(bǔ)充到語義網(wǎng)中,成為相關(guān)內(nèi)容的鏈接內(nèi)容。語義技術(shù)不僅可以增強(qiáng)共享,還增強(qiáng)了交互功能,支持讀者參與,屆時科技期刊作為學(xué)術(shù)交流平臺的功能得以加強(qiáng)。
語義技術(shù)的運(yùn)用使得信息反饋更加迅速,從而會大大縮短科技論文出版時效的周期,同時時效性也成為刊物生命力的重要體現(xiàn)。滯后的重復(fù)研究不再會出現(xiàn)在用戶的搜索答案界面中,發(fā)表已失去時效性的論文對于期刊自身發(fā)展沒有任何意義。目前,雖是數(shù)字出版的初級階段,按期出版已逐漸顯現(xiàn)其弊端,成為期刊發(fā)展的制約因素,“優(yōu)先發(fā)表”這一形式應(yīng)運(yùn)而生。在語義出版中,編輯工作主要以“篇”為單位對稿件進(jìn)行實(shí)時處理,甚至可以實(shí)現(xiàn)創(chuàng)新觀點(diǎn)和結(jié)論的單獨(dú)發(fā)表,這樣會最大程度上縮短出版時滯。
滿足人類感官刺激是整個信息產(chǎn)業(yè)渴求的新水源,或暴增的新需要[17]。在編輯活動中將語義技術(shù)和全媒體技術(shù)相結(jié)合,將會改變科技期刊通常給人的嚴(yán)肅、呆板的印象。根據(jù)學(xué)科特點(diǎn),利用多媒體技術(shù)充分挖掘內(nèi)容的增值潛力,對內(nèi)容進(jìn)行全方位、深度加工,充分調(diào)動讀者的視聽等感官對信息的感知能力,增強(qiáng)閱讀體驗(yàn),使產(chǎn)品更貼近讀者。例如,若在研究油茶果糖-1,6-二磷酸醛縮酶的功能的論文中,通過語義標(biāo)簽鏈接該蛋白質(zhì)的三級結(jié)構(gòu),利用閱讀終端以三維立體的圖像來展示,會使得讀者更容易理解其功能的發(fā)揮機(jī)制。因此,“全媒體”意識將會貫穿在選題策劃、內(nèi)容生產(chǎn)、復(fù)制加工等編輯活動中,多媒體編輯手段得以充分運(yùn)用。
語義出版已初步實(shí)現(xiàn)了從理念構(gòu)想向?qū)嵺`應(yīng)用的過渡,國內(nèi)部分期刊也開展了語義出版嘗試,多分布在生物、醫(yī)藥、化學(xué)等領(lǐng)域[18],如《作物學(xué)報(bào)》等。隨著語義出版的快速發(fā)展,出版形式、經(jīng)營方式、營銷模式等多方面也會隨之改變,這必將對科技期刊的編輯活動帶來一定的影響,同時對于編輯人員也提出了高更的專業(yè)要求。編輯人員不僅需要不斷地提高自身的專業(yè)素養(yǎng),還要強(qiáng)化服務(wù)意識。語義出版時代的到來給中國科技期刊的發(fā)展帶來的不僅是機(jī)遇,也有挑戰(zhàn),編輯人員有必要認(rèn)識其發(fā)展趨勢,從各個方面進(jìn)行逐步調(diào)整和學(xué)習(xí),積極應(yīng)對。
[1]WANG SD,YANG J.Research on the information filtering of OWL text based on semantic analysis[EB/OL].[2016-06-21]http://ieeexplore.ieee.org/document/4680784/? reload=true&arnumber=4680784.
[2]余健儀.當(dāng)語義技術(shù)遇上BI[J].電腦與電信,2009(12):5-6.
[3]徐雷.語義出版應(yīng)用與研究進(jìn)展[J].出版科學(xué),2016,24(3):33-39.
[4]Shotton D,Portwin K,Graham K,et al.Adventures in Semantic Publishing:Exemplar Semantic Enhancements of a Research Article[J].PLoS Computational Biology, 2009, 5(4): e1000361.
[5]Wan S, Paris C, Dale R.Supporting browsing-specific information needs:Introducing the Citation-Sensitive In-Browser Summariser[J].Web Semantics: Science, Servicesand Agentson theWorld WideWeb, 2010,(8): 196-202.
[6]王曉光,陳孝禹.語義出版:數(shù)字時代科學(xué)交流系統(tǒng)新模型[J].出版科學(xué),2012,20(4):81-86.
[7]翁彥琴,李苑,彭?,B.英國皇家化學(xué)會(RSC)——科技期刊語義出版模式的研究[J].中國科技期刊研究,2013,24(5):825-829.
[8]潘安,韓敏.語義出版與編輯作為[J].中國編輯,2016(3):47-52.
[9]潘寧.基于語義技術(shù)的智能搜索引擎研究[D].北京:北京郵電大學(xué),2009.
[10]彭秀麗.語義技術(shù)在知識系統(tǒng)庫中的應(yīng)用研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2013,25(3):138-140.
[11]Q Yang HW.Towards a Next-Generation Search Engine[M].Heidelberg: Springer Berlin, 2007:16.
[12]AWilliams.ChemSpider-A Combination Platform of Free Chemistry Database,F(xiàn)ree Prediction Engines and Crowdsourcing Environment[EB/OL].[2016-09-29]https://www.researchgate.net/publication/236274785ChemSpider-A Combination Platform of Free Chemistry Database Free Prediction Engines and Crowdsourcing Environment.
[13]大衛(wèi)·西格爾著.管策,譯.互聯(lián)網(wǎng)的語義革命[M].北京:科學(xué)出版社,2013.
[14]Elsevier.ClinicalKey[EB/OL].[2016-09-26].https://www.clinicalkey.com/.
[15]劉建朝.學(xué)術(shù)期刊數(shù)字出版與編輯的身份重構(gòu)[J].編輯學(xué)報(bào),2014,26(6):525-528.
[16]The Open phacts foundation.Our goal[EB/OL].[2016-09-29].http://www.openphactsfoundation.org/.
[17]高漢中,沈寓實(shí).云時代的信息技術(shù)[M].北京:北京大學(xué)出版社,2012.
[18]李楠,孫濟(jì)慶,馬卓.面向?qū)W術(shù)文獻(xiàn)的語義出版技術(shù)研究[J].出版科學(xué),2015(6):85-92.