易基圣
(中國航船研究設計中心 《中國艦船研究》編輯部,湖北 武漢 430064)
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、WEB2.0等技術的興起,人類產(chǎn)出和擁有的數(shù)據(jù)量呈現(xiàn)爆發(fā)性增長,人類社會已經(jīng)進入一個數(shù)據(jù)驅(qū)動的時代——大數(shù)據(jù)(Big Data)時代。關于大數(shù)據(jù),尚沒有統(tǒng)一的定義,但其3V屬性[1-2],即規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)已得到廣泛認同。規(guī)模性是指數(shù)據(jù)量巨大,量級至少達到TB(1012B)級,甚至是PB(1015B)級以上;多樣性是指數(shù)據(jù)類型繁雜,既包括結構化數(shù)據(jù),又包括半結構化和非結構化數(shù)據(jù)(如社交網(wǎng)絡數(shù)據(jù)、搜索記錄、音視頻數(shù)據(jù),等);高速性是指數(shù)據(jù)變化速度快,每時每刻均有海量的新數(shù)據(jù)在創(chuàng)建、發(fā)布、處理和分析,并且這種速度還在持續(xù)加快。
近年來,大數(shù)據(jù)已成為學術界關注的熱點。世界頂級的《自然》(Nature)[3]和《科學》(Science)[4]雜志先后于2008年和2011年推出大數(shù)據(jù)???,主要圍繞科學研究中的大數(shù)據(jù)問題展開討論,說明了大數(shù)據(jù)對于科學研究的重要性。被譽為“大數(shù)據(jù)時代預言家”的英國牛津大學教授舍恩伯格則認為,大數(shù)據(jù)將從根本上改變?nèi)祟愓J知世界的方式,改變?nèi)祟惿詈凸ぷ鞯姆绞?,開啟一次重大的時代轉(zhuǎn)型[5]。
國內(nèi)期刊界也開始關注大數(shù)據(jù)的影響。吳鋒[6]認為,大數(shù)據(jù)對科技期刊出版具有革命性的影響,將推進科技期刊編輯流程的再優(yōu)化、科技期刊出版業(yè)態(tài)的多媒體化和科技期刊評價規(guī)則的多元化。祝興平[7]以龍源期刊網(wǎng)Top100期刊排行榜為例,分析了“大數(shù)據(jù)”對期刊產(chǎn)業(yè)數(shù)字出版的影響。田丁[8]認為,在大數(shù)據(jù)時代,科技期刊出版將快速變遷到數(shù)據(jù)化與多媒體化,科技文獻將是數(shù)據(jù)、可視化和多功能分析軟件共存的混合體,未來將出現(xiàn)期刊平臺集約化與期刊個體全媒體、特色化發(fā)展的新形態(tài)。
下面,筆者擬結合科技期刊出版的主要流程,分析大數(shù)據(jù)在這些流程中的應用,及其對提升辦刊質(zhì)量、促進科技期刊數(shù)字化轉(zhuǎn)型的影響。
選題與組稿是科技期刊出版工作的重要流程。科技期刊為了提升品牌形象,擴大影響力,無不重視選題和組稿。在“小數(shù)據(jù)”時代,科技期刊在選題、組稿和約稿方面存在多種做法。有的建立了選題論證會商制度,通過責任編輯、編輯部主任和編委會三級會商來確定選題;有的動員編輯人員走出辦公室,深入科研院所、高等院校和重點實驗室等科研生產(chǎn)一線,與科研人員交朋友,了解科研進展,提供信息支持,主動捕捉選題和進行組稿;有的要求編委會成員參與組稿和約稿,甚至下達明確的數(shù)量指標;有的通過承辦或參與學術會議組稿和約稿;有的則通過定向發(fā)布征稿函組稿和約稿。應該承認,這些做法均有一定作用,有些期刊甚至運作得相當成功。但是,其也存在一些不足,期刊選題容易局限在本單位、本系統(tǒng)的某一些研究方向或研究人員身上,“圈子”比較小,視野比較窄,學術思想容易形成固定的模式,導致“近親繁殖”;時間和人力開銷大;選題和組稿的預見性和超前性較差等等。
在大數(shù)據(jù)時代,有望克服上述不足。在大數(shù)據(jù)時代,決策將日益基于數(shù)據(jù)和分析得出,而不是基于經(jīng)驗和直覺判斷做出。大數(shù)據(jù)面對的是全體數(shù)據(jù),可以擺脫傳統(tǒng)上對隨機采樣的依賴;大數(shù)據(jù)可以挖掘事物之間的相關關系,預測人類的行為。例如,2009年,谷歌公司僅憑網(wǎng)民搜索留下的痕跡,就比疾病控制中心提前兩周準確預測了特定地區(qū)和州甲型H1N1流感的爆發(fā),準確率高達97%。2013年,又成功預測了美國流感的暴發(fā)[5]。
因此,在大數(shù)據(jù)時代,可以通過監(jiān)測搜索引擎中的熱詞、社交網(wǎng)站中的評論、博客中的發(fā)貼和跟貼等,了解并預測讀者的需求,了解新的學術成果,洞察本學科或?qū)I(yè)的新動向和新趨勢,把握學術熱點,確保期刊選題具有先進性、前瞻性和針對性。可以了解和掌握作者的研究興趣和專長、承擔的基金項目及其研究進展、合作關系、引證關系、作者的投稿習慣、論文產(chǎn)出率等,從而遴選、培養(yǎng)和挖掘出期刊的核心作者,有針對性地組稿和約稿。
科技期刊的審稿工作大多采用“三審制”,即編輯初審、同行評審和主編(或編委會)終審。其中,同行專家的評審意見是期刊編輯部決定論文是否可以發(fā)表的主要依據(jù)。同行評審是由同一領域的其他專家學者對論文的創(chuàng)新性、科學性和應用價值等進行綜合評價的過程。對期刊編輯部而言,同行評審專家的數(shù)量多寡、專業(yè)分布、專家的學養(yǎng)甚至個性等均會對審稿質(zhì)量和進度帶來影響。盡管期刊編輯部可以通過征集、推薦等方式豐富審稿專家?guī)欤捎趯W科專業(yè)的細化和交叉化,常常發(fā)生審稿專家對待審論文所涉專業(yè)不熟悉或不感興趣,導致出現(xiàn)退審、審稿時間延誤、審稿意見不具體甚至不客觀等問題。這些問題的出現(xiàn),使編輯部在決定稿件取舍上不能很好地把握,從而影響期刊發(fā)表論文的質(zhì)量。
在大數(shù)據(jù)時代,編輯部可以利用大數(shù)據(jù)對來稿的創(chuàng)新性進行初步判斷,淘汰一部分不符合要求的來稿,從而減小同行專家評審的壓力。當前,期刊編輯部應用的學術不端行為檢測系統(tǒng)是大數(shù)據(jù)局部應用的一個例子。但是,在輔助進行創(chuàng)新性判斷方面尚不夠全面。若能利用大數(shù)據(jù)對作者以往的研究成果、發(fā)表的文獻及作者的學術影響力進行綜合分析,則對來稿創(chuàng)新性的判斷將會更準確。
此外,編輯部可以利用大數(shù)據(jù)遴選審稿專家和實現(xiàn)智能送審。通過大數(shù)據(jù)分析,可以區(qū)分出審稿專家的主要研究方向和次要研究方向,掌握專家在當前時期的研究興趣,保證將合適的稿件送給合適的同行評審,避免專家對論文所涉領域不熟悉或不感興趣而導致退審或?qū)徃宀环e極的情形,最大程度地減小評審偏差,從而提高審稿質(zhì)量。
大數(shù)據(jù)還可能催生出新的審稿模式。大數(shù)據(jù)審稿平臺可以引入核心審稿人+開放評審相結合的方式,評閱可以像現(xiàn)行方式一樣采用雙盲制。在系統(tǒng)設定的評審期限內(nèi),所有對待審論文感興趣的人均可作為開放評閱人發(fā)表評論,作者也可在線答辯。在審稿期結束時,大數(shù)據(jù)審稿系統(tǒng)結合核心審稿人和開放評審的意見,給出綜合評審意見。對于開放評審意見,不再講求“精確”而是講求“概率”,即不要求作者對每一位開放評閱人的意見均做出回應或修改,但應尊重多數(shù)人的意見。編輯部在決定稿件取舍時,對于核心審稿人和開放評審分別給予不同的權重,從而實現(xiàn)量化評審。
編輯加工是編輯出版工作的重要環(huán)節(jié),是由編輯人員對決定采用的文稿進一步審讀、修改和整理的過程。編輯加工的目的是在不損傷原稿基本內(nèi)容的情況下通過內(nèi)容加工、文字加工和技術加工進一步提高文稿的質(zhì)量,力求做到術語規(guī)范、語言通順、表達清晰、符合相關編輯出版標準。編輯加工質(zhì)量的好壞,取決于編輯本身的學科背景、工作經(jīng)驗、業(yè)務水平、語言功底以及對編輯規(guī)范的理解等諸多方面。為了提高編輯加工質(zhì)量,一些編輯部常常采取不同編輯交叉核對等措施,以相互補位、減少差錯。盡管如此,由于科技期刊涉及的內(nèi)容比較廣泛、新穎和精深,學科交叉現(xiàn)象又非常普遍,因此,編輯加工時僅靠編輯個人的學識是遠遠不夠的。尤其是年輕編輯,在編輯加工時往往感到無所適從。
大數(shù)據(jù)可使編輯人員“站在巨人的肩膀上”,迅速獲取前人積累的知識和經(jīng)驗。當編輯面對個人難以準確把握的概念、術語、知識點、用法或其他疑難問題時,大數(shù)據(jù)就是最好的老師。大數(shù)據(jù)(如Google scholar)不一定能告訴你應該采用哪一種文稿加工方法,以及為什么要采用那種加工方法,但是,它一定可以告訴你哪一種用法是最多人使用的、出現(xiàn)頻率最高的。在大數(shù)據(jù)時代,“相信大多數(shù)人”的做法,將有助于提高編輯加工的質(zhì)量、減少不必要的差錯,促進編輯人員的知識積累和成長。
隨著數(shù)字化和網(wǎng)絡化的不斷發(fā)展,科技期刊除了發(fā)行質(zhì)紙版之外,大都以各種形式開始了數(shù)字化轉(zhuǎn)型。有的加入國內(nèi)外的期刊數(shù)字化集成平臺(如國外的湯森路透、愛思唯爾、斯普林格,等;國內(nèi)的中國知網(wǎng)、萬方數(shù)字化期刊群、維普中國科技期刊全文數(shù)據(jù)庫,等);有的建立了基于期刊集群的行業(yè)門戶;有的建立了自有版權的期刊網(wǎng)站;有的利用微博、微信等社交網(wǎng)絡開展了跨媒體發(fā)布。但是,上述數(shù)字化發(fā)布形式基本上屬于“廣播”性質(zhì),編輯部關心的只是以各種渠道盡快將期刊內(nèi)容傳播出去,至于讀者是否閱讀了、是誰閱讀了、讀后有何反饋,等等,則較少關注。
大數(shù)據(jù)則將關注并分析讀者的閱讀行為(例如,讀者的瀏覽記錄、下載記錄、引用記錄、付費記錄、發(fā)表的言論及評價,等)以及讀者的身份信息(例如,性別、年齡、教育背景、職業(yè)、所在地域,等)。通過對大數(shù)據(jù)的分析,可以準確把握讀者的興趣,篩選出讀者關注的議題,準確定位讀者群體,從而進行精準的、個性化的內(nèi)容推送。
從上述分析可以看出,大數(shù)據(jù)的應用離不開面向期刊出版的大數(shù)據(jù)平臺。目前的集成期刊編審系統(tǒng)實現(xiàn)了在線投稿、審稿、網(wǎng)絡發(fā)布(甚至是跨媒體發(fā)布和數(shù)字優(yōu)先出版)等功能,有的還集成了基于大數(shù)據(jù)的學術不端行為檢測、參考文獻核對等功能。但是,尚未集成基于大數(shù)據(jù)的智能選題、審稿專家挖掘和智能送審、知識搜索、閱讀行為監(jiān)測和精準推送等功能。
隨著大數(shù)據(jù)應用的深入,基于大數(shù)據(jù)的一體化期刊編審發(fā)布平臺(圖1)必將與期刊的整個出版流程全方位對接,串聯(lián)起期刊出版的整個生態(tài)鏈,從而對科技期刊的數(shù)字化轉(zhuǎn)型帶來革命性影響。
圖1 基于大數(shù)據(jù)的一體化期刊編審發(fā)布平臺
大數(shù)據(jù)對于轉(zhuǎn)變編輯工作模式、擴大期刊影響力具有重要意義,但是,大數(shù)據(jù)分析及其應用需要建立起基于大數(shù)據(jù)的一體化期刊編審發(fā)布平臺,這有賴于期刊主管部門、相關IT企業(yè)和編輯出版單位的共同努力。此外,應該指出的是,由于大數(shù)據(jù)可以監(jiān)測、分析和預測人的行為,因此,如何管理和利用這些數(shù)據(jù),使其價值最大化,而又不侵犯人的隱私權,也是大數(shù)據(jù)應用中需要解決的關鍵問題之一。
參考文獻:
[1]Wikipedia.Big data[EB/OL].http://en.wikipedia.org/wiki/big_data,2014-05-21.
[2]CHEN Jinchuan,CHEN Yueguo,DU Xiaoyong,et al.Big data challenge: a data management perspective[J].Frontiers of Computer Science in China,2013(2).
[3]Nature.Big Data[EB/OL].http://www.nature.com/nature/journal/v455/n7209/edsumm/e080904-01.html,2008-09-04.
[4]Science.Special online collection: Dealing with data [EB/OL].http://www.sciencemag.org/site/special/data/,2011-02-11.
[5](美)舍恩伯格·V.M.,庫克耶·K.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[6]吳鋒.“大數(shù)據(jù)時代”科技期刊的出版革命及面臨挑戰(zhàn)[J].出版發(fā)行研究,2013(8).
[7]祝興平.“大數(shù)據(jù)”與期刊產(chǎn)業(yè)的數(shù)字出版[J].出版參考,2013(34).
[8]田丁.大數(shù)據(jù)時代科技期刊的未來形態(tài)[J].中國科技期刊研究,2014(2).