■龐 麗 王利鵬 高 森 鄭春雨 陳 婕*
1)中國醫(yī)科大學附屬盛京醫(yī)院婦產(chǎn)科,遼寧省沈陽市鐵西區(qū)滑翔路39號 110022 2)中國醫(yī)科大學期刊中心,遼寧省沈陽市沈北新區(qū)蒲河路77號 110122
近年來,黨中央、國務院高度重視我國的期刊發(fā)展和標準化工作,2008年10月我國以貢獻率第六的成績正式成為ISO的常任理事國[1-2]。2020 年10 月14 日第51 屆世界標準日,新聞出版領域第一次舉辦標準日活動,主題為“加強標準建設,助力出版業(yè)高質量發(fā)展”,高度關注出版物標準化問題[3]。我國新聞出版標準化工作已歷經(jīng)30余年,取得了矚目的成績,已公布多項涵蓋出版發(fā)行全部流程的國家標準,并可通過國家標準化管理委員會官網(wǎng)(http://openstd.samr.gov.cn/)查閱,但針對科技期刊的國家標準仍不夠健全。同時,科技期刊出版的未來發(fā)展趨勢為“人工智能+出版”模式,標準的發(fā)展與人工智能的發(fā)展息息相關,二者相輔相成又相互制約。一方面,人工智能系統(tǒng)研發(fā)需要采用客觀、精準、實用的標準來約束訓練和建模,標準的完善和精準有利于促進人工智能軟件的研發(fā);另一方面,人工智能軟件可輔助和驗證國家標準的執(zhí)行,成熟的人工智能平臺有利于標準的成熟和完善。因此,對現(xiàn)存國家標準基本執(zhí)行情況的調研很有必要。侯集體[4]曾參照國家參考文獻新標準GB/T 7714—2015《信息與文獻 參考文獻著錄規(guī)則》對中文社會科學引文索引收錄的6種編輯出版類期刊參考文獻進行分析,發(fā)現(xiàn)各期刊執(zhí)行標準的情況不一致,在個人著者、引文頁碼、順序編碼、電子文獻等方面存在著錄不規(guī)范等問題,可能與執(zhí)行新標準時缺少管理措施、新標準細則模糊、期刊對新標準重視程度不夠等因素有關。我國摘要現(xiàn)行國家標準為GB 6447—1986《文摘編寫規(guī)則》,是對國際標準化組織(International Organization for Standardization,ISO)發(fā)布標準的本土化改良方案,已執(zhí)行30余年,在中文科技期刊的標準化執(zhí)行推廣中較為成熟,但是其完成情況到底如何,目前尚無基本數(shù)據(jù)資料調研。本研究應用網(wǎng)絡數(shù)據(jù)平臺,選取2019—2020年國內(nèi)600本醫(yī)學科技期刊的論文為調研對象,對其執(zhí)行現(xiàn)行摘要國家標準GB 6447—1986《文摘編寫規(guī)則》的情況進行調研與分析。
于2021年3—7月采集2019—2020年《中國科技核心期刊(中國科技論文統(tǒng)計源期刊)目錄》收錄的600本中文醫(yī)學科技期刊的公開發(fā)表資料,選取其中具有中文摘要的論著欄目論文2~3篇為研究對象,對其摘要部分進行標記。同時,篩選國內(nèi)外有關論著摘要的最新國家標準,對標準進行細化、整合和歸類,并評估分析不同期刊的標準化執(zhí)行情況。
1.2.1 采集論文
利用中國知網(wǎng)、萬方數(shù)據(jù)庫以及期刊官網(wǎng),采集2019—2020年600本《中國科技核心期刊(中國科技論文統(tǒng)計源期刊)目錄》收錄的中文醫(yī)學科技期刊中有中文摘要的論著欄目論文,每本期刊中隨機抽取2~3篇論文納入本研究。
1.2.2 集成化分析
應用智能化論文處理系統(tǒng),研制程序并依托大數(shù)據(jù)算法實現(xiàn)精準計算,在論文處理系統(tǒng)中錄入目標期刊論文電子版,整合并導出結果數(shù)據(jù)。同時,人工抽檢數(shù)據(jù)并與紙質期刊復核。
1.2.3 調研指標
調研指標主要依據(jù)GB 6447—1986《文摘編寫規(guī)則》,以及2020年發(fā)布的《報紙期刊質量管理規(guī)定》、GB/T 3179—2009《期刊編排格式》、GB/T 28039—2011《中國人名漢語拼音字母拼寫規(guī)則》、GB/T 16159—2012《漢語拼音正詞法基本規(guī)則》、GB 3100~3102—1993《量和單位》、GB/T 15835—2011《出版物上數(shù)字用法》、GB/T 15834—2011《標點符號用法》等的具體要求,調查細則包括13個方面22條細則(表1),嚴格依據(jù)《文摘編寫規(guī)則》國家標準內(nèi)容的“引言”“名詞、術語”“著錄”“文摘的詳簡度”“文摘的要素”“編寫文摘的注意事項”6個部分擬定[5]。同時人工復核備檢摘要的格式差錯、標點符號差錯、文字差錯、量和單位差錯等期刊質量管理要素。
采用SPSS 22.0軟件進行數(shù)據(jù)統(tǒng)計分析,計數(shù)資料采用均數(shù)±標準差,率采用百分比。P<0.05為差異有統(tǒng)計學意義。
表1 依據(jù)GB 6447—1986《文摘編寫規(guī)則》采樣調研指標項目及細則
參照國家標準GB 6447—1986《文摘編寫規(guī)則》要求,檢測采集樣本對13項標準化指標的執(zhí)行情況,發(fā)現(xiàn)整體執(zhí)行情況良好。
600本中文醫(yī)學科技期刊中有99.3%(596/600)的中文醫(yī)學科技期刊論著文摘采用了報道性摘要的結構式表達,結構中有明確的目的、方法、結果、結論四要素,其中1本(0.17%)期刊采用了五段式摘要,分別為“背景、目的、方法、結果、結論”;0.7%(4/600)的期刊采用報道-指示性摘要。樣本論文的摘要結構基本符合國家標準GB 6447—1986的條款,但仍存在采用五段式摘要的問題,這與既往高校學報標準檢驗結果一致,王培華[6]曾對高校學報編輯工作進行標準化檢驗,發(fā)現(xiàn)摘要部分尚存在缺項問題,即未按照“四分法”撰寫,由此強調應強化高校學報編輯工作的標準和規(guī)范意識。筆者在復核GB 6447—1986原文時,發(fā)現(xiàn)原文只提及目的、方法、結果、結論四要素,是否涵蓋引言或背景,是否需要統(tǒng)一體例及格式,這些細則尚不明確,由此產(chǎn)生解讀多樣化問題。這些不同體例,當閱讀主體是人類時,讀取差異不明顯,但當閱讀主體是計算機程序時,這種差異成了阻礙因素,程序無法有效標記,進而影響機讀效果,產(chǎn)生研判不準確甚至無法研判等問題。600本中文醫(yī)學科技期刊文摘中均無著錄和引用內(nèi)容出現(xiàn)。復核600本備檢中文科技期刊的摘要發(fā)現(xiàn),不同期刊的摘要刊出格式不一,包括41種表達式,其中采用“兩字空+【摘要】+一字空”表達式的期刊數(shù)量最多,為215本,占35.83%。有21種表達式的使用期刊數(shù)量不超過5本,占比小于0.83%?!澳康摹薄胺椒ā薄敖Y果”“結論”各有18種表達式,且表達比較一致,其中采用“目的+一字空”“方法+一字空”“結果+一字空”“結論+一字空”表達式的期刊數(shù)量最多,均為428本,占71.81%;分別有13種表達式的使用期刊數(shù)量不超過5本,占比小于0.83%。因國家標準尚無此項要求,但依據(jù)2020年《報紙期刊質量管理規(guī)定》版式審查中的“另版、另段、另行、接排、空行、空格以及需要空行、空格而未空”和“字體字號錯”等要求,目前尚無法統(tǒng)計版式問題。GB 6447—1986對版式并無要求,但此版國家標準產(chǎn)生于20世紀80年代,正值學科起步、紙質盛行的時代,這種差異化表達在當時可以理解為期刊的個性化處理,而在大數(shù)據(jù)應用分析的今天,這種版式不統(tǒng)一對計算機標記要素提取、大數(shù)據(jù)交換產(chǎn)生了阻礙作用,進而影響知識點的傳播。賀郝鈺等[7]對我國科技期刊論文HTML文檔規(guī)范化寫作標準進行研究,發(fā)現(xiàn)我國科技期刊論文的版式展示界面各不相同,缺乏統(tǒng)一的標準格式,使同一領域論文展示的要點不同,對數(shù)據(jù)交換、資源共享、內(nèi)容比較等方面造成障礙,由此提示我國應該完善摘要的結構化展示,根據(jù)學科完善數(shù)據(jù)論文寫作規(guī)范,根據(jù)學科特點及論文類型等制定規(guī)范化寫作標準,從而使科技期刊論文的寫作更加規(guī)范化、簡便化和標準化。郁林羲[8]和周小玲等[9]分別對“中國最具國際影響力學術期刊”和“我國百強中文科技期刊”的HTML出版現(xiàn)狀進行了分析,結果發(fā)現(xiàn),我國科技期刊的HTML出版表達形式及服務與國外期刊相比有很大差距。在人工智能研發(fā)過程中,機器學習的基礎是概率性學習,其機制為輸入大量均質性數(shù)據(jù),計算機從海量輸入數(shù)據(jù)中獲得深度學習的能力,最終這種能力反饋為智能判斷。倘若前期機器學習中輸入數(shù)據(jù)差異性較大,會降低人工智能的判斷能力,目前期刊的表達式多樣,既不符合新版的質量管理規(guī)定,又不利于人工智能編校的進一步發(fā)展,是否應明確尚需研討論證。
GB 6447—1986《文摘編寫規(guī)則》指出,報道性文摘和報道-指示性文摘一般以400字左右為宜。調研發(fā)現(xiàn),采樣文摘字數(shù)范圍為245~1431字,均數(shù)為(504.06±155.33)字;字符數(shù)范圍為259~1727字符,均數(shù)為(621.98±202.66)字符。樣本文摘的字數(shù)與字符數(shù)均超過了GB 6447—1986標準的規(guī)定。按照字數(shù)分布,400~500字的樣本期刊數(shù)量最多(202本),占33.67%;按照字符數(shù)劃分,400~500字符的樣本期刊數(shù)量最多(154本),占25.67%。200~1100字的9組樣本間差異比較有統(tǒng)計學意義(P<0.05)。按學科分布,摘要篇幅超過500字的文摘分布于眼科、外科學、內(nèi)科學、腫瘤學、婦產(chǎn)科學、兒科學、綜合類(學報),各組間差異有統(tǒng)計學意義(P<0.05),見表2和表3。摘要篇幅普遍較長,最多達1727字,遠超出國家標準GB 6447—1986要求的400字,這可能與醫(yī)學學科不斷深入、研究復雜、臨床需要闡述問題較多有關,也可以理解為期刊發(fā)展的需要。GB 6447—1986中“400字”約束是根據(jù)ISO 10324—1997《信息和文獻 保存說明 概括程度》(InformationandDocumentation-HoldingsStatements-SummaryLevel)中200~250個單詞本土化改良而來。隨著學科發(fā)展,是否需要放寬篇幅約束或者根據(jù)不同專業(yè)學科調整篇幅長度,抑或是考慮其他解決方案,是標準化執(zhí)行中需要進一步論證的問題。篇幅界定在人類閱讀時并無大礙,但在機讀語言處理過程中,因計算機處理自然語言目前主要采用的是循環(huán)神經(jīng)網(wǎng)絡(如RNN、LSTM、GRU等)模式,所處理文本字數(shù)是模型設計的重要考慮因素[10]。同時,醫(yī)學科學與國際化接軌,有大量外文符號和外文詞匯,字符數(shù)和字數(shù)與國際標準的要求不匹配,這是中文期刊特有的問題,對此是否需要予以明確,有待深入論證。
表2 600本中文醫(yī)學科技期刊論著文摘詳簡度分布情況
表3 不同學科醫(yī)學論文論著摘要字數(shù)分布情況
本次調研量表嚴格依據(jù)國家標準GB 6447—1986擬定,結果發(fā)現(xiàn)仍有注意事項相關條目在執(zhí)行過程中存在問題,具體表現(xiàn)為標點符號存在錯用、漏用、多用(18本,占3%),例如引號并列時誤用“,”“、”,標點符號誤在行首,標號誤在行末,漏用標點符號等。9本(1.5%)期刊的論著摘要采用分段形式。15本(2.5%)期刊的論著摘要存在未采用第三人稱,出現(xiàn)“本文”“本組”“本研究”等表述。4本(0.67%)期刊使用藥品的商品名時未給出相應的藥品名稱;3本(0.5%)期刊未正確采用縮略語,3本(0.50%)期刊的法定計量單位使用不規(guī)范,1本(0.17%)期刊出現(xiàn)錯字、漏字、別字,1本(0.17%)期刊的外文單詞未按音節(jié)轉行。這些問題表面看似為標準化執(zhí)行不嚴謹、個別期刊重視程度不夠的問題,深層次均提示標準與學科發(fā)展不一致,如科技名詞和縮略語方面,醫(yī)學名詞“阿爾茨海默病(Alzheimer disease/Alzheimer′s disease)”在全國科學技術名詞審定委員會公布的名詞術語標準為“阿爾茨海默病”,國衛(wèi)辦老齡函〔2019〕738號《國家衛(wèi)生健康委辦公廳關于印發(fā)阿爾茨海默病預防與干預核心信息的通知》中為“阿爾茨海默病”,《現(xiàn)代漢語詞典》詞目為“阿爾茨海默病”,而《咬文嚼字》公布的“2019 年十大語文差錯”中正確的術語為“阿爾茨海默癥”,《中國大百科全書》公布的詞目為“阿爾茨海默氏病”,筆者調研發(fā)現(xiàn)上述3種說法均有出現(xiàn),其他還有“阿爾茲海默癥”“阿爾茲海默病”“阿爾茲氏海默病”“老年癡呆”“老年性癡呆”“阿爾茲海默病氏癡呆”等表達。機讀語言需要給出統(tǒng)一體例和標準,以便標記識別和深度學習,對于一個模棱兩可標準的研判,人工智能需要做出大量基礎輸入才能進一步讀懂和學會分析其含義。法定計量單位不規(guī)范方面需要探討的問題是,在痕量檢測結果中用mL或μL單位做分母是否可行。根據(jù)現(xiàn)有標準,此用法顯然有誤,但對于醫(yī)學常用PCR等微量試驗檢測,用mL或μL做單位才具有合理性,是否應該針對檢測方法制定相應規(guī)范,是學科需要進一步明確的問題。在計算機校驗標準環(huán)節(jié)需要明確給出規(guī)則,計算機才可以根據(jù)固定規(guī)則進行修正,這也是目前人工智能編校軟件研發(fā)過程中需要解決的問題。再如,表述藥品的商品名時未給出藥品名稱,由于新藥研發(fā)迭出,商品名稱不通用,且通常為新名詞,單獨給出商品名但不給藥品名稱會阻礙論文的歸類,進而阻礙機器深度研究。至于摘要中存在未采用第三人稱,出現(xiàn)“本文”“本組”“本研究”等表述,存在錯字、漏字、別字,英文詞語不規(guī)范等問題,通過人工智能編校軟件可以識別并自動修訂,此處因標準明確,目前應用未見分歧。
近年來,黨和國家高度重視標準體系建設。習近平總書記在給第39屆國際標準化組織大會開幕式的賀信中指出,“標準是人類文明進步的成果……伴隨著經(jīng)濟全球化深入發(fā)展,標準化在便利經(jīng)貿(mào)往來、支撐產(chǎn)業(yè)發(fā)展、促進科技進步、規(guī)范社會治理中的作用日益凸顯。標準已成為世界‘通用語言’”[11]。我國相繼出臺了《深化標準化工作改革方案》和國家標準化體系建設的發(fā)展規(guī)劃,新修訂了《中華人民共和國標準化法》[5]。目前我國科技期刊現(xiàn)行標準體系構建于20世紀80年代,已推廣執(zhí)行30余年,對學科的發(fā)展和進步起到了積極作用,但在執(zhí)行過程中也存在各種問題,因此建議國家標準的更新年限為5年,超過年限應予以修訂,以順應時代發(fā)展趨勢[12-14]。
摘要是論文的高度概括和精煉,能簡明扼要地闡述論文信息,具有獨立性和自明性,且擁有與文獻等量的主要信息,即只閱讀摘要不閱讀全文也能獲得必要信息,摘要的質量直接影響論文的下載量、被引頻次和傳播力。摘要標準的完善有利于提高論文質量、增加論文的可讀性和準確率、促進學術傳播,進而提升中文期刊的國際影響力。國家標準GB 6447—1986《文摘編寫規(guī)則》是由國家標準局于1986年發(fā)布,執(zhí)行已有30余年,其間未做過修訂和補充,本次調研結果提示,現(xiàn)存標準仍存在差異化解讀和不足之處,且學科重視不夠。目前學界對于新發(fā)布的參考文獻標準GB/T 7714—2015和DOI著錄等的探討較多[15-17],但對于既往標準如GB 6447—1986《文摘編寫規(guī)則》執(zhí)行情況的關注不夠,呼吁學界進一步完善調研數(shù)據(jù)、重視調研結果,以更好地更新、執(zhí)行科技期刊摘要標準。
既往觀點認為,我國科技期刊現(xiàn)存國家標準仍存在標準制定不夠精準,標準執(zhí)行強度不夠,缺少針對漢語特異性的國家標準,標準映射存在障礙等問題,應從幾個方面入手解決:優(yōu)化系統(tǒng)的頂層設計,廣泛采集基礎資料對現(xiàn)有國家標準進行整合、更新,增加新型國家標準,制定特異性強的科技期刊國家標準,最終實現(xiàn)機讀語言轉化等[18]。對于摘要的現(xiàn)行國家標準,目前已存在超期服役、解讀多樣、邊界模糊、執(zhí)行不一等問題,深層次原因為我國國家層面的綱領性文件有欠缺,最終會阻礙不同機構間大數(shù)據(jù)傳播及人工智能發(fā)展,因此,完善現(xiàn)有科技期刊摘要標準很有必要[19]。筆者認為,完善摘要標準應從總體布局、規(guī)劃設計、數(shù)據(jù)采集、問題歸類、研討確定、推廣完善等方面入手,反復進行大范圍研討論證,細化各個要點,這期間尚需管理部門、學術團隊、基層編輯、讀者和作者等多部門多層次深度參與,群策群力,共同完成。在完善過程中還應注意適應時代發(fā)展和中文科技期刊的特殊性。
由于人工智能的出現(xiàn)及迅猛發(fā)展,各學科都呈現(xiàn)日新月異的“人工智能+學科發(fā)展”局面。但人工智能技術在科技期刊綜合化發(fā)展方面的應用仍處于初級階段,從初級向高級進階,首先需要解決的核心問題是機讀語言轉化方面存在的問題,而實現(xiàn)機讀語言轉化的前提是要有一系列精確可行的標準。人工智能的深度發(fā)展與標準建設始終是相互促進又相互依存的關系。一方面,人工智能軟件的研發(fā)、建模及深度學習和訓練依賴于標準的完善精細;另一方面,人工智能軟件的發(fā)展及應用有利于國家標準的準確執(zhí)行,有利于學科的長遠發(fā)展。目前,國外期刊行業(yè)在完成標準化后,已經(jīng)開始探索基于標準化方案的自動處理方案,例如美國、英國、印度等都有基于標準化的自動處理系統(tǒng)或平臺[20-21],而我國此領域尚處于起步階段,許多基礎工作均未開展。國內(nèi)中文科技期刊編輯團隊多數(shù)仍采用手工+Word (或WPS)的編校模式,效率低,審校準確度需要反復核紅、勘誤才能得以提高,如果出現(xiàn)百密一疏的情況,編校質量則不盡如人意。根據(jù)目前編?,F(xiàn)狀,科技期刊可在以下幾個方面應用人工智能技術:利用大數(shù)據(jù)平臺實現(xiàn)精準策劃,基于搜索引擎建立智能化論文處理平臺,基于人工智能實現(xiàn)精準傳播,利用翻譯平臺提升期刊影響力等[22-23]。如何合理開發(fā)利用人工智能技術,打造“人工智能+科技期刊出版”綜合發(fā)展模式是擺在每位期刊人面前的一道考題。與西文不同,漢語言作為一種特殊的表意語言文字,其語義研判、句式解析、格式構建均有其自身的特點,探討適合中文科技期刊的國家標準,以此建模誘導計算機程序深度學習,構建人工智能神經(jīng)網(wǎng)絡反饋模型,最終實現(xiàn)標準化精準執(zhí)行,從而大幅提升中文期刊的國際影響力。
標準制定和完善直接影響科技期刊“人工智能+出版”的發(fā)展,人工智能的發(fā)展又會推動科技期刊全流程變革性前進??萍计诳那熬昂统隹趹撌腔诖髷?shù)據(jù)平臺的整合、制作、交流和傳播,因此現(xiàn)存標準的完善和標準精細化非常重要。本研究嚴格參照摘要相關國家標準對600本中文醫(yī)學科技期刊進行采樣調研,但仍存在調研時間跨度短、學科單一、采樣數(shù)量不夠等不足,數(shù)據(jù)和結果僅供參考,下一步尚需擴大時間覆蓋范圍,增加樣本量進一步深入研究。相信在學界的廣泛關注下,更加高速、便捷、精準的“人工智能+科技期刊出版”指日可待。