文/段洋
隨著國(guó)家科技發(fā)展戰(zhàn)略不斷深入,以形成綜合印刷出版物、數(shù)字出版物和各類(lèi)數(shù)字信息資源生產(chǎn)與服務(wù)的智能出版系統(tǒng)逐漸走進(jìn)出版人的視野。以智能檢校工具為核心出發(fā)點(diǎn),打造針對(duì)報(bào)社、出版社等各出版單位具體流程的出版檢校系統(tǒng),能為新聞出版行業(yè)的產(chǎn)業(yè)升級(jí)、技術(shù)改造和數(shù)字化轉(zhuǎn)型提供有力支撐。智能檢校以先進(jìn)技術(shù)為依托、內(nèi)容建設(shè)為根本,面向出版全流程,研發(fā)應(yīng)用于選題策劃、協(xié)同采編、加工制作、資源管理、多渠道發(fā)布、運(yùn)營(yíng)服務(wù)等核心業(yè)務(wù),既覆蓋以報(bào)業(yè)出版為代表的常規(guī)和政治敏感類(lèi)檢校需求,也覆蓋以專業(yè)圖書(shū)、期刊為代表的專業(yè)性和知識(shí)性檢校,同時(shí)還滿足各類(lèi)出版單位針對(duì)業(yè)務(wù)類(lèi)型進(jìn)行個(gè)性化維護(hù)的需求,開(kāi)創(chuàng)檢校領(lǐng)域全媒體資源管理和互動(dòng)服務(wù)等多方面變革,大幅提高出版產(chǎn)業(yè)對(duì)內(nèi)容資源的加工能力和運(yùn)營(yíng)能力,有利于進(jìn)一步提升出版物質(zhì)量,縮短出版周期,降低運(yùn)營(yíng)成本。
新聞出版面向公眾傳播新聞、信息資訊,其基本屬性是內(nèi)容的真實(shí)、準(zhǔn)確。當(dāng)前,互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)在媒體行業(yè)的應(yīng)用,使得新聞出版的時(shí)效性得以快速提升,但不論是傳統(tǒng)媒體還是新媒體,出版質(zhì)量的控制還是以人工居多。傳統(tǒng)出版共有寫(xiě)稿、編輯組版、人工校對(duì)、照排印刷四個(gè)環(huán)節(jié),其中三個(gè)環(huán)節(jié)基本實(shí)現(xiàn)信息化高效運(yùn)行,唯獨(dú)校對(duì)環(huán)節(jié)還是人工為主,工作效率低,無(wú)法滿足新媒體時(shí)代下用戶對(duì)信息速度的要求,尤其在當(dāng)下網(wǎng)絡(luò)出版質(zhì)量差錯(cuò)率遠(yuǎn)遠(yuǎn)超過(guò)國(guó)家要求的情況下,對(duì)于文字內(nèi)容的質(zhì)量控制手段亟須提升。
為保證報(bào)紙、書(shū)籍、期刊、音像電子等出版物的質(zhì)量要求,同時(shí)促進(jìn)互聯(lián)網(wǎng)信息傳播的正確性,加強(qiáng)出版單位、出版物及用戶之間的聯(lián)系互動(dòng),形成出版生產(chǎn)質(zhì)量的全面優(yōu)化,實(shí)現(xiàn)出版全過(guò)程信息化,開(kāi)發(fā)適應(yīng)當(dāng)前行業(yè)全媒體需求的智能檢校系統(tǒng)的需求日益增長(zhǎng)。
出版物編纂、審核過(guò)程中,對(duì)內(nèi)容的檢查涉及多個(gè)方面,包括字詞符號(hào)檢查、邏輯性檢查、內(nèi)容重復(fù)性檢查、知識(shí)性檢查、格式檢查、語(yǔ)法審校等。目前,對(duì)于出版物內(nèi)容的檢校,除部分報(bào)社、出版社引入新聞出版檢校系統(tǒng)或自動(dòng)校對(duì)工具外,大部分出版單位的檢校還是依賴純?nèi)斯さ姆绞?。在?shù)字出版中,特別是微博、微信、移動(dòng)客戶端的內(nèi)容中存在錯(cuò)詞、文字段落重復(fù)出現(xiàn)等諸多質(zhì)量問(wèn)題,需要研發(fā)配套的技術(shù),提供方便的校檢輔助服務(wù),對(duì)數(shù)字出版物的質(zhì)量進(jìn)行控制,支撐出版單位及管理機(jī)構(gòu)的質(zhì)量控制需求。當(dāng)前出版業(yè)普遍使用的審校工具主要基于錯(cuò)詞庫(kù)進(jìn)行審校,在媒體融合發(fā)展環(huán)境下,對(duì)知識(shí)性、邏輯性、語(yǔ)法的審校能力相對(duì)薄弱。智能檢校利用自然語(yǔ)言理解技術(shù)、機(jī)器深度學(xué)習(xí)技術(shù)、人工智能技術(shù)對(duì)出版內(nèi)容進(jìn)行審校,讓編輯人員從低價(jià)值的、重復(fù)性較多的編校工作中釋放出來(lái),將主要精力放到更有價(jià)值的知識(shí)性、學(xué)術(shù)性的內(nèi)容檢查上去,提升圖書(shū)內(nèi)容編校質(zhì)量和效率,具有重要價(jià)值。
報(bào)紙出版時(shí)效性強(qiáng),流程環(huán)節(jié)復(fù)雜,其中的校對(duì)環(huán)節(jié)更是重中之重;期刊與圖書(shū)出版生產(chǎn)周期相對(duì)較長(zhǎng),稿件以WORD和PDF格式為主,內(nèi)容多,生產(chǎn)流程中的采編審校環(huán)節(jié)的銜接比較松散。智能檢校系統(tǒng)提供智能檢校云平臺(tái)、協(xié)同檢校系統(tǒng)、嵌入式檢校工具、智能檢校SDK四種應(yīng)用模式,以適應(yīng)出版社、報(bào)社、期刊社融合出版的不同檢校需求,滿足出版行業(yè)各類(lèi)用戶的質(zhì)量控制需求。
智能檢校云平臺(tái)。通過(guò)瀏覽器為用戶提供云端智能檢校服務(wù),適合各類(lèi)出版用戶的輕應(yīng)用業(yè)務(wù)場(chǎng)景。平臺(tái)為新媒體出版及各種輕檢校場(chǎng)景(不調(diào)用專業(yè)閱讀器及采編系統(tǒng)等)提供網(wǎng)絡(luò)化的智能檢校服務(wù),同時(shí)將詞庫(kù)維護(hù)及算法管理等功能集成在云平臺(tái)中,隨時(shí)隨地滿足新媒體移動(dòng)出版時(shí)代用戶輕快的檢校要求。
協(xié)同檢校系統(tǒng)。服務(wù)于報(bào)業(yè),提供各種智能檢校工具,在保證校對(duì)質(zhì)量的前提下,以獨(dú)立的檢校處理系統(tǒng)與用戶的采編系統(tǒng)并行,除了提供文字內(nèi)容校對(duì)外,還滿足報(bào)紙出版特有報(bào)頭自動(dòng)校對(duì)、字體字號(hào)校對(duì)、原文比對(duì)、重稿檢查、核紅比對(duì)、標(biāo)記查詢的業(yè)務(wù)需求,并輔以進(jìn)度監(jiān)控、工量統(tǒng)計(jì)、即時(shí)通訊等系統(tǒng)功能,為各環(huán)節(jié)人員提供質(zhì)量控制和時(shí)效管控輔助工具,提高生產(chǎn)時(shí)效。
嵌入式檢校工具。著重滿足圖書(shū)及期刊用戶在專業(yè)編輯器中的檢校需求,安裝簡(jiǎn)單、實(shí)用便捷。專業(yè)性圖書(shū)、學(xué)術(shù)型期刊出版時(shí)專業(yè)名詞較多,公式、章節(jié)、圖表等特殊內(nèi)容較多,編寫(xiě)和排版時(shí)容易出現(xiàn)序(編)號(hào)缺失、顛倒等錯(cuò)誤,需求也相對(duì)較多。嵌入式檢校工具能夠在稿件采、編時(shí)提供智能檢校服務(wù),操作簡(jiǎn)便,更適合流程周期長(zhǎng)的圖書(shū)、期刊出版。
智能檢校SDK。供出版用戶的采編系統(tǒng)直接調(diào)用,提供采寫(xiě)、編輯時(shí)的內(nèi)容檢校服務(wù)。
智能檢校系統(tǒng)的研發(fā)目標(biāo)是面向文字內(nèi)容等差錯(cuò)的在線自動(dòng)查找,在智能檢校系統(tǒng)中實(shí)現(xiàn)人與機(jī)器高效協(xié)同地采編、出版、檢校,運(yùn)用智能檢校和人機(jī)結(jié)合工具提高出版的質(zhì)檢自動(dòng)化程度,能有效縮短出版周期,降低出錯(cuò)率。項(xiàng)目的創(chuàng)新包括以下幾個(gè)方面。
邏輯體例檢查。通過(guò)“邏輯體例檢查”功能,可實(shí)現(xiàn)對(duì)稿件大綱的標(biāo)題序號(hào)是否連續(xù)、標(biāo)題序號(hào)體例及格式是否一致等問(wèn)題,以及稿件中所有圖片、表格、公式、列表、數(shù)學(xué)元素、參考文獻(xiàn)的序號(hào)或順序書(shū)寫(xiě)是否正確、是否存在引用關(guān)系錯(cuò)誤進(jìn)行檢查。
內(nèi)容相似性檢查。通過(guò)該功能,可以快速檢查出整篇稿件或多篇稿件中是否存在疑似重復(fù)的文本內(nèi)容及相似程度較高的文本內(nèi)容。
敏感內(nèi)容檢查。除基礎(chǔ)詞庫(kù)外,分類(lèi)專項(xiàng)設(shè)立領(lǐng)導(dǎo)人詞庫(kù)、敏感詞詞庫(kù)等專業(yè)庫(kù),包括重點(diǎn)詞監(jiān)控、涉及港澳臺(tái)相關(guān)用語(yǔ)的檢查、涉及敏感政治事件及重大提法、涉及民族宗教敏感詞、其他敏感詞匯、危害社會(huì)安全的敏感詞檢查,提升智能校對(duì)正確率及覆蓋廣度,并成為出版單位、用戶與監(jiān)管單位三方共享使用的檢校平臺(tái)。
政要信息檢查。檢查政要姓名中是否出現(xiàn)錯(cuò)別字、多字少字等錯(cuò)誤情況,包括領(lǐng)導(dǎo)人職務(wù)正確性檢查、領(lǐng)導(dǎo)人職務(wù)表述的規(guī)范性檢查、領(lǐng)導(dǎo)人排序檢查等。
重要講話內(nèi)容核查。通過(guò)重要講話內(nèi)容核查功能,實(shí)現(xiàn)可以不受書(shū)寫(xiě)體例限制自動(dòng)識(shí)別出稿件中的領(lǐng)導(dǎo)人講話、政府發(fā)布的重要文件等內(nèi)容,通過(guò)文本相似性比對(duì)技術(shù)推薦與原句相似度較高的句子,并標(biāo)注出句子間的差異,供用戶核查。
法律法規(guī)內(nèi)容核查。不受書(shū)寫(xiě)體例限制自動(dòng)識(shí)別出稿件中的法律法規(guī)內(nèi)容,通過(guò)文本相似性比對(duì)技術(shù)推薦與原句相似度較高的句子,并標(biāo)注出句子間的差異,供用戶核查。
字詞符號(hào)檢查。字詞符號(hào)檢查主要包括針對(duì)錯(cuò)別字、疊字疊詞檢查、“的地得”檢查等字詞錯(cuò)誤,不規(guī)范字、標(biāo)點(diǎn)符號(hào)等內(nèi)容錯(cuò)誤進(jìn)行檢查?;谇把厣疃壬窠?jīng)網(wǎng)絡(luò)的糾錯(cuò)模型,利用海量數(shù)據(jù)預(yù)訓(xùn)練得到的神經(jīng)語(yǔ)言模型。結(jié)合審校場(chǎng)景,針對(duì)不同類(lèi)型錯(cuò)誤特點(diǎn)的數(shù)據(jù)特征進(jìn)行調(diào)整,并通過(guò)不同的算法模型進(jìn)行糾錯(cuò)。結(jié)合用戶真實(shí)使用的反饋數(shù)據(jù),利用數(shù)據(jù)增強(qiáng)技術(shù)持續(xù)增強(qiáng)模型的糾錯(cuò)能力,包括易錯(cuò)詞、不規(guī)范字、標(biāo)點(diǎn)符號(hào)檢查、時(shí)間日期檢查、術(shù)語(yǔ)譯文檢查、單位符號(hào)檢查、英文拼寫(xiě)檢查、全半角檢查、千分位檢查、單位間隙檢查等。
正文內(nèi)參考文獻(xiàn)引用順序檢查。檢查稿件正文中參考文獻(xiàn)的引用順序是否存在錯(cuò)誤,一直是令廣大書(shū)刊編校人員較為頭痛的編校問(wèn)題之一。通過(guò)拓展對(duì)采用順序編碼制編寫(xiě)的參考文獻(xiàn)的檢查維度,對(duì)參考文獻(xiàn)在正文內(nèi)的引用順序進(jìn)行檢查,可實(shí)現(xiàn)對(duì)整體的引用順序、方括號(hào)內(nèi)的引用順序進(jìn)行檢查。
易錯(cuò)詞檢查。一方面,聯(lián)合大數(shù)據(jù)及實(shí)驗(yàn)室團(tuán)隊(duì)對(duì)拼寫(xiě)模型、同音音近模型、語(yǔ)法檢查模型進(jìn)行多輪優(yōu)化,有效提升拼寫(xiě)錯(cuò)誤檢查的查全率;通過(guò)增加詞對(duì)數(shù)量,提升同音近詞檢查模型的查全能力;通過(guò)擴(kuò)展檢查錯(cuò)誤范圍及增加錯(cuò)字和選詞錯(cuò)誤的范圍,提升語(yǔ)法檢查的查全率和查準(zhǔn)率。另一方面,優(yōu)化檢查規(guī)則。一是疊字疊詞檢查規(guī)則優(yōu)化:完善了疊字疊詞檢查的后處理規(guī)則,增加了對(duì)存在疊字的正詞中疊字部分錯(cuò)誤的檢查規(guī)則(如“消消話”),提升了疊字疊詞檢查的查準(zhǔn)率和查全率;二是短文本糾錯(cuò):增加基于詞庫(kù)和規(guī)則的短文本糾錯(cuò)能力,解決用戶測(cè)評(píng)時(shí)刻意構(gòu)造的短文本樣例,以及檢查歧義性低的常用詞或詞組,提升了易錯(cuò)詞檢查的查全率和查準(zhǔn)率;三是將“非推薦詞”和“語(yǔ)義重復(fù)”這兩項(xiàng)檢查能力拆分出來(lái)形成獨(dú)立的檢查能力,以滿足不同用戶對(duì)易錯(cuò)詞范圍的檢查需求。
知識(shí)類(lèi)檢查。知識(shí)類(lèi)檢查包括紀(jì)年檢查、地名檢查、古詩(shī)詞引文檢查。
近年來(lái),各級(jí)出版單位認(rèn)真貫徹中央精神,積極推進(jìn)復(fù)合數(shù)字出版發(fā)展,不斷探索融合發(fā)展路徑,利用互聯(lián)網(wǎng)思維方法、理念技術(shù)提高出版效率和內(nèi)容質(zhì)量,應(yīng)勢(shì)而動(dòng),順勢(shì)而為,將機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、認(rèn)知推理、模型構(gòu)建、圖像識(shí)別等技術(shù)集成應(yīng)用融入到出版過(guò)程中。雖然智能檢校技術(shù)針對(duì)機(jī)器學(xué)習(xí)、機(jī)器視覺(jué)、感知識(shí)別、自然語(yǔ)言處理、認(rèn)知推理、模型構(gòu)建等技術(shù)都有廣泛應(yīng)用,并具有較強(qiáng)的集成應(yīng)用和工程化能力,但我們也應(yīng)認(rèn)識(shí)到,如何把新技術(shù)應(yīng)用到出版流程中才更重要。筆者認(rèn)為,智能檢校系統(tǒng)在未來(lái)的不斷升級(jí)完善中,有以下幾方面值得重點(diǎn)關(guān)注。
多渠道拓寬詞庫(kù)。詞庫(kù)是決定檢校成效的關(guān)鍵之一,為解決傳統(tǒng)自動(dòng)校對(duì)詞庫(kù)封閉、知識(shí)面窄的弊端,智能檢校系統(tǒng)可以積極推動(dòng)詞庫(kù)“眾籌”理念,向用戶開(kāi)放可維護(hù)詞庫(kù),并提供用戶檢校結(jié)果審定接口,使得詞庫(kù)隨著用戶持續(xù)使用而優(yōu)化豐滿,實(shí)現(xiàn)云端匯聚和在線分享。
升級(jí)云平臺(tái)部署及分布式計(jì)算技術(shù)。以云端檢校、客戶端展現(xiàn)結(jié)果的方式提供智能檢校服務(wù),用戶可隨時(shí)隨地通過(guò)網(wǎng)絡(luò)校對(duì),處理速度快,應(yīng)用成本低。進(jìn)一步升級(jí)云平臺(tái)部署將不斷優(yōu)化處理能力,降低應(yīng)用成本,提升用戶體驗(yàn)。
優(yōu)化立體檢校模式。多算法相互驗(yàn)證、多規(guī)則彼此協(xié)同的立體化檢校方式,輔以基于詞庫(kù)的非規(guī)則算法提供支撐,對(duì)字、詞、句、段各級(jí)文本實(shí)現(xiàn)智能化識(shí)別和立體化檢校。及時(shí)采用最新的大數(shù)據(jù)技術(shù),可持續(xù)高速擴(kuò)充規(guī)則庫(kù)的采集,進(jìn)一步優(yōu)化立體檢校模式。
提升數(shù)字化出版環(huán)境下的質(zhì)量管控能力。通過(guò)多種檢校服務(wù),滿足媒體融合出版全流程、多格式、輕應(yīng)用的智能檢校需求,支撐中文出版領(lǐng)域質(zhì)效控制,提升出版時(shí)效,降低直接生產(chǎn)成本。
應(yīng)用最新技術(shù)帶動(dòng)檢校服務(wù)模式的轉(zhuǎn)變。通過(guò)云檢校平臺(tái)幫助用戶擴(kuò)充專業(yè)詞庫(kù)并分享用戶的檢校知識(shí)和經(jīng)驗(yàn),實(shí)現(xiàn)從傳統(tǒng)的單向服務(wù)變?yōu)橛脩襞c平臺(tái)雙向互動(dòng)、互為分享,共同提升檢校準(zhǔn)確性的業(yè)務(wù)模式。智能化技術(shù)置于智能審校發(fā)展的中樞環(huán)節(jié),對(duì)圖書(shū)、期刊、工具書(shū)和新聞?lì)悆?nèi)容質(zhì)量進(jìn)行把關(guān),提升出版效率和出版質(zhì)量。
近年來(lái),媒體融合發(fā)展已經(jīng)深入人心,從中央的政策支持,到行業(yè)內(nèi)外的積極探索,新聞出版行業(yè)已經(jīng)走到了轉(zhuǎn)型發(fā)展的重要拐點(diǎn)?;ヂ?lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)的廣泛普及,大數(shù)據(jù)技術(shù)、人工智能技術(shù)等新興技術(shù)在內(nèi)容生產(chǎn)及消費(fèi)領(lǐng)域的應(yīng)用,VR/AR在內(nèi)容呈現(xiàn)方面的應(yīng)用,都促使新聞出版行業(yè)由傳統(tǒng)的紙筆生產(chǎn)及消費(fèi)模式迅速與新興技術(shù)結(jié)合。出版單位要積極探索適合自身的業(yè)務(wù)模式,堅(jiān)定地推進(jìn)數(shù)字出版轉(zhuǎn)型升級(jí)。相信通過(guò)政府的引導(dǎo),新聞出版產(chǎn)業(yè)鏈上的各方共同參與、互相協(xié)調(diào),終會(huì)探索出一條適合中國(guó)數(shù)字出版的道路!