文/蘇冉 叢磊
隨著信息技術(shù)快速變革,互聯(lián)網(wǎng)數(shù)字信息化技術(shù)的發(fā)展促進了出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化的實現(xiàn)進程,出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化工作在出版產(chǎn)業(yè)通用數(shù)據(jù)交換技術(shù)等應(yīng)用中發(fā)揮著重要的支撐作用。出版業(yè)標(biāo)準(zhǔn)規(guī)范的信息化能夠提升相關(guān)系統(tǒng)開發(fā)效率,也能在各種實際應(yīng)用中提高出版工作效率,從而對出版業(yè)的社會效益與經(jīng)濟效益協(xié)同發(fā)展產(chǎn)生實際推動力。
出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化實現(xiàn)的深度與廣度體現(xiàn)著出版業(yè)發(fā)展的深度和成熟度。理想的標(biāo)準(zhǔn)規(guī)范信息化建設(shè)進程是根據(jù)《新聞出版標(biāo)準(zhǔn)匯編》建設(shè)統(tǒng)一配置的通用信息化系統(tǒng)。然而,盡管國家新聞出版署科技與數(shù)字出版司組織四個標(biāo)準(zhǔn)化技術(shù)委員會對新聞出版領(lǐng)域內(nèi)的相關(guān)標(biāo)準(zhǔn)進行了收集整理,編輯完成了《新聞出版標(biāo)準(zhǔn)匯編》,使新聞出版領(lǐng)域內(nèi)的標(biāo)準(zhǔn)形成了標(biāo)準(zhǔn)體系,但是由于在實際應(yīng)用中,各單位采用不同的格式標(biāo)準(zhǔn)儲存信息數(shù)據(jù),導(dǎo)致各單位之間不能直接使用自有軟件來識別、利用外部系統(tǒng)發(fā)送的信息。據(jù)了解,各單位之間進行數(shù)據(jù)通信必須重新設(shè)計新接口進行信息識別,然后轉(zhuǎn)化為內(nèi)部信息格式進行處理;或者閱讀電子內(nèi)容后再通過人工處理。這種處理方式不夠高效,無法提高各單位工作效率。
目前出版業(yè)標(biāo)準(zhǔn)信息化工作缺乏協(xié)同高效的工作機制,有標(biāo)準(zhǔn)缺失、老化、滯后,標(biāo)準(zhǔn)間重復(fù)、交叉、矛盾,標(biāo)準(zhǔn)具體實施工作薄弱等問題。這些問題的存在阻礙了出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化工作的發(fā)展。[1]
由于各個單位對同一標(biāo)準(zhǔn)內(nèi)容的理解不同,對同一標(biāo)準(zhǔn)的語言描述有差異,導(dǎo)致同一標(biāo)準(zhǔn)出現(xiàn)二義性和模糊性。因此,標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)的一致性格外重要。針對標(biāo)準(zhǔn)的主要內(nèi)容,需要保證標(biāo)準(zhǔn)的名稱、說明屬性等保持一致性,主要涉及以下四個方面:
標(biāo)準(zhǔn)內(nèi)容結(jié)構(gòu)化是指通過標(biāo)準(zhǔn)的章、條、段、表、圖和附錄的層次結(jié)構(gòu)提取標(biāo)準(zhǔn)的文本文件內(nèi)容。按照規(guī)范性要素劃分,標(biāo)準(zhǔn)分為名稱、范圍、規(guī)范性引用文件、術(shù)語和定義、符號和縮略語、要求、規(guī)范性附錄。
由于標(biāo)準(zhǔn)類型不同,標(biāo)準(zhǔn)中內(nèi)容的層次結(jié)構(gòu)也不同,通常標(biāo)準(zhǔn)內(nèi)容按照列項劃分,這樣標(biāo)準(zhǔn)內(nèi)容就可以以樹形結(jié)構(gòu)展示,如圖1。樹形結(jié)構(gòu)符合XML結(jié)構(gòu)特點,可以將標(biāo)準(zhǔn)結(jié)構(gòu)轉(zhuǎn)化成XML文檔。但是由于XML文檔不能高效管理標(biāo)準(zhǔn),需要通過將標(biāo)準(zhǔn)映射成關(guān)系表,添加關(guān)聯(lián)字段,達(dá)到標(biāo)準(zhǔn)規(guī)則使用樹形結(jié)構(gòu)存儲。[2]
圖1 標(biāo)準(zhǔn)結(jié)構(gòu)圖
實現(xiàn)標(biāo)準(zhǔn)一致性需要分析出標(biāo)準(zhǔn)之間的一致性關(guān)系,給出判斷兩項標(biāo)準(zhǔn)存在一致性關(guān)系的準(zhǔn)則。在標(biāo)準(zhǔn)結(jié)構(gòu)化的時候,各項標(biāo)準(zhǔn)已經(jīng)存儲到關(guān)系表中,為了簡化關(guān)系表,需要在關(guān)系表中再添加一份引用標(biāo)準(zhǔn),在表中直接存儲標(biāo)準(zhǔn)編號,便能快速定位各個關(guān)系內(nèi)容。
《新聞出版標(biāo)準(zhǔn)匯編》標(biāo)準(zhǔn)之間的一致性關(guān)系分為以下三種:
(1)標(biāo)準(zhǔn)A在規(guī)范性引用文件中標(biāo)有標(biāo)準(zhǔn)B,則標(biāo)準(zhǔn)A對標(biāo)準(zhǔn)B保持一致,A要與B保持一致性;
(2)標(biāo)準(zhǔn)A、B都在規(guī)范性引用文件中標(biāo)有標(biāo)準(zhǔn)E,則標(biāo)準(zhǔn)A、B都對標(biāo)準(zhǔn)E保持一致,A、B要與E保持一致;
(3)標(biāo)準(zhǔn)A、B是標(biāo)準(zhǔn)C某一方面的專用標(biāo)準(zhǔn),則標(biāo)準(zhǔn)A、B要保持一致。
通過查詢關(guān)系表,符合下面三種情況時,存在一致性關(guān)系:
(1)多個標(biāo)準(zhǔn)引用同一個標(biāo)準(zhǔn);
(2)標(biāo)準(zhǔn)之間存在引用關(guān)系;
(3)標(biāo)準(zhǔn)屬于《新聞出版標(biāo)準(zhǔn)》同一方面的標(biāo)準(zhǔn)。
通過存儲常用詞語和新聞出版行業(yè)的專業(yè)術(shù)語,實現(xiàn)分詞更加準(zhǔn)確?;A(chǔ)詞庫首先選擇現(xiàn)代漢語詞典中的詞語,然后添加新聞出版領(lǐng)域的專業(yè)術(shù)語、常用詞擴充詞庫。[3]同時,還要在詞庫中刪除在出版領(lǐng)域中的停用詞、人名、地名、組織機構(gòu)等。詞庫的有效優(yōu)化能夠大大提高分詞的準(zhǔn)確性和性能。
根據(jù)詞庫采用基于字符串的正向最大匹配方法對標(biāo)準(zhǔn)內(nèi)容分詞,采用向量空間模型VSM的句子相似度算法計算標(biāo)準(zhǔn)內(nèi)容的相似度值,實現(xiàn)一致性測試。
一致性測試有兩種:
(1)標(biāo)準(zhǔn)數(shù)據(jù)元素名稱相同或相似,但是語義不同,需要在數(shù)據(jù)元素名稱相同的情況下對數(shù)據(jù)元素的語義進行測試分析。
(2)標(biāo)準(zhǔn)數(shù)據(jù)元素的語義相同或者相似,但是數(shù)據(jù)元素名稱不同。需要對數(shù)據(jù)元素說明屬性語句進行語義分析相似或者相同,對數(shù)據(jù)元素的名稱進行測試分析。[4]
由于這兩種情況都要進行相似度分析,因此可以使用兩種算法:詞語相似度算法和中文語句相似度算法。詞語相似度采用向量空間模型VSM的句子相似度算法,此時需要把詞語作為一個句子,每個字作為一個詞。對于具有描述性的句子則需采用不同方式,由于句子由詞語構(gòu)成,句子中的關(guān)鍵詞不同,會對句子相似度造成很大影響。因此,需要將句子看作多個關(guān)鍵詞的集合,對關(guān)鍵詞(不包括停用詞、人名、地名、組織結(jié)構(gòu))構(gòu)造向量模型,然后計算相似度。
標(biāo)準(zhǔn)化工作在出版業(yè)發(fā)展的各個環(huán)節(jié)中發(fā)揮著基礎(chǔ)支撐作用,可以從系統(tǒng)架構(gòu)設(shè)計、基礎(chǔ)標(biāo)準(zhǔn)研究、標(biāo)準(zhǔn)評估機制等方面加強工作。
目前,出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化工作缺乏系統(tǒng)架構(gòu)的統(tǒng)籌設(shè)計,各單位系統(tǒng)之間標(biāo)準(zhǔn)內(nèi)容重復(fù)、交叉,協(xié)調(diào)對接存在諸多阻礙和問題。為此,可以首先將各類標(biāo)準(zhǔn)規(guī)范集成封裝并存入數(shù)據(jù)庫,通過標(biāo)準(zhǔn)管理層實現(xiàn)規(guī)則內(nèi)容統(tǒng)一組織和高效利用;其次,從數(shù)據(jù)庫中挖掘所需規(guī)則,綜合各項技術(shù)建立適用于各個單位的標(biāo)準(zhǔn)庫,并以此為基礎(chǔ)構(gòu)建具備推薦、搜索等應(yīng)用功能的統(tǒng)一化規(guī)則內(nèi)容網(wǎng)站;最后,通過應(yīng)用層,直觀地展現(xiàn)企業(yè)內(nèi)部出版、項目、工作人員等相關(guān)規(guī)則,幫助管理及設(shè)計人員等快速掌握規(guī)則信息。
為實現(xiàn)以上設(shè)計,可以將建構(gòu)設(shè)計為以下三層:標(biāo)準(zhǔn)管理層、集成開發(fā)層、應(yīng)用層。(如圖2所示)
其中,標(biāo)準(zhǔn)管理層維護一份《出版業(yè)標(biāo)準(zhǔn)規(guī)范信息表》,結(jié)合行業(yè)發(fā)展現(xiàn)狀和需求,對于沒有國家標(biāo)準(zhǔn)而又需要在全行業(yè)范圍內(nèi)統(tǒng)一的技術(shù)要求秉承急用先行、重點先行原則[5],協(xié)調(diào)現(xiàn)有的常用基礎(chǔ)標(biāo)準(zhǔn)、《新聞出版標(biāo)準(zhǔn)匯編》和亟待統(tǒng)一的技術(shù)要求,確保各種標(biāo)準(zhǔn)在不同產(chǎn)業(yè)環(huán)節(jié)和應(yīng)用領(lǐng)域的一致性,使標(biāo)準(zhǔn)化工作在解決資源管理分散、數(shù)據(jù)共享不暢和業(yè)務(wù)協(xié)同不足等問題上發(fā)揮支撐作用。
集成開發(fā)層完成標(biāo)準(zhǔn)規(guī)范的集成開發(fā)設(shè)計,將各類標(biāo)準(zhǔn)規(guī)范集成至對應(yīng)模板并存入數(shù)據(jù)庫,通過數(shù)據(jù)庫管理、個性化管理等功能,實現(xiàn)數(shù)據(jù)的統(tǒng)一管理與標(biāo)準(zhǔn)要素準(zhǔn)確搜索。[6]
圖2 標(biāo)準(zhǔn)規(guī)范信息化實現(xiàn)總體架構(gòu)
應(yīng)用層在規(guī)范集成開發(fā)設(shè)計的基礎(chǔ)上進行規(guī)則管理和可視化開發(fā)設(shè)計,需要先從規(guī)則數(shù)據(jù)中抽取出系統(tǒng)建設(shè)所需規(guī)則內(nèi)容數(shù)據(jù)庫,然后再通過各種技術(shù)手段實現(xiàn)對規(guī)則數(shù)據(jù)的應(yīng)用。
基礎(chǔ)標(biāo)準(zhǔn)作為其他標(biāo)準(zhǔn)的依據(jù)和基礎(chǔ),具有深遠(yuǎn)的指導(dǎo)意義。隨著出版業(yè)的快速發(fā)展,各類產(chǎn)品和出版服務(wù)形態(tài)不斷升級,不斷涌現(xiàn)出各種新型術(shù)語需要被準(zhǔn)確定義,對于不適用于現(xiàn)發(fā)展階段的術(shù)語則需要被及時改寫。因此,除了構(gòu)建系統(tǒng)架構(gòu),還要及時修訂出版業(yè)標(biāo)準(zhǔn)規(guī)范,同時建立可提供檢索和查詢的標(biāo)準(zhǔn)數(shù)據(jù)庫。
目前雖然已經(jīng)制定和發(fā)布了多項標(biāo)準(zhǔn),但這些標(biāo)準(zhǔn)的執(zhí)行力度較弱,在各個單位中依然存在諸多內(nèi)部標(biāo)準(zhǔn),因此標(biāo)準(zhǔn)規(guī)范對提升產(chǎn)品和服務(wù)質(zhì)量的支撐作用亟待增強。建立出版業(yè)標(biāo)準(zhǔn)規(guī)范評估機制、定期開展標(biāo)準(zhǔn)評估能夠大大推動標(biāo)準(zhǔn)規(guī)范信息化進程。而標(biāo)準(zhǔn)評估可以從標(biāo)準(zhǔn)質(zhì)量、標(biāo)準(zhǔn)的實施效果兩方面進行評估。其中,標(biāo)準(zhǔn)質(zhì)量的評估涉及內(nèi)容完整性、指標(biāo)參數(shù)適用性、標(biāo)準(zhǔn)內(nèi)部一致性、技術(shù)規(guī)則合理性、要求明確性、使用者可操作性、相關(guān)標(biāo)準(zhǔn)間協(xié)調(diào)性、未來可擴展性以及編寫規(guī)范性等。標(biāo)準(zhǔn)的實施效果評估涉及標(biāo)準(zhǔn)范圍的科學(xué)性、促進技術(shù)進步的程度、滿足業(yè)務(wù)需求的程度、支持政府決策的程度等。[7]
近年來我國新聞出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化工作取得了一定發(fā)展,但是標(biāo)準(zhǔn)規(guī)范之間的一致性和協(xié)調(diào)性尚未成熟。本文對新聞出版業(yè)標(biāo)準(zhǔn)規(guī)范的一致性保持和信息化實現(xiàn),以及在一致性方面對標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)名稱和說明描述存在二義性或模糊性的問題進行了研究,并提出了一致性測試算法;在信息化實現(xiàn)方面,技術(shù)上采用標(biāo)準(zhǔn)管理層、集成開發(fā)層、應(yīng)用層三層架構(gòu),以標(biāo)準(zhǔn)規(guī)范集成開發(fā)為重點,推進相關(guān)出版人員快速搜索標(biāo)準(zhǔn)和高效使用標(biāo)準(zhǔn)。
新聞出版業(yè)標(biāo)準(zhǔn)規(guī)范信息化是出版業(yè)發(fā)展的必然方向,也是實現(xiàn)我國出版業(yè)高質(zhì)量發(fā)展的關(guān)鍵支撐。我們深刻認(rèn)識到標(biāo)準(zhǔn)規(guī)范信息化工作對于出版業(yè)發(fā)展的催化作用,只有持續(xù)推進標(biāo)準(zhǔn)制定與實施,及時對標(biāo)準(zhǔn)的動態(tài)進行信息化的維護及更新,促進標(biāo)準(zhǔn)規(guī)范引領(lǐng)產(chǎn)業(yè)活動、提升行業(yè)管理水平,才能不斷推動出版業(yè)發(fā)展,進一步提高出版業(yè)的社會效益與經(jīng)濟效益。[8]