鄧倩
【摘 要】標引通過對文檔信息內(nèi)容特征的處理,形成信息集合以提供用戶檢索利用。隨著網(wǎng)絡(luò)的普及和信息技術(shù)的廣泛應(yīng)用,利用主題詞對信息資源進行檢索已成為核電站各類用戶獲取信息的重要途徑。論文系統(tǒng)介紹了主題詞表的編制過程、編制技術(shù)及特點。
【Abstract】By processing the information content of the document, the information collection is formed to provide user retrieval and utilization. With the popularization of the internet and the wide application of information technology, the use of subject thesaurus to retrieve information resources has become an important way for all kinds of users of nuclear power plants to obtain information. This paper introduces the preparation process, preparation technology and characteristics of thesaurus.
【關(guān)鍵詞】標引;主題詞表;文檔管理
【Keywords】indexing ; thesaurus; archive management
【中圖分類號】TM623 【文獻標志碼】A 【文章編號】1673-1069(2017)12-0013-03
1 前言
《廣東核電合營有限公司主題詞表》于1996年完成編制,是單一文檔標引工具,僅包括字順表和英漢對照表,是一本不具有語義關(guān)系的、不完整的主題詞表,其缺陷主要體現(xiàn)在:詞量偏少、收詞范圍偏窄、無分類,無法實現(xiàn)系統(tǒng)性查詞及準確定位等。隨著網(wǎng)絡(luò)化的應(yīng)用,對檢索系統(tǒng)的實用性、易用性提出更高要求,特別是自然語言檢索功能。因此2007—2008年大亞灣核電運營管理有限責任公司啟動“壓水堆核電站主題詞分類研究”項目,對原詞表進行全面修訂。
2 標引與主題詞表
標引是通過對文檔信息內(nèi)容特征的處理,形成信息集合以提供用戶檢索利用,是文檔檢索的基礎(chǔ)和建立各種信息檢索系統(tǒng)的前提條件。
主題詞表又稱主題詞典、敘詞表,它是將自然語言中的名詞術(shù)語經(jīng)過規(guī)范化和優(yōu)選處理,轉(zhuǎn)變?yōu)橹黝}詞的名詞術(shù)語控制工具,主要用于文檔主題標引、信息檢索、組織目錄和索引,是揭示信息資源內(nèi)容、組織信息檢索系統(tǒng)的重要工具,也是信息存儲和檢索過程中連接標引人員和用戶思路的橋梁。一個好的詞表,不僅能幫助標引人員提高查詞速度,減少選詞錯誤,還能引導標引人員在標引時做出正確的判斷,提高標引效率。
一本兼具科學性、專業(yè)性與實用性的主題詞表,在提高文檔信息處理的質(zhì)量和效率的同時,還能成為信息檢索的導航工具。隨著網(wǎng)絡(luò)的普及和信息技術(shù)的廣泛應(yīng)用,利用主題詞對信息資源進行檢索已成為用戶獲取信息的重要途徑。
3 詞表編制的指導思想和原則
①在保證主題詞表科學性的前提下,加強實用性,充分滿足計算機和網(wǎng)絡(luò)環(huán)境下文檔標引和檢索的需求;充分滿足最終用戶——一般員工的檢索要求,提高其自然語言檢索能力。
②在保證主題詞表為綜合性詞表的前提下,兼顧專業(yè)信息標引和檢索的需要,處理好主題詞的專指性。
③要考慮到主題詞表的修訂換版給標引一致性和檢索實踐帶來的影響,例如:對部分刪除的主題詞的處理,應(yīng)先刪除已標引文檔中的記錄,再刪除主題詞的步驟。
4 詞表的編制方法和過程
4.1 字順表
4.1.1 選詞依據(jù)
①來源之一:核電生產(chǎn)建設(shè)活動中產(chǎn)生的約30萬份文件和檔案。在增補主題詞的過程中,通過查閱文件檔案,將用戶的習慣用語作為非正式主題詞,提高文檔的查全率。
②來源之二:專業(yè)詞典,主要包括英法漢核能詞匯、英漢原子能詞典。
③來源之三:電站生產(chǎn)管理信息系統(tǒng)(以下簡稱COMIS),該系統(tǒng)包含電站所有設(shè)備目錄,從中增補了大量設(shè)備類主題詞。
4.1.2 選詞范圍和重點
涵蓋壓水堆核電站從建設(shè)到生產(chǎn)的各主要專業(yè)活動,由于壓水堆核電站的日常運營活動是以系統(tǒng)和設(shè)備為核心,因此著重增補設(shè)備類主題詞,占總量的35%。
4.1.3 主表的構(gòu)成
主表形式發(fā)生變化,由單一的主題詞表演變成“基本詞匯+子表”,“子表”是把代表生產(chǎn)活動特點的各類代碼進行剝離而形成的,包括:系統(tǒng)代碼表、廠房/建筑物代碼表、組織機構(gòu)代碼表、LOT包。這樣的構(gòu)成方式既體現(xiàn)了壓水堆核電站的管理特點,也符合用戶的檢索習慣。
4.1.4 審詞方式
新增詞匯均通過專業(yè)部門審查,審查內(nèi)容主要包括:詞匯是否反映電站生產(chǎn)實際、詞量是否足夠,多次溝通后,最后項目小組根據(jù)反饋意見完成修訂。
4.2 主題詞范疇表
4.2.1 范疇表分類方案
范疇表共設(shè)15個一級類目,包括:電站建設(shè)、機組運行、維修管理、生產(chǎn)計劃與聯(lián)網(wǎng)、設(shè)備、反應(yīng)堆結(jié)構(gòu)與設(shè)施、檢查監(jiān)督與試驗、工程改進、化學與環(huán)境監(jiān)測、安全管理、質(zhì)量保證、應(yīng)急準備與響應(yīng)、信息管理、綜合、基本術(shù)語。
4.2.2 類目設(shè)計思路
既全面覆蓋,又突出重點。“全面”是指涵蓋了壓水堆核電站從建設(shè)、生產(chǎn)、運營、維修到工程改進的全過程,涵蓋各主要專業(yè)活動,“突出重點”是指體現(xiàn)生產(chǎn)運營活動的主要專業(yè)活動的主題詞(機組運行、維修、檢查監(jiān)督與試驗、設(shè)備)占到了總量的43%。為了緊扣核電站以系統(tǒng)和設(shè)備為中心的管理導向,設(shè)立“設(shè)備”作為一級類目。同時考慮到壓水堆核電站與常規(guī)電廠的區(qū)別,設(shè)立“反應(yīng)堆結(jié)構(gòu)與設(shè)施”作為一級類目。endprint
4.2.4 詞量統(tǒng)計
4.3 族系表
4.3.1 工作依據(jù)
漢語主題詞表、電力主題詞表。
4.3.2 族首詞的設(shè)立依據(jù)
由于族系表將應(yīng)用在檢索系統(tǒng)進行自動擴檢、上位詞登錄及族性檢索,在設(shè)立族首詞時,除參考權(quán)威詞典外,還根據(jù)壓水堆核電站的技術(shù)特點和工作實際情況進行了探索,新增346個族首詞,例如:除鹽器、變電站、維修等。
5 主題詞表修訂技術(shù)與規(guī)范
5.1 主題詞修訂原則
①依據(jù)科學性與實用性、綜合性與專業(yè)性相結(jié)合的原則選詞。在主題詞修訂過程中,注意詞的學名與俗名的關(guān)系處理和詞形的選擇,學名具有科學性與穩(wěn)定性,俗名具有實用性和階段性。
②對原主題詞使用頻率很低的,可作為刪除或作為另一主題詞代用詞的依據(jù),對有一定標引頻率的關(guān)鍵詞,作為主題詞預選范圍。
③遵循GB 13190-91“漢語敘詞表編制規(guī)則”中“4 敘詞選定”和“5 詞間關(guān)系處理”的規(guī)定。
5.2 新增主題詞規(guī)則
①選定的主題詞,須一詞一義,詞形簡練,概念明確,符合科學性。不選用概念容易混淆、詞義不清的詞語作為正式主題詞。
②選定的主題詞以名詞為主,避免使用單字形動詞,對于形容詞、副詞、數(shù)詞及量詞,要慎重處理,一般不選。
③詞組型的主題詞組,對于兩個或兩個以上具有交叉關(guān)系的簡單概念綜合而形成的復合概念,對于事物與事物方面所構(gòu)成的復合概念,就收選為主題詞。
④將專有名稱收選為主題詞,但對于不同詞形的同一名稱建立用代關(guān)系,把最通用或慣用的名稱作為正式主題詞,其他名稱作為非正式主題詞。
5.3 主題詞修改、刪除規(guī)則
①主題詞內(nèi)涵具有時代局限性或詞義不清,概念易混淆,孤立的沒有任何參照關(guān)系或過于專指或詞形過長可以組配表達,則考慮刪除。
②主題詞有錯別字或詞義錯誤,修改更正該詞;若不能更正,則刪除。
③對主題詞間的概念關(guān)系起到承上啟下作用的主題詞不能刪除。
④該詞為起到概括或限定上位主題詞概念外延作用的下位主題詞,即可枚舉的屬種關(guān)系,一般處理時,或者其下位主題詞全部保留,或者全部改為被代詞。
5.4 主題詞參照關(guān)系的修訂和建立規(guī)則
建立和修改主題詞間關(guān)系的原則,依據(jù)GB 13190-91“漢語敘詞表編制規(guī)則”中“5 詞間關(guān)系處理”的規(guī)定。以下為補充規(guī)定:
①屬分關(guān)系反映的是屬種概念的包含關(guān)系,因此需要建立概念成族的屬種關(guān)系,修改非概念屬種關(guān)系包括非概念屬種關(guān)系的字面成族。一般屬種關(guān)系包括表達概念的物體之間、工藝之間、學科之間、現(xiàn)象之間的主題詞屬種關(guān)系,只有行政、地理區(qū)域的詞,人體、生物體的系統(tǒng)和器官的詞,不存在屬分關(guān)系。
②對較專指的族首詞或族內(nèi)數(shù)量偏多或?qū)哟渭墑e過多時,適當歸并詞族,取消族首詞或分解詞族,截斷屬分關(guān)系,形成新的族首詞(即使族首詞間從概念上具有屬分關(guān)系)。
③當族內(nèi)詞與其上位主題詞具備屬分關(guān)系時,同一等級的分項可以存在多種劃分標準,同級族內(nèi)詞按字順排列。
6 詞表概況
①編制完成一個完整的專業(yè)性的壓水堆核電站主題詞表,包括主表、范疇表、族系表。
②詞表總量為14958 條,其中正式主題詞14313條,非正式主題詞 645條,族首詞346條,入族詞有4518條。
③字順表由主表和子表組成。子表包括:系統(tǒng)代碼表、建筑物/廠房代碼表、組織機構(gòu)代碼表、LOT包號。(表2)
④范疇表共設(shè)15個一級類目。包括:電站建設(shè)、機組運行、維修管理、生產(chǎn)計劃與聯(lián)網(wǎng)、設(shè)備、反應(yīng)堆結(jié)構(gòu)與設(shè)施、檢查監(jiān)督與試驗、工程改進、化學與環(huán)境監(jiān)測、安全管理、質(zhì)量保證、應(yīng)急準備與響應(yīng)、信息管理、綜合、基本術(shù)語。
7 詞表特色
①體現(xiàn)壓水堆核電站的管理重心和技術(shù)特點,具有極強的實用性。
②具有較多的先組式復合主題詞,便于在計算機檢索中提高查準率和避免發(fā)生虛假的組配現(xiàn)象。
③主題詞及范疇表類目設(shè)置來源于壓水堆核電站的建設(shè)和生產(chǎn)實際,符合廣大用戶的檢索習慣。
8 詞表應(yīng)用前景
①為國內(nèi)壓水堆核電站文檔管理領(lǐng)域首創(chuàng),可成為中國壓水堆核電站之間信息處理和信息交流的底層支持性文件。
②范疇表、族系表的編制,為同行業(yè)文檔工作者從事主題標引工作提供了通用的規(guī)范化詞表。
③由于主題詞來自于電站的大量文檔,反映了電站的建設(shè)和生產(chǎn)實際情況,因此可成為各基地電站信息查詢和信息交流的便利工具。
④族系表的編制和詞間關(guān)系的不斷完善,為網(wǎng)絡(luò)環(huán)境下豐富計算機的自動檢索方式創(chuàng)造了必要條件。
9 結(jié)語
編制完成的主題詞表結(jié)構(gòu)嚴謹,特色鮮明,以核電站生產(chǎn)和設(shè)備管理為主線,包含壓水堆核電站建設(shè)、設(shè)計、運營、維修等主要電站活動,具有極強的實用性,同時填補了國內(nèi)核電行業(yè)的空白,是核電領(lǐng)域首部字順表、范疇表、族系表俱全的專業(yè)性詞表。大亞灣核電已經(jīng)安全運行了50多年,在為國家、集團創(chuàng)造了良好的經(jīng)濟效益的同時,也積累了大量寶貴的知識財富和反映壓水堆核電運行歷史、經(jīng)驗和技術(shù)積累的檔案。如何利用好這些寶貴的檔案,冀望《壓水堆核電站主題詞表》的編制成功,能深化文檔信息資源的挖掘,提升文檔檢索效率和文檔服務(wù)水平,為核電站的安全運營做出更大的貢獻。
【參考文獻】
【1】張燕飛,信息組織的主題語言[M].武漢:武漢大學出版社,2005.endprint