陳 瑞,曾建勛
(1. 武漢大學(xué)信息管理學(xué)院,武漢 430072;2. 中國科學(xué)技術(shù)信息研究所,北京 100038)
敘詞表作為一類重要的知識組織工具,在文獻信息檢索方面發(fā)揮著重要作用。國內(nèi)外根據(jù)情報檢索需求和應(yīng)用陸續(xù)編制了大量的敘詞表,為用戶高效地獲取信息資源提供了便利,但是這些敘詞表資源很多未及時開發(fā)維護被束之高閣,只有很少的敘詞表相對活躍,整體應(yīng)用情況不很理想。當(dāng)下學(xué)科發(fā)展日新月異,知識更新迅速,科學(xué)研究的關(guān)聯(lián)度、交叉度進一步加深,對于文獻情報服務(wù),靜態(tài)的單個敘詞表資源很難滿足涉及多學(xué)科、多主題的網(wǎng)絡(luò)信息環(huán)境應(yīng)用需求??萍夹g(shù)語資源的規(guī)范化和集成化對于網(wǎng)絡(luò)信息資源的組織與利用十分重要[1],敘詞表資源的集成與應(yīng)用有助于帶動現(xiàn)有資源的更新維護,優(yōu)化知識組織體系,促進敘詞表資源規(guī)?;瘧?yīng)用[2]。本文借鑒國內(nèi)外詞表集成理論和實踐,構(gòu)建面向不同領(lǐng)域、多元學(xué)科交叉融合的敘詞表集成化體系,旨在利用集成方式推動不同術(shù)語資源的規(guī)范化、形式化描述,不斷擴充、更新語義知識庫,拓展敘詞表應(yīng)用范圍和應(yīng)用模式,推動敘詞表資源的可持續(xù)發(fā)展。
1959 年,美國編制第一部敘詞表,之后迅速發(fā)展。國際上敘詞表已超過2000 部,并廣泛應(yīng)用于各個領(lǐng)域,一些主流詞表,如MeSH(Medical Subject Headings)建立了持續(xù)的更新機制[3]。1971 年出版的《航空科技資料主題表》是我國編制的第一部敘詞表,1980 年我國第一部大型綜合詞表《漢語主題詞表》正式出版,此后各專業(yè)情報機構(gòu)紛紛根據(jù)需要編制一系列專業(yè)敘詞表,逐步確立了我國敘詞表編制的方法和標(biāo)準[4]。以往敘詞表的編制主要是以人工為主,耗費了大量人力和時間,且更新修訂困難,已有的150 多部中文敘詞表中,僅有39%的詞表有過修訂,且修訂時間的間隔平均為10 年,修訂時間落后于相應(yīng)科技的發(fā)展,而僅有9%的詞表比較活躍[5]。敘詞表的生命在于不斷地使用、維護與更新,眾多敘詞表的存在狀態(tài)及應(yīng)用情況不佳,越得不到應(yīng)用就會越缺乏修訂維護,導(dǎo)致概念過時、概念間關(guān)系簡單,久而久之不被使用。
敘詞表傳統(tǒng)的應(yīng)用環(huán)境主要是圖書情報領(lǐng)域,未拓展到社會更加廣闊的知識利用環(huán)境中[6],主要原因表現(xiàn)在以下方面:①傳統(tǒng)的敘詞表資源面向?qū)I(yè)的標(biāo)引人員,對于一般用戶熟練使用有較高的要求;②眾多敘詞表資源分散在不同機構(gòu),并且缺少面向網(wǎng)絡(luò)的信息服務(wù)系統(tǒng),未開放對外應(yīng)用接口,一般用戶沒有了解敘詞表資源的機會以及獲取敘詞表資源的渠道;③傳統(tǒng)敘詞表主要由人工構(gòu)建,知識結(jié)構(gòu)簡單,難以被計算機直接自動利用,嚴重制約網(wǎng)絡(luò)環(huán)境下敘詞表的應(yīng)用;④敘詞表資源未能與具體應(yīng)用需求和應(yīng)用環(huán)境相結(jié)合[7],缺乏在敘詞表資源基礎(chǔ)上的二次開發(fā),很難直接應(yīng)用到具體實踐中。
總體來說,當(dāng)前的眾多敘詞表資源落后于相應(yīng)的科學(xué)研究,缺少應(yīng)用,缺乏修訂維護,這與日新月異的學(xué)科發(fā)展和知識更新現(xiàn)狀不匹配。同時,各領(lǐng)域、各學(xué)科的詞表資源分散在不同數(shù)據(jù)庫或不同的機構(gòu),各表之間缺乏互操作機制,缺乏統(tǒng)一的、規(guī)范化的資源描述,難以發(fā)揮整體協(xié)同作用,不具備大數(shù)據(jù)環(huán)境下計算機大規(guī)模資源處理的應(yīng)用條件。隨著數(shù)字出版產(chǎn)業(yè)不斷發(fā)展,大數(shù)據(jù)、云計算、人工智能技術(shù)在各領(lǐng)域的應(yīng)用都離不開基礎(chǔ)資源的組織和處理,敘詞表資源作為底層規(guī)范化的語義工具,應(yīng)超越傳統(tǒng)的標(biāo)引檢索,融入整個文本信息處理和知識組織過程之中[8],廣泛應(yīng)用于搜索引擎、數(shù)字出版、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等各領(lǐng)域。敘詞表資源需要不斷完善內(nèi)在結(jié)構(gòu)和外在功能,逐漸由數(shù)字化向規(guī)模大型化、概念語義化、編制智能化和服務(wù)及應(yīng)用多樣化的方向發(fā)展[9],發(fā)揮其更加廣泛的作用。
國外許多機構(gòu)進行了詞表集成實踐,具有代表性的集成項目有:英國高層敘詞表項目HILT(High-Level Thesaurus),采用映射方式集成67 部國際重要的敘詞表和分類表進行網(wǎng)絡(luò)信息服務(wù)[10];德國 KoMoHe (Kompetenzzentrum Modellbildung und Heterogenittsbehandlung)項目,對11 個學(xué)科的25 種受控詞表進行集成,實現(xiàn)了多個信息系統(tǒng)之間的分布式檢索[11];美國國立醫(yī)學(xué)圖書館組織建設(shè)UMLS(Unified Medical Language System)項目,通過概念融合方式整合了上百部生物醫(yī)學(xué)領(lǐng)域的術(shù)語資源,定義了54 種語義關(guān)系[12-13],構(gòu)建了大型知識組織工具,并已將其應(yīng)用到生物醫(yī)學(xué)專業(yè)數(shù)據(jù)庫的自動標(biāo)引、智能化檢索、專業(yè)詞表的編制以及相關(guān)領(lǐng)域的語義關(guān)聯(lián)和知識發(fā)現(xiàn)中。國內(nèi)參照UMLS 的體系框架和構(gòu)建流程開展了一系列集成項目,包括CUMLS (Chinese Unified Medical Language System)中文一體化語言系統(tǒng)、TCMLS(Traditional Chinese Medicine Language System) 中醫(yī)藥一體化語言系統(tǒng) 、 STKOS (Science Technology Knowledge Organi‐zation System) 英文超級科技詞表等[14-15]。這些項目通過集成方式,整合多部敘詞表資源及其他術(shù)語資源,定義多種語義關(guān)系并開發(fā)面向具體應(yīng)用的服務(wù)系統(tǒng),推動敘詞表資源的應(yīng)用。
敘詞表的集成創(chuàng)建具有重要意義,主要體現(xiàn)在以下三個方面。
(1)敘詞表的集成有助于盤活各種“閑置”的術(shù)語資源,通過集成方式進行各領(lǐng)域概念及概念關(guān)系的增、刪、改,帶動敘詞表資源的更新和維護,進而帶動各敘詞表的發(fā)展??梢岳米詣踊夹g(shù)集成新概念、新術(shù)語,及時反映學(xué)科知識的動態(tài)變化。傳統(tǒng)的知識組織結(jié)構(gòu)對于等級、相關(guān)關(guān)系的描述過于寬泛和模糊,而利用集成方式融合當(dāng)下語義網(wǎng)、本體資源的新型語義描述方式,對現(xiàn)有的術(shù)語資源進行深層次的語義關(guān)系細化,則有助于機器使用敘詞表資源進行知識推理。
(2)各領(lǐng)域的敘詞表資源進行集成,有助于擴展資源主題范圍,整合多來源、多語種、多學(xué)科、多類型的術(shù)語資源,實現(xiàn)更大范圍主題概念的覆蓋和語義關(guān)聯(lián),體現(xiàn)大型詞表的學(xué)科集成優(yōu)勢。單獨使用某一領(lǐng)域的敘詞表難以較好地組織和揭示網(wǎng)絡(luò)信息資源,利用集成方式對各領(lǐng)域的敘詞表、分類表、名錄、詞典、本體等不同類型的知識體系整合,可以擴充敘詞表的概念資源,同時,協(xié)同使用多種知識組織體系促進對信息資源的關(guān)聯(lián)和共享。
(3)通過集成方法建設(shè)規(guī)?;男g(shù)語資源、結(jié)構(gòu)化的概念描述、豐富的語義關(guān)系、不同層次的語義資源和服務(wù),將術(shù)語資源、語義工具和應(yīng)用模式融為一體,有助于數(shù)據(jù)大規(guī)模應(yīng)用取得成效。集成化的詞表資源和服務(wù)體系可以為自然語言的處理提供大規(guī)模基礎(chǔ)資源,為信息加工提供自動切詞、自動標(biāo)引、自動分類、信息抽取等功能,為知識挖掘和知識發(fā)現(xiàn)提供概念實體識別、語義識別、自動分類、智能推理等語義信息,起到術(shù)語規(guī)范和知識關(guān)聯(lián)等作用。
圍繞規(guī)范化概念和語義關(guān)系表達,敘詞表的集成化試圖將各主題領(lǐng)域的敘詞表資源及各類術(shù)語資源進行歸并融合,構(gòu)建一個語義關(guān)系豐富、明確的新型集成化詞表,并創(chuàng)新集成資源的應(yīng)用和服務(wù)模式。敘詞表的集成化體系建設(shè)是一項系統(tǒng)工程,涉及不同語種、不同結(jié)構(gòu)、不同領(lǐng)域術(shù)語資源的互操作及應(yīng)用,需要從集成的標(biāo)準、方法、過程、系統(tǒng)、應(yīng)用出發(fā),構(gòu)建完備的集成化體系框架(如圖1 所示),標(biāo)準規(guī)范體系對整個集成過程進行規(guī)范控制,是集成化過程的基礎(chǔ);詞表集成化支撐體系輔助集成化過程的網(wǎng)絡(luò)化和自動化,是集成化過程的工具;詞表集成化概念體系明確集成后的詞表結(jié)構(gòu),是集成化的目標(biāo);自下而上的集成化過程包括多來源術(shù)語集成和語義組織與集成,生成集成化詞表;在此基礎(chǔ)上,提供面向用戶、面向機器的系統(tǒng)服務(wù)與應(yīng)用,全面深化和拓展敘詞表資源的服務(wù)功能和應(yīng)用機制。
圖1 集成化體系框架
1)數(shù)據(jù)加工規(guī)范
在整個集成操作過程中,從數(shù)據(jù)資源的采集、存儲、篩選、描述到語義集成,都需要制定相應(yīng)的操作規(guī)范和規(guī)則,以保證集成資源從形式到內(nèi)容的加工質(zhì)量。數(shù)據(jù)加工規(guī)范需要調(diào)研多來源術(shù)語資源的結(jié)構(gòu)特征,明確詞匯資源采集的原則、數(shù)據(jù)表達規(guī)范、數(shù)據(jù)存儲格式,制定映射規(guī)則、關(guān)系校驗規(guī)則等,為整個集成操作的數(shù)據(jù)加工提供相應(yīng)的標(biāo)準與規(guī)范。
2)元數(shù)據(jù)統(tǒng)一描述
不同來源的術(shù)語資源,在總體結(jié)構(gòu)、概念范圍、語義表示、存儲格式等方面均有差異,元數(shù)據(jù)描述各有區(qū)別。結(jié)構(gòu)和描述的差異性為敘詞表的集成服務(wù)帶來障礙,因此,有必要設(shè)計統(tǒng)一的元數(shù)據(jù)框架,用統(tǒng)一的標(biāo)記語言進行形式化描述。依據(jù)元數(shù)據(jù)設(shè)計標(biāo)準,充分考慮元數(shù)據(jù)的準確性、全面性和擴展性,借鑒重用比較成熟和大眾認可的概念構(gòu)詞描述形式,提煉出具體可行的元數(shù)據(jù)方案,以便保證多來源概念的統(tǒng)一管理。這些元數(shù)據(jù)標(biāo)準和描述規(guī)范,一方面可以為不同知識組織系統(tǒng)之間集成融合提供支撐,另一方面可以為后續(xù)的服務(wù)應(yīng)用奠定基礎(chǔ),實現(xiàn)集成資源的網(wǎng)絡(luò)共建共享。
構(gòu)建敘詞表統(tǒng)一規(guī)范的元數(shù)據(jù)框架,既需要客觀、真實地描述詞匯的來源信息和描述信息,又要充分地揭示詞匯與概念、概念與概念間的關(guān)系。元數(shù)據(jù)描述是分層的,主要分為來源描述元數(shù)據(jù)、宏觀結(jié)構(gòu)元數(shù)據(jù)、詞匯概念元數(shù)據(jù)、語義關(guān)系元數(shù)據(jù)以及映射關(guān)系元數(shù)據(jù),具體的層次框架如表1 所示。敘詞表以概念為核心,概念通過詞匯表達,對每一個來源表、詞匯及概念分配唯一的ID,便于查找和識別。來源描述元數(shù)據(jù)對來源概念、來源表(即原始詞表)進行基本描述,提供來源表各項信息。宏觀結(jié)構(gòu)元數(shù)據(jù)包括主表與附表、主表與學(xué)科分類表間的關(guān)聯(lián)關(guān)系描述。詞匯概念元數(shù)據(jù)及語義關(guān)系元數(shù)據(jù)是描述的核心,詞形層面描述詞匯的名稱、拼音、英文或拉丁文、縮略語等非語義信息,詞義層面描述概念的定義、分類、概念間的關(guān)系;當(dāng)前概念之間的關(guān)系主要包含等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系,需按學(xué)科特征和語義類型進行拓展。集成化過程需要建立原始詞表與集成概念間映射關(guān)系、集成概念與附表術(shù)語間映射關(guān)系;除等同、上下位、相關(guān)映射類型外,可根據(jù)具體語義關(guān)系進行映射類型的細分。按照元數(shù)據(jù)框架選擇合適的形式化描述語言進行集成數(shù)據(jù)的描述與存儲。當(dāng)下語義Web 技術(shù)的發(fā)展為詞表形式化描述提供了堅實基礎(chǔ),單純使用一種描述機制容易丟失部分語義信息,可以采用SKOS (Simple Knowledge Organiza‐tion System)語義描述框架[16]、RDF Schema 描述機制[17]、DC(Dublin Core)元數(shù)據(jù)等多種描述方式,互相擴展補充進行敘詞表宏觀結(jié)構(gòu)和微觀詞匯概念的形式化表示[18]。
表1 元數(shù)據(jù)層次框架
3)敘詞表編制、互操作標(biāo)準
敘詞表資源的集成需要遵循敘詞表編制標(biāo)準,依據(jù)敘詞表質(zhì)量標(biāo)準規(guī)范體系和詞表間互操作標(biāo)準確定集成化詞表的概念體系結(jié)構(gòu),滿足敘詞表現(xiàn)行的一系列國際標(biāo)準《信息與文獻——敘詞表及與其他詞表的互操作》(Information and documentation—Thesauri and interoperability with other vocabularies;ISO 25964)和國家標(biāo)準《信息與文獻敘詞表及與其他詞表的互操作》(GB/T 13190),以及語義關(guān)系細化的本體化知識描述機制。具體到學(xué)科領(lǐng)域,術(shù)語表達方式存在差異,需要在遵循統(tǒng)一標(biāo)準的前提下,按照學(xué)科特點制定具體的編制規(guī)則,并在集成過程中不斷調(diào)整完善。
敘詞表集成需要滿足不同術(shù)語來源下各學(xué)科領(lǐng)域?qū)I(yè)人員的協(xié)同操作問題,有必要設(shè)計一套先進的、適用于敘詞表融合集成的操作平臺,為集成過程的自動化、集成化詞表的動態(tài)編制和維護提供強有力的支撐。該平臺依托互聯(lián)網(wǎng)技術(shù),支持多用戶、分布式、可視化地協(xié)同完成集成化操作[19],包括開放式多來源數(shù)據(jù)的導(dǎo)入,集成化詞表的構(gòu)建、審核、質(zhì)量控制與管理、發(fā)布等一系列工作流程所需的各種功能模塊,平臺建設(shè)需要突出以下三方面的要求。
(1)協(xié)同操作機制。敘詞表集成化涉及各學(xué)科主題領(lǐng)域和專業(yè)人員,集成詞匯量眾多、語義關(guān)系復(fù)雜,需要通過分布并發(fā)式機制,實現(xiàn)集成化詞表的協(xié)同編制。平臺應(yīng)充分考慮橫向多人同時分工協(xié)作與縱向不同過程協(xié)作的使用特點,以滿足多人、多地、隨時處理的需求,促進集成過程的實時溝通和協(xié)調(diào)。橫向協(xié)同應(yīng)按不同的學(xué)科領(lǐng)域,以整表、詞族、概念等不同粒度建立權(quán)限分配操作管理機制,實現(xiàn)數(shù)據(jù)協(xié)同共享與沖突規(guī)避機制,保證集成融合過程的有序性;縱向協(xié)同需對詞表集成化全過程進行科學(xué)合理設(shè)計,包括任務(wù)指派、下發(fā)、編輯、提交、審核、監(jiān)督、發(fā)布、更新,以及該過程中的數(shù)據(jù)自動核驗、人工干預(yù)等,實現(xiàn)集成融合的規(guī)范性。
(2)智能化輔助技術(shù)。融合集成工作平臺為集成化過程提供智能化輔助,最大限度地減輕集成過程中的人工工作量,加快集成化詞表的構(gòu)建速度。積極探索概念的自動映射和自動歸并,語義關(guān)系的自動合并和語義關(guān)系沖突的自動糾錯,采用詞匯相關(guān)分析、文獻數(shù)據(jù)分析、語義關(guān)系挖掘、學(xué)科新詞發(fā)現(xiàn)、新術(shù)語評估等自動化處理技術(shù),為集成工作人員提供語義關(guān)系推薦、學(xué)科分類推薦、新術(shù)語推薦等智能服務(wù),提高集成化詞表的編制效率。伴隨著來源詞表的持續(xù)更新,集成化詞表需保持同步更新,借助自動化技術(shù)及時識別來源詞表的變更術(shù)語、及時整合科學(xué)文獻的新術(shù)語,實現(xiàn)詞表擴充和更新的動態(tài)發(fā)展[20],使詞表維護速度跟上學(xué)科的發(fā)展變化。
(3)可視化技術(shù)。結(jié)合中文集成化詞表的特點和用戶使用習(xí)慣,將多種可視化技術(shù)應(yīng)用于詞表表示和知識組織的可視化、信息處理與操作的可視化、檢索過程和結(jié)果的可視化三個方面。采用點、線、平面圖、三維圖、數(shù)據(jù)表等方式從不同維度、不同層級全面、直觀、動態(tài)地展示詞匯概念及各種概念間的關(guān)系;集成化詞表支持多種語義關(guān)系的定義,設(shè)計一個敘詞表可視化過程,盡可能準確合理地展示出概念間豐富的語義關(guān)系,詞間關(guān)系一目了然,幫助用戶進一步明確概念的內(nèi)涵,啟發(fā)用戶發(fā)現(xiàn)一些新的潛在信息并進行快速檢索和調(diào)整。同時,利用可視化技術(shù)優(yōu)化平臺人機交互邏輯,簡化平臺操作復(fù)雜度,設(shè)計改進工作流,強化用戶體驗和反饋,輔助用戶分析、決策和管理,使集成化過程更加順暢。
敘詞表集成化建設(shè)旨在繼承現(xiàn)有規(guī)范術(shù)語資源的經(jīng)驗和成果,融合新的概念和關(guān)系,實現(xiàn)不同類型的知識組織體系之間的關(guān)聯(lián)整合,構(gòu)建詞表集成化概念體系,生成集成化詞表。集成化詞表并非傳統(tǒng)意義上的敘詞表,以概念和概念語義網(wǎng)絡(luò)描述為核心,借助新的語義描述機制對語義關(guān)系的含義和類型進行拓展細分,采用特定的結(jié)構(gòu)將各學(xué)科領(lǐng)域的敘詞表和相關(guān)術(shù)語資源組織匯編在一起,以獲得更好的應(yīng)用性能。借鑒本體的描述機制,集成化詞表的體系結(jié)構(gòu)如圖2 所示,主題概念繼承頂層概念的語義類型,將不同來源的多個詞匯、術(shù)語進行合并融合,每個概念歸入一個學(xué)科分類下;同時,保留來源詞表的詞義、概念和關(guān)系,建立多個來源表的概念與主題概念之間的映射關(guān)系,保障概念可以還原到原始的術(shù)語表中,將多來源知識組織體系有序地組織在一起;獨立的概念體系支持隨時添加新的概念和語義關(guān)系,從而對概念體系進行擴充。
圖2 集成化詞表的體系結(jié)構(gòu)
頂層概念體系為所有集成的主題概念提供語義架構(gòu)和分面框架,定義類體系、類屬性和類關(guān)系,具體步驟:①構(gòu)建概念類,并從敘詞表的術(shù)語等級出發(fā)構(gòu)建層級類;②確定概念屬性和屬性值類型,明確概念下語義類型。頂層概念體系不可能覆蓋所有的語義范圍,具體構(gòu)建過程需要面向通用領(lǐng)域和專業(yè)領(lǐng)域,確定體系規(guī)模,優(yōu)先采用語義明確、應(yīng)用較廣的語義關(guān)系類型。從實用角度出發(fā),認真梳理、充分借用已有的專業(yè)領(lǐng)域知識組織體系的結(jié)構(gòu)與關(guān)系,同時,結(jié)合當(dāng)下學(xué)科發(fā)展和應(yīng)用需求,最終確定概念范圍的深度與廣度,進行合理的細化和描述。學(xué)科分類是涵蓋全學(xué)科的統(tǒng)一分類體系,確定術(shù)語資源的主要學(xué)科歸屬,亦方便為各來源概念提供統(tǒng)一的導(dǎo)航服務(wù),輔助實現(xiàn)多來源概念的語義集成。對于學(xué)科分類體系的建設(shè),參考《中國圖書館分類法》《中華人民共和國國家標(biāo)準學(xué)科分類與代碼》(GB/T 13745-2009)及各專業(yè)分類體系,充分考慮學(xué)科交叉特征、類目層級深度,面向多個學(xué)科統(tǒng)一構(gòu)建。
主表包括各學(xué)科領(lǐng)域的主題概念、術(shù)語、屬性和關(guān)系,主題概念包含同義詞、縮略語、注釋、分類號、英文、拉丁文、來源信息、詞頻信息等描述屬性,概念語義關(guān)系以“屬”“分”“參”進行細分。隨著敘詞表的不斷使用及網(wǎng)絡(luò)技術(shù)的發(fā)展,各領(lǐng)域敘詞表的結(jié)構(gòu)與功能也在不斷發(fā)展和完善,對語義關(guān)系的描述更加靈活多樣[21]。眾多學(xué)科領(lǐng)域?qū)Φ燃夑P(guān)系及相關(guān)關(guān)系的語義類型和語義關(guān)系進行明確定義和細化,如等級關(guān)系又可細化分為屬種關(guān)系、整體-部分關(guān)系、類-實例關(guān)系等;相關(guān)關(guān)系表示兩個概念之間存在關(guān)聯(lián),又可細分為物理上相關(guān)、空間上相關(guān)、功能上相關(guān)、位置上相關(guān)和概念上相關(guān)等;特殊領(lǐng)域需要結(jié)合學(xué)科領(lǐng)域特點從多方位對語義關(guān)系拓展細分,提供更加明確的、更符合用戶使用習(xí)慣的語義關(guān)系,如對于疾病的描述,可從病因、診斷、治療等角度具體化語義關(guān)系。附表可以豐富集成化詞表的術(shù)語資源,將一些名錄資源獨立于主表而存在,在不影響主表概念結(jié)構(gòu)的情況下集成更多的術(shù)語資源,建立這些術(shù)語概念與主題概念間的映射關(guān)系。
眾多詞匯資源先經(jīng)過采集加工建立詞匯集成庫,再進行概念層面的語義組織與集成,具體的語義集成化過程和方法如圖3 所示。針對各來源概念進行概念映射,映射主要是在不同概念體系中找到最相關(guān)的概念和參考信息。在映射的基礎(chǔ)上進行概念的融合集成,即集成化詞表的概念建設(shè)及概念語義關(guān)系重塑,在這個過程中需要將新詞匯、新語義關(guān)系的發(fā)現(xiàn)融合到概念體系中。融合集成過程可能會導(dǎo)致語義關(guān)系的邏輯問題,因此,需要進行關(guān)系一致性檢驗。整個集成過程離不開語義分析工具和人工專家的輔助,最終生成統(tǒng)一結(jié)構(gòu)的集成化詞表。
圖3 語義集成化過程和方法
在集成內(nèi)容上,為了有效擴展敘詞表的應(yīng)用領(lǐng)域和應(yīng)用范圍,集成的詞匯來源主要包括國家編制的綜合性詞表和各學(xué)科領(lǐng)域的敘詞表、分類表等規(guī)范化知識組織體系的一系列主題概念、概念關(guān)系和屬性描述,包括各類術(shù)語資源等更廣泛的詞匯概念,如詞典、名詞名錄、網(wǎng)絡(luò)百科、各類數(shù)據(jù)庫術(shù)語資源等大量專有名稱術(shù)語和專業(yè)科技術(shù)語。同時,集成系統(tǒng)的構(gòu)建需要注重學(xué)科性和時效性,將學(xué)科的新進展和新術(shù)語及時集成到應(yīng)用系統(tǒng)中。新術(shù)語的來源主要依賴兩類:一類是針對海量文獻信息資源進行數(shù)據(jù)挖掘,提取高頻概念術(shù)語;另一類則充分考慮當(dāng)下用戶的需求,及時獲取用戶檢索高頻關(guān)鍵詞、用戶推薦詞等。
這些資源數(shù)量龐大,依據(jù)數(shù)據(jù)加工規(guī)范對數(shù)據(jù)進行清洗過濾,按照統(tǒng)一的元數(shù)據(jù)框架對術(shù)語資源規(guī)范化描述,綜合評估詞匯的詞性規(guī)范性、語義明確性、學(xué)科專業(yè)性及使用情況,篩選建立詞匯集成庫。詞匯集成庫為集成化詞表的構(gòu)建提供數(shù)據(jù)來源和數(shù)據(jù)屬性參考,全面、高效地收集相關(guān)術(shù)語和術(shù)語信息(來源信息、詞頻信息、分類信息、使用信息等),保障來源詞匯的全面性和準確性。同時,詞匯集成庫包含眾多集成化詞表所沒有的術(shù)語資源作為集成化詞表的拓展和延伸,有效關(guān)聯(lián)更多的概念和詞匯,可以有效地幫助提高集成化此表資源與用戶語言的匹配效率[22]。
不同來源的術(shù)語概念在集成時,首先需要進行概念間的映射并建立映射文件,為后續(xù)的概念融合集成提供參考。映射主要是建立多來源概念間的對應(yīng)關(guān)系,找到等同映射、等級映射、相關(guān)映射關(guān)系。可以從詞匯層、結(jié)構(gòu)層和語料層三個方面實現(xiàn)概念映射[23],按照這三個層次對應(yīng)的映射方法歸納為基于詞形的映射方法、基于結(jié)構(gòu)的映射方法和基于語料的映射方法[24]。
(1)基于詞形的映射方法。主要是基于詞匯的詞形進行匹配。對于單個詞匯,詞形相同即代表完全相似,否則判定為不相似;為了提高相似度,可以充分考慮漢語詞匯的構(gòu)詞特征,借鑒基于詞素的相似度計算方法,針對多字的詞匯進行詞素的切分,通過考慮詞素匹配個數(shù)與在詞匯中的位置進行映射關(guān)系發(fā)現(xiàn)?;谠~形相似度獲得的映射關(guān)系,可能只是詞形相似,并非概念上的等同,需要進一步分析判斷。
(2)基于結(jié)構(gòu)的映射方法。充分考慮敘詞表本身規(guī)范的結(jié)構(gòu)形式,將詞表用代、屬、分、參各項結(jié)構(gòu)內(nèi)容作為主題詞映射的背景和語境,可以提高匹配效率。比較成熟的方法是構(gòu)建詞匯語義向量空間,充分考慮結(jié)構(gòu)語義信息,進行類目概念相似度的計算,最終依據(jù)匹配相似度大小和匹配類型拓展語義映射關(guān)系。
(3)基于語料的映射方法。主要是依靠外部資源挖掘類目之間的關(guān)系。根據(jù)語料資源的不同采用不同的映射方法,可以采用同義詞典(如WordNet、HowNet、同義詞林等語義詞典)有效改進基于詞性的相似度計算方法,但是通用同義詞典包含專業(yè)領(lǐng)域同義詞的規(guī)模往往較小,可以根據(jù)應(yīng)用需求構(gòu)建具體的同義詞庫??梢猿浞掷脴?biāo)引文獻資源,基于大規(guī)模語料庫統(tǒng)計方法進行映射,利用共現(xiàn)頻次關(guān)系,為概念間關(guān)系提供有益線索。
不同的概念映射方法具有各自的特點和應(yīng)用場景,有的相互之間存在互補關(guān)系,在具體的集成映射實踐中,并不只是單一使用一種映射方法,需要有機地組合使用。映射作為語義集成的關(guān)鍵環(huán)節(jié)和重要方法,需要保障映射質(zhì)量,減少融合邏輯問題。映射之初,必須建立明確適用的映射規(guī)則,對映射的通用規(guī)則、等同映射規(guī)則、等級映射規(guī)則、相關(guān)映射規(guī)則、組配映射規(guī)則規(guī)范化[25],討論映射的語義類型及映射的順序問題,優(yōu)先建立哪些映射類型,建立映射關(guān)系后是否還拓展其他的映射類型,映射過程是否可以繼承和傳遞等,在映射過程中要充分考慮詞匯各項語義信息和語境信息,從不同角度的匹配來提高映射效率,保障映射概念的準確性。
在統(tǒng)一的集成規(guī)范體系下,確定集成化詞表的概念范圍,進行概念和術(shù)語的篩選。多來源的概念詞匯難免存在交叉和重復(fù)的問題,需要對概念進行選擇和合并。對于概念的選擇,結(jié)合學(xué)科背景和實際應(yīng)用需求進行調(diào)整,需要充分考慮概念的專業(yè)應(yīng)用深度和廣度、概念的專指度,保障概念規(guī)范且含義清晰。在選擇概念的過程中,可以利用概念名稱、使用頻次和領(lǐng)域?qū)<彝扑]法,以及文獻標(biāo)題、摘要或關(guān)鍵詞部位和用戶檢索詞的調(diào)查分析,有效地反映當(dāng)前發(fā)展趨勢和用戶應(yīng)用需求,專家推薦可以保障概念的專指性和準確性,將各專業(yè)領(lǐng)域經(jīng)常使用的、能夠準確表達科學(xué)概念的優(yōu)先詞匯選定,對于一些詞頻低的概念,可根據(jù)具體應(yīng)用情況進行選擇。在確定優(yōu)選概念的基礎(chǔ)上,利用映射信息進行概念屬性的合并,將表達概念的同義詞、注釋、縮略語、譯稱、學(xué)科分類號等屬性信息進行查重、合并。依照概念的學(xué)科專業(yè)、內(nèi)涵信息為每個概念分配一個或多個學(xué)科分類號,從多角度揭示概念的科學(xué)屬性,選擇與概念表達最為接近的類號,確保多個分類號之間不構(gòu)成上下級關(guān)系。同時,給每個概念進行形式分類,將一個概念歸入一個語義類型,并繼承該語義類型的屬性,為后續(xù)語義關(guān)系的梳理提供規(guī)范和參考。
當(dāng)前學(xué)科的交叉日益顯著,對于交叉概念的歸屬,應(yīng)綜合考慮概念在相關(guān)概念體系領(lǐng)域的應(yīng)用深度和廣度,放入某一概念體系下并建立概念間的參照關(guān)系。對于有歧義的概念,需要保障“一詞一義”,考慮是否可以改用其他詞匯,可以利用概念的屬性信息明確概念的內(nèi)涵和應(yīng)用領(lǐng)域,借助頂層概念的標(biāo)簽對有歧義的概念進行限定,通過添加注釋對詞義不夠清晰的概念進行說明。對于融合過程中的一些復(fù)合概念,可以進行概念的分拆和合并,參照方面型關(guān)系構(gòu)建主題概念及方面概念間的關(guān)系,進而從不同角度拓展語義關(guān)系。
豐富、明確而規(guī)范的概念間關(guān)系是集成化詞表的重要特征,是發(fā)揮其重要作用的基礎(chǔ)和條件保障。通過建立的等級映射、相關(guān)映射關(guān)系對概念的語義關(guān)系進行發(fā)現(xiàn)和細化,實現(xiàn)語義關(guān)系的重塑。以優(yōu)選概念為核心建立邏輯合理、脈絡(luò)清晰的語義關(guān)系,一方面,是對現(xiàn)有規(guī)范詞表概念關(guān)系的繼承和合并,現(xiàn)有的眾多詞表資源包含豐富且可靠的概念關(guān)系,需要依據(jù)專業(yè)領(lǐng)域?qū)W科進展,圍繞優(yōu)選概念的等級映射、相關(guān)映射關(guān)系剔除不合理和過時的語義關(guān)系,梳理可靠的上下位等級關(guān)系和細化不同方面的相關(guān)關(guān)系;另一方面,利用大規(guī)模語義計算技術(shù)將新的語義關(guān)系集成進來,考慮利用文獻詞匯共現(xiàn)關(guān)系發(fā)現(xiàn)、用戶檢索信息共現(xiàn)發(fā)現(xiàn)、專家和用戶推薦方式、詞匯上下文語境分析方法,并結(jié)合字面相似度計算、關(guān)聯(lián)規(guī)則算法發(fā)現(xiàn)新的語義關(guān)系及跨學(xué)科的術(shù)語間關(guān)系,將這些關(guān)系進行明確的形式化的表示。
在概念融合過程中,隨著概念的合并和關(guān)聯(lián),概念體系的復(fù)雜度增加,不恰當(dāng)?shù)母拍顨w并容易導(dǎo)致概念語義模糊、產(chǎn)生歧義、語義關(guān)系沖突等各種邏輯問題。融合過程需要通過對概念關(guān)系邏輯的整理,提煉關(guān)系邏輯推導(dǎo)規(guī)則和判定規(guī)則,消除因融合導(dǎo)致的概念關(guān)系沖突。概念融合中常出現(xiàn)的邏輯問題有三種:關(guān)系沖突、關(guān)系循環(huán)和關(guān)系冗余[2,26]。關(guān)系沖突是指兩個概念之間同時存在等級關(guān)系和相關(guān)關(guān)系;關(guān)系循環(huán)是指出現(xiàn)互為等級關(guān)系的概念相互串接后形成收尾相接的環(huán);關(guān)系冗余是指兩個概念之間的等級關(guān)系可以通過其他關(guān)系推導(dǎo)得出,不需要直接構(gòu)建。關(guān)系校驗過程中,也存在部分概念之間的關(guān)系沒有邏輯錯誤,但由于來源表對概念劃分的分面角度、顆粒度的差異導(dǎo)致語義關(guān)系交叉,需要對這些邏輯問題進行一致性處理。這些邏輯問題涉及多個專業(yè)領(lǐng)域,需要借助計算機檢查發(fā)現(xiàn)問題,支持語義關(guān)系的可視化瀏覽,組織領(lǐng)域?qū)<乙灰淮_認,人工糾正和處理。處理過程必須充分考慮概念集的使用目的、概念顆粒度的粗細,依據(jù)一定的處理規(guī)則和流程取舍優(yōu)化具體的概念間關(guān)系,先進行邏輯錯誤的糾正,再考慮關(guān)系的優(yōu)化,先進行一個詞族內(nèi)檢查和解決,再拓展到多個詞族間進行處理,防止對某些語義關(guān)系的增刪改產(chǎn)生新的邏輯問題,進而保證整個集成過程有條不紊。
傳統(tǒng)的敘詞表資源在文獻資源的組織和檢索中發(fā)揮了重要作用,但其資源分散、語義體系相對簡單、應(yīng)用場景單一,嚴重制約敘詞表資源在大數(shù)據(jù)環(huán)境下的應(yīng)用。敘詞表集成化體系需要適應(yīng)應(yīng)用環(huán)境的變化,充分發(fā)揮集成資源在信息智能化處理中的作用,拓展新的應(yīng)用模式。應(yīng)用模式主要分為前臺服務(wù)模式和后臺應(yīng)用模式:前臺服務(wù)模式主要是通過敘詞表集成服務(wù)平臺和微服務(wù)架構(gòu)平臺為用戶提供良好的使用體驗和服務(wù)方式;后臺應(yīng)用模式則需要整合整體概念資源,優(yōu)化集成資源的組織、呈現(xiàn)和利用方式,提高集成化詞表的知識服務(wù)效率,兩者相輔相成,共同推進敘詞表的集成化應(yīng)用。
很多詞表資源存在著數(shù)據(jù)應(yīng)用更新不及時或者沒有更新的問題,實現(xiàn)集成化詞表的可持續(xù)發(fā)展,最重要的是保證集成數(shù)據(jù)的動態(tài)維護,在應(yīng)用中促進不斷更新。集成系統(tǒng)是一個動態(tài)變化的體系,舊的術(shù)語不斷發(fā)展,新的術(shù)語不斷出現(xiàn),需要建立專門的網(wǎng)站和維護人員進行在線管理,從數(shù)據(jù)來源、數(shù)據(jù)更新和數(shù)據(jù)應(yīng)用三方面構(gòu)建定期動態(tài)維護機制。將文獻語料資源新出現(xiàn)的重要術(shù)語概念及語義關(guān)系及時增補到集成化詞表中,滿足概念和語義關(guān)系及時、全面、準確三方面要求;重視用戶參與在線更新維護,提供實時在線反饋機制,適當(dāng)吸納用戶的意見和反饋;并結(jié)合應(yīng)用效果對詞表進行調(diào)整和優(yōu)化,在應(yīng)用中采集更新需求,并基于應(yīng)用檢驗更新內(nèi)容。集成化詞表的構(gòu)建和完善是一個長期反復(fù)的過程,需要吸引各界社會力量參與進來,強調(diào)利用詞表的同時反哺詞表的更新,編用相互支撐形成良性循環(huán),以保障集成化詞表的可持續(xù)發(fā)展。
在開放環(huán)境下,集成系統(tǒng)資源如何得到高效利用,必須構(gòu)建完備的互操作共享機制。集成系統(tǒng)通過術(shù)語服務(wù)與關(guān)聯(lián)數(shù)據(jù)服務(wù)將詞表資源進行整合和聯(lián)系,制定一定的共享約束條件,構(gòu)建集成資源互操作共享機制。利用術(shù)語服務(wù),進行詞表術(shù)語資源的規(guī)范和控制,實現(xiàn)機器可讀、可理解以及更方便的數(shù)據(jù)交換與共享,支持對詞表整體資源、術(shù)語及語義關(guān)系層面的元數(shù)據(jù)瀏覽、檢索、應(yīng)用的各種Web 服務(wù),促進分布異構(gòu)資源的檢索與發(fā)現(xiàn),通過API 支持機器對詞表及其內(nèi)容的訪問和調(diào)用等。開發(fā)關(guān)聯(lián)數(shù)據(jù)服務(wù),利用關(guān)聯(lián)數(shù)據(jù)一系列技術(shù)將集成數(shù)據(jù)進行鏈接結(jié)構(gòu)化表示,構(gòu)建計算機可理解的語義數(shù)據(jù)網(wǎng)絡(luò),通過關(guān)聯(lián)數(shù)據(jù)服務(wù)與網(wǎng)絡(luò)中其他語義資源進行有效鏈接,在此之上構(gòu)建更加智能化的應(yīng)用。集成化詞表資源的術(shù)語服務(wù)不再是孤立地存在于特定的檢索系統(tǒng)中,而是作為一種關(guān)聯(lián)數(shù)據(jù)類型融入開放關(guān)聯(lián)的結(jié)構(gòu)化語義網(wǎng)絡(luò)中,通過資源共享機制有效降低整合分布式異構(gòu)數(shù)據(jù)源的復(fù)雜性,提高資源的利用率,通過關(guān)聯(lián)推動集成化詞表資源與其他資源形成共享服務(wù)優(yōu)勢,有效推進相關(guān)知識的發(fā)現(xiàn),實現(xiàn)數(shù)據(jù)融合和語義服務(wù)。
集成化詞表涉及的領(lǐng)域非常廣泛,可應(yīng)用的領(lǐng)域也非常廣,突破圖書情報領(lǐng)域應(yīng)用范圍,拓展應(yīng)用到電子政務(wù)環(huán)境、電子商務(wù)環(huán)境、大型企業(yè)知識管理、醫(yī)學(xué)、教育等專門的行業(yè)或領(lǐng)域之中,建立集成化詞表與相應(yīng)的應(yīng)用業(yè)務(wù)相結(jié)合的應(yīng)用模式,考慮嵌入特定的應(yīng)用系統(tǒng)平臺中對特定應(yīng)用場景提供詞匯支持,支持具體業(yè)務(wù)的知識組織與利用。集成化詞表資源統(tǒng)一的形式化描述可提供信息自動化處理的基礎(chǔ)數(shù)據(jù),可以考慮與具體的行業(yè)機構(gòu)進行合作開發(fā)和利用,在集成化詞表現(xiàn)有資源的基礎(chǔ)上,深度開發(fā)面向具體應(yīng)用環(huán)境的專用詞表以滿足特殊需求,共享開發(fā)成果。集成化詞表可以選擇合適的平臺、網(wǎng)站、系統(tǒng)等運營平臺,推進引進平臺、網(wǎng)站、系統(tǒng)中對集成化詞表的嵌入式利用模塊,進而普及拓展集成化詞表在更大范圍的應(yīng)用,充分發(fā)揮集成化詞表的社會價值和經(jīng)濟價值。
集成化詞表需要基于專門的網(wǎng)站或平臺,作為其對外服務(wù)的直接門戶,提供術(shù)語層、概念層、語義層和工具層不同層次的知識服務(wù)。用戶通過平臺可以進行查詢、瀏覽、檢索、下載及編輯操作,免費檢索詞表中的概念,查詢術(shù)語信息,獲取同義詞、上下位詞、相關(guān)詞等語義相關(guān)的概念,了解各來源詞表的基本信息和歷史版本,根據(jù)自身需求對各詞表進行選擇和瀏覽。同時,平臺結(jié)合當(dāng)下熱門技術(shù),提供個性化服務(wù),如為用戶提供術(shù)語概念的可視化展示、主題圖服務(wù)及敘詞表向本體轉(zhuǎn)化提供基礎(chǔ)服務(wù)等,方便用戶理解和使用。平臺也可適當(dāng)?shù)膶⒓苫~表部分內(nèi)容免費授權(quán)給提供公共服務(wù)的社會機構(gòu),通過在線服務(wù)和免費的詞表應(yīng)用,不斷提升集成化詞表的社會認知度,使集成化詞表在更廣泛的范圍內(nèi)被大眾所認知。
微服務(wù)是將傳統(tǒng)的單體服務(wù)拆分為多個不同的、實現(xiàn)某個具體功能的單一服務(wù),然后,通過遠程服務(wù)調(diào)用實現(xiàn)各個服務(wù)的使用,多個服務(wù)共同組成一個完整的系統(tǒng),該服務(wù)架構(gòu)最大的特點是構(gòu)建高度模塊化、可擴展、可定制的個性化應(yīng)用平臺。圍繞集成化詞表資源開發(fā)詞表一體化微服務(wù)應(yīng)用平臺,在詞表業(yè)務(wù)基礎(chǔ)上開展最小單元應(yīng)用服務(wù),不斷延伸集成系統(tǒng)的服務(wù)功能。利用微服務(wù)平臺主要提供機器可讀的詞表整體資源服務(wù)以及機器可調(diào)用的語義開發(fā)工具服務(wù)。詞表集成系統(tǒng)開發(fā)術(shù)語映射輔助、自動標(biāo)引、知識挖掘、學(xué)科發(fā)展分析預(yù)測等語義應(yīng)用工具,通過API 應(yīng)用開放接口,將集成系統(tǒng)的術(shù)語服務(wù)、文本分析、主題分析、自動標(biāo)引、學(xué)科分類等各項業(yè)務(wù)通過網(wǎng)絡(luò)對外發(fā)布開放,更好地推動大數(shù)據(jù)環(huán)境下敘詞表資源在中文自然語言處理、人工智能技術(shù)的應(yīng)用。同時,微服務(wù)應(yīng)用平臺允許其他信息系統(tǒng)、門戶網(wǎng)站接入,通過鏈接和調(diào)用到各應(yīng)用系統(tǒng)本地,擴展其資源服務(wù)能力,最大限度地提高資源使用的便捷性,這樣將大大提高集成化詞表利用效率。
敘詞表集成化涉及多渠道詞表資源的采集與整合以及集成之后詞表資源的開放共享,需要明確開發(fā)和應(yīng)用各主體間的權(quán)利和義務(wù),建立數(shù)字版權(quán)管理機制和相應(yīng)授權(quán)機制,實現(xiàn)參與主體數(shù)據(jù)價值釋放和融合發(fā)展,進而推動集成化詞表資源更大限度地共建共享。探索建立基于詞表集成共享聯(lián)盟的版權(quán)合作機制,增加數(shù)據(jù)許可使用條款,即集成化詞表資源的編制者、發(fā)布者、使用者之間就數(shù)據(jù)使用中的義務(wù)、許可使用范圍、具體使用方式、非授權(quán)使用限制等方面達成開放共享協(xié)議,明確責(zé)任分配,在應(yīng)用過程中保障各方的利益。同時,逐步細化建立可兼容多類型和多層次的靈活授權(quán)機制,面向不同的應(yīng)用需求提供以學(xué)科、整表、詞族、概念、功能等不同粒度的權(quán)限分配和分級服務(wù)模式,在知識產(chǎn)權(quán)框架下推進集成化詞表開放應(yīng)用。對于編研機構(gòu)及其他公益性社會應(yīng)用,需按照開放許可協(xié)議,在標(biāo)注來源的前提下發(fā)布、利用;對于公司或企業(yè)以及其他的產(chǎn)業(yè)化應(yīng)用,根據(jù)服務(wù)層次和應(yīng)用效果可以適當(dāng)收取費用,推動集成化詞表資源的傳播和發(fā)展。
總體來說,敘詞表集成系統(tǒng)有很大的應(yīng)用空間,但是當(dāng)前圍繞集成化詞表資源的應(yīng)用工具和產(chǎn)品還不夠成熟,社會應(yīng)用場景還有待開發(fā),有必要提升集成資源的可獲得性和可用性、開發(fā)嵌入式語義工具、探索集成化詞表的社會應(yīng)用渠道和版權(quán)管理機制,有效改善集成化詞表的獲取環(huán)境,支持更大范圍地利用敘詞表資源進行知識描述和知識發(fā)現(xiàn)。
本文針對敘詞表資源缺乏修訂、更新緩慢、自動化程度低、落后于學(xué)科發(fā)展的現(xiàn)狀,提出構(gòu)建面向不同領(lǐng)域、多元學(xué)科交叉融合的敘詞表集成化體系。整個集成化體系通過標(biāo)準規(guī)范體系、詞表集成化支撐體系、詞表集成化概念體系建設(shè),利用多來源概念映射、融合方法形成集成化詞表。在保留既有語義的同時,拓展和豐富詞表內(nèi)涵和關(guān)系,為大規(guī)模、開放式、合作式敘詞表創(chuàng)新應(yīng)用服務(wù)提供有力推進支撐,實現(xiàn)敘詞表資源的高效、有序、可持續(xù)發(fā)展。敘詞表的集成建設(shè)借助計算機技術(shù)概念量不斷擴大,語義關(guān)系更加復(fù)雜和細化,詞表的應(yīng)用逐漸從以人工為主轉(zhuǎn)換到以機器為主,從文獻檢索領(lǐng)域擴展到自然語言處理和知識計算服務(wù)等領(lǐng)域。在未來,提高集成過程自動化及智能化水平,強化敘詞表在大數(shù)據(jù)環(huán)境下的創(chuàng)新應(yīng)用和服務(wù),構(gòu)建敘詞表的應(yīng)用生態(tài)機制,仍然需要進一步研究和探索。