□ 閆瑩瑩 許德山 張運良 李鵬 / 中國科學技術信息研究所 北京 100038
漢語科技詞系統(tǒng)在文獻自動賦詞標引中的應用研究*
□ 閆瑩瑩 許德山 張運良 李鵬 / 中國科學技術信息研究所 北京 100038
文章首先介紹了漢語科技詞系統(tǒng)的體系結構和功能,其次設計了自動賦詞標引研究的整體思路,完成了自動賦詞標引的系統(tǒng)功能實現,包括標引知識庫的格式轉換、算法實現和系統(tǒng)實現,并收集語料進行測試。最后對自動賦詞標引的結果進行了分析,并且總結了該自動賦詞標引研究的特點和不足,介紹了未來的工作設想。
自動標引,賦詞標引,漢語科技詞系統(tǒng),標引知識庫,詞系統(tǒng)應用,D2RQ
《漢語科技詞系統(tǒng)》是中國科學技術信息研究所在“十一五”科技支撐計劃資金的支持下牽頭研發(fā)的領域詞系統(tǒng)。目前已建成包括新能源汽車、重大自然災害監(jiān)測與防御、新一代工業(yè)生物技術、新能源、智能材料與智能結構五個不同領域的詞匯組織系統(tǒng)。建設初衷是希望能夠通過詞系統(tǒng)的相關建設支持我國在相關領域的自動信息分析處理,并進一步支持戰(zhàn)略決策、科研發(fā)展和科技創(chuàng)新。
本文在漢語科技詞系統(tǒng)的基礎上,研究中文自動賦詞標引系統(tǒng)。自動標引包括關鍵詞自動提取和自動賦詞標引兩種。自動賦詞標引是一種通過規(guī)范化的詞語來描述文獻主題的方法,特點是借助統(tǒng)一的詞表,對文本的主題加以限定,這種方法能使相同主題的各種異構文獻相對集中,從而對文本進行更加有序化和規(guī)律化的組織。
本文涉及《漢語科技詞系統(tǒng)》的體系結構和功能介紹,并以該詞表知識庫為基礎,設計了自動賦詞標引的整體思路和算法,完成自動標引系統(tǒng)的開發(fā)。
漢語科技詞系統(tǒng)[1,2]是吸收敘詞表和本體思想的一種知識系統(tǒng),它基于豐富的科技文獻資源和知識工程師的努力,提供中英文對照、定義、關系、屬性、多維分類和形式化概念描述等多層面的知識。目前漢語科技詞系統(tǒng)包含新能源汽車、重大自然災害監(jiān)測與防御、新一代生物技術、新能源、智能材料與智能結構5個領域。
漢語科技詞系統(tǒng)以詞條(Term)為基本組織對象,在整體的知識結構包括:1)詞條基本信息;2)詞條定義及注釋知識;3)詞條之間的關系知識;4)詞條的屬性知識;5)詞條的多維分類知識;6)詞條形式化概念描述知識。其中,詞條的基本信息包含詞條的中文詞形、對應的英文翻譯、對應的拼音、詞匯類型(即核心詞/基礎詞區(qū)分)等知識要素。詞條的定義主要是核心詞,也就是那些在領域中處于核心骨干地位的詞條,定義通常來自教科書、百科全書、科技期刊以及互聯(lián)網。除了定義以外,還可以為詞條添加有關變化、歷史信息和知識工程師或者專家編輯審核體會的注釋。詞匯之間的關系從宏觀講仍然是等同關系、層級關系和相關關系,并對以上關系類型做了細化,尤其是對相關關系。細化既有通用的部分,也有針對新能源汽車特定的部分。屬性用來表征一些依附于主體存在的屬性和屬性的具體值,從而更全面地描述詞匯(或者概念)。分類既提供了一個范疇或者粗分類表來管理詞匯,又給出詞匯與真實文本分類的相關關系,支持多維分類,包括中國圖書館分類法CLC和國際專利分類法IPC以及團隊自己研制的針對新能源汽車的分類法。形式化概念描述采用HNC的概念符號體系描述,通過HNC概念描述,可以把有相同概念基元的詞條聚成一個群落,并根據實際需求進行擴檢和縮檢,也可以計算詞條之間的相似度,還可以進一步用于詞空間構建。詞系統(tǒng)的知識結構從總體來看,包含兩種詞匯組織方式:詞匯定義組織和詞間關系組織。
目前,漢語科技詞系統(tǒng)已經通過Vocgrid網絡平臺(http://www. vocgrid.org/)對外提供服務。系統(tǒng)提供了基本的注冊、登陸、認證、密碼及注冊碼找回等基本功能,用戶可以通過該平臺訪問獲取詞條的全部知識。經過認證的教育和科研領域的注冊用戶可以獲得一個唯一的注冊碼,通過這一注冊碼還可以免費下載漢語科技詞系統(tǒng)提供的數據、工具、程序、說明文檔、演示程序等。截至目前,新能源汽車領域詞系統(tǒng)中包含54,831條詞條,其中5,712條為核心詞,其余49,120條為基礎詞,包含推薦關系類型在內的76種關系類型以及57,821個關系實例,有52種屬性類型,并建設了18,362個實例。面向新能源汽車的NEV分類法有4層154個類目,并且構建了5,431個類目實例。每一個核心詞都包含對應的英譯,系統(tǒng)中包含有5,431條定義。所有的5,712條核心詞和另外的4,548條重要基礎詞擁有HNC概念描述。
基于人工標引的語料庫,依據新能源汽車詞系統(tǒng)作為標引知識庫,輔以機器學習方法,完成了一個自動賦詞標引研究的整體思路設計。整體思路包括兩部分:第一,將以MySQL數據庫形式存在的漢語科技詞系統(tǒng)轉化成SKOS數據格式,傳統(tǒng)數據庫存儲的詞匯知識不便于結構化提取和利用,將漢語科技詞系統(tǒng)轉化成SKOS格式作為標引知識庫來應用。第二,自動賦詞標引流程設計,包括確定文獻文本的標引候選詞、計算候選詞的特征權值、使用訓練文本建立模型、應用模型進行標引[3]。自動賦詞標引整體流程設計圖如圖1。
圖1 自動賦詞標引整體流程
(1)確認候選詞
該模塊完成的功能是對加工后的文獻文本進行處理,得到候選詞匯序列,這些詞匯序列表示整個文本的主題內容。序列中的詞匯均為漢語科技詞系統(tǒng)中的核心概念。
本文將主題標引看作從一堆主題詞匯集合中挑選合適的主題詞匯,分別進行文本分詞、去停用詞來減少數據噪音、文本詞匯匹配到標引知識庫詞匯的操作,得到候選詞匯序列,同時保存這些詞匯的頻率、位置等信息。
(2)計算候選詞的權值
本文確定的候選詞權值計算的指標包括幾類:詞頻信息,位置信息,候選詞本身領域代表性。
其中,“tf×idf”用于對比候選詞在特定文獻中出現的頻次與該詞的一般出現頻次,以從一個角度測算該詞代表文獻主題的概率?!笆状纬霈F位置”和“末次出現位置”或者由兩個指標決定的“跨度”(詞匯在文本中首次出現和末次出現的位置的跨度大?。┛捎糜趶牧硪粋€角度來確定該詞的代表性,一般出現在一篇文獻的文本開始或結束部分的詞相對比較重要?!肮?jié)點度”是指在標引知識庫的圖中,節(jié)點度就是在圖中有關聯(lián)的詞的個數。節(jié)點度高的詞更能反映領域主題。
(3)構建模型
構建的模型為:將人工標引的文獻主題詞作為訓練集,將候選詞與其進行比對,采用貝葉斯分類算法,將符合人工標引結果的作為正集,不符合的作為反集。
(4)應用模型進行標引
通過計算候選詞權值,對需要標引的新文獻按模型進行計算,標引的詞匯個數可以人為選定,得出最終的標引詞匯。
3.1 標引知識庫格式轉化
Linked data的推動者們開發(fā)了一系列實用的工具,來幫助完成傳統(tǒng)數據向Linked data的轉換。D2R便是其中一個非常流行的工具[2]。它的作用是將關系型數據庫發(fā)布為Linked data。D2R主要包括D2R Server、D2RQ Engine以及D2RQ Mapping語言。D2R Server是一個HTTP Server,它的主要功能提供對RDF數據的查詢訪問接口,以供上層的RDF瀏覽器、SPARQL查詢客戶端以及傳統(tǒng)的HTML瀏覽器調用。D2RQ Engine的主要功能是使用一個可定制的D2RQ Mapping文件將關系型數據庫中的數據換成RDF格式。D2RQ engine并沒有將關系型數據庫發(fā)布成真實的RDF數據,而是使用D2RQ Mapping文件將其映射成虛擬的RDF格式。該文件的作用是在訪問關系型數據時將RDF數據的查詢語言SPARQL轉換為RDB數據的查詢語言SQL,并將SQL查詢結果轉換為RDF三元組或者SPARQL查詢結果。D2RQ Engine是建立在Jena(Jena是一個創(chuàng)建Semantic Web應用的Java平臺,它提供了基于RDF、SPARQL等的編程環(huán)境)的接口之上。D2RQ Mapping語言的主要功能是定義將關系型數據轉換成RDF格式的Mapping規(guī)則。圖2呈現了D2R的主體架構。
圖2 D2R的主體架構
本文將漢語詞系統(tǒng)的RDF格式文件用在領域文獻關鍵詞提取中,使用D2RQ工具直接將關系型數據庫中的數據包裝成真實的RDF文件。將關系型數據庫轉化成RDF文件的步驟為:
(1)手工編制關于數據庫schema的映射文件
生成真實的RDF文件最主要的內容在手工編制關于數據庫schema的映射文件(mapping file)。Mapping語言中最重要的是兩個概念,一個是d2rq:ClassMap,另一個是d2rq:PropertyBridge。
《漢語科技詞系統(tǒng)》數據庫Schema建立映射中用到的SKOS元素為skos:Concept;skos:prefLabel、skos:altLabel、skos:broader、skos:narrower。用到的《漢語科技詞系統(tǒng)》中的數據庫、數據表及表字段為Database:vocabulary、Table: Concept,relation、Concept:CID(概念ID字段)、CCN(概念名稱字段)、relation:CID1(概念1ID字段)、CID2(概念2ID字段)、REL(關系名稱字段)。映射文件編寫要點示例如下:
(2)運行導出命令
進入dump-rdf所在目錄,在命令行中鍵入:
dump-rdf -f RDF/XML -o vogrid.rdf mapping-vocgrid.ttl即可。
(3)生成的RDF格式的漢語科技詞系統(tǒng)示例(如圖3)
圖3 RDF格式漢語科技詞系統(tǒng)示例
圖4 識別文獻候選詞流程圖
3.2 標引算法實現
(1)識別候選詞
識別候選詞算法流程見圖4,經過了四個主要步驟的處理。包括中文分詞處理;分詞后做去除停用詞處理,得到詞匯序列;對得到的詞匯序列做文獻文本詞匯到標引知識庫詞系統(tǒng)詞匯的映射;記錄詞匯的詞頻、位置及標引詞集合信息。
算法中將處理后的文獻詞匯映射到詞系統(tǒng)標準詞匯是個重要的處理過程。該過程算法為:首先在詞系統(tǒng)中尋找是否有與文獻詞匯相對應的標準詞匯,如果有,判斷是否為核心概念,若不是核心概念,則通過詞系統(tǒng)中詞匯的關聯(lián)關系找到對應的核心概念名稱描述,作為識別出來的一個候選詞,直到完成這篇所有的文獻詞匯的匹配為止。同時存儲得到的候選詞的詞頻位置及標引詞集合信息。
(2)定義候選詞特征,計算權值
本系統(tǒng)把關鍵詞標引看作從候選詞集合中挑選關鍵詞,挑選過程考慮以下一些可能因素,如詞頻、逆向文檔頻率、TF*IDF、第一次出現的位置、最后一次出現的位置、出現的跨度、節(jié)點度等因素。綜合這些因素,建立了一個特征模板,如表1所示。
(3)利用訓練語料生成模型
采用貝葉斯分類模型完成監(jiān)督學習過程。在確定特征集合后,對訓練數據進行估計。從訓練文檔中獲取候選詞權值集合,對每一候選詞分別依據在文獻中的權值計算成為關鍵詞或非關鍵詞的概率值,并生成并保存模型。
(4)利用模型確定標引詞,指定最終的標引集
利用模型,根據新文獻的概率值來確定新文獻的關鍵詞集合。指定關鍵詞的個數為5、10、15,選出概率在前的候選詞作為文獻的自動標引詞。
表1 特征模板
表2 各模板函數描述
3.3 系統(tǒng)實現
自動標引系統(tǒng)界面如圖5所示。
用戶選擇輸入文本后,可以選擇兩種方式進行文本的關鍵詞自動標引,包括自由標引和賦詞標引。標引結果會直接作為文本關鍵詞顯示給用戶。
圖5 系統(tǒng)界面
為了驗證標引系統(tǒng)的效果,本文選用了新能源汽車領域50篇學位論文作為數據集,數據集中的論文包括題名、摘要、關鍵詞,帶有段落和章節(jié)、圖表標題信息以及參考文獻等部分。每篇論文平均55000中英文字符,范圍從40000到85000不等(共4.5M)。標引詞為人工對每篇論文進行標引的詞匯,人工標引詞每篇平均7.1個,各篇論文標引詞從4個到13個不等。共355個指定標引詞。
測試的方法采用ten-fold cross-validation(十折交叉驗證),具體方法是將50篇論文分為10組,分別取1組為測試語料,其余9組為訓練語料進行效果測試。
本文采用最常用的評測標準精確率Precision(P)、召回率Recall(R)和F-Measure(F)值對自動標引模型進行評價。計算公式為:
P=自動標引與人工標引一致個數/自動標引個數
R=自動標引與人工標引一致個數/人工標引個數
F=2PR/(P+R)
(1)標引結果示例如表3。
表3 試驗結果1(標引示例)
表4 試驗結果2(P、R、F)
(2)使用當前學位論文的語料,標引結果個數為5、10、15時,精確率、召回率和F值為表4。
(3)結果分析
在示例《燃料電池電動汽車能量管理系統(tǒng)優(yōu)化控制與動態(tài)仿真研究》中,自動賦詞標引的結果返回了“能量控制;能量管理;電動汽車;混合動力系統(tǒng);汽車;控制策略;鎳氫電池;電池;燃料電池”等,包括完全匹配與近似匹配的詞匯,標引的正確率非常明顯。即使與人工標引關鍵詞不同的詞匯,也大都描述了論文的內容。這表明,利用《漢語科技詞系統(tǒng)》為文章做自動賦詞標引的工作是很有效果的。
表4給出了50篇博碩士論文的自動賦詞標引取不同個數的結果,召回率的平均值分別是13.76%、20.64%、21.39%,當標引詞為10時,P、R、F的值分別是14.40%、20.64%、16.89%。理論上影響評價指標的原因主要在于如下幾個步驟:1)人工標引詞的誤差;2)中文分詞結果;3)漢語科技詞系統(tǒng)的收詞;4)賦詞標引的候選詞識別算法;5)自動標引的學習算法;6)文獻標引結果的主觀性。
試驗結果表明自動賦詞標引工作還存在著很大的改進空間。我們針對具體的文獻數據及標引流程做了詳細分析,發(fā)現有些文獻在候選詞識別階段的結果不理想,有些文獻中抽取出來的候選詞較少,甚至在候選詞集合中就沒有包含人工指定標引詞中的詞匯。產生這個現象的主要原因在于:(1)分詞誤差。本文采用最大正向匹配分詞算法,無法切分出詞典中沒有的詞匯。(2)詞系統(tǒng)內容與人工標引的用詞側重點不同,如“模糊神經網絡”“仿真”等詞匯在新能源汽車詞系統(tǒng)中并沒有認定其為領域核心詞。(3)在候選詞識別中,從文獻詞匯到詞系統(tǒng)核心詞匯映射中的詞匯相似度計算算法不完善。系統(tǒng)的完善是自動賦詞標引研究工作今后的一部分內容。
本文完成了將關系數據庫模式的詞系統(tǒng)轉化成靈活易用的SKOS格式,選擇文獻自動標引技術方法并進行改進,完成了利用《漢語科技詞系統(tǒng)》進行文獻自動賦詞標引的整體技術流程,并發(fā)布了文獻自動賦詞標引系統(tǒng)的在線系統(tǒng)。
文獻自動賦詞標引研究可以促進通過領域標準詞匯進行文獻資源整合。自動賦詞標引能夠利用詞系統(tǒng)中的標準詞匯,將代表文獻的主題從自由詞匯轉換到標準詞匯。通過詞系統(tǒng)中已定義的標準詞匯的結構和詞匯間的關聯(lián),來完成異構文獻的聚類和關聯(lián)整合。
利用《漢語科技詞系統(tǒng)》對文獻進行中文關鍵詞自動賦詞標引研究,是《漢語科技詞系統(tǒng)》在文獻標引上的一個初步應用研究。目前由于中文標引知識庫類資源的不足,中文賦詞標引類的研究還不多。基于《漢語科技詞系統(tǒng)》自動標引為中文賦詞標引做了一些實驗工作。接下來我們首要的工作還將繼續(xù)對中文自動賦詞標引的流程算法進行改進補充,以期使《漢語科技詞系統(tǒng)》以及自動賦詞標引的研究工作在文獻標引及領域異構文獻的資源整合中發(fā)揮更好的作用。
[1] 中國科學技術信息研究所.漢語科技詞系統(tǒng):新能源汽車卷[M].北京:科學技術文獻出版社,2011:1.
[2] d2rq工具頁[EB/OL]. [2013-09-26]. http://d2rq.org/.
[3] MEDELYAN O. Human-competitive automatic topic indexing [D]. Hamilton: University of Waikato, 2009.
[4] 張運良,徐碩,朱禮軍,喬曉東.漢語科技詞系統(tǒng):一種可用于科技信息資源深度內容分析的語義資源[J].圖書情報工作,2011,55(4):100-105.
Research of Automatic Assignment Topics Indexing Using Chinese Scientiflc and Technical Vocabulary Systems
Yan Yingying, Xu Deshan, Zhang Yunliang, Li Peng / Institute of Scientiflc and Technical Information of China, Beijing, 100038
The author introduced the system structure and function of Chinese science and technology system flrstly, then designed the whole idea of automatic assignment topics indexing, completed the function of automatic assignment topics indexing system, including knowledge base format conversion, algorithm and system implementation, and collected data to test the result. Finally, author analyzed the result of the automatic assignment topics indexing, summarized the characteristics and the insufflciency of automatic assignment topic indexing, and introduced the future work.
Automatic topic indexing, Term assignment indexing, Chinese Scientiflc and Technical Vocabulary Systems, Indexing knowledge base, Application of vocabulary systems, D2RQ
10.3772/j.issn.1673—2286.2013.11.002
閆瑩瑩(1981- ),女,中國科學技術信息研究所,碩士。研究方向:知識組織,自動標引。E-mail: yanyy@istic.ac.cn
許德山(1979- ),男,中國科學技術信息研究所,博士。研究方向:知識組織,知識表示,自動標引技術。E-mail: xuds@istic.ac.cn
張運良(1979- ),男,中國科學技術信息研究所,博士。研究方向:知識組織,詞系統(tǒng)自動構建,自然語言處理,詞系統(tǒng)應用。E-mail: zhangyl@istic. ac.cn
李鵬(1979- ),男,中國科學技術信息研究所,碩士。研究方向:智能信息處理。E-mail: lipeng_cn@istic.ac.cn
2013-10-09)
*本文系國家“十二五”科技支撐計劃課題 “科技知識組織體系共享服務平臺建設”(編號:2011BAH10B03-2)、中國科學技術信息研究所重點工作項目“漢語科技詞系統(tǒng)建設與應用工程”(編號:ZD2012-3-2)的研究成果之一。