国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中澳電子政務(wù)詞表主題詞基于范疇表的轉(zhuǎn)換嘗試

2010-07-12 08:08:52南京農(nóng)業(yè)大學(xué)南京223800
圖書館理論與實(shí)踐 2010年5期
關(guān)鍵詞:詞表主題詞表語詞

●鄭 義(南京農(nóng)業(yè)大學(xué),南京 223800)

隨著21世紀(jì)信息時(shí)代的來臨,政府辦公也逐步走向了信息化,最具代表性的就是電子政務(wù)的發(fā)展。我國政府在“十五”計(jì)劃中把電子政務(wù)建設(shè)作為今后一個(gè)時(shí)期我國信息化工作的重點(diǎn),首要的工作就是建立一部比較完備的政務(wù)主題詞表,可以正確、規(guī)范地對政務(wù)系統(tǒng)中的各類文獻(xiàn)進(jìn)行分類與管理,在政務(wù)系統(tǒng)中將反映文獻(xiàn)主題內(nèi)容的自然語言轉(zhuǎn)換成規(guī)范化的主題詞和代碼。[1]

作為電子政務(wù)重要組成部分的政務(wù)詞表,各國均建有不同分類體系的政務(wù)詞表。與一些發(fā)達(dá)國家相比,我國電子政務(wù)的起步較晚、發(fā)展較慢。在學(xué)習(xí)、借鑒國外電子政務(wù)的先進(jìn)經(jīng)驗(yàn)與技術(shù)的發(fā)展目標(biāo)下,在我國現(xiàn)有的電子政務(wù)詞表分類體系與國外分類體系之間建立兼容互換關(guān)聯(lián)就顯得尤為重要。并在此基礎(chǔ)上,可以使不同國家的用戶在不熟悉其他國家政務(wù)詞表分類體系和主題詞表的情況下,或者在分類法和主題法不兼容的情況下,用本國的語言和熟悉的政務(wù)分類法檢索、使用外國的政務(wù)網(wǎng)站,享受跨國服務(wù)或者實(shí)現(xiàn)國家間政務(wù)交流。

1 詞表互操作研究進(jìn)展

詞表互操作是實(shí)現(xiàn)詞表之間匹配轉(zhuǎn)換的有效方法,所謂互操作,是指不同系統(tǒng)相互調(diào)用的功能。具體來說,情報(bào)檢索語言的互操作是指不同詞表、類表之間可以實(shí)現(xiàn)兼容與互換,即用某種詞表的詞匯及其構(gòu)造的檢索式(或標(biāo)引記錄),可以直接適用于或通過交換適用于多個(gè)情報(bào)檢索系統(tǒng)。關(guān)于主題語言互操作研究,劉華梅對國外與國內(nèi)的研究成果進(jìn)行了總結(jié)。[2]

國外這方面的研究成果主要有以下4個(gè):

(1) LCSH/MeSH。實(shí)施 LCSH(Library of Congress Subject Headings,美國國會圖書館標(biāo)題表) 與MeSH(MedicalsubjectHeadings,醫(yī)學(xué)主題詞表)項(xiàng)目的目的是通過整合這兩個(gè)受控主題詞表,以解決圖書館的在線編目中因采用不同受控詞表而產(chǎn)生的不兼容性。它是以MARC21權(quán)威記錄格式來實(shí)現(xiàn)的,150字段用來存放源記錄中的標(biāo)題詞,增加了750或788字段,用來存放鏈接款目,即目標(biāo)記錄中的映射標(biāo)題詞。

(2) CAMed。CAMed(Complementary and Alternative Medicine)是一個(gè)國際合作項(xiàng)目,是對醫(yī)學(xué)資源的補(bǔ)充和選擇。它包括一個(gè)集合詞表管理系統(tǒng)和跨詞表檢索系統(tǒng)。在這個(gè)模型中,醫(yī)學(xué)領(lǐng)域的4種敘詞表經(jīng)過規(guī)范化存儲在一個(gè)詞表知識庫中。系統(tǒng)的跨詞表檢索機(jī)制允許用戶輸入一個(gè)檢索詞,可以同時(shí)檢索到這個(gè)知識庫中的所有或任何一個(gè)詞表,以此實(shí)現(xiàn)語詞檢索在知識庫的4個(gè)詞表中的直接檢索。

(3) MACS。MACS(Multilingual Access toSubject)項(xiàng)目由法國、德國、英國、瑞士的國家圖書館共同完成,其目的是將德語、法語、英語3個(gè)主題標(biāo)題表中概念相等的標(biāo)題詞之間建立相等關(guān)系的鏈接,并把這種鏈接關(guān)系存儲到鏈接數(shù)據(jù)庫中,使檢索用戶可以采用自己熟悉的語言檢索利用4國主題標(biāo)題表所生成的書目數(shù)據(jù),實(shí)現(xiàn)圖書資源的共享。

(4) HEREIN。HEREIN(The European Information NetworkonCulturalHeritagePolicies) 項(xiàng)目是從歐洲關(guān)于文化遺產(chǎn)政策的報(bào)告中抽詞,創(chuàng)建的一部國際語言的敘詞表。詞表的創(chuàng)建沒有直接參照任何已經(jīng)存在的詞表語詞或詞表結(jié)構(gòu)。首先是分成3個(gè)小組——西班牙、法國、英國,分別負(fù)責(zé)建立它們自己語言的敘詞表。然后通過比較3個(gè)小組的語詞,確定語詞間關(guān)系,從而建立3種語言的敘詞表。詞表可以使用戶更好地了解文化遺產(chǎn)領(lǐng)域的術(shù)語,有助于用戶閱讀專業(yè)報(bào)告及進(jìn)行相關(guān)擴(kuò)展檢索。

有關(guān)國內(nèi)的詞表互操作研究以及國內(nèi)與國外的詞表兼容互操作研究,曾有學(xué)者提出了大詞表方案和詞庫方案,具體的成果很少,但許多學(xué)者進(jìn)行了試驗(yàn)。

2 詞表轉(zhuǎn)換方法的確定

劉華梅在她的碩士論文中提出用兩種方法實(shí)現(xiàn)《教育主題詞表》《社會科學(xué)檢索詞表》到《中國分類主題詞表》的互操作,完成教育集成詞庫的建設(shè)。第一種是基于詞表結(jié)構(gòu)的自動匹配,第二種是基于字面相似度計(jì)算并輔助以同義詞表的語詞匹配。

第一種方法是借助詞表之間結(jié)構(gòu)的兼容性,利用3個(gè)表中都有的“用、代、屬、分、參”等款目參照關(guān)系,按參照關(guān)系的匹配程度建立前兩種表與《中國分類主題詞表》的聯(lián)系。也就是說,這種方法對詞表的結(jié)構(gòu)有一定要求,結(jié)構(gòu)越相似,詞匯相容性越高,互操作越容易。本實(shí)驗(yàn)是對兩個(gè)范疇表進(jìn)行轉(zhuǎn)換,詞之間并無參照關(guān)系,類目數(shù)量、收詞數(shù)量、分類體系等也都有很大差別。很顯然,這種方法并不適合本實(shí)驗(yàn)。

第二種方法是對主題詞進(jìn)行操作,將不同詞表中的同義詞進(jìn)行匹配,在計(jì)算相似度后,引入同義詞表;對沒有字面相似性的同義詞進(jìn)行匹配,以提高準(zhǔn)確度。這種方法對詞表的結(jié)構(gòu)要求不高,主要是對主題詞進(jìn)行相似度計(jì)算。計(jì)算相似度以機(jī)器操作為主,手工操作為輔。

自然語言與主題語言進(jìn)行的互操作,采用的是與以上相類似的方法:一是基于詞匯同現(xiàn)信息進(jìn)行相似度計(jì)算;二是計(jì)算語詞之間的相似度。詞匯同現(xiàn)方法能夠使用的前提假設(shè)是同義詞或相關(guān)詞經(jīng)常一起出現(xiàn),這種方法需要建立好關(guān)鍵詞與主題詞的對應(yīng)關(guān)系,而且需要有大量的詞匯對應(yīng)數(shù)據(jù)。條件所限,本實(shí)驗(yàn)沒有現(xiàn)成的詞匯對應(yīng)數(shù)據(jù),因此僅采用語詞相似度匹配計(jì)算的方法。

以上幾種方法具體應(yīng)用到本實(shí)驗(yàn),擬以范疇表之間的互操作的方式進(jìn)行。范疇表結(jié)構(gòu)簡單,語詞之間沒有列出參照關(guān)系,處理起來簡便快捷。此外,全表匹配轉(zhuǎn)換,計(jì)算量大,而且會出現(xiàn)錯(cuò)誤匹配。因此,本實(shí)驗(yàn)采用細(xì)分到一級類之間的對應(yīng),1個(gè)《澳大利亞政務(wù)主題詞表》(ThesaurusofAustralianGovemmentSubjects,簡稱《澳表》) 一級類對應(yīng)1到2個(gè)《綜合電子政務(wù)主題詞表》(簡稱《中表》) 一級類,或者1個(gè)《中表》一級類對應(yīng)1到2個(gè)《澳表》一級類,這個(gè)步驟由人工判斷決定。對應(yīng)好之后再對這些類中的語詞進(jìn)行相似性匹配。這樣,不僅省去了不必要的計(jì)算,而且提高了匹配正確率。

實(shí)現(xiàn)不同語種詞匯的互操作,必須將詞匯統(tǒng)一成一種語言,這就要用到翻譯,本實(shí)驗(yàn)擬將外文詞匯翻譯成中文。[3]鑒于將國外的電子政務(wù)詞表的語詞翻譯成中文,在保證詞義不變的前提下,就很難保證語詞形式還像中文電子政務(wù)詞表主題詞那樣規(guī)范。所以,對中外政務(wù)詞表的主題詞進(jìn)行匹配轉(zhuǎn)換要采用主題語言之間互操作與自然語言與主題語言互操作相結(jié)合的方式。在技術(shù)上采用計(jì)算字面相似度匹配的方式并輔助以同義詞表匹配。字面相似度的計(jì)算方法是兩個(gè)詞相同字的個(gè)數(shù)分別除以兩個(gè)詞所含字的個(gè)數(shù),所得結(jié)果相加再除以2即為這兩個(gè)詞的字面相似度值。用公式表示為“字面相似度=[(A詞與B詞相同詞素的個(gè)數(shù)/A詞所含詞素個(gè)數(shù))+(A詞與B詞相同詞素的個(gè)數(shù)/B詞所含詞素個(gè)數(shù))]/2”。對于無字面相似性的同義詞及其他特殊詞匯采用手工判斷對應(yīng)的方式。

3 詞表轉(zhuǎn)換過程

筆者從英國、加拿大、澳大利亞、新西蘭4國政府網(wǎng)站上搜集了各自的政務(wù)主題詞表,這幾個(gè)國家也都是電子政務(wù)發(fā)展較早也較好的國家,它們的政務(wù)詞表比較有代表性。[4]由于以前都是英聯(lián)邦國家,各國詞表具有相似性,遂選取收詞量適中的《澳表》進(jìn)行轉(zhuǎn)換試驗(yàn)。

本次試驗(yàn)的素材有《中表》和《澳表》?!吨斜怼纷鳛?004年度國家科技基礎(chǔ)性工作和社會公益研究專項(xiàng)“《電子政務(wù)主題詞表》編制及應(yīng)用系統(tǒng)”開發(fā)研究中的主要部分,于2005年1月編制完成。這是我國第一部按國家標(biāo)準(zhǔn)編制的綜合性電子政務(wù)主題詞表,主要供國家政府部門處理政務(wù)信息時(shí)使用。它的問世,對我國政務(wù)信息管理的規(guī)范化與標(biāo)準(zhǔn)化,對我國電子政務(wù)信息資源的共建共享起到了積極的支撐與推進(jìn)作用。[5]《中表》劃分為21個(gè)大類,收錄主題詞17421條?!栋谋怼芬卜QTAGS,是由該國國家信息辦公室發(fā)起組織的,這一項(xiàng)目被稱為整個(gè)澳大利亞政府高度概括的主題詞表工程。其目的是建一個(gè)頂層的主題詞表供政府機(jī)構(gòu)使用?!栋谋怼肪庉嬘?001年,2006年發(fā)布了新版,即為本實(shí)驗(yàn)的《澳表》。《澳表》劃分為17個(gè)大類,收錄主題詞1786條。兩表的類目構(gòu)成如表1所示。

表1 《澳表》與《中表》一級類目構(gòu)成

具體轉(zhuǎn)換過程按照如下的步驟進(jìn)行:

(1) 詞表翻譯。將《澳表》按主題類目顯示的主題詞使用“靈格斯”翻譯軟件按字面涵義翻譯成中文。如有一詞多義現(xiàn)象,寫上全部涵義。將形容詞、副詞等盡量名詞化,以便與中表的名詞相對應(yīng)。

(2) 一級類對應(yīng)?!栋谋怼饭?7個(gè)大類1786個(gè)主題詞,《中表》共21個(gè)大類,17421個(gè)主題詞。兩表主題詞涵蓋面基本相同,但《中表》詞表更具有深度,也更詳細(xì),因此采用《澳表》向《中表》映射和《中表》向《澳表》映射兩種方式對比映射結(jié)果。同時(shí)為了減少計(jì)算量,不采用全表映射匹配,在映射時(shí)細(xì)分到一級類目上。采用《澳表》類目對應(yīng)1到2個(gè)相關(guān)的《中表》類目,如“BIBusinessand Industry(商業(yè)和工業(yè))”對應(yīng)“09商業(yè)、貿(mào)易,04工業(yè)、交通”,“DEDefenceand NationalSecurity(國防和國家安全)”對應(yīng)“16軍事、國防”,“EF Economics and Finance(經(jīng)濟(jì)和財(cái)政)”對應(yīng)“08財(cái)政、金融,09商業(yè)、貿(mào)易”。反之,《中表》向《澳表》映射方法類似。取以上幾類語詞進(jìn)行試驗(yàn),推此及彼,借以說明情況。

(3) 部分試驗(yàn),檢驗(yàn)結(jié)果。以農(nóng)業(yè)類為例,《澳表》“AGAgriculture”60個(gè)主題詞對應(yīng)《中表》“07農(nóng)林、水利”1356個(gè)主題詞,將以上兩組詞輸入Access中,分別形成兩張表單sheet1與sheet2;使用VisualC編寫程序?qū)ccess數(shù)據(jù)庫進(jìn)行操作,將sheet1中的每一個(gè)詞分別與sheet2中的每一個(gè)詞進(jìn)行相似度比較,返回相似度最大的3個(gè)詞與sheet1中的詞對應(yīng),返回結(jié)果在記事本上,如表2。

表2 《澳表》語詞向《中表》語詞的匹配結(jié)果

反之,將sheet2中的每一個(gè)詞分別與sheet1中的每一個(gè)詞進(jìn)行相似度比較,返回相似度最大的3個(gè)詞與sheet2中的詞對應(yīng),為《中表》向《澳表》的匹配結(jié)果,如表3。

表3 《中表》語詞向《澳表》語詞的匹配結(jié)果

(4)經(jīng)機(jī)器匹配結(jié)束后,剩下的不能匹配的詞語按照以下順序進(jìn)行人工匹配:

①跨類匹配。有些詞語兩表所共有,但分屬不相關(guān)的類,如:“Agricultural insurance”(農(nóng)業(yè)保險(xiǎn)),《澳表》分在“AGAgriculture”類,《中表》分在“08財(cái)政、金融”類。

②近似轉(zhuǎn)換。人工判斷其同義詞或近義詞。如:“態(tài)度”“合并”“競爭”等一些中性詞語。大多在“21綜合用語”中查找,因?yàn)樵谝患夘惸縿澐稚希栋谋怼凡辉O(shè)綜合政務(wù)類。

③取其上位類詞語匹配。

④組配匹配。這種語詞數(shù)量很少,如:“Marine biology”(海洋生物學(xué))對應(yīng)“海洋”+“生物學(xué)”。

4 詞表轉(zhuǎn)換結(jié)果的測試

在經(jīng)過了以上幾步的匹配后,按照完全匹配、相關(guān)匹配、上位類匹配、下位類匹配、不匹配幾種情況統(tǒng)計(jì)匹配結(jié)果。[6,7]完全匹配是指對應(yīng)的語詞完全相同或意思相近。相關(guān)匹配是指對應(yīng)的語詞存在相關(guān)關(guān)系。上位類匹配是指語詞與目標(biāo)語詞在詞間關(guān)系上屬于其下位類。下位類匹配與上位類匹配意思相反,即語詞與目標(biāo)語詞在詞間關(guān)系上屬于其上位類。不匹配指目標(biāo)語詞不存在以上幾種匹配關(guān)系的語詞與之對應(yīng)。

表4 《澳表》語詞向《中表》語詞的匹配

5 結(jié)語

如果將完全匹配、相關(guān)匹配、上位類匹配和下位類匹配算作匹配成功的話,《澳表》向《中表》匹配成功率及中表向《澳表》匹配成功率如下表。

表5 《中表》語詞向《澳表》語詞的匹配

表6 《澳表》向《中表》匹配成功率

表7 《中表》向《澳表》匹配成功率

《澳表》向《中表》匹配平均成功率78.192%;《中表》向《澳表》匹配平均成功率58.592%。前者較高,主要是因?yàn)椤栋谋怼吩~匯數(shù)量少??傮w來說《澳表》與《中表》詞匯相似程度還是比較高的。由此,也可推知其他國家政務(wù)詞表與中國政務(wù)詞表的匹配也能夠達(dá)到這個(gè)結(jié)果。

由于時(shí)間倉促,水平有限,本項(xiàng)目還有許多不足和需要改進(jìn)的地方。在生成的Access表單中,可增加一個(gè)接口,將語詞用翻譯軟件翻譯后,自動與《中表》中的詞匹配,提高自動化程度,可大大增加轉(zhuǎn)換的效率。另外,本實(shí)驗(yàn)只挑選了幾個(gè)類進(jìn)行試驗(yàn),全表匹配尚存在一定難度。這些在理論上是可以實(shí)現(xiàn)的,但由于技術(shù)所限沒有做成。

(本項(xiàng)目得到了南京農(nóng)業(yè)大學(xué)教授侯漢清老師的指導(dǎo),在此表示感謝。)

[1]田景熙,洪琢.電子政務(wù)系統(tǒng)規(guī)劃與設(shè)計(jì)[M].北京:人民郵電出版社,2005.

[2]劉華梅.基于情報(bào)檢索語言互操作技術(shù)的集成詞庫構(gòu)建研究——以教育詞庫為例[D].南京:南京農(nóng)業(yè)大學(xué),2006.

[3]陳志新.中美兩國主題詞表對應(yīng)轉(zhuǎn)換的分析[J].情報(bào)檢索,2003,22 (9):28-29.

[4]倪靜,等.國外電子政務(wù)主題詞表編制及網(wǎng)絡(luò)應(yīng)用的比較分析[J].情報(bào)學(xué)報(bào),2003,22(5):565-571.

[5]《電子政務(wù)主題詞表》編制與應(yīng)用系統(tǒng)課題組.綜合電子政務(wù)主題詞表(范疇表)[Z].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2005.

[6]鄭貴宇.我國檢索語言國際兼容初探[J].情報(bào)學(xué)報(bào),2001,20(4):478-482.

[7]李晴霞.我國電子政務(wù)目前存在的問題[J].現(xiàn)代商業(yè),2007(04X):26-27.

猜你喜歡
詞表主題詞表語詞
你是那樣美 唐心語詞
歌海(2021年3期)2021-07-25 02:30:48
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項(xiàng)目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
《〈漢語主題詞表〉構(gòu)建研究》
《〈漢語主題詞表〉構(gòu)建研究》
《老子》“自”類語詞哲學(xué)范疇釋要
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
從文化理據(jù)看英漢語詞翻譯
國外敘詞表的應(yīng)用與發(fā)展趨勢探討*
张家界市| 台江县| 北碚区| 榆林市| 南木林县| 云阳县| 邳州市| 兴业县| 宁城县| 山阳县| 吕梁市| 铜山县| 恩平市| 敦煌市| 达拉特旗| 南阳市| 尼玛县| 宁强县| 金塔县| 曲水县| 德令哈市| 车险| 吴忠市| 兴国县| 乌鲁木齐县| 兴文县| 中阳县| 遵义市| 建始县| 故城县| 威远县| 乌兰浩特市| 丰镇市| 霍邱县| 汤阴县| 广宁县| 麻栗坡县| 台东市| 蓬安县| 通城县| 邓州市|