摘 要:針對(duì)目前烏茲別克語、哈薩克語等中亞語種急缺專業(yè)領(lǐng)域詞典、術(shù)語庫及知識(shí)本體庫的問題,文章以安全領(lǐng)域?yàn)槔?,利用現(xiàn)有術(shù)語作為種子詞,自動(dòng)采集維基百科及雙語專業(yè)詞典中的術(shù)語對(duì),人工校對(duì)后構(gòu)建了中型中、俄、烏、哈多語種專業(yè)領(lǐng)域術(shù)語庫。以此術(shù)語庫為基礎(chǔ),搭建了包含人員、組織、地域、技術(shù)、設(shè)備、活動(dòng)、文件7大類及35個(gè)子類的領(lǐng)域本體,最后討論了該專業(yè)術(shù)語庫及領(lǐng)域本體庫的擴(kuò)展?jié)摿蛻?yīng)用前景。本成果是一項(xiàng)重要的基礎(chǔ)性工作,對(duì)中亞語種的術(shù)語詞典編撰、術(shù)語學(xué)、自然語言處理和語言教學(xué)研究均有較大現(xiàn)實(shí)意義。
關(guān)鍵詞:中亞;術(shù)語;本體;俄語;烏茲別克語;哈薩克語
中圖分類號(hào):H059; H083文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.3969/j.issn.1673-8578.2019.06.002
Abstract: Studies on languages of Uzbek, Kazakh and other Central Asian are facing a problem of lack of professional domain dictionaries, terminology and knowledge ontology. For solving this problem, we take the military field as an example, and use the existing terms as the seed word to automatically collect bilingual terminology pairs from Wikipedia and professional dictionaries. Based on manual proofreading, we built a medium-sized Chinese, Russian, Uzbek, and Kazakh term base. Based on this term base, the military domain ontology has built, which includes 7 categories (person, organization, region, technology, equipment, activity and document) and 35 sub-categories. We also discussed the potential and application prospects of the term base and ontology library. This achievement is an important basic work, and it has great practical significance for the compilation of terminology dictionary, terminology, natural language processing and language teaching in Central Asian languages.
Keywords: Central Asia; terminology; ontology; Russian; Uzbek; Kazakh
收稿日期:2018-01-01修回日期:2019-11-01
基金項(xiàng)目:國家社會(huì)科學(xué)基金項(xiàng)目“基于本體的俄漢可比語料庫構(gòu)建與評(píng)估”(14CYY051);國家社會(huì)科學(xué)基金項(xiàng)目“基于可比語料庫和本體的俄漢網(wǎng)絡(luò)新聞話題監(jiān)測(cè)與情感識(shí)別研究”(18BYY235)
作者簡(jiǎn)介:原偉(1981—),男,博士,副教授,主要研究方向?yàn)橛?jì)算語言學(xué)和語料庫語言學(xué)。通信方式:yw5811827@126.com。
引 言
建立多語種術(shù)語庫是基于系統(tǒng)論整合語言數(shù)據(jù)資源的一種思維方式和實(shí)踐手段,其根本目的是收集并高效利用多語言數(shù)據(jù),以實(shí)現(xiàn)語言資源的優(yōu)化配置。在“一帶一路”倡議深入推進(jìn)的大背景下,構(gòu)建以漢語為中心的多語言互動(dòng)術(shù)語資源庫,可以提供更好的術(shù)語檢索、分析、利用及共享平臺(tái),使其服務(wù)于社會(huì)科學(xué)和自然科學(xué)研究,契合了國家的宏觀發(fā)展戰(zhàn)略。中亞五國(烏茲別克斯坦、哈薩克斯坦、吉爾吉斯斯坦、塔吉克斯坦和土庫曼斯坦)是“一帶一路”建設(shè)的重要支點(diǎn),而對(duì)象國語言的教學(xué)、研究與資源建設(shè)工作以前在國內(nèi)長(zhǎng)期未予以足夠重視,語言教學(xué)和人才培養(yǎng)剛剛在國內(nèi)拓寬展開,語種教材編寫、辭書編撰、資源建設(shè)等各方面工作都存在較大缺失與不足。針對(duì)上述問題,本研究嘗試開展一些基礎(chǔ)性工作,構(gòu)建以中文為核心、涵蓋中亞通用語種(俄語、烏茲別克語和哈薩克語)的多語種領(lǐng)域術(shù)語庫,并以此為基礎(chǔ)構(gòu)建領(lǐng)域本體用于術(shù)語調(diào)用與知識(shí)共享,以期為后續(xù)研究工作拋磚引玉。
一 研究現(xiàn)狀
通常來說,術(shù)語數(shù)據(jù)庫是“存儲(chǔ)在電子計(jì)算機(jī)中啟示概念和術(shù)語的自動(dòng)化詞典”[1]。術(shù)語數(shù)據(jù)庫的研究與開發(fā),是術(shù)語學(xué)與術(shù)語標(biāo)準(zhǔn)化工作的重要內(nèi)容之一,也是術(shù)語信息管理與使用的重要手段[2]。多語種術(shù)語庫,即包含多種語言并相互關(guān)聯(lián)的術(shù)語數(shù)據(jù)庫。在國外,多語種術(shù)語庫的建設(shè)已有悠久歷史,如1959年德國國防部投入開發(fā)的LEXIS術(shù)語庫(LEXIS terminological databank)包含德語、英語、法語、俄語、波蘭語、荷蘭語和意大利語7種語言,年均收錄術(shù)語3.5萬條;1963年建立的歐洲共同體委員會(huì)術(shù)語庫(Eurodicautom)至1976年收錄40萬條術(shù)語,從法、德、意、英、荷、丹麥等6種語言逐步擴(kuò)展到11種語言;1967年由西門子公司投入建設(shè)的多語種術(shù)語庫TEAM有英、法、西、俄、意、葡、荷、德等語種,目前術(shù)語規(guī)模達(dá)到200余萬條;20世紀(jì)80年代建立的聯(lián)合國術(shù)語庫UNTERM(The United Nations Terminology Database)包含英語、阿拉伯語、漢語、法語、俄語和西班牙語,外加德語和葡萄牙語,目前收錄有29萬條名詞詞目;2004年投入使用的歐盟IATE互動(dòng)型術(shù)語庫(Inter Active Terminology for Europe)涵蓋歐盟24種語言、870萬條術(shù)語。1989年以來,國內(nèi)多個(gè)機(jī)構(gòu)陸續(xù)建立不同類型的專業(yè)術(shù)語庫。經(jīng)過多年的發(fā)展,除全國科學(xué)技術(shù)名詞審定委員會(huì)建立的術(shù)語庫外,國內(nèi)其他的重要術(shù)語庫有:機(jī)械工程術(shù)語庫,于1988 年建立,隸屬于機(jī)電部科技司科技情報(bào)所的機(jī)電術(shù)語信息中心;中國百科術(shù)語數(shù)據(jù)庫,以《中國大百科全書》為基礎(chǔ),建立于1993年,隸屬于中國大百科全書出版社;中國漢英英漢科技術(shù)語庫,于1995年建成,隸屬于中國科學(xué)技術(shù)信息所,主要用于科技翻譯工作[3]。相比而言,國內(nèi)術(shù)語庫建設(shè)無論從語種還是規(guī)模上來看都存在較大缺失:僅機(jī)械工程術(shù)語庫有英、俄、德、日、法5種語言,其他大多僅包括漢英兩種語言,而針對(duì)非通用語種以及中亞語種的術(shù)語詞典以及術(shù)語庫建設(shè)研究,目前鮮有學(xué)者涉及。
本體是概念模型的明確的規(guī)范說明[4],是一種系統(tǒng)性表示某一領(lǐng)域知識(shí)框架的手段,通過對(duì)概念、術(shù)語及其相互關(guān)系的規(guī)范化描述,可以勾畫出特定領(lǐng)域的知識(shí)體系,為領(lǐng)域知識(shí)提供形式化依據(jù)[5]。根據(jù)本體中使用語種的多少,可以將本體分為單個(gè)語言和多語言兩類本體。多語種本體是指本體中存在不同語種中的表示形式,相當(dāng)于使用不同語言建立的語義框架,可以作為跨語言信息檢索的重要工具。多語種本體中不同語種的實(shí)例可以通過共同的概念類相互聯(lián)系,相當(dāng)于跨語言同義詞規(guī)范,不同語種的本體框架對(duì)應(yīng)的概念內(nèi)涵是統(tǒng)一的。在使用多語言本體進(jìn)行跨語言信息檢索時(shí),由于跨語言同義詞規(guī)范的存在,不同語種的概念及概念實(shí)例能夠相互映射。在多語言本體中,擁有相同概念內(nèi)涵的類可以不用任何一個(gè)語言的詞匯來體現(xiàn),只要明確其定義與所指,用編碼、符號(hào)或者數(shù)字也能夠標(biāo)示。當(dāng)前世界上諸多跨語言本體均是以WordNet為基礎(chǔ)或采用與其相同的框架系統(tǒng)搭建的,例如歐語詞網(wǎng)(Euro WordNet)、英俄雙語本體(Russian WordNet),還有中國的CCD、HowNet和中國臺(tái)灣中英雙語知識(shí)本體詞網(wǎng)(The Academia Sinica Bilingual Ontological WordNet)等。建立這些多語言本體其主要目的就是為跨語言信息處理奠定基礎(chǔ),使這些本體能夠應(yīng)用于信息檢索、信息抽取、機(jī)器翻譯、知識(shí)檢索等工作中。
二 術(shù)語庫構(gòu)建
1. 總體設(shè)計(jì)
本研究多語種術(shù)語庫構(gòu)建的基本思路是:首先,選定特定專業(yè)領(lǐng)域開展實(shí)驗(yàn)研究,通過使用現(xiàn)有的術(shù)語資源構(gòu)建以中文為核心的領(lǐng)域詞表;其次,使用該領(lǐng)域詞表依據(jù)維基百科網(wǎng)頁命名規(guī)則、借助多語言鏈接獲取對(duì)應(yīng)的多語種詞條網(wǎng)頁;最后,使用網(wǎng)頁分析技術(shù)抽取網(wǎng)頁條目名稱,依據(jù)維基百科詞條的已有對(duì)應(yīng)建立多語種術(shù)語對(duì)齊。
2. 初始領(lǐng)域詞表建立
本文初始領(lǐng)域詞表參考了烏茲別克語漢語專業(yè)領(lǐng)域詞典[6],結(jié)合收集補(bǔ)充的術(shù)語資源處理加工后,最終領(lǐng)域詞表包含漢烏對(duì)應(yīng)術(shù)語對(duì)共1.71萬對(duì),作為下一階段獲取維基百科俄語、哈薩克語的基礎(chǔ)資源。維基百科作為多語種術(shù)語來源具有諸多優(yōu)勢(shì),如詞目主題性強(qiáng)、規(guī)模較大、格式規(guī)范、信息完整、免費(fèi)公開、下載便捷等,提供的多語言鏈接確保可通過技術(shù)手段自動(dòng)獲取天然對(duì)齊的術(shù)語對(duì)。然而,維基百科多語種網(wǎng)頁資源存在不對(duì)稱性,即條目沒有做到完全對(duì)應(yīng),存在對(duì)應(yīng)缺失,中、俄、烏、哈網(wǎng)頁的數(shù)量比例約為1∶1.5∶0.2∶0.1(2019年4月16日統(tǒng)計(jì)),這就要求需要使用漢語、俄語、烏茲別克語和哈薩克語術(shù)語獲取的鏈接相互補(bǔ)充,盡可能完善術(shù)語的多語言對(duì)齊關(guān)系。
3.基于維基百科多語言術(shù)語獲取
從維基百科中獲取多語種術(shù)語的網(wǎng)頁,可以利用網(wǎng)址命名規(guī)則來實(shí)現(xiàn)。維基詞條的網(wǎng)址命名中通常會(huì)使用與語種及詞條相關(guān)的字符串,例如中文術(shù)語“火箭”的網(wǎng)址為“http://zh.wikipedia.org/zh-cn/火箭”,其中“http://zh.wikipedia.org/zh-cn/”部分一般稱為網(wǎng)址的“pathname”,而字符串“火箭”為網(wǎng)址的“basename”,相應(yīng)的俄文網(wǎng)頁網(wǎng)址“http://ru.wikipedia.org/wiki/ракета”。可以看出維基百科網(wǎng)站詞條的命名規(guī)則較為簡(jiǎn)易規(guī)范,如果將領(lǐng)域詞作為“basename”依次添加至相應(yīng)語種的“pathname”之后,就會(huì)得到相應(yīng)詞條的維基百科網(wǎng)址。通過對(duì)多語言鏈接的源碼的分析可以發(fā)現(xiàn),所需要的多語言超鏈接可從網(wǎng)頁源文件中得到。獲取網(wǎng)頁中超鏈接的技術(shù)方法有很多,在這里將介紹本文使用的正則表達(dá)式的方法。從形式上來說,正則表達(dá)式就是用來刻畫符號(hào)串集合的代數(shù)表達(dá)式。對(duì)于維基百科多語言鏈接的獲取任務(wù)來說,可以將其當(dāng)作一個(gè)從眾多字符串中篩選匹配字符串的任務(wù)。在此,本文為獲取維基詞條網(wǎng)頁對(duì)應(yīng)的中文、俄文、烏茲別克文、哈薩克文鏈接所設(shè)計(jì)的正則表達(dá)式如下:
中文網(wǎng)頁鏈接獲取的正則表達(dá)式:
·(?is)]* ?href=([""]?)(?
俄文網(wǎng)頁鏈接獲取的正則表達(dá)式:
·(?is)]* ?href=([""]?)(?
烏茲別克文網(wǎng)頁鏈接獲取的正則表達(dá)式:
·(?is)]* ?href=([""]?)(?
哈薩克文網(wǎng)頁鏈接獲取的正則表達(dá)式:
·(?is)]* ?href=([""]?)(?
這樣一來,通過分析維基網(wǎng)址的命名規(guī)則使用領(lǐng)域詞表獲得了對(duì)應(yīng)的詞條網(wǎng)址,之后使用一種語言的詞條網(wǎng)址得到其網(wǎng)頁源碼,通過對(duì)網(wǎng)頁源碼使用正則表達(dá)式搜索匹配到了另一種語言對(duì)應(yīng)詞條的網(wǎng)址鏈接。隨后,我們研制開發(fā)了俄漢維基百科語料獲取應(yīng)用程序,包括單詞目和多詞目術(shù)語獲取模塊,初步實(shí)現(xiàn)了通過領(lǐng)域詞表獲取俄漢維基百科語料的自動(dòng)化。該系統(tǒng)不僅能獲取網(wǎng)頁的術(shù)語詞目,還可獲取術(shù)語解釋的正文內(nèi)容。圖1是中、俄文程序界面。
最終,針對(duì)自動(dòng)采集的術(shù)語,進(jìn)行了人工校對(duì)與加工,以保證其準(zhǔn)確性。在術(shù)語條目存儲(chǔ)格式方面,在錄入建庫之后,為了保證后期能夠?qū)⒍嗾Z種詞目及對(duì)應(yīng)關(guān)系順利導(dǎo)入本體知識(shí)庫,所有詞目均以XML格式表示,并存儲(chǔ)入MySQL數(shù)據(jù)庫,方便使用Java的OWL(本體表述語言)應(yīng)用接口Jena進(jìn)行調(diào)用。最終構(gòu)建的術(shù)語庫包含術(shù)語總計(jì)7.2萬余條(中文2.1萬余條、烏茲別克文1.9萬余條、俄文2萬余條、哈薩克文1.2萬余條)。
三 本體構(gòu)建
本體在系統(tǒng)開發(fā)中較多應(yīng)用于構(gòu)建領(lǐng)域知識(shí)模型,它提供了領(lǐng)域建模所需的基本概念并明確了概念間的關(guān)系。一般來說,領(lǐng)域知識(shí)包括領(lǐng)域概念、概念的性質(zhì)、概念之間的關(guān)系、概念之間的一般規(guī)律等。領(lǐng)域本體在構(gòu)建時(shí)根據(jù)概念之間的隸屬關(guān)系顯式地建立聯(lián)系,清晰定義每個(gè)概念的具體屬性,屬性的取值范圍、約束關(guān)系、相互關(guān)系等,使概念及概念實(shí)例之間的通用規(guī)律、核心聯(lián)系和基本假設(shè)等都能被顯式地描述出來。由于本體通常面向特定領(lǐng)域,是描述領(lǐng)域知識(shí)的概念模型,所以本體模型中的類或概念至少在該特定領(lǐng)域或者某個(gè)范圍內(nèi)是有共識(shí)或公認(rèn)的。正因如此,領(lǐng)域本體在一定范圍內(nèi)可以共享復(fù)用,能夠提供特定領(lǐng)域的概念定義和概念關(guān)系,提供該領(lǐng)域中主要公理和基本規(guī)律等。本文使用的本體構(gòu)建工具是美國斯坦福大學(xué)醫(yī)學(xué)院信息中心(Stanford Medical Informatics, SMI)開發(fā)研制的Protégé 4.3,是可擴(kuò)展的、跨平臺(tái)的、開放源代碼的開發(fā)環(huán)境,數(shù)據(jù)庫支持完善,支持將本體導(dǎo)入并輸出為所需的文件格式(TXT、XML、RDFS、OWL等)。由于Protégé對(duì)英文編碼支持較為完善,在構(gòu)建本體時(shí)類和關(guān)系的命名采用英文,而實(shí)例保留中、俄、烏、哈4種語言。
首先,建立本體類。領(lǐng)域內(nèi)的概念在本體中以類的形式展現(xiàn),類及類的層級(jí)體系是本體知識(shí)庫的核心框架,定義類和層次時(shí)需要注意的是要確保類層次的正確性,分清類的相互關(guān)系。現(xiàn)有三種開發(fā)方法可以選擇:由下而上的方案,即先定義領(lǐng)域中代表性子類,之后把這些概念歸類為概況性父類;由上而下的方案,即首先定義領(lǐng)域中概括性父類,隨后細(xì)化定義下分的子類;由內(nèi)向外的方法,即最初定義最明顯的種類,接著對(duì)這些類進(jìn)行泛化和特殊化?;谒鶚?gòu)建的中、俄、烏、哈多語種術(shù)語庫,本文按照自上而下的方案,將本體知識(shí)庫設(shè)計(jì)為包含人員、組織、地域、技術(shù)、設(shè)備、活動(dòng)、文件7大類及35個(gè)子類的領(lǐng)域本體。領(lǐng)域本體結(jié)構(gòu)見圖2。
其次,添加本體實(shí)例。添加實(shí)例的過程是為本體中的概念類加入現(xiàn)實(shí)世界中的具體對(duì)象物,即領(lǐng)域中的具體對(duì)象。對(duì)于本文來說,添加實(shí)例的過程就是將多語種術(shù)語歸類錄入本體知識(shí)庫的過程。按照上述本體知識(shí)的分類規(guī)則,我們對(duì)術(shù)語表中每一個(gè)術(shù)語進(jìn)行了分類標(biāo)注,并體現(xiàn)在對(duì)術(shù)語描述XML文件中,以便于后期術(shù)語作為本體中的實(shí)例順利導(dǎo)入本體庫中。中、俄、烏、哈多語種術(shù)語導(dǎo)入的XML文件示例如下:
最后,建立實(shí)例關(guān)系。屬性一般包括數(shù)據(jù)屬性和對(duì)象屬性。通常來說,數(shù)據(jù)屬性是類和實(shí)例的固有屬性、外在屬性和局部屬性,而對(duì)象屬性體現(xiàn)了類和實(shí)例之間的關(guān)系。根據(jù)本體中使用語種的多少,可以將本體分為單語言和多語言兩類本體,由于本文構(gòu)建的本體為多語種本體,那么通過對(duì)象屬性建立類、實(shí)例間的多語種關(guān)聯(lián)映射尤其關(guān)鍵。多語言本體中不同語種的實(shí)例可以通過共同的概念類相互聯(lián)系,相當(dāng)于跨語言同義詞規(guī)范,不同語種的本體框架對(duì)應(yīng)的概念內(nèi)涵是統(tǒng)一的。在使用多語言本體進(jìn)行跨語言信息檢索時(shí),由于跨語言同義詞規(guī)范的存在,不同語種的概念及概念實(shí)例能夠相互映射。在多語言本體中,擁有相同概念內(nèi)涵的類甚至可以不用任何一個(gè)語言的詞匯來體現(xiàn),只要明確其定義與所指,用編碼、符號(hào)或者數(shù)字也能夠標(biāo)示。根據(jù)當(dāng)前學(xué)界的研究成果,本文將多語言本體的構(gòu)建方法分為衍生拓展法、中介語映射法和關(guān)系注釋法三種:(1)使用衍生拓展的方法構(gòu)建多語言本體,就是在原有單語言本體的基礎(chǔ)上,進(jìn)行多語言拓展;(2)使用中介映射的方法構(gòu)建多語言本體是指使用中間語言、編程語言,甚至數(shù)字編碼的方式,為多個(gè)語種建立統(tǒng)一的映射鏈接,以達(dá)到跨語言信息處理的目的;(3)使用關(guān)系注釋的方法構(gòu)建多語言本體主要采用添加多語言注釋、構(gòu)建等價(jià)類或?qū)ο髮傩缘姆椒ń⒄Z言間的鏈接與映射,這種方法一般針對(duì)特定領(lǐng)域和信息處理任務(wù)。本文采用的方式即為關(guān)系注釋法,具體來說就是通過對(duì)7大類的35個(gè)子類設(shè)置對(duì)象屬性“Term_Zh”(中文術(shù)語)、“Term_Ru”(俄文術(shù)語)、“Term_Uz”(烏茲別克文術(shù)語)和“Term_Kaz”(哈薩克文術(shù)語)四個(gè)屬性來建立子類多語種實(shí)例間的映射關(guān)聯(lián),而該關(guān)系的建立可以在術(shù)語的XML文件映射到本體庫時(shí)自動(dòng)添加。具體術(shù)語示例見圖3。
四 討 論
第一,中亞語種的專業(yè)領(lǐng)域術(shù)語特點(diǎn)考察。通過構(gòu)建多語種術(shù)語庫和本體知識(shí)庫,我們發(fā)現(xiàn):在詞匯層面,中亞語種專業(yè)領(lǐng)域術(shù)語體系中普遍存在大量俄語借詞、部分英語借詞以及突厥語體系中的共有詞,這些借詞有益于中亞語種術(shù)語漢譯的規(guī)范化和統(tǒng)一化,但翻譯標(biāo)準(zhǔn)的制定目前仍舊缺失;在語法層面,中亞語種語法體系的典型共性特征包括詞類體系、黏著詞尾、動(dòng)詞體態(tài)式范疇等,同時(shí)在術(shù)語的句法關(guān)系和語義表述上也存在諸多共性,這就為找尋規(guī)則自動(dòng)抽取和處理多語種術(shù)語提供了積極線索;在語音層面,雖然烏茲別克語同哈薩克語的顯著不同在于不存在元音和諧現(xiàn)象,但不可否認(rèn)其相互之間在音韻、語調(diào)、音節(jié)類型等方面均存在較大相似性,也存在大量音節(jié)轉(zhuǎn)換規(guī)律,為中亞語種術(shù)語在語音層面的自動(dòng)處理提供了契機(jī)。
第二,拓展?jié)摿εc應(yīng)用前景。首先,在該術(shù)語庫和本體的拓展?jié)摿Ψ矫?,可在語種上增加吉爾吉斯語、土庫曼語、塔吉克語以及英語,以便更好地考察中亞語種的專業(yè)領(lǐng)域術(shù)語特點(diǎn),并建立寶貴的語言數(shù)據(jù)資源;在數(shù)量和規(guī)模上進(jìn)一步擴(kuò)大術(shù)語庫的收詞范圍和涉及領(lǐng)域,如政治、外交、經(jīng)濟(jì)、法律、醫(yī)學(xué)等,以適用于更多場(chǎng)景和應(yīng)用需求;在知識(shí)體系上,進(jìn)一步關(guān)系細(xì)化本體的概念類劃分,增加屬性關(guān)系,豐富術(shù)語實(shí)例,使其能真正體現(xiàn)領(lǐng)域特征并代表領(lǐng)域知識(shí),為語義檢索和智能應(yīng)用奠定基礎(chǔ)。其次,在該術(shù)語庫和本體的應(yīng)用前景方面,可為語言教學(xué)和辭典編撰工作提供積極幫助,為自然語言處理研究提供實(shí)驗(yàn)樣本、初始數(shù)據(jù)和參照規(guī)則,為語言學(xué)、術(shù)語學(xué)和翻譯學(xué)研究提供鮮活語料和豐富案例。
第三,本研究存在的不足和亟待解決的問題。首先,所構(gòu)建術(shù)語庫規(guī)模還比較小,本體知識(shí)庫的概念分類體系還需優(yōu)化,實(shí)例數(shù)量還需增加,屬性關(guān)系還需優(yōu)化。其次,在術(shù)語采集、加工處理和校對(duì)審定方面,還需制定更加嚴(yán)格的標(biāo)準(zhǔn)和規(guī)范,以保證術(shù)語的準(zhǔn)確性、可靠性和權(quán)威性。最后,后續(xù)研究還應(yīng)積極探索新技術(shù)和新手段,將智能化和自動(dòng)化的自然語言處理方法有效地融入術(shù)語的加工生產(chǎn)整個(gè)過程中,做到擴(kuò)大規(guī)模、提高效率并兼顧準(zhǔn)確。
五 結(jié) 語
總之,本研究是中亞多語種領(lǐng)域術(shù)語庫和本體知識(shí)庫構(gòu)建的基礎(chǔ)性工作,在研究?jī)?nèi)容上嘗試了新的研究方向以期為中亞語種的領(lǐng)域術(shù)語研究拋磚引玉,在研究方法上嘗試將傳統(tǒng)研究方法同自動(dòng)化方法相結(jié)合,在研究結(jié)果上發(fā)現(xiàn)了中亞語種術(shù)語的一些共性特征并指出后續(xù)研究的方向,可以說本成果對(duì)中亞語種的術(shù)語詞典編撰、術(shù)語學(xué)、自然語言處理和語言教學(xué)研究具有一定的價(jià)值和現(xiàn)實(shí)意義。希望本成果能吸引更多的研究同人加入這一研究方向,在后續(xù)的工作中將相關(guān)工作推向新的臺(tái)階。
參考文獻(xiàn)
[1] 馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].增訂本.北京:商務(wù)印書館,2011:244.
[2] 劉青.中國術(shù)語學(xué)研究與探索[M].北京:商務(wù)印書館,2010:538.
[3] 顧春輝,溫昌斌.聯(lián)合國術(shù)語庫建設(shè)及其對(duì)中國術(shù)語庫建設(shè)的啟示[J].中國科技術(shù)語,2017(3):5-9,34.
[4] Gruber T R.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993,5(2):199-220.
[5] 原偉,易綿竹.俄語計(jì)算語言學(xué)領(lǐng)域本體知識(shí)庫的構(gòu)建[J].解放軍外國語學(xué)院學(xué)報(bào),2012,35(1):41-47,125.
[6] 原偉.烏茲別克語-漢語·漢語-烏茲別克語軍事術(shù)語詞典[M].北京:軍事誼文出版社,2013.