国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

術語查重探討

2016-11-19 08:41趙偉
中國科技術語 2016年4期
關鍵詞:集合查重符號

趙偉

摘要:對術語審定中的查重工作做了概述,并揭示和解決了術語查重工作中的幾個關鍵問題,對術語工作者,尤其是多語種術語數據庫工作者有一定幫助。

關鍵詞:術語學,數據庫,查重,文字串,符號,集合

中圖分類號:N04;TP392文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2016.04.004

Abstract: This paper outlines the term duplicate checking in term examination and approval. Several key problems in term duplicate checking are revealed and solved. We hope it is helpful to term workers, especially to workers engaged on multilingual terminology database.

Keywords: terminology, database, duplicate checking, character string, symbol, set

引言

術語(中國習慣稱“科技名詞”)查重工作是術語審定工作中的必要環(huán)節(jié),對保證術語的單義性至關重要。筆者在全國科學技術名詞審定委員會(以下簡稱“全國科技名詞委”)曾從事多年名詞審定工作,也曾多次參與國家電工術語標準的審定工作,對術語查重工作的重要性有切身體會;術語查重工作也具有一定的復雜性——筆者從2003年開始從事術語審定工作,到目前為止,曾接觸或了解的術語查重程序至少已經有3個,這些查重程序的功能逐漸增強,多年來,為規(guī)范科技名詞做出了重要貢獻。但“百尺竿頭,更進一步”,術語查重程序還有待繼續(xù)完善。事實上,全國科技名詞委審定公布的科技名詞數據庫和國家術語標準中都有一些表示相同概念但定名卻不同的術語,一部分是文字錄入有誤或各學科已約定俗成、不宜統(tǒng)一所致,另一部分則與查重處理不夠完善有關。

由此可見,術語查重工作在應用上有其重要性和復雜性,還沒有得到妥善解決,因此,這是個值得認真研究的課題。

一術語名稱查重概述

術語的名稱包括中文名和英文名(對多語種術語數據庫而言,則更有用多種語言表示的術語名稱)。中文名包括正名(規(guī)范名,有且僅有一個)和異名(不一定都有)。異名包括全稱、簡稱、又稱、俗稱、曾稱等[1]。英文名雖沒有正名和異名的說法,但也有與中文名相對應的英文名(中文正名均有對應的英文名,但中文異名不都有)。

查重,顧名思義,是查找重復、相同之處。術語查重,從微觀上來講,自然就是查找兩個術語中各組成部分是否相同以便進一步確定這兩個術語是否表示相同概念。因術語包括名稱和定義兩部分,所以術語查重自然就應該包括術語名稱查重和定義查重兩部分。由于術語定義查重比較復雜,所以,目前大多數術語數據庫都沒有開展此項工作。

術語名稱查重,具體而言,就是要對某個術語的每個中文名和英文名與另一個術語的每個中文名和英文名一一比較,看其是否相同。這里要強調的是:術語的每一個名稱(包括中文正名和所有中文異名以及對應的英文名)都要參與查重。如果只查中文正名和相應的英文名,就會漏掉很多重名的術語。如以下兩個例子:

①測量結果的計量可比性metrological comparability of measurement results簡稱:計量可比性(metrological comparability)

②計量可比性metrological comparability

這兩個術語,明顯能看出是表示同一概念。但如果查重程序只查中文正名和相應的英文名就無法發(fā)現,因為二者這兩項都是不同的,重名的是①的中文簡稱和②的中文正名以及①的中文簡稱對應的英文名和②的中文正名對應的英文名。所以,要強調術語的每一個名稱都要參與查重。另外,沒有編號而只在術語定義中出現的帶英文名的術語也要參與查重。

如果兩個術語的所有中文名和所有英文名都不相同,就可以認為這兩個術語是表示不同的概念;如果兩個術語的中文名或英文名中至少有一個相同,還要把這兩個術語放在一起繼續(xù)比較。以兩術語之間各中英文名異同的對應關系來分類,具體還可再細分為以下幾種情況:①兩術語的中文正名和相應英文名相同;②一術語的某個中文名和相應英文名與另一術語的某個中文名和相應英文名相同(不包含①的情況);③某個英文名相同,而對應中文名不同;④某個中文名相同,而對應英文名不同。當然,以上只是單一的分類,實際情況更復雜,但也都是以上各種情況的組合。所以,討論這幾種情況就足夠了。

以此為基礎,要對每個學科所有術語一一進行查重(即所謂“內部查重”,這是為了保證該學科內術語的單義性),以及對該學科所有術語與術語審定機構已審定公布的所有學科術語一一進行查重(即所謂“外部查重”,這是為了保證術語審定機構審定的所有學科術語的數據庫內術語的單義性)。

以查重結果為基礎,還要進行協(xié)調處理。處理時,對兩個術語的所有中文名和所有英文名都不相同的情況,可以認為這兩個術語是表示不同的概念,無論“內部查重”還是“外部查重”,都要收錄;而對兩個術語的中文名或英文名中至少有一個相同的情況,則還要分清它們是否表示同一概念。

如果是表示不同的概念,則按照術語單義性的要求,盡量一詞一義,給這兩個術語分別賦予不同的名稱。如確有必要,則不管是“內部查重”還是“外部查重”,也可維持現狀,各自保留。

如果是表示相同的概念,則還要繼續(xù)細分:第①類情況,對內部查重而言,只能保留一個;對外部查重而言,可繼續(xù)保留。第②類情況,對“內部查重”而言,只能保留一個術語,但要對術語的名稱進行處理;對“外部查重”而言,要對該術語的名稱與術語數據庫內的其他學科進行協(xié)調處理,盡量保證“正名”對應“正名”,“異名”對應“異名”。第③類情況,對“內部查重”而言,只能保留一個術語,但要處理術語的中文名稱;對“外部查重”而言,也要協(xié)調處理術語的中文名稱。第④類情況,對“內部查重”而言,只能保留一個術語,但要分清這兩個英文名哪個更常用,更合適;對“外部查重”而言,也要分清這兩個英文名哪個更常用,更合適。

據了解,這是到目前為止包括全國科技名詞委術語庫在內的各術語庫開展術語查重工作的主要做法。這種做法能發(fā)現大部分有重名的術語,對保證術語的單義性功不可沒,但仍然有待改善。以下是具體分析。

二術語文字(包括數字)串查重

以術語名稱作為查重對象,看似合情合理,但深入分析,便可發(fā)現,這種做法也有不完善之處:有些術語,雖然其名稱并不相同,但看起來非常相似,用術語名稱作為查重對象卻查不出來。這樣的例子參見表1。

以上都是在審定過程中出現的術語,而不是已經正式公布的術語,這些術語已經由以術語名稱為比較對象的查重程序做過查重,查重結果顯示是不重復的術語。但由表1可見,編號為奇數和偶數的

相鄰兩個術語,明顯能看出其中文名或英文名非常相似,很可能是表示相同概念的術語,但以術語名稱作為查重對象,卻無法發(fā)現其共性。這會造成以下兩個問題:一是對學科“內部查重”而言,在查重階段用查重程序無法發(fā)現內部重復的術語,只有在做按拼音排序的索引的時候才有可能發(fā)現,這就要刪除其中一個重復的術語。這時要么在該被刪除的術語位置補充一個名稱、定義和字符數都相近的術語——但補充一個合適的術語并不容易,要么對該術語所在章節(jié)的術語重新編號,重新排版——這會非常麻煩。而無論怎么補救,都會影響審定進程。二是對外部查重而言,在查重階段用查重程序無法發(fā)現與已審定公布學科重復的術語,根據上文提及的查重處理原則,會被當作新術語而收錄到術語數據庫中,但我們卻對此毫不知情,只有在用戶偶然用“包含”等條件在數據庫中搜索術語時才能發(fā)現。由此可見,以術語名稱作為查重對象,雖然看似合情合理,但其實并不妥當,而且會造成不良影響。

既然以術語名稱作為查重對象有無法解決的矛盾,該以什么作為查重對象呢?先分析表1的術語。表1里編號為奇數和偶數的相鄰兩個術語,既然能看出來是表示相同概念的術語,說明它們的名稱必然有某種共性,而查重程序無法發(fā)現這種共性,說明它們的名稱也有一定的差異。正是這些術語名稱的共性和差異混在一起才導致查重程序無法發(fā)現其共性。如果能消除這些術語名稱的差異,而提煉出它們的共性,自然就可以發(fā)現它們是表示相同概念的術語了。這些術語有什么共性和差異呢?

仔細觀察可發(fā)現:編號為1和2的術語,其中文名稱都包含按“正仲轉換”順序排列的漢字,這是其共性。1的中文名稱比2多了一個符號“—”,這是其差異。編號為3和4的術語,其英文名稱里都包含按“transverseelectromagnetictransmissioncell”順序排列的英文字母,這是其共性。3的英文名稱比4多了一個符號“”,這是其差異。比較這兩對術語,可以發(fā)現,這兩對術語的共性體現在:它們的中文或英文名稱都包含按照同樣順序排列的相同的文字串;其差異體現在:它們的中英文名稱都包含有不同位置和種類的空格和符號。而且,只要消除了這些術語名稱中不同位置和種類的空格和符號,即消除其差異,其共性——相同的連續(xù)文字串就水落石出。由此可見,術語名稱可以再細分為兩部分,一部分是表示有實際意義的文字(包括各種數字,如阿拉伯數字、羅馬數字等),另一部分是無實際意義而只起間隔作用的空格和符號。在對術語查重時,以消除術語名稱中的空格和符號(包括全角和半角)而形成的連續(xù)文字(包括數字)串為查重對象,就可以發(fā)現以術語名稱為查重對象時無法發(fā)現的看似相同的術語。

實際上,表1這些術語中不同的空格和符號應與術語提供者的使用習慣和文字錄入的失誤有關,尤其是當這些術語都分別處在各學科概念體系中相距較遠位置的時候,再仔細的審定編輯也難以發(fā)現它們是僅在符號上有細微差異的同義術語。但以術語文字為比較對象進行查重就可以把它們聚攏在一起,使其不受使用習慣差異和符號錄入失誤的影響,而得到正確的查重結果。

這種方法的可行性如何呢?粗看起來,空格和符號的位置不確定,不好定位。但空格和符號的種類在各種語言和各種輸入法中都是有限的,所以只要按照類別查找、刪除即可,而無需考慮其具體位置。因此,這是適用于多語種術語數據庫的通用而可行的方法。

能否對該方法加以拓展,以發(fā)現更廣泛的術語文字共性呢?例如,可否考慮把兩個術語的文字串的差異個數限定在一定范圍內(一兩個字等等)?對中文來說,這就會查找到更多相去甚遠的術語。如速度、角速度、加速度、相速度等,盡管它們只相差一個字,但卻是完全不同的術語。而英文更是詞形變化較多的語言,如名詞的單復數,動詞的原形、不定式、過去分詞、現在分詞等,再考慮到復合詞術語,則要想找到包含多種詞形變化而又是同義的術語,就要將文字串的差異個數擴大得更多,而這將會導致查找到更多完全不同的術語。因此,以消除術語名稱中的空格和符號而形成的連續(xù)文字串為對象做查重不宜繼續(xù)拓展。

另外,在實踐中還要注意一些特殊符號的處理,如括號(包括中括號、圓括號,全角、半角都計在內)內的文字通常是表示可以省略的,刪除括號時要把術語名稱分為兩個來查重處理,一個是帶括號內的文字,一個是不帶括號內的文字;有時括號內的文字是表示另一個名稱或縮寫,有的在“,”“;”“/”后表示另一個名稱,那么這個名稱也要參與查重。目前表示所有格的英文有的在名詞后加“s”,有的只加“”,有的什么都不加,可統(tǒng)一刪除為不加,以方便查重。

三文字的規(guī)范

如同符號和空格的差異會影響查重的精確性一樣,文字的差異也會有影響。對英文名而言,因為有多種英語,最好統(tǒng)一用一種英語表示(如美國英語)。查重應不區(qū)分外文大小寫,以消除文字錄入失誤的影響。外文除必須用復數者,一般用單數形式。對查重文件要進行拼寫和語法檢查,以消除文字錯誤。以上這些工作應安排在消除符號和空格之前完成。

四外部查重數據庫的選擇

如前所述,每個學科的術語除了要做內部查重以外,還要對該學科所有名詞與全國科技名詞委已審定公布的術語數據庫內所有學科名詞之間一一查重,即所謂“外部查重”。這也是全國科技名詞委自開展術語查重工作以來一直沿用的做法。這種做法對每次只審定公布一個學科名詞的理想狀況來說,是合情合理的。但實際的審定工作是復雜的,往往在一個學科審定公布到下一個學科審定公布期間,有多個學科在開展審定和查重工作,而已審定公布學科名詞的術語數據庫在此期間是不變的,這意味著在此期間多個學科都要與包含同樣數量和內容的術語數據庫進行查重。另外,由于單機版的查重程序一次只能對一個學科開展外部查重工作,因此,多個學科要開展外部查重時,只能每個學科依次進行,即在查重時間上是串行的,這就會耽誤很多學科的審定工作進程。為解決這個矛盾,有人提出可以利用云計算的方法,同時開展多個學科的外部查重工作,即所謂“并行處理”,可以節(jié)省查重時間,加快審定進程。這兩個做法是否正確、可行呢?為討論方便,以下用集合的原理進行論述。

為考慮方便,就以最簡單的兩個學科開展外部查重工作為例,這兩個學科可分別表示為集合A和B,而已審定公布的術語數據庫則可表示為集合T,這些集合分別用圖1、2、3中的圓形區(qū)域來表示。顯然,學科A和已審定公布術語數據庫T的交集A∩T,就是它們之間有重復的術語,用圖1中豎線陰影的區(qū)域表示,按照第一節(jié)中介紹的外部查重處理原則,這部分術語需要進行協(xié)調處理;而A-T則是它們之間沒有任何重復的術語,用圖1的圓A中除陰影部分之外的區(qū)域表示,這部分是要作為新術語而無需做任何處理就直接收錄到術語數據庫中,見圖1。當對學科A進行外部查重處理之后,也要對學科B進行外部查重處理,同樣的含義和做法也適用于B∩T和B-T,見圖2。對這兩個學科進行查重處理的流程可圖示為圖1→圖2。

顯然,在對學科A和學科B先后分別進行外部查重處理時,我們目前并沒有考慮這兩個學科術語之間的關系。但既然考慮了A∩T、A-T和B∩T、B-T,我們不妨也考慮一下A∩B∩T和A∩B-T(用圖3中橫線陰影的區(qū)域表示)。(A∩B-T) (A∩B),而A∩B是表示學科A和學科B之間有交集、重復的術語集合,所以A∩B-T中就很有可能存在學科A中的英文名與學科B相同而中文名卻不同或這兩個學科的中文名相同而英文名卻不同的術語,按照術語單義性的要求,這兩個學科的這些術語顯然是需要進行協(xié)調處理的。另一方面,A∩B-T是屬于與已審定公布術語數據庫T沒有任何交集的術語集合。按照前述外部查重的處理方式和原則,由于學科A與B是先后各自與已審定公布的術語數據庫T做的外部查重處理,所以,顯然這部分術語是要作為新術語而無需做任何處理就直接收錄到術語數據庫T中的。由此可見,在對學科術語做外部查重時,每個學科都分別單獨與同一個已審定公布學科的術語數據庫查重,而沒有與已做過外部查重的其他學科再做查重,這會導致很多定名不同的同義術語沒有經任何協(xié)調處理就直接流入已審定公布學科的術語數據庫中,而我們對此卻毫不知情。這是術語數據庫中存在許多定名不同的同義術語的重要原因。

知道了這個原因,就可以明白想同時獨立開展多個學科的外部查重工作的并行處理方式是不可行的,因為這會導致術語數據庫中出現更多定名不同的同義術語。要想避免出現這種情況,就要改變目前外部查重的處理方式,即要把已審定公布學科的術語數據庫和之前已經做過外部查重處理的所有學科合在一起作為一個外部查重數據庫,需要進行查重的學科要與這個數據庫做外部查重。每個學科處理完畢,就合并到外部查重數據庫中,然后下一個學科才能與這個新的外部查重數據庫開展查重和協(xié)調處理工作。其處理流程可圖示為圖1→圖3,顯然這是一個串行的處理方式。

對短期內有多個學科需要查重應怎樣處理才能不耽誤工作進程呢?其實很簡單,只需要把這幾個學科的術語合在一起作為一個大學科,對這個大學科開展內部查重和外部查重協(xié)調處理就可以了。

五淺議術語定義查重

前文所述都是與術語名稱有關的查重,而沒有提及術語定義查重,因術語定義查重確實比較復雜,全國科技名詞委目前還沒有開展此項工作。但在實際審定工作中,術語定義查重有時還是有必要的。筆者在從事計量學名詞內部查重的工作中,就曾經以刪除術語定義中的符號和空格形成的文字串為對象,做過定義查重。結果發(fā)現以下這兩個術語,即:

定標器scaler包含一個或幾個定標電路的、對電脈沖進行計數的裝置。

計數器counter包含一個或幾個定標電路的、對電脈沖進行計數的裝置。

在計量學名詞體系中,這兩個術語位置相距甚遠,其各自的中文名、英文名也都不相同,但其定義文字卻完全相同,這樣的兩個同義而完全異名的術語,如果不用定義查重,是不可能發(fā)現的。

但術語定義查重,如果以術語定義的全部文字來做查重對象,也有其缺點,畢竟兩個同義術語其定義文字一般情況下不可能完全相同,總會有一定的差異。那么要想用術語定義來查重就可以考慮以兩個術語定義文字的重復率為指標進行比較,重復率高者可以視為可能相同的術語。對同一個學科來說,本學科內部同一上位概念下的幾個下位概念,可能由同一個作者撰寫,其術語定義可能只相差幾個字。但對不同學科來說,同一概念因作者行文風格差異、是否有外延、公式等原因,其定義文字卻可能相差甚遠。所以以兩個術語定義文字的重復率為指標進行比較,其結果也不一定可靠。

既然以術語定義的全部文字來比較也不可靠,該怎么辦呢?術語定義文字很多,但其重要性卻各有不同,我們可以忽略其中次要的文字,而抓住其“關鍵詞”。除不言自明、無法定義的術語之外,任何一個術語都是由其他術語以及它們之間的關系來描述的。所以,術語定義還可以考慮用定義該術語的術語以及描述它們之間關系的術語(如果這種關系可以用術語來表示)來表示,這些術語就是術語定義中的“關鍵詞”。概念用術語來表示,大部分概念的術語名稱在術語數據庫中是唯一的,但也有一些表示相同概念但定名不唯一的術語,所以,再深入分析,就可以按照概念而不是按照術語來組織術語數據庫,把術語數據庫中各學科表示相同概念的所有不同術語名稱都給予相同的編號。在此基礎上,就可以把新術語的定義轉化為用定義該術語的術語所表示概念的編號的組合來代表,從而把術語定義查重轉換為概念編號的查重,就可以利用術語名稱查重的方法對概念編號進行查重,進而實現術語定義的查重。

六建議及結語

綜上所述,筆者建議以刪除術語名稱中的空格和符號而形成的連續(xù)文字串為對象進行術語查重,這樣可以發(fā)現文字相同而空格和符號各異的術語,從而實現更精確的查重。對學科“內部查重”而言,就可以在做索引之前就發(fā)現這些重復的術語,減少無效勞動,加快審定進程。

對學科“外部查重”而言,建議把已審定公布學科的術語數據庫和之前已經做過外部查重處理的所有學科合在一起作為一個外部查重數據庫,待查重的學科要與這個數據庫做外部查重。每個學科查重處理完畢,就合并到這個數據庫中,形成新的外部查重數據庫,然后下一個學科才能與這個新的外部查重數據庫開展查重和協(xié)調處理工作。

這兩個建議都可以減少術語數據庫中同義異形的術語,維護術語審定工作的嚴謹性和權威性。

另外,根據以上建議,尤其對目前已處于預公布階段的學科和已經做過查重處理但尚未到預公布階段的其他學科,由于這些學科還是用術語名稱為對象做的查重,查重結果不夠精確,所以建議把這些學科的術語合在一起作為一個大學科,開展以術語名稱中的文字串為對象的內部查重,并與已審定公布學科的術語數據庫開展以術語名稱中的文字串為對象的外部查重。

以上是筆者對術語查重工作的淺見。對以術語名稱中的文字串為對象的查重思想也通過Microsoft Excel 2007予以實現,并已在多個學科的內部查重工作中得到證實,可發(fā)現很多查重程序找不到的定名各異的同義術語。希望此文能對廣大術語工作者,尤其是多語種術語數據庫工作者有所幫助。

參考文獻

[1] 鄔江.科學技術名詞審定工作中的同義詞問題初探[J].中國科技術語,2011(6):31-33.

猜你喜歡
集合查重符號
學符號,比多少
學位論文查重亂象引關注
“+”“-”符號的由來
學術論文該“查”什么?
論文查重別大意
學術論文該“查”什么?
變符號
論述高中數學中集合的類型及基本運算
一道數學填空題引發(fā)對細節(jié)的思考
解讀《集合》
历史| 哈尔滨市| 贺兰县| 重庆市| 永年县| 垦利县| 墨竹工卡县| 宁明县| 海城市| 上饶县| 南平市| 衡阳市| 阳朔县| 于田县| 榆中县| 巧家县| 三亚市| 深圳市| 宜阳县| 扎鲁特旗| 彩票| 巩义市| 兴和县| 沅陵县| 丰原市| 禹城市| 江达县| 海伦市| 鹤山市| 拉孜县| 麻阳| 双江| 盖州市| 新密市| 恩平市| 新乡县| 新蔡县| 荆州市| 固阳县| 泸西县| 马鞍山市|