王華樹 劉世界
摘? 要:自然語言處理技術(shù)的飛速發(fā)展,使得術(shù)語抽取軟件在翻譯、教育、語言學(xué)等領(lǐng)域成為不可或缺的資源,軟件的種類也越來越多,可為用戶提供不同的功能。然而,如何選擇合適的軟件成了亟待解決的問題。此研究參考ISO/IEC 25010: 2011和GB/T 2500.10—2016,從術(shù)語抽取軟件的特性出發(fā),選取功能適用性、兼容性、性能效率、易用性、信息安全性五個(gè)方面,探討了術(shù)語抽取軟件的動(dòng)態(tài)化測(cè)評(píng)框架,并提出針對(duì)性的框架應(yīng)用建議與應(yīng)用案例,以期為用戶選擇恰當(dāng)?shù)男g(shù)語抽取軟件提供科學(xué)依據(jù)。
關(guān)鍵詞:術(shù)語抽取軟件;測(cè)評(píng)框架;術(shù)語管理;功能適用性;性能效率
中圖分類號(hào):TP391;H083? 文獻(xiàn)標(biāo)識(shí)碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.005
Evaluation Framework of Terminology Extraction Software//WANG Huashu, LIU Shijie
Abstract: The rapid development of natural language processing technology has made terminology extraction software (TES) an indispensable resource in translation, education, and linguistics, and there are more and more types of software that can provide users with different functions. However, how to choose an appropriate software has become an urgent problem. Referring to ISO/IEC 25010: 2011 and GB/T 2500.10—2016 standards, this study selects five aspects related to the characteristics of TES, such as functional suitability, compatibility, performance efficiency, usability, and information security, analyzes the dynamic evaluation framework of TES, and proposes recommendations and application cases for the framework to provide a scientific basis for users to choose an appropriate TES.
Keywords: terminology extraction software (TES); evaluation framework; terminology management;functional suitability; performance efficiency
引言
術(shù)語自動(dòng)抽?。╝utomatic term extraction, ATE)是一項(xiàng)從特定領(lǐng)域的語料庫(domain-specific corpus)中提取術(shù)語的自然語言處理任務(wù),抽取的方法主要包括基于詞典、基于統(tǒng)計(jì)、基于語言規(guī)則、基于機(jī)器學(xué)習(xí)的方法及多種混合的方法[1]。近年來開發(fā)的自動(dòng)術(shù)語抽取軟件在各種應(yīng)用場(chǎng)景中發(fā)揮著作用,例如術(shù)語篩選、同義詞庫構(gòu)建、文檔索引、技術(shù)監(jiān)視及其本體開發(fā)[2],其抽取效率對(duì)術(shù)語庫的構(gòu)建、數(shù)據(jù)的挖掘、機(jī)器翻譯詞典的編撰、機(jī)器輔助翻譯軟件效率的提升等方面有著重要的意義,備受學(xué)界關(guān)注。
術(shù)語抽取軟件的出現(xiàn)不僅提升了術(shù)語抽取效率,也在一定程度上避免了主觀性和缺乏系統(tǒng)性的風(fēng)險(xiǎn)。然而,國內(nèi)外術(shù)語抽取軟件紛繁復(fù)雜,按照系統(tǒng)結(jié)構(gòu)來劃分,整體上可分為獨(dú)立式和集成式兩大類[3],其中獨(dú)立式包含單機(jī)版與Web版,單機(jī)版如SDL MultiTerm Extract、SynchroTerm、TermSuite、Simple Extractor,Web版如Sketch Engine、Terminus、TermoStat、語帆術(shù)語寶(LingoSail TermBox);集成式也可稱為非獨(dú)立模塊版,指依附于計(jì)算機(jī)輔助軟件本體、無法單獨(dú)使用的術(shù)語抽取模塊,如Déjà Vu中的Lexicon、Anchovy、 memoQ中的術(shù)語抽取模塊。面對(duì)如此繁雜的術(shù)語抽取軟件,用戶經(jīng)常不知如何客觀有效地去評(píng)價(jià)它們并選擇滿足自己需求的一款。此外,囿于術(shù)語抽取軟件測(cè)評(píng)涉及自然語言處理、軟件工程和計(jì)算模型構(gòu)建等領(lǐng)域的知識(shí),測(cè)評(píng)難度較大。雖已有部分學(xué)者對(duì)術(shù)語抽取軟件測(cè)評(píng)框架進(jìn)行過實(shí)驗(yàn)性的研究,但仍不夠系統(tǒng)全面,得出的評(píng)測(cè)結(jié)果存在一定程度的主觀性和片面性。
1? ?研究基礎(chǔ)
在現(xiàn)有相關(guān)研究中, Sauron以及Perián-Pascual 和 Mairal-Usón的研究[4-5]被認(rèn)為較具有代表性,其主要目的是超越指標(biāo)性能測(cè)試的層面,為術(shù)語抽取軟件的比較和測(cè)評(píng)設(shè)計(jì)一個(gè)全面的框架。Sauron基于ISO/IEC 9126-1: 2001和Expert Advisory Group on Language Engineering Standards(EAGLES)評(píng)估工作組的測(cè)評(píng)方法提出了一種測(cè)評(píng)術(shù)語抽取軟件的標(biāo)準(zhǔn)化方法。Sauron從功能性(functionality)、可用性(usability)、可靠性(reliability)和效率(efficiency)4個(gè)特性(characteristic)著手,進(jìn)一步將其分解為7個(gè)子特性(subcharacteristic),如準(zhǔn)確性(accuracy)、互操作性(interoperability)、易學(xué)性(learnability)、可恢復(fù)性(recoverability)、適用性(suitability)、時(shí)間響應(yīng)(time response)和可理解性(understandability)[4]。這種選擇軟件中可量化的質(zhì)量屬性來構(gòu)建測(cè)評(píng)模型的方法,在一定程度上為用戶提供了較為全面的參考。Perián-Pascual 和 Mairal-Usón同樣遵循ISO/IEC 9126-1: 2001,自行設(shè)計(jì)了一個(gè)術(shù)語抽取軟件的測(cè)評(píng)框架。兩位學(xué)者提出的測(cè)評(píng)框架側(cè)重于軟件外部質(zhì)量(external quality)標(biāo)準(zhǔn),所以選取了ISO/IEC 9126-1: 2001中的功能性、可用性和效率3個(gè)特性,進(jìn)一步細(xì)分為4個(gè)子特性:適用性、精確率(precision)、可操作性(operability)和時(shí)間特性(time behavior)。并通過實(shí)證研究,使用該框架測(cè)評(píng)對(duì)比了其團(tuán)隊(duì)自行研制的術(shù)語抽取軟件(DEXTER)與其他3款開源型自動(dòng)術(shù)語抽取軟件[5]。兩位學(xué)者的研究實(shí)驗(yàn)性地利用自行設(shè)計(jì)的框架測(cè)評(píng)了4種術(shù)語抽取工具的質(zhì)量特性,打破了理論層面的探討,為解釋測(cè)評(píng)結(jié)果的方式提供了新見解。
然而,以上學(xué)者提出的測(cè)評(píng)框架并非系統(tǒng)全面的。Sauron在對(duì)屬性(attribute)設(shè)定評(píng)分規(guī)則時(shí)表述欠妥。例如,Sauron提出,如果軟件是“用戶友好型”(user-friendly),評(píng)分記為5;如果軟件“不是非常用戶友好型”(not very user friendly),則評(píng)分記為2.5[4]。這里的“very”一詞含有比較模糊的意味,對(duì)其解讀因人而異,也就很難客觀地衡量其“用戶友好”的屬性。此外,框架中設(shè)定的每個(gè)屬性都被設(shè)定為3個(gè)標(biāo)準(zhǔn),即“good”“acceptable”“unacceptable”,每個(gè)標(biāo)準(zhǔn)對(duì)應(yīng)不同的分值[4],但是這種賦分和表態(tài)的方式得出的結(jié)果不能更好表達(dá)態(tài)度強(qiáng)弱,可靠性欠佳。以上兩處存在明顯缺陷,在Perián-Pascual 和Mairal-Usón的文獻(xiàn)回顧部分[5]也曾明確提及,再次證實(shí)了Sauron的研究存在一定的局限性。Perián-Pascual 和Mairal-Usón兩位學(xué)者在介紹選取特性時(shí)并沒有結(jié)合術(shù)語抽取軟件的特點(diǎn)進(jìn)行深入的闡述,停留在ISO/IEC 9126-1: 2001中的宏觀概念層面。此外,他們僅基于ISO/IEC 9126-1: 2001中的軟件外部質(zhì)量標(biāo)準(zhǔn)選取了3個(gè)特性進(jìn)行測(cè)評(píng),在選取特性的客觀性方面欠佳,未將內(nèi)部質(zhì)量(internal quality)和使用質(zhì)量(quality in use)考慮在內(nèi),也未深入解釋3個(gè)特性之間的關(guān)系。因此,通過計(jì)算模型得出的結(jié)論的準(zhǔn)確性有待驗(yàn)證。
綜上所述,發(fā)現(xiàn)相關(guān)研究的不足在于:選取的研究特性不全面,特性間的關(guān)聯(lián)度不強(qiáng),賦分規(guī)則設(shè)定不科學(xué),概念的闡述脫離術(shù)語抽取軟件的特點(diǎn)。因此,本研究兼顧術(shù)語抽取軟件的功能性和非功能性特性,充分結(jié)合術(shù)語抽取軟件的特點(diǎn)對(duì)所選取特性的概念進(jìn)行詳細(xì)闡述,采用動(dòng)態(tài)化的科學(xué)評(píng)估方法,力求客觀地為用戶呈現(xiàn)一個(gè)全新的測(cè)評(píng)視角,提供一個(gè)兼具完善性和可操作性的動(dòng)態(tài)測(cè)評(píng)框架。
2? 測(cè)評(píng)框架構(gòu)建
基于此,文章遵循ISO/IEC 25010: 2011[6],借鑒GB/T 2500. 10—2016[7]中的部分內(nèi)容(如信息安全性),結(jié)合軟件質(zhì)量評(píng)價(jià)的三個(gè)部分和術(shù)語抽取軟件的特性,設(shè)計(jì)了一個(gè)比較全面系統(tǒng)的動(dòng)態(tài)測(cè)評(píng)框架(見圖1)。該框架選取了功能適用性、兼容性、性能效率、易用性、信息安全性5個(gè)特性,進(jìn)一步分解為功能正確性、功能適合性、軟件兼容性、數(shù)據(jù)兼容性、時(shí)間特性、容量、易學(xué)性、用戶界面舒適性、保密性、完整性、信息安全性的依從性11個(gè)子特性,最后再細(xì)分為若干個(gè)屬性,以幫助用戶確定最適合他們需求的軟件。本框架中的子特性并非完全按照ISO/IEC 25010: 2011和GB/T 2500. 10—2016來選取,有一部分是根據(jù)術(shù)語抽取軟件自身的特性(如軟件兼容性、數(shù)據(jù)兼容性)來制定的。需要指出的是,術(shù)語抽取軟件的測(cè)評(píng)特性紛繁復(fù)雜,本文盡可能全面地列出測(cè)評(píng)術(shù)語抽取軟件的重要特性。下文將對(duì)這些測(cè)評(píng)指標(biāo)逐一介紹和分析,并提出測(cè)評(píng)框架的應(yīng)用建議和應(yīng)用案例。
2.1 功能適用性
功能適用性(functional suitability)是在指定條件下使用時(shí),產(chǎn)品或系統(tǒng)提供滿足明確和隱含要求的功能的程度[6]。結(jié)合術(shù)語抽取軟件的特殊性,本框架只考慮與此密切相關(guān)的兩個(gè)子特性:功能正確性(functional correctness)和功能適合性(functional appropriateness)。
2.1.1 功能正確性
功能正確性是產(chǎn)品或系統(tǒng)提供具有所需精度的正確的結(jié)果的程度[6]。精確率(precision)、召回率(recall)和F1值(F1 measure)是評(píng)價(jià)術(shù)語抽取結(jié)果中較常用且易操作的度量標(biāo)準(zhǔn)[8],可用來測(cè)評(píng)術(shù)語抽取軟件的功能正確性。根據(jù)Vivaldi和Rodríguez構(gòu)建的計(jì)算模型(見圖2),精確率是軟件抽取的可采納的術(shù)語(accepted terms)與軟件抽取的所有候選術(shù)語(term candidates)數(shù)量的比值,用來衡量抽取的候選術(shù)語的正確性;召回率是軟件抽出的可采納的術(shù)語與所測(cè)試語料文本中黃金標(biāo)準(zhǔn)(Gold Standard)術(shù)語表所包含的術(shù)語數(shù)量的比值,用來衡量抽取的候選術(shù)語的全面性[8]。一般情況下,二者結(jié)合使用,精確率和召回率均為高值時(shí),則表示抽取效果理想。然而,抽取的閾值(threshold value)降低或過濾條件寬松(open filter)時(shí),將有更多符合條件的術(shù)語,此時(shí)召回率提高而精確率降低;抽取的過濾條件嚴(yán)格(closed filter)時(shí),則會(huì)導(dǎo)致精確率提高而召回率降低[8-9],由此可以看出精確率和召回率是兩個(gè)相互制約的衡量標(biāo)準(zhǔn)。在這種情況下,Vivaldi 和Rodríguez引入了F1值的概念(見圖3),將其作為加權(quán)調(diào)和均值來綜合精確率和召回率的衡量值,削弱了二者間的明顯差異,可以客觀測(cè)評(píng)術(shù)語抽取軟件的功能正確性[8]。
2.1.2 功能適合性
功能適合性是功能促進(jìn)指定的任務(wù)和目標(biāo)實(shí)現(xiàn)的程度[6],排除任何不必要的步驟,只為用戶提供必要的步驟就可以完成任務(wù)。各類術(shù)語抽取軟件提供的功能多種多樣,在測(cè)評(píng)其功能適用性時(shí),需要考慮到系統(tǒng)是否支持多語言對(duì)、單/雙語提取、單/雙語標(biāo)注、詞長/詞頻限制、(原/譯文)停用表功能、靜噪比設(shè)置、結(jié)果篩選、術(shù)語添加/編輯、術(shù)語管理、術(shù)語分享、標(biāo)簽分類等。在滿足以上功能的同時(shí)也需評(píng)估在執(zhí)行每一項(xiàng)必要功能或任務(wù)時(shí)是否存在不必要的操作。
2.2 兼容性
兼容性(compatibility)是在共享相同的硬件或軟件環(huán)境的條件下,產(chǎn)品、系統(tǒng)或組件能夠與其他產(chǎn)品、系統(tǒng)或組件交換信息、執(zhí)行其所需功能的程度[6]。本框架主要考慮與兼容性最相關(guān)的兩個(gè)子特性:軟件兼容性和數(shù)據(jù)兼容性。
2.2.1 軟件兼容性
軟件兼容性包括操作系統(tǒng)兼容性、應(yīng)用軟件兼容性、瀏覽器兼容性,是測(cè)評(píng)術(shù)語抽取軟件的一個(gè)重要因素。理想的術(shù)語抽取軟件應(yīng)該具有平臺(tái)無關(guān)性,即不受操作系統(tǒng)類型的影響便可完美運(yùn)行。市面上多種術(shù)語抽取軟件或抽取模塊,如SDL MultiTerm Extract、Déjà Vu中的Lexicon、memoQ中的術(shù)語提取模塊,僅支持在Windows環(huán)境下運(yùn)行,比起某些能夠在Windows、macOS和Linux系統(tǒng)環(huán)境中運(yùn)行的術(shù)語抽取軟件,操作系統(tǒng)兼容性便會(huì)成為一個(gè)典型的區(qū)分指標(biāo)。應(yīng)用軟件兼容性尤指組件在與其他平臺(tái)或軟件共享通用的環(huán)境和資源的條件下,能夠有效執(zhí)行其所能提供的功能的程度,如Tmxmall在線對(duì)齊界面中接入語帆術(shù)語寶的術(shù)語抽取端口,實(shí)現(xiàn)對(duì)現(xiàn)有語料的雙語提取,在一定程度上反映了術(shù)語抽取軟件的軟件兼容性。瀏覽器兼容性主要針對(duì)Web端的術(shù)語抽取平臺(tái),是測(cè)試其在不同瀏覽器或不同分辨率的瀏覽器中能否正常運(yùn)行的重要指標(biāo)。
2.2.2 數(shù)據(jù)兼容性
數(shù)據(jù)兼容性包括新舊數(shù)據(jù)轉(zhuǎn)換性、異種數(shù)據(jù)兼容性,是確保數(shù)據(jù)在不同版本和不同軟件間自由交換的重要子特性。新舊數(shù)據(jù)轉(zhuǎn)換性是指術(shù)語抽取軟件不同版本間的數(shù)據(jù)兼容,比如軟件或平臺(tái)升級(jí)或更新后可能定義了新的數(shù)據(jù)格式或文件格式,此時(shí)需要考慮到轉(zhuǎn)換過程中數(shù)據(jù)的完整性與正確性,確保對(duì)原來格式的支持及更新。異種數(shù)據(jù)兼容性是指術(shù)語抽取軟件支持?jǐn)?shù)據(jù)格式的程度,即可否完全正確導(dǎo)入、導(dǎo)出常用格式的文件以及導(dǎo)出的數(shù)據(jù)格式被其他軟件讀取的程度。例如, SDL MultiTerm Extract 支持從大量的文件格式中抽取術(shù)語,具體文件格式取決于用戶當(dāng)前所使用的項(xiàng)目類型,如單語術(shù)語抽取項(xiàng)目(Monolingual Term Extraction Project)、雙語術(shù)語抽取項(xiàng)目(Bilingual Term Extraction Project)、詞典編纂項(xiàng)目(Dictionary Compilation Project)、翻譯項(xiàng)目(Translation Project)和質(zhì)檢項(xiàng)目(QA Project)。支持的文件格式合計(jì)達(dá)20余種,如TXT、DOC、HTML、HTM、XLS、PPT、XML、TMX、RTF、ISC、PPS等。抽取后的術(shù)語數(shù)據(jù)(XML、TXT)可以直接導(dǎo)出至術(shù)語庫,免去術(shù)語數(shù)據(jù)格式轉(zhuǎn)換的步驟。語帆術(shù)語寶支持TMX、TXT和DOC(X)格式的文件導(dǎo)入,導(dǎo)出格式為XLS(X)和TBX的文件,然而還需利用SDL MultiTerm Convert將XLS(X)或TBX文件轉(zhuǎn)換為XDT和MultiTerm XML文件,方可進(jìn)一步導(dǎo)入術(shù)語管理軟件(如SDL MultiTerm Desktop)。
2.3 性能效率
性能效率(performance efficiency)與指定條件下所使用的資源量有關(guān)[6],即在保證高效完成任務(wù)的前提下,所用時(shí)間越短,性能效率越高。本框架主要考慮性能效率中可量化衡量的兩個(gè)子特性:時(shí)間特性(time behavior)和容量(capacity)。
2.3.1 時(shí)間特性
時(shí)間特性是指產(chǎn)品或系統(tǒng)執(zhí)行功能時(shí),其響應(yīng)時(shí)間、處理時(shí)間及吞吐率滿足需求的程度[6]。Perián-Pascual和Mairal-Usón曾使用一個(gè)大小為1.57MB的西班牙語料庫來根據(jù)詞權(quán)重(term weighting)的響應(yīng)時(shí)間測(cè)評(píng)4款術(shù)語抽取軟件的時(shí)間特性,進(jìn)而得出性能效率的測(cè)評(píng)結(jié)果。根據(jù)結(jié)果,他們認(rèn)為主要存在兩個(gè)影響因素,即候選術(shù)語提取(candidate extraction)的方式和詞權(quán)重的復(fù)雜性[5]。至于Perián-Pascual 和 Mairal-Usón所提及的兩個(gè)因素,不易采用量化的方式去衡量,所以本研究考慮將術(shù)語抽取的時(shí)間成本作為衡量性能效率的一個(gè)重要因素,具體涉及源文檔的讀取時(shí)間、人工篩選時(shí)間和數(shù)據(jù)導(dǎo)出時(shí)間。
2.3.2 容量
容量指產(chǎn)品或系統(tǒng)參數(shù)的最大限量滿足需求的程度[6],可以作為衡量性能效率的輔助子特性。不同術(shù)語抽取軟件的容量有所不同,譬如,在語帆術(shù)語寶中,普通用戶無論是單語提取還是雙語提取,單次上傳僅支持單個(gè)文件,且文件大小不超過5M,開通會(huì)員后則支持100M的大文件上傳;在SDL MultiTerm Extract中根據(jù)所選項(xiàng)目類型,支持單個(gè)或批量文件上傳,文件大小不受限制; memoQ中的術(shù)語抽取模塊可以即時(shí)對(duì)翻譯文件(translation documents)、翻譯記憶庫(translation memories)或?qū)R的語料庫文件(LiveDocs corpus documents)以單文件或批量文件的形式進(jìn)行術(shù)語抽取,文件大小同樣不受限制。
2.4 易用性
易用性(usability)指在指定的使用環(huán)境中,產(chǎn)品或系統(tǒng)在有效性、效率和滿意度等方面為了指定的目標(biāo)可為指定用戶使用的程度[6],本框架主要考慮與易用性密切相關(guān)的兩個(gè)子特性:易學(xué)性(learnability)、用戶界面舒適性(user interface aesthetics)。
2.4.1 易學(xué)性
易學(xué)性旨在描述用戶首次完成界面操作的難度,以及達(dá)到熟練操作時(shí)所重復(fù)的操作次數(shù),是測(cè)評(píng)術(shù)語抽取軟件易用性最重要的子特性。根據(jù)Joyce的分析,可從3個(gè)維度來分析易學(xué)性,即初次使用時(shí)的易學(xué)性(first-use learnability)、學(xué)習(xí)曲線的陡度(steepness of the learning curve)和效率飽和點(diǎn)(efficiency of the ultimate plateau),理想情況下三者表現(xiàn)優(yōu)異方可證明軟件易學(xué)性良好[10]。然而,也常常會(huì)面臨一種窘境,即用戶在使用一款術(shù)語抽取軟件時(shí),每一個(gè)操作步驟都有詳細(xì)說明和解釋,用戶感覺比較容易上手,但這種情況下學(xué)習(xí)曲線較為平緩。隨著重復(fù)操作的次數(shù)增加,用戶對(duì)操作界面比較熟悉后,便會(huì)達(dá)到效率飽和點(diǎn),感覺詳細(xì)的操作步驟說明會(huì)導(dǎo)致使用效率低下。因此,一款易學(xué)性良好的術(shù)語抽取軟件應(yīng)該考慮增加快捷鍵或跳過介紹等操作,旨在給用戶帶來快速的引導(dǎo)流程和較低的學(xué)習(xí)成本,讓用戶感到自信,從而提高用戶滿意度[10]。在語帆術(shù)語寶中,平臺(tái)會(huì)為每一步操作提供簡(jiǎn)單的向?qū)Щ蛭淖终f明,比如在上傳待提取的文件時(shí),會(huì)告知用戶平臺(tái)所支持的格式和語言對(duì)及文件大小的限制,達(dá)到了一種用戶易學(xué)性友好的效果。此外,操作界面是否提供幫助文檔或視頻(含支持語種的數(shù)量)、是否提供技術(shù)支持(例如在線客服、及時(shí)通信或郵件聯(lián)系方式)等都應(yīng)是測(cè)評(píng)術(shù)語抽取軟件易學(xué)性需要考慮的指標(biāo)。
2.4.2 用戶界面舒適性
用戶界面舒適性是指用戶界面提供令人愉悅和滿意的交互的程度[6],屬于視覺上的設(shè)計(jì),但其重要性不亞于功能設(shè)計(jì)。舒適的用戶界面設(shè)計(jì)需要從用戶體驗(yàn)的角度出發(fā),充分考慮用戶體驗(yàn)的要素,把握好操作界面的人機(jī)交互、操作邏輯和界面美觀的整體設(shè)計(jì)。Garett認(rèn)為用戶體驗(yàn)(user experience)是一個(gè)自下而上的層級(jí)機(jī)構(gòu),包含5個(gè)層級(jí),分別是戰(zhàn)略層、范圍層、結(jié)構(gòu)層、框架層和表現(xiàn)層[11]。其中,框架層(skeleton)可以進(jìn)一步分解為界面設(shè)計(jì)、導(dǎo)航設(shè)計(jì)和信息設(shè)計(jì)[11],目的是合理分割頁面空間,提高交互體驗(yàn),同時(shí)也方便用戶的使用和操作。因此,框架層的理念可用于測(cè)評(píng)用戶界面舒適性。具體而言,界面設(shè)計(jì)包括顏色的使用、圖形化的設(shè)計(jì);導(dǎo)航設(shè)計(jì)用于呈現(xiàn)信息的表現(xiàn)形式;信息設(shè)計(jì)則用于提供有效的信息交流,如資訊更新、技術(shù)支持、咨詢方式。以SDL MultiTerm Extract為例,軟件整體界面顏色為灰白搭配,最上方采用圖標(biāo)和文字(重要步驟處加粗處理)的形式進(jìn)行信息指引,最下方為導(dǎo)航區(qū)域,簡(jiǎn)單幾個(gè)按鈕便可以引導(dǎo)用戶完成操作,在框架層面考慮了用戶的交互體驗(yàn),達(dá)到一種用戶界面舒適性良好的效果。
2.5 信息安全性
信息安全性指產(chǎn)品或系統(tǒng)保護(hù)信息和數(shù)據(jù)的程度,以使用戶、其他產(chǎn)品或系統(tǒng)具有與其授權(quán)類型和授權(quán)級(jí)別一致的數(shù)據(jù)訪問度[7],信息安全性高的術(shù)語抽取軟件可以保護(hù)軟/硬件、數(shù)據(jù)不因偶然或惡意原因而遭到未授權(quán)訪問、破壞、篡改和泄露。本框架主要考慮與信息安全性緊密相關(guān)的3個(gè)子特性:保密性、完整性、信息安全性的依從性。
2.5.1 保密性
保密性指產(chǎn)品或系統(tǒng)確保數(shù)據(jù)只有在被授權(quán)時(shí)才能被訪問的程度[7],不僅防止未獲得授權(quán)的人或系統(tǒng)訪問相關(guān)的信息或數(shù)據(jù),還要保證獲得授權(quán)的人或系統(tǒng)能正常訪問相關(guān)的信息或數(shù)據(jù)。以下情況均可作為測(cè)評(píng)術(shù)語抽取軟件保密性的指標(biāo),例如,登錄時(shí)是否需要每次都進(jìn)行用戶身份鑒別,是否存在登錄驗(yàn)證碼,是否有登錄失敗次數(shù)限制,用戶賬號(hào)密碼是否可見、可復(fù)制。
2.5.2 完整性
保密性與完整性定義相似,但二者側(cè)重點(diǎn)有所不同。完整性指系統(tǒng)、產(chǎn)品或組件防止未授權(quán)訪問、篡改計(jì)算機(jī)程序或數(shù)據(jù)的程度[7]。對(duì)于術(shù)語抽取軟件而言,尤指其數(shù)據(jù)的完整性,例如在進(jìn)行術(shù)語管理時(shí)是否具備術(shù)語數(shù)據(jù)自動(dòng)保存的功能、術(shù)語庫數(shù)據(jù)遭受破壞或篡改后是否具備恢復(fù)功能。在語帆術(shù)語寶中,如果用戶在上次操作時(shí)忘記保存或?qū)С鲂g(shù)語,再次進(jìn)入操作界面時(shí),會(huì)出現(xiàn)一條溫馨提示“系統(tǒng)檢測(cè)到你提取到的術(shù)語還未保存或?qū)С鼍庉嫽騺G棄”,在一定程度上可確保用戶術(shù)語數(shù)據(jù)的完整性,避免重復(fù)性操作。
2.5.3 信息安全性的依從性
信息安全性的依從性指產(chǎn)品或系統(tǒng)遵循與信息安全性相關(guān)的標(biāo)準(zhǔn)、約定或法規(guī)以及類似規(guī)定的程度[7],目的是核實(shí)軟件、系統(tǒng)或組件是否遵循了涉及用戶認(rèn)證安全、系統(tǒng)網(wǎng)絡(luò)安全、數(shù)據(jù)庫安全、數(shù)據(jù)采取行為等法律法規(guī)。隨著信息安全立法進(jìn)程在全球持續(xù)推進(jìn),各國政府都對(duì)現(xiàn)行信息安全治理相關(guān)政策法規(guī)進(jìn)行了改進(jìn)和完善,如《中華人民共和國計(jì)算機(jī)信息系統(tǒng)安全保護(hù)條例》(1994)、《中華人民共和國網(wǎng)絡(luò)安全法》(2016)、《在線隱私法》(2019)、《國家安全和個(gè)人數(shù)據(jù)保護(hù)法》(2019)、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》(2020)等。術(shù)語抽取軟件涉及數(shù)據(jù)的傳輸和儲(chǔ)存,小到個(gè)人隱私層面,大到國家信息安全層面,因此術(shù)語抽取軟件應(yīng)遵循信息安全性的依從性,不僅對(duì)用戶的信息或數(shù)據(jù)資產(chǎn)安全負(fù)責(zé),更要重視和貫徹國家信息安全戰(zhàn)略。術(shù)語抽取軟件是否符合或遵從相關(guān)標(biāo)準(zhǔn)、約定或法規(guī),只需檢查幫助文檔或軟件用戶服務(wù)協(xié)議即可。
3? 測(cè)評(píng)框架應(yīng)用
3.1 應(yīng)用建議
因術(shù)語抽取軟件中不同特性所涉及的具體指標(biāo)各異,故通過某個(gè)固定的方法去測(cè)評(píng)一款術(shù)語抽取軟件的全部特性是很難實(shí)現(xiàn)的,得出的結(jié)果也會(huì)欠缺說服力。因此,在實(shí)際測(cè)評(píng)時(shí),除采用李克特量表這種評(píng)分加總式的量表,用戶還可以考慮選擇模糊綜合評(píng)價(jià)法(Fuzzy Comprehensive Evaluation,F(xiàn)CE)、層次分析法(Analytic Hierarchy Process,AHP)或混合使用的方法,將定性評(píng)價(jià)轉(zhuǎn)化為定量評(píng)價(jià)或定性和定量相結(jié)合,以科學(xué)化的方法處理模糊性強(qiáng)、難以量化測(cè)評(píng)的特性或子特性。在此方面,翻譯自動(dòng)化用戶協(xié)會(huì)(TAUS)與都柏林城市大學(xué) Sharon O’ Brien 教授團(tuán)隊(duì)合作研發(fā)的新型翻譯質(zhì)量評(píng)估系統(tǒng)(Dynamic Quality Framework,DQF)為本研究帶來一種新的評(píng)估思路,即考慮核心構(gòu)成要素,動(dòng)態(tài)靈活地選擇評(píng)估方法[12],具體使用見下文應(yīng)用案例。此外,在測(cè)評(píng)軟件的功能正確性時(shí)建議嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語表,其精確性將直接影響術(shù)語抽取的召回率。黃金標(biāo)準(zhǔn)術(shù)語表需要先人工進(jìn)行術(shù)語標(biāo)注,經(jīng)領(lǐng)域?qū)<遥╠omain specialists)審核后方可制定使用,所以在此過程中用戶可通過關(guān)注詞頻(frequency)、短語類別(phrasal category)、詞目(lemma)和原材料的缺陷(source material flaws)來提升標(biāo)注效率和黃金標(biāo)準(zhǔn)術(shù)語表的可靠性[13],進(jìn)而確??陀^測(cè)評(píng)術(shù)語抽取軟件的功能適用性。
3.2 應(yīng)用案例
為綜合測(cè)評(píng)A和B兩款術(shù)語抽取軟件,本研究提供了一種動(dòng)態(tài)、開放、可度量的模型示例,如表1所示。從特性出發(fā),將其分解為多個(gè)子特性,子特性繼續(xù)分解為多個(gè)度量(metrics),這樣就可以將術(shù)語抽取軟件的特點(diǎn)以權(quán)重的形式全面反映到度量上,形成統(tǒng)一的、可操作性的標(biāo)準(zhǔn),確保評(píng)估值在一個(gè)量綱層面。同時(shí)參考動(dòng)態(tài)質(zhì)量評(píng)估框架(DQF)的理念,根據(jù)不同的度量特點(diǎn),采用不同的測(cè)評(píng)方法,比如數(shù)值標(biāo)度、二值標(biāo)度、李克特五分量表等。具體而言,數(shù)值標(biāo)度是指得到的百分?jǐn)?shù)值,主要針對(duì)精確率、召回率和F1值。其中,召回率和F1值均應(yīng)在嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語表的前提下計(jì)算得出;二值標(biāo)度是指得到的回應(yīng)為“是”或“否”(“是”為1,“否”為0),如“是否支持靜噪比設(shè)置?”;李克特五分量表測(cè)出來的是5個(gè)回應(yīng)類別,比如“非常滿意”“滿意”“不好說”“不滿意”“非常不滿意”,每一個(gè)回應(yīng)類別對(duì)應(yīng)不同的分值。
需要注意的是,隨著后期研究的不斷深入,特性、子特性和度量都會(huì)呈現(xiàn)出動(dòng)態(tài)的變化,每個(gè)部分的權(quán)重也可以隨時(shí)進(jìn)行調(diào)整,達(dá)到一種測(cè)評(píng)框架復(fù)用的效果。目前模型中的權(quán)重分配僅做實(shí)驗(yàn)演示,真實(shí)場(chǎng)景中需要根據(jù)用戶的需求和其對(duì)于各特性、子特性和度量的看法做適當(dāng)調(diào)整。假設(shè)用戶十分重視術(shù)語抽取軟件的功能適用性,對(duì)于其易用性并沒有那么重視,則可適當(dāng)增加功能適用性的權(quán)重,降低易用性的權(quán)重。對(duì)于子特性和度量的調(diào)整也可遵照這種方法操作。此處以功能適用性為例,對(duì)A和B兩款術(shù)語抽取軟件的功能適用性進(jìn)行測(cè)評(píng),如表2所示。
在該實(shí)驗(yàn)?zāi)P椭?,功能適用性的權(quán)重為30%,按照百分制折合為30分,計(jì)算起來方便易操作,如A的精確率綜合得分=30*50%*30%*40%=1.8。如表2所示,A和B兩款術(shù)語抽取軟件的功能適用性以此方式便算出得分分別為15.9和20.4,則可以說明B款在功能適用性方面優(yōu)于A款。當(dāng)其他特性也按照這種方式進(jìn)行計(jì)算后,最后將各特性的分值累加之后便是該款術(shù)語抽取軟件的總得分。進(jìn)而根據(jù)各款術(shù)語抽取軟件的總得分情況,便可以客觀地計(jì)算出用戶的最優(yōu)選擇。
4 結(jié)語
本文通過遵循和借鑒ISO/IEC 25010: 2011、GB/T 2500. 10—2016標(biāo)準(zhǔn),選取了功能適用性、兼容性、性能效率、易用性和信息安全性等5個(gè)特性,嘗試在前人[4-5]的基礎(chǔ)上為術(shù)語抽取軟件構(gòu)建一個(gè)全面、動(dòng)態(tài)、開放的測(cè)評(píng)框架。針對(duì)測(cè)評(píng)過程中需要注意的事項(xiàng)提出框架應(yīng)用建議,并為用戶演示了如何使用這個(gè)動(dòng)態(tài)化、可度量的測(cè)評(píng)框架模型,以引導(dǎo)用戶將術(shù)語抽取軟件與術(shù)語管理過程緊密結(jié)合在一起,客觀評(píng)價(jià)術(shù)語抽取軟件。限于實(shí)驗(yàn)條件等方面的原因,本文提供的測(cè)評(píng)框架還需要進(jìn)一步驗(yàn)證。后續(xù)研究將從用戶體驗(yàn)的角度出發(fā),采用李克特五分量表、模糊綜合評(píng)價(jià)法和層次分析法相結(jié)合的方法,通過實(shí)證研究對(duì)該框架進(jìn)行多輪驗(yàn)證,不斷提升其科學(xué)性與可操作性。
參考文獻(xiàn)
[1] 王華樹, 王少爽. 翻譯場(chǎng)景下的術(shù)語管理: 流程、工具與趨勢(shì)[J]. 中國科技術(shù)語, 2019, 21(3): 9-14.
[2] BERNIER-COLBORNE G. Defining a gold standard for the evaluation of term extractors[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC ’12), 2012: 15-18.
[3] 王華樹. 淺議實(shí)踐中的術(shù)語管理[J]. 中國科技術(shù)語, 2013, 15(2): 11-14.
[4] SAURON V. Tearing out the terms: Evaluating terms extractors[C]//Proceedings of the Aslib Conference Translating and the Computer 24, London: The Association for Information Management, 2002: 1-18.
[5] PERIN-PASCUAL C, MAIRAL-USN R. A framework of analysis for the evaluation of automatic term extractors[J]. Vigo International Journal of Applied Linguistics, 2018: 105-125.
[6] ISO. ISO/IEC 25010:2011 Systems and Software Engineering—Systems and Software Quality Requirements and Evaluation (SQuaRE)—System and Software Quality Models[S]. Geneva: International Organization for Standardization International Electrotechnical Commission, 2011.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局, 中國國家標(biāo)準(zhǔn)化管理委員會(huì). GB/T 25000.10—2016 系統(tǒng)與軟件工程: 系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQuaRE)? 第10部分: 系統(tǒng)與軟件質(zhì)量模型[S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2016.
[8] VIVALDI J, RODRGUEZ H. Evaluation of terms and term Extraction Systems: A practical approach[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 2007, 13(2): 225-248.
[9] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: The C-value/NC-value method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
[10] JOYCE A. How to Measure Learnability of a User Interface[EB/OL].? (2019-10-20)[2021-05-04]. https://www.nngroup.com/articles/measure-learnability.
[11] GARRETT J J. 用戶體驗(yàn)要素: 以用戶為中心的產(chǎn)品設(shè)計(jì)[M]. 范曉燕,譯. 北京: 機(jī)械工業(yè)出版社, 2011.
[12] 王均松. 翻譯質(zhì)量評(píng)估新方向: DQF動(dòng)態(tài)質(zhì)量評(píng)估框架[J]. 中國科技翻譯, 2019, 32(3): 27-29.
[13] DERIEMAEKER J. Research into the performance of the terminology extraction software Termtreffer[D]. Belgium: Ghent University, 2012: 13-17.
作者簡(jiǎn)介:王華樹(1980—),男,博士,北京外國語大學(xué)高級(jí)翻譯學(xué)院副教授,兼任世界翻譯教育聯(lián)盟翻譯技術(shù)研究會(huì)會(huì)長、中國翻譯協(xié)會(huì)本地化服務(wù)委員會(huì)副秘書長、中國英漢語比較研究會(huì)外語教育技術(shù)專業(yè)委員會(huì)副秘書長、《中國科技術(shù)語》編委等。多年來致力于推動(dòng)翻譯技術(shù)產(chǎn)學(xué)研的生態(tài)融合,在《中國翻譯》《外國語》《外語電化教學(xué)》《上海翻譯》等期刊發(fā)表論文六十余篇,主持國家級(jí)、省部級(jí)及校級(jí)科研項(xiàng)目十多項(xiàng),出版《人工智能時(shí)代翻譯技術(shù)研究》《計(jì)算機(jī)輔助翻譯概論》《應(yīng)用程序本地化》《翻譯與本地化項(xiàng)目管理》等十多部著作。研究領(lǐng)域:翻譯與本地化技術(shù)、外語教育技術(shù)、術(shù)語管理。通信方式:wanghuashu@vip.qq.com。
劉世界(1994—),男,上海海事大學(xué)外國語學(xué)院2019級(jí)碩士研究生,專業(yè)為英語筆譯,曾在《外語教學(xué)》《中國ESP研究》等刊物上發(fā)表論文。研究方向:翻譯技術(shù)、術(shù)語管理、機(jī)器翻譯譯后編輯。通信方式:henryliushijie@163.com。