胡雪嬋,韓雪峰,申晴
(1.東北師范大學(xué)國際漢學(xué)院,吉林 長春 130000;2.中國科學(xué)院蘇州生物醫(yī)學(xué)工程技術(shù)研究所,吉林長春 130000;3.長春師范大學(xué)外國語學(xué)院,吉林 長春 130000)
醫(yī)療器械指的是能夠?qū)崿F(xiàn)一項或多項醫(yī)療用途的設(shè)備或軟件。為了加強對醫(yī)療器械的說明書、標(biāo)簽和包裝標(biāo)識的進一步管理,2014 年10 月1 日起,我國施行了《醫(yī)療器械說明書和標(biāo)簽管理規(guī)定》(國家食品藥品監(jiān)督管理總局局令第6 號),對醫(yī)療器械說明書等文字材料的使用進行了明確的規(guī)范和指導(dǎo)。醫(yī)療器械的說明書是醫(yī)療器械的重要組成部分,這一部分的撰寫是否清晰合格直接影響著該器械能否通過審核并生產(chǎn)上市,更關(guān)乎上市后使用者的使用體驗,所以建立醫(yī)療器械用語的材料庫就成為了亟待著手的一大重要課題。
以往,醫(yī)療器械的研發(fā)均由專業(yè)的技術(shù)人員完成,完成研制器械本身之后,再由這部分技術(shù)人員按照操作流程自己撰寫說明書,但完成研發(fā)的技術(shù)人員多為醫(yī)學(xué)背景或工程技術(shù)人員,未經(jīng)過專門的語言訓(xùn)練,文字書寫表達能力欠佳,所以從前的醫(yī)療器械說明書的撰寫大多不受重視,粗糙潦草,表意不清,用詞不明,為使用者帶來了諸多不便。因此,國家審核部門近年來加大了醫(yī)療器械說明書和標(biāo)簽等文字材料的審核力度,一大批器械本身合格但說明書簡陋、表達不清的醫(yī)療器械未能完成申請上市,其中不乏一些知名生產(chǎn)商的產(chǎn)品,這說明醫(yī)療器械的配套文字材料的地位和重要性在逐步上升,所以如何規(guī)范地選用詞語和句型來撰寫說明書,已經(jīng)成為了擺在生產(chǎn)商面前的重點和難題。于是,建立一個完備的、標(biāo)準(zhǔn)清晰且收詞科學(xué)的醫(yī)療器械漢語語料庫以指導(dǎo)醫(yī)療器械說明書的寫作已經(jīng)迫在眉睫。
從語料庫的角度來分類,醫(yī)療器械漢語語料庫屬于專門用途語料庫,專門收錄用于編寫醫(yī)療器械名稱、醫(yī)療器械使用說明書和醫(yī)療器械標(biāo)簽等文字材料的詞匯和句型句式。其基本的建立和操作,可借鑒的經(jīng)驗和技術(shù)頗多:
UMLS 是一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System)的簡稱,這個系統(tǒng)最早由美國國立醫(yī)學(xué)圖書館于1986 年開發(fā),主要用于幫助使用者在查找病案記錄、書目數(shù)據(jù)庫、事實數(shù)據(jù)庫以及專家系統(tǒng)的過程中對其中的電子生物醫(yī)學(xué)情報作一體化檢索。UMLS 系統(tǒng)由四部分組成:超級敘詞表、語義網(wǎng)絡(luò)、情報員圖譜和專家詞典。超級敘詞表廣泛集成了生物醫(yī)學(xué)概念、術(shù)語、詞匯及其含義、等級范疇;語義網(wǎng)絡(luò)為超級敘詞表中的所有概念提供了語義類型及相互關(guān)系結(jié)構(gòu),是聯(lián)接龐大詞匯的“血管”;情報源圖譜是一個關(guān)于生物醫(yī)學(xué)機讀情報資源的數(shù)據(jù)庫;專家詞典包含了一個英語詞匯數(shù)據(jù)庫和一組詞典和詞索引程序。
使用至今,UMLS 系統(tǒng)已經(jīng)比較完備,收詞量大,語義關(guān)系相對較清晰,檢索效率高,誤差率得到有效控制[1]。
建立醫(yī)療器械漢語語料庫可以借鑒的主要集中在超級敘詞表這一部分。語料庫的建立,從根本上來看是眾多相關(guān)詞匯信息不斷分類并不斷被提供的過程,所以詞匯的分類標(biāo)準(zhǔn)、標(biāo)注技術(shù)、檢索關(guān)鍵點是醫(yī)療器械漢語語料庫建立的幾個重要指標(biāo)。超級敘詞表中的《通用醫(yī)學(xué)儀器術(shù)語系統(tǒng)——產(chǎn)品目錄詞表》(1997 年)可以為醫(yī)療器械漢語語料庫提供一些有用的范式。
基于UMLS 的幾個中文醫(yī)學(xué)語言系統(tǒng),已經(jīng)展開了初步研究:中文一體化醫(yī)學(xué)語言系統(tǒng)(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所研發(fā))和中醫(yī)藥一體化語言系統(tǒng)(中國中醫(yī)研究院研發(fā))是其中的典型。從本質(zhì)來講,醫(yī)療器械漢語語料庫應(yīng)該是中文一體化醫(yī)學(xué)語言系統(tǒng)的子系統(tǒng),側(cè)重點是醫(yī)療器械用語而非醫(yī)藥生物科學(xué)類的詞匯,所以醫(yī)療器械漢語語料庫的建立是完全可以參照已建成的幾個中文醫(yī)藥語料庫的既往經(jīng)驗。
醫(yī)療器械漢語語料庫的本質(zhì)是語料庫,一般語料庫的建立分為三個基本步驟:1.收集和選擇詞表;2.規(guī)范并整理概念,形成統(tǒng)一的標(biāo)記,建立概念之間的聯(lián)系;3.構(gòu)建語義網(wǎng)絡(luò)。我們可以按照這個順序,完成建立醫(yī)療器械漢語語料庫的初步構(gòu)想。
詞表的收集可以借鑒的內(nèi)容包括市場上流通的醫(yī)療器械產(chǎn)品(主要是產(chǎn)品說明書和標(biāo)簽)、中國醫(yī)學(xué)語料庫(中文一體化醫(yī)學(xué)語言系統(tǒng)的子系統(tǒng))、《通用醫(yī)學(xué)儀器術(shù)語系統(tǒng)——產(chǎn)品目錄詞表》(來自UMLS 超級敘詞表)等。收詞標(biāo)準(zhǔn)可以直接采用《醫(yī)療器械說明書和標(biāo)簽管理規(guī)定》中關(guān)于醫(yī)療器械說明書和醫(yī)療器械標(biāo)簽內(nèi)容的規(guī)范,按照詞語在醫(yī)療器械文字信息中出現(xiàn)的不同位置,分為“名稱類”“功能說明類”“操作說明類”“禁忌類”“維護修理類”“警示類”等[2]。
語料庫的實質(zhì)是語義網(wǎng)絡(luò),而語義網(wǎng)絡(luò)的實質(zhì)是多種語義類型及相互關(guān)系的概念集合。醫(yī)療器械漢語語料庫作為專門用途語料庫,建立初衷就是建立醫(yī)療器械術(shù)語(名稱、說明等詞匯)之間的語義有機網(wǎng)絡(luò),通過多種語義類型為網(wǎng)絡(luò)中的所有概念繪制目錄組織結(jié)構(gòu)。
UMLS 中包含135 種語義類型和51 種連接關(guān)系。最高層的語義類型分為“物”和“事”兩大類,所有的語義類型通過語義關(guān)系鏈連接在一起,這些鏈條又分為等級關(guān)系鏈(H)和非等級關(guān)系鏈[相關(guān)關(guān)系鏈](R):等級關(guān)系鏈就是常見的“is a 關(guān)系鏈”(即A is a B.),非等級關(guān)系鏈[相關(guān)關(guān)系鏈]又可以分為“物理相關(guān)”“空間相關(guān)”“功能相關(guān)”“時間相關(guān)”“概念相關(guān)”等關(guān)系。等級關(guān)系鏈的從屬關(guān)系大多是可以繼承的,而非等級關(guān)系鏈一般不具備這個特征。
醫(yī)療器械漢語語料庫又不完全與UMLS 相同,因為醫(yī)療器械說明類文字材料語義范圍更專一和集中,各個詞匯之間的關(guān)系更傾向于平面的,而非如UMLS 一樣立體可繼承的。如上文所說,我們可以將醫(yī)療器械漢語語料庫的收詞語義標(biāo)準(zhǔn)按照詞匯出現(xiàn)的位置來制定,如在“操作說明”這一類中,我們可能會遇到“按”“按下”“摁”“摁住”“輕摁”“踏下”“踩住”“輕踩”等等表示類似動作的詞語,這就需要我們建立一個表示“(用手指或腳掌)向下用力”的語義集群,將這些詞語置于同一集群之下。這里不妨參照UMLS 超級敘詞表的三級結(jié)構(gòu)模式:CUI(概念唯一標(biāo)識符)、LUI(術(shù)語唯一標(biāo)識符)和SUI(詞串唯一標(biāo)識符,指詞串術(shù)語的變異形式):CUI 為“向下用力”,在它之下有LUI“按”和“踩”,再底層就是多個SUI,如“按”“按下”“摁”“摁住”“輕摁”“踏下”“踩住”“輕踩”等等。
初步建立了醫(yī)療器械漢語語料庫之后,我們可以充分利用語料庫語義類型及其關(guān)系對進入到語料庫中的新詞語進行控制,主要表現(xiàn)為:
一是詞匯學(xué)控制,主要是詞性、詞義或構(gòu)詞的控制,如表示“用力向下”這一語義類別之下通常為動詞性詞語,詞義為“用力向下”,構(gòu)詞上多為“動補”或“狀中”結(jié)構(gòu);
二是語義控制,如在描述操作效果時,總局規(guī)定在說明書和標(biāo)簽中不得出現(xiàn)含有“療效最佳”、“保證治愈”、“包治”、“根治”、“即刻見效”、“完全無毒副作用”等表示功效的斷言或者保證的詞語和含有“最高技術(shù)”、“最科學(xué)”、“最先進”、“最佳”等絕對化語言和類似表述的詞語,所以在標(biāo)注效果類詞語時,應(yīng)局限為諸如“有時間過程的”“不作保證的”“不涉及排名的”此類的語義范圍,而“快速的”“保證”“最”這類的詞語就很難進入語義網(wǎng)絡(luò);
三是語用學(xué)控制,即語義類型之間的相互關(guān)系(如組配關(guān)系、共現(xiàn)關(guān)系、頻率等等)控制,如“時間”類詞語和“顯現(xiàn)”類詞語就有“+共現(xiàn)”關(guān)系,比如“常出現(xiàn)”“通常表現(xiàn)出”“經(jīng)常顯示”等,再如表示情感類的詞語在醫(yī)療器械語料庫中的出現(xiàn)頻率幾乎為零,如“憤怒”“傷心”“沮喪”等詞語,這不僅因為醫(yī)療器械語料庫是“科技用語語料庫”,也是因為醫(yī)療器械通常是作用于人體的生理方面而非心理方面,所以此類心理詞語在醫(yī)療器械語料庫中幾乎不會出現(xiàn)[3]。
隨著醫(yī)療器械市場競爭的日趨激烈,很多生產(chǎn)商從過去的由研發(fā)人員自己撰寫產(chǎn)品文字材料向外包給專業(yè)的醫(yī)療技術(shù)傳播公司來完成轉(zhuǎn)型,這說明醫(yī)療器械的文字編排撰寫工作已經(jīng)逐漸形成了一個專業(yè)方向。建立完善的系統(tǒng)的醫(yī)療器械漢語語料庫,不僅有利于國產(chǎn)醫(yī)療器械的推廣上市,對外來進口醫(yī)療器械產(chǎn)品的本地化進程也起到了一定的推動作用,如文檔本地化和操作界面本地化等。同時,我國的藥品醫(yī)學(xué)技術(shù)譯介傳播工作仍在起步階段,藥品漢語語料庫的建立也迫在眉睫,醫(yī)療器械漢語語料庫可與之齊頭并進,共同發(fā)展,使我國的醫(yī)藥行業(yè)國際化進程更快更順利。