王 蕾 方 安 范云滿 王 茜 王軍輝 胡佳慧
(中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所 北京 100020)
在世界衛(wèi)生組織(World Health Organization,WHO)和全球衛(wèi)生圖書(shū)館(Global Health Library,GHL)項(xiàng)目支持下,中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開(kāi)發(fā)并建設(shè)了西太平洋地區(qū)醫(yī)學(xué)索引平臺(tái)(Western Pacific Region Index Medicus,WPRIM)。目前已設(shè)計(jì)并提出西太平洋地區(qū)醫(yī)學(xué)索引元數(shù)據(jù)方案[1],實(shí)現(xiàn)部分“一帶一路”沿線國(guó)家重要醫(yī)學(xué)期刊匯聚。截至2017年底WPRIM收錄韓國(guó)、日本、中國(guó)及“一帶一路”沿線的西太平洋地區(qū)國(guó)家醫(yī)學(xué)領(lǐng)域期刊642種,涵蓋英文、中文、韓文、蒙古語(yǔ)等多語(yǔ)種文章信息,支持WHO西太平洋區(qū)域成員國(guó)出版、醫(yī)學(xué)領(lǐng)域且具有英文題錄的期刊文獻(xiàn)資源集成,面向全球用戶提供便捷的互聯(lián)網(wǎng)訪問(wèn),確保本地區(qū)醫(yī)療和衛(wèi)生研究的全球可及性[2]。近期GHL項(xiàng)目各成員單位著手完善文獻(xiàn)數(shù)據(jù)資源,改進(jìn)現(xiàn)有索引系統(tǒng)數(shù)據(jù)的不足。WPRIM作為GHL項(xiàng)目數(shù)據(jù)的重要來(lái)源,存在各國(guó)語(yǔ)言特點(diǎn)多樣[3]、數(shù)據(jù)來(lái)源多樣[4]、各國(guó)提交成果質(zhì)量參差不齊、歷史遺留情況復(fù)雜等問(wèn)題,亟待通過(guò)多種處理策略解決現(xiàn)存問(wèn)題。
WPRIM作者數(shù)據(jù)來(lái)自PubMed、J-stage、KoreaMed等文獻(xiàn)數(shù)據(jù)庫(kù)或者由馬來(lái)西亞、越南、老撾等國(guó)家的志愿者手動(dòng)提交。受本國(guó)語(yǔ)言、數(shù)據(jù)庫(kù)著錄標(biāo)準(zhǔn)等因素影響,著錄情況復(fù)雜。從各國(guó)語(yǔ)言特點(diǎn)分析,西方語(yǔ)言國(guó)家、東方印歐語(yǔ)系國(guó)家(如印度、孟加拉、伊朗等)、南島語(yǔ)系部分國(guó)家(如印尼、馬來(lái)西亞、菲律賓)等個(gè)人姓名排序一般為倒序[5];漢藏語(yǔ)系國(guó)家(如中國(guó))、南島語(yǔ)系部分國(guó)家(如印尼、馬來(lái)西亞、菲律賓)華人、日本、韓國(guó)等個(gè)人姓名排序一般為順序[6]。從數(shù)據(jù)著錄特點(diǎn)分析,作者不僅存在語(yǔ)言特點(diǎn)本身造成的數(shù)據(jù)著錄問(wèn)題,還存在同一作者姓名表述形式不同、大小寫(xiě)不規(guī)范、作者間分隔符不統(tǒng)一、包含噪音數(shù)據(jù)等問(wèn)題。此外多來(lái)源的文獻(xiàn)數(shù)據(jù)在數(shù)據(jù)收割過(guò)程中會(huì)存在內(nèi)容缺失、解析不正確、作者姓名順序錯(cuò)誤的問(wèn)題,也存在普通作者、機(jī)構(gòu)和團(tuán)體作者混淆的情況。部分?jǐn)?shù)據(jù)存在同一國(guó)家志愿者反復(fù)提交,產(chǎn)生較多重復(fù)數(shù)據(jù)的問(wèn)題。由于上述多種原因,未經(jīng)質(zhì)量控制的作者數(shù)據(jù)存在較多問(wèn)題。
同一作者姓名表述形式存在著錄順序不一致、姓氏與名字之間分隔符不同、全拼中雙名中間的連字符不同等問(wèn)題。不同國(guó)別來(lái)源期刊的著錄標(biāo)準(zhǔn)不同,故同一作者姓名存在著錄順序不一致的情況。一部分?jǐn)?shù)據(jù)存在姓氏與名字的分隔符不一致,甚至存在姓氏與名字未分隔的情況,見(jiàn)表1。同一作者姓名也存在全拼和簡(jiǎn)寫(xiě)兩種形式。如作者“王承書(shū)”存在全拼“Wang Chengshu”與簡(jiǎn)寫(xiě)“Wang CS”兩種著錄形式。同一全拼作者還存在雙名中間的連字符不一致的情況,部分采用橫線、空格作為連接符,也有數(shù)據(jù)沒(méi)有使用橫線作為連接符,如“Wang Cheng-Shu”、 “Wang Cheng Shu”、“Wang Chengshu”。
表1 著錄不規(guī)范數(shù)據(jù)樣例
常見(jiàn)WPRIM作者數(shù)據(jù)采用每個(gè)單詞首字母大寫(xiě)的形式,如“Chong-xing Zhou”。作者數(shù)據(jù)還存在姓氏全部大寫(xiě)、全部字母大寫(xiě)、全部字母小寫(xiě)的情況,如“Wenzhi DU”、“QIN MENG”、“chen ximing”。
一般情況下WPRIM多個(gè)作者之間采用分號(hào)進(jìn)行分隔,如“CHEN Yan; ZOU Tian-ning”。部分?jǐn)?shù)據(jù)使用空格、數(shù)字來(lái)區(qū)分不同作者,如“Ye Ling Qian Guan-Xiang Ge Sheng-Fang”。
主要由非法字符、非作者信息組成。非法字符如 “”、“.”、“No Authors Listed”、“Et Al.”、“No author”、“Checking”、“Reviewing”等。非作者信息常見(jiàn)的有團(tuán)體作者(如Extracurricular Research Team、Group)、機(jī)構(gòu)或地址(如Suzhou Medical College、Shangqiu Central Hospital、100061、Zhengzhou University)、作者頭銜(如Director、Tutor、Ph D、MD、Lord)、郵箱、通信作者描述(如Correspondence:Xu Guoming)等。
全球醫(yī)學(xué)索引分為地區(qū)索引、Medline以及SciELO3大部分。WPRIM作為地區(qū)索引的主要組成部分,其作者著錄標(biāo)準(zhǔn)重點(diǎn)參考Medline、SciELO數(shù)據(jù)庫(kù)的元數(shù)據(jù)項(xiàng)設(shè)置與著錄規(guī)則,對(duì)標(biāo)國(guó)內(nèi)外重要文獻(xiàn)檢索數(shù)據(jù)庫(kù),提出WPRIM作者數(shù)據(jù)著錄標(biāo)準(zhǔn)。
國(guó)內(nèi)外數(shù)據(jù)庫(kù)之間的元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)著錄特點(diǎn)具有一定差異,見(jiàn)表2。作者分類方面,國(guó)際標(biāo)準(zhǔn)認(rèn)為作者一般分為個(gè)人和團(tuán)體作者兩類[7]。國(guó)外數(shù)據(jù)庫(kù)的個(gè)人作者元數(shù)據(jù)通常由一組作者信息組成,包含姓氏、名字、序號(hào)、簡(jiǎn)寫(xiě)、全稱等內(nèi)容,多個(gè)作者之間采用多條記錄進(jìn)行表示。部分國(guó)內(nèi)數(shù)據(jù)庫(kù)的個(gè)人作者元數(shù)據(jù)項(xiàng)設(shè)置作者一項(xiàng),不劃分姓氏、名字、簡(jiǎn)寫(xiě)和全稱,多個(gè)作者之間使用分號(hào)進(jìn)行分隔。作者名著錄順序方面,作者姓氏與名字前后順序不固定。母語(yǔ)為英語(yǔ)國(guó)家的期刊,作者姓名一般采用姓氏在后、名字在前的著錄規(guī)則。中國(guó)期刊的西文文獻(xiàn),作者著錄一般符合國(guó)標(biāo)GB7713-87[8]要求,一般采用姓氏在前、名字在后的著錄規(guī)則。
表2 國(guó)內(nèi)外數(shù)據(jù)庫(kù)作者著錄特點(diǎn)對(duì)比
在上述調(diào)研分析的基礎(chǔ)上WPRIM制定規(guī)范化的作者著錄標(biāo)準(zhǔn),見(jiàn)表3。元數(shù)據(jù)設(shè)計(jì)上,由于WPRIM作者以中國(guó)、日本、韓國(guó)文獻(xiàn)數(shù)據(jù)為主,作者名一般由姓氏、名字兩部分組成。巴布亞新幾內(nèi)亞、斐濟(jì)等國(guó)家的文獻(xiàn)內(nèi)容,作者名一般由姓氏、中間名和名字3部分組成。故WPRIM作者數(shù)據(jù)全名包含姓氏、中間名、名字3部分。構(gòu)成順序上WPRIM主要面向西太平洋國(guó)家的全部用戶進(jìn)行服務(wù),故借鑒Medline和Web of Science的作者著錄順序,規(guī)定其為名、中間名和姓氏。多作者分隔策略上借鑒SinoMed數(shù)據(jù)庫(kù),采用分號(hào)進(jìn)行分隔,便于數(shù)據(jù)清晰展示。拼寫(xiě)要求上借鑒NSTL、Web of Science、J-stage、KoreaMed多種數(shù)據(jù)庫(kù)的拼寫(xiě)特點(diǎn),規(guī)定作者名、中間名按首字母大寫(xiě)、其他字母小寫(xiě) 規(guī)則著錄,并要求姓氏按全部字母大寫(xiě)規(guī)則著錄。
表3 WPRIM數(shù)據(jù)著錄標(biāo)準(zhǔn)
作者數(shù)據(jù)規(guī)范策略實(shí)現(xiàn)技術(shù)路線,見(jiàn)圖1,分為數(shù)據(jù)檢查、數(shù)據(jù)拆分、二次檢查、數(shù)據(jù)修正和數(shù)據(jù)重構(gòu)5個(gè)步驟。WPRIM不同來(lái)源的文獻(xiàn)數(shù)據(jù)在5個(gè)步驟中根據(jù)來(lái)源數(shù)據(jù)特點(diǎn)進(jìn)行不同的加工處理。
圖1 多來(lái)源數(shù)據(jù)加工策略
4.2.1 數(shù)據(jù)檢查 是對(duì)各種來(lái)源中的作者字段進(jìn)行檢查,即檢查是否是作者列表和是否包含無(wú)效片段。是否是作者列表根據(jù)數(shù)據(jù)來(lái)源判斷作者字段是否由多個(gè)作者字段形成的作者列表。根據(jù)前期調(diào)查,PubMed、KoreaMed、J-stage、手工錄入的數(shù)據(jù)是按照作者列表的形式提交的,SinoMed和中文期刊數(shù)據(jù)庫(kù)文章是一個(gè)字段存放多個(gè)作者,多個(gè)作者之間以分號(hào)或其他分隔符進(jìn)行分割。檢查作者列表對(duì)SinoMed和中文期刊數(shù)據(jù)庫(kù)的數(shù)據(jù)按照分隔符分割成作者列表。是否包含無(wú)效片段檢查作者列表中的數(shù)據(jù)是否包含噪音數(shù)據(jù)。針對(duì)噪音數(shù)據(jù),先通過(guò)團(tuán)體作者和一般作者特征詞進(jìn)行篩選與判斷,若包含則提取團(tuán)體作者信息、修正個(gè)人作者信息。噪音數(shù)據(jù)不包含團(tuán)體作者特征詞時(shí),經(jīng)人工審核,將無(wú)效數(shù)據(jù)舍棄并反饋給數(shù)據(jù)提供方。
4.2.2 數(shù)據(jù)拆分 是利用界定條件與界定方法確定文獻(xiàn)中作者姓、名的著錄順序,依據(jù)該順序并結(jié)合姓和名之間的分隔符號(hào)進(jìn)行數(shù)據(jù)拆分,實(shí)現(xiàn)每個(gè)作者的名(First Name)和姓(Last Name)的分離。(1)界定條件。依據(jù)WPRIM作者著錄特點(diǎn)總結(jié)與提煉后形成的單一作者著錄順序判斷條件。假設(shè)X與Y表示連續(xù)、無(wú)空格、無(wú)下劃線的連續(xù)英文字符串,常見(jiàn)作者著錄類型、附加判斷條件、樣例、界定結(jié)果,見(jiàn)表4。通常利用條件1至7就可以界定作者姓名的著錄順序。中國(guó)、韓國(guó)等國(guó)家存在作者復(fù)姓的情況,故利用條件8至11進(jìn)行姓名著錄順序的界定。中國(guó)作者數(shù)據(jù)利用除“n、g”以外的同一個(gè)輔音字母兩次以上的方法界定姓和名的著錄順序有較好的界定效果。其他國(guó)家作者數(shù)據(jù)則通過(guò)常見(jiàn)復(fù)姓語(yǔ)料進(jìn)行分析與處理,見(jiàn)表5。當(dāng)作者著錄特點(diǎn)滿足多個(gè)界定條件時(shí),多組界定條件組合進(jìn)行著錄順序的判定,形成多個(gè)界定結(jié)果。若多個(gè)界定結(jié)果一致,則認(rèn)為界定條件的判斷結(jié)果準(zhǔn)確;若不一致,則認(rèn)為該作者著錄順序界定結(jié)果不宜作為界定方法中的判斷依據(jù),界定結(jié)果判斷流程,見(jiàn)圖2。(2)界定方法。作者著錄順序界定方法是優(yōu)先以期、篇順序進(jìn)行自動(dòng)判斷,并輔以復(fù)雜數(shù)據(jù)的人工審核,確定某一篇文獻(xiàn)的作者著錄順序。以期刊的一期數(shù)據(jù)為期界定單位,根據(jù)第一作者自動(dòng)判斷該期全部作者的著錄順序。出現(xiàn)“姓+名”著錄形式則界定本期全部文獻(xiàn)作者著錄順序?yàn)椤靶?名”的表述形式;出現(xiàn)“名+姓”著錄形式則界定本期全部文獻(xiàn)作者著錄順序?yàn)椤懊?姓”的表述形式;若出現(xiàn)一期數(shù)據(jù)存在兩種表述形式,則判斷該期數(shù)據(jù)無(wú)法判斷整期數(shù)據(jù)的著錄順序。以篇為界定單位,根據(jù)任意作者自動(dòng)判斷該篇文獻(xiàn)全部作者的著錄順序。出現(xiàn)“姓+名”著錄形式則界定本篇文獻(xiàn)全部作者著錄順序?yàn)椤靶?名”的表述形式;出現(xiàn)“名+姓”著錄形式則界定本篇文獻(xiàn)全部作者著錄順序?yàn)椤懊?姓”的表述形式;若出現(xiàn)一篇文獻(xiàn)兩種表述形式,則無(wú)法判斷整篇數(shù)據(jù)的著錄順序。無(wú)法自動(dòng)判斷作者著錄順序的文章需要進(jìn)行人工界定。
表4 界定條件示例
表5 常見(jiàn)復(fù)姓
圖2 界定結(jié)果判斷流程
4.2.3 二次檢查 是檢查經(jīng)過(guò)拆分得到的姓、名是否正確、是否包含簡(jiǎn)寫(xiě)及無(wú)效信息。首先利用網(wǎng)絡(luò)資源[16]、構(gòu)建常見(jiàn)姓氏語(yǔ)料,見(jiàn)表6。再對(duì)數(shù)據(jù)進(jìn)行篩選,若名包含常見(jiàn)姓氏,則作為高危數(shù)據(jù)進(jìn)行人工審核及干預(yù)。若姓包含常見(jiàn)名,也要進(jìn)行人工審核及干預(yù)。是否包含簡(jiǎn)寫(xiě)信息以姓或名字段值過(guò)短、具有“.”符號(hào)或兩個(gè)連續(xù)大寫(xiě)輔音字母作為一個(gè)詞(如JK)等條件,認(rèn)定字段項(xiàng)包含簡(jiǎn)寫(xiě)。簡(jiǎn)寫(xiě)數(shù)據(jù)需人工核實(shí)原文,補(bǔ)充著錄作者姓、名的全拼。是否包含無(wú)效信息通過(guò)無(wú)效信息語(yǔ)料(如逗號(hào)等)提取數(shù)據(jù)進(jìn)行審核與修正。
表6 常見(jiàn)姓氏
4.2.4 數(shù)據(jù)修正 是對(duì)姓、名的著錄樣式進(jìn)行規(guī)范化。針對(duì)中國(guó)、日本、韓國(guó)的作者將姓氏字母轉(zhuǎn)換為大寫(xiě),其他字母轉(zhuǎn)換為小寫(xiě)。名及中間名轉(zhuǎn)換為每個(gè)單詞首字母大寫(xiě)、其他字母小寫(xiě)。數(shù)據(jù)修正樣例,見(jiàn)表7。
表7 數(shù)據(jù)修正樣例
4.2.5 數(shù)據(jù)重構(gòu) 主要是將修正結(jié)果構(gòu)建成服務(wù)數(shù)據(jù),并補(bǔ)充來(lái)源數(shù)據(jù)、修正結(jié)果、服務(wù)數(shù)據(jù)3者的對(duì)應(yīng)關(guān)系。修正結(jié)果構(gòu)建成服務(wù)數(shù)據(jù)是將修正后的姓和名結(jié)果進(jìn)行重新組合,形成“名”+“空格”+“姓”或“名”+“空格”+“中間名”+“空格”+“姓”著錄形式的服務(wù)數(shù)據(jù)。
通過(guò)分析一帶一路沿線國(guó)家作者表述方式及WPRIM收錄期刊作者著錄特點(diǎn),結(jié)合國(guó)內(nèi)外知名文獻(xiàn)檢索系統(tǒng)的作者字段項(xiàng)著錄規(guī)則,提出WPRIM作者數(shù)據(jù)著錄標(biāo)準(zhǔn),實(shí)現(xiàn)期刊作者整合與規(guī)范加工方法。WPRIM已完成60余萬(wàn)篇文獻(xiàn)數(shù)據(jù)的作者數(shù)據(jù)規(guī)范,實(shí)現(xiàn)作者著錄格式的統(tǒng)一,滿足GHL對(duì)作者數(shù)據(jù)的質(zhì)量要求。規(guī)范后的WPRIM數(shù)據(jù)已被其他文獻(xiàn)檢索平臺(tái)(如GOOGLE SCHOLAR[17])收錄。與此同時(shí)WPRIM作者數(shù)據(jù)質(zhì)量控制方法面臨數(shù)據(jù)質(zhì)量控制的新挑戰(zhàn),亟待解決作者數(shù)據(jù)質(zhì)量控制實(shí)時(shí)化、人工處理率高的主要問(wèn)題,積累和擴(kuò)展數(shù)據(jù)質(zhì)量控制相關(guān)的語(yǔ)料資源,完善多種來(lái)源數(shù)據(jù)的處理機(jī)制,獲得更好的作者數(shù)據(jù)質(zhì)量控制效果。