宋憶非++鄒強
摘要:美國國立圖書館下屬的生物技術(shù)信息中心,為生物醫(yī)學(xué)研究者提供了龐大的信息資源和強大可靠的檢索工具??删幊涕_發(fā)工具就是NCBI所開發(fā)的功能強大的檢索編程工具接口,通過它可以自動化的大批量的從Entrez數(shù)據(jù)庫檢索數(shù)據(jù),從而為科研人員了解本專業(yè)動態(tài)提供材料,并為未來研究提供方向指導(dǎo)。
關(guān)鍵詞:E-utilities;Entrez數(shù)據(jù)庫;生物技術(shù)信息中心;數(shù)據(jù)管道
自2003年,美國國立醫(yī)學(xué)圖書館下屬的生物技術(shù)信息中心發(fā)布第一版NLM歸檔和交換標(biāo)記套件以來[1],基于NCBI可編程開發(fā)工開發(fā)的數(shù)據(jù)挖掘的產(chǎn)品便大量問世。如由陳朝美開發(fā)的可視化文獻引文分析工具CiteSpace[2],也有多個針對某一特定領(lǐng)域的數(shù)據(jù)挖掘工具[3]。
1 應(yīng)用程序編程接口
API是提供應(yīng)用程序與開發(fā)人員基于某軟件或硬件得以訪問的能力,而又無需訪問源碼,或理解內(nèi)部工作機制的細節(jié)。一些桌面操作系統(tǒng)如Windows、Linux,移動端操作系統(tǒng)Android、IOS等都提供有相應(yīng)的API于開發(fā)人員,以便開發(fā)人員開發(fā)用戶需要的軟件。E-utilities便是NCBI提供給開發(fā)人員使用的結(jié)構(gòu)化接口--API接口。
2 E-utilities組成
E-utilities是一組9個服務(wù)器端程序組成的,包括:①EInfo:提供在給定數(shù)據(jù)庫的每個字段索引記錄的數(shù)量;數(shù)據(jù)庫的最后更新日期;從數(shù)據(jù)庫中可用的鏈接到其他Entrez數(shù)據(jù)庫;②ESearch:在給定的數(shù)據(jù)庫中查詢匹配的唯一標(biāo)識符列表的文本查詢的響應(yīng);查詢的術(shù)語翻譯;③EPost:從指定數(shù)據(jù)庫中接受UIDs列表,在歷史服務(wù)器上存儲該套內(nèi)容;響應(yīng)查詢和網(wǎng)絡(luò)環(huán)境,上傳數(shù)據(jù)集;④ESummary:給定的數(shù)據(jù)庫通過UIDs列表,相應(yīng)的文檔摘要反饋;⑤EFetch:給定的數(shù)據(jù)庫通過UIDs列表,相應(yīng)數(shù)據(jù)記錄的以指定的格式反饋;⑥ELink:給定的數(shù)據(jù)庫響應(yīng)UIDs列表,既有相同數(shù)據(jù)庫相關(guān)的UIDs列表,又有其他Entrez數(shù)據(jù)庫中的UIDs列表;從一個或者多個UIDs中檢查指定鏈接的存在;通過原LinkOut提供的一個創(chuàng)建特殊UID和數(shù)據(jù)庫或者LinkOut URLs和多個UIDs屬性創(chuàng)建超鏈接;⑦EGQuery:在每個Entrez數(shù)據(jù)庫中,反饋一個應(yīng)用大量數(shù)據(jù)匹配的文本查詢;⑧Espell:給定的數(shù)據(jù)庫查詢用的一個文本拼寫的建議;⑨EcitMatch:檢索PMID相關(guān)的一組輸入引用字符串。
3 Entrez數(shù)據(jù)庫
Entrez是NCBI開發(fā)的跨數(shù)據(jù)庫檢索系統(tǒng),通過一個統(tǒng)一的檢索界面和檢索詞,可以檢索NCBI開發(fā)的所有數(shù)據(jù)庫,包括PubMed在內(nèi)的40個數(shù)據(jù)庫。
任何計算機語言均可通過E-utilities訪問Entrez數(shù)據(jù)庫。通過計算機語言將輸入到軟件的參數(shù)翻譯為可用于檢索和檢索請求的統(tǒng)一資源定位器語法。結(jié)合E-utilities組件,在應(yīng)用中形成定制數(shù)據(jù)管道。每個Entrez數(shù)據(jù)庫中的數(shù)據(jù)記錄都帶有UID,一個不可重復(fù)的ID。例如,有的UID為核酸和蛋白的GI數(shù)字,PubMed的PMIDs,又或者是分子模型數(shù)據(jù)ID。通過E-utilities訪問Entrez數(shù)據(jù)庫的過程見圖1。
圖1 Entrez數(shù)據(jù)庫訪問的過程
4 Entrez的歷史服務(wù)器
Entrez系統(tǒng)的一個強大功能是在服務(wù)器上可以儲存一組檢索UID,以便他們能夠隨后組合或者提供其他E-utility輸入響應(yīng)。Entrez歷史服務(wù)器提供這一服務(wù),并且可在Entrez檢索頁面使用Preview/Index或History鍵在Web上訪問。每一個E-utilities組件都能訪問歷史服務(wù)器,&query_key標(biāo)簽分配UID和&WebEnv編碼cookie字符串。EPost允許任何一組UID上傳到歷史服務(wù)器中,并返回查詢鍵和網(wǎng)絡(luò)環(huán)境。在&usehistory被設(shè)置為y時,ESearch同樣能夠?qū)⑤敵鲆唤MUID到歷史服務(wù)器;在&cmd被設(shè)置成neighbor_history時ELink也可以輸出到歷史服務(wù)器。EPost或ESearch的結(jié)果查詢和網(wǎng)絡(luò)環(huán)境都能被用于替代ESummary、EFetch和ELink。
在歷史服務(wù)器上的每個網(wǎng)絡(luò)環(huán)境都能接受任意數(shù)量的查詢關(guān)鍵詞。通過采用布爾邏輯操作符組合的不同的數(shù)據(jù)集或者進行其他Entrez查詢。必須在同一個網(wǎng)絡(luò)環(huán)境下兩個數(shù)據(jù)集的組合。默認(rèn)情況下,連續(xù)的E-utility請求產(chǎn)生查詢鍵,如果不是在相同的網(wǎng)絡(luò)環(huán)境下,為了克服這一點,每個E-utility請求都在最初請求之后在已有的網(wǎng)絡(luò)環(huán)境下設(shè)置&WebEnv參數(shù)值。
5 利用E-utility請求創(chuàng)建Entrez應(yīng)用
可以使用單個的URL通過E-utilities訪問Entrez;當(dāng)連續(xù)的E-utility URL結(jié)合,則需要創(chuàng)建一個數(shù)據(jù)管道,便可發(fā)揮其最大作用。使用這樣的管道時,Entrez歷史服務(wù)器會通過允許在連續(xù)E-utility響應(yīng)進行簡單數(shù)據(jù)傳輸而簡化復(fù)雜的檢索任務(wù)。E-utilities組合見表1,箭頭代表的是從一個E-utility到另一個的db,WebEnv和query_key值。
6 E-utility DTDs
除了EFetch,每一個E-utilities組件均能輸出單個的符合NLM文檔類型定義標(biāo)準(zhǔn)的可擴展標(biāo)記語言輸出格式。E-utility返回的XML標(biāo)題中,提供了這些NLM DTDs的鏈接。ESummary可以為每個Entrez數(shù)據(jù)庫生成唯一的XML DocSums。正因為如此,每個Entrez數(shù)據(jù)庫對于DocSums來說,有一個唯一的NLM DTD。Efetch可以生成并輸出各種格式,也可以是XML。這些個XML格式大部分都符合NLM DTDs,或者與Entrez有關(guān)的特定模式。
7 結(jié)語
隨著生物醫(yī)學(xué)文獻數(shù)量的不斷增加,如何從海量信息中高效率挖掘出所需文獻,是所有醫(yī)學(xué)研究者所需要掌握的技能。
參考文獻:
[1]鄒強,袁慶,康林,等.Pubmed Central 的數(shù)字化出版簡介[J].中國科技期刊研究,2014,25(2):240-242.
[2]陳悅,侯劍華,梁永霞.CiteSpace Ⅱ:科學(xué)文獻中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009,28(6):401-421.
[3]Torii M,Li G,Li Z,et al.RLIMS-P:an online text-mining tool for literature-based extraction of protein phosphorylation information[J].Database(Oxford),2014:13.編輯/成森