国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可伸縮的疾病動物模型檢索技術(shù)?

2020-12-23 09:51:00丘文峰胡金芳陳梅麗鄧少嫦
實驗動物科學(xué) 2020年4期
關(guān)鍵詞:爬蟲動物模型檢索

丘文峰 胡金芳 陳梅麗 鄧少嫦

(1.廣東醫(yī)科大學(xué)信息工程學(xué)院,東莞 523808)(2.廣東省實驗動物監(jiān)測所,廣東省實驗動物重點實驗室,廣州 510663)

隨著互聯(lián)網(wǎng)的逐步社會化,各行各業(yè)的數(shù)據(jù)生產(chǎn)能力達到前所未有的高度,大數(shù)據(jù)(Big Data)概念在這一背景下被提了出來,并且吸引了越來越多的關(guān)注。疾病動物模型是開展醫(yī)學(xué)研究及藥物研發(fā)的重要支撐工具[1]。利用疾病動物模型開展研究,可以避免人體實驗造成的風(fēng)險和倫理問題,并可嚴(yán)格控制實驗條件,排除復(fù)雜因素,增強實驗材料的可比性,有助于全面地揭示疾病的本質(zhì)和發(fā)展規(guī)律,傳統(tǒng)模型檢索存在共享困難、重復(fù)研究和擴展性差等問題[2-3]。目前,國外主要相關(guān)的數(shù)據(jù)庫有:美國NIH國立研究資源中心的LAMHDI網(wǎng)站連接的小鼠基因組信息學(xué)數(shù)據(jù)庫 MGI,大鼠基因組數(shù)據(jù)庫RGD,斑馬魚模型數(shù)據(jù)庫ZFIN,酵母菌基因組數(shù)據(jù)庫SGD等。國內(nèi)主要相關(guān)的數(shù)據(jù)庫有:中國實驗動物信息網(wǎng)絡(luò)中心(國家實驗動物數(shù)據(jù)資源中心)、國家遺傳工程小鼠資源庫等。這些數(shù)據(jù)庫主要以關(guān)系數(shù)據(jù)庫為基礎(chǔ),提供各類常規(guī)實驗動物生物學(xué)數(shù)據(jù)和基因工程實驗動物的特性研究數(shù)據(jù)。如何從數(shù)據(jù)庫的海量數(shù)據(jù)中快速、高效地檢索、智能挖掘出有用的動物模型信息是目前疾病動物模型檢索的一大難題。

近年來,開源搜索引擎不斷發(fā)展,Lucene、Sphinx、Xapian等代表性開源平臺已成為站內(nèi)搜索的新架構(gòu)[4]。本文結(jié)合基于Lucene 的ElasticSearch技術(shù),提出一種可伸縮的疾病動物模型檢索技術(shù)。

1 基于ElasticSearch的疾病動物檢索平臺

1.1 采集服務(wù)

對網(wǎng)絡(luò)開源的數(shù)據(jù)采集都是采用通用爬蟲技術(shù)。但在特定領(lǐng)域,僅需要采集專門主題數(shù)據(jù)。此時,通用爬蟲技術(shù)通常會采集到大量的不相關(guān)信息,極大地浪費硬件和網(wǎng)絡(luò)資源,這些不相關(guān)信息也不利于后續(xù)數(shù)據(jù)分析與檢索。為此,在現(xiàn)有主題爬蟲技術(shù)的基礎(chǔ)上,提出了一種適應(yīng)疾病動物模型文獻采集的爬蟲技術(shù)。

文獻數(shù)據(jù)的調(diào)查與收集階段,檢索的中文文獻資源主要取自中國知網(wǎng)、萬方數(shù)據(jù)庫,外文文獻以NCBI數(shù)據(jù)平臺的pubmed和PMC數(shù)據(jù)庫為主[5-6]。通過對動物模型制作與應(yīng)用方面的文獻結(jié)構(gòu)特征和特定的搜索引擎檢索模式的整理,并結(jié)合《人類疾病動物模型復(fù)制方法學(xué)》《人類疾病動物模型》以及《現(xiàn)代腫瘤學(xué)》等出版書籍中涉及的分類方法學(xué)的應(yīng)用,對文獻的檢索工作進行分級,通過分級檢索機制來實現(xiàn)文獻的分類。

通過用戶來定制上述指定資源中的檢索關(guān)鍵詞,再根據(jù)網(wǎng)站信息更新的頻率,設(shè)定定時器,周期性爬蟲這些網(wǎng)站或頻道中的數(shù)據(jù),并進行解析和主題分析。本文設(shè)計的針對疾病動物模型文獻采集的爬蟲軟件結(jié)構(gòu)如圖1所示。用戶可以對需要檢索的動物模型主題提供關(guān)鍵詞,并選擇文獻數(shù)據(jù)源。采集程序根據(jù)文獻數(shù)據(jù)源信息更新頻率定時爬取。分類器根據(jù)用戶提供的動物模型進行文獻分類和內(nèi)容篩選,最后存入基礎(chǔ)數(shù)據(jù)庫中。

圖1 針對疾病動物模型文獻采集的爬蟲軟件結(jié)構(gòu)Fig.1 Structure of reptile software for literature collection of animal model of disease

項目中動物模型的確定是通過動物模型相關(guān)綜述類文獻的統(tǒng)計獲得,主要涉及的實驗動物包括:鼠、兔、犬、猴、豬、雞、斑馬魚、樹鼩、旱獺和羊。平臺中涉及的疾病分類信息是利用近幾年的癌癥流行趨勢調(diào)查結(jié)果和癌癥/腫瘤分類學(xué)專業(yè)書籍等資料的整理篩選出來,主要分為頭頸部腫瘤(6種)、胸部腫瘤(3種)、腹腔腫瘤(4種)、泌尿及男性生殖系統(tǒng)腫瘤(3種)、婦科腫瘤(3種)、淋巴造血系統(tǒng)(2種)、皮膚軟組織及骨腫瘤(2種)。在腫瘤動物模型制作方法的分類方面,主要采納了傳統(tǒng)的分類方法,即自發(fā)性動物模型、誘發(fā)型動物模型、移植型動物模型和基因工程動物模型四類。

采集程序的算法設(shè)計如圖2所示。其中,最核心的問題是如何提取文獻來源中感興趣信息。項目中嘗試采用兩種方式,一種是通過獲取網(wǎng)頁內(nèi)容,以DOM接口方式獲取感興趣信息;另一種是通過XPATH方式獲取感興趣信息。通過實驗對比,最終采用XPATH方式提取文獻信息。相關(guān)實驗對比結(jié)果見表1。

圖2 采集程序的算法流程Fig.2 Algorithm flow chart of acquisition program

表1 基于的DOM感興趣提取與基于XPATH的感興趣提取實驗對比結(jié)果Table 1 Comparison of interest extractions based on DOM and XPATH

1.2 基礎(chǔ)數(shù)據(jù)庫

項目使用開源關(guān)系數(shù)據(jù)庫MYSQL存儲由采集程序獲取的基礎(chǔ)數(shù)據(jù)。MYSQL最早由瑞典MYSQL AB公司開發(fā),后經(jīng)Oracle收購。MYSQL是最流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)之一,而 AMP(Appache、MYSQL、PHP)是最流行的開源WEB開發(fā)框架。采集程序可以使用任何一種數(shù)據(jù)庫存儲,最終選擇MYSQL主要是在系統(tǒng)整體設(shè)計中,MYSQL是一個最穩(wěn)定,開發(fā)最高效的搭配?;A(chǔ)數(shù)據(jù)庫包含采集數(shù)據(jù)的動物模型信息,文獻標(biāo)題、摘要、作者、基金項目、文獻號、圖文信息、關(guān)鍵詞及動物模型分類等。

1.3 彈性搜索

項目使用 ElasticSearch作為搜索引擎核心。ElasticSearch由美國ElasticSearch BV公司開發(fā),是一個基于Lucene的開源分布式實時搜索與分析引擎[7]。它能提供高效全文搜索、專門的查詢語言、基于上下文的搜索建議、自動完成以及搜索片段(Snippet)的能力,同時能夠方便生成 RESTful接口方便第三方應(yīng)用動物模型數(shù)據(jù)庫。它致力于使開發(fā)者能夠使用盡量少的開發(fā)成本快速實現(xiàn)一個功能完整的檢索系統(tǒng),主要特點如下:①提供完整的RESTful API。所有的操作,包括搜索、統(tǒng)計分析、管理、監(jiān)控都能夠使用發(fā)送基于JSON的http請求實現(xiàn)。②分布式存儲的非關(guān)系數(shù)據(jù)庫,適應(yīng)不斷動態(tài)增長的大數(shù)據(jù)文獻檢索。這是ElasticSearch優(yōu)于傳統(tǒng)搜索引擎解決方案的地方。

由于基礎(chǔ)數(shù)據(jù)采用MYSQL存儲,因此需要把采集的 MYSQL數(shù)據(jù)同步至 ElasticSearch。這里需要解決兩個技術(shù)難題:①數(shù)據(jù)的冗余性問題;②增量式更新。ElasticSearch本身不提供不同數(shù)據(jù)庫之間的同步。存在不同的同步數(shù)據(jù)工具,如ElasticSearch-JDBC、python-MYSQL-rep lication、go-MYSQL-ElasticSearch、mysqlbinlog等。其中 Logstash是最穩(wěn)定且易用的方案。

Logstash借助 Logstash-JDBC插件可以對任何支持JDBC數(shù)據(jù)接口的數(shù)據(jù)庫進行讀取。使用Logstash完成MYSQL與ElasticSearch同步的技術(shù)路線見圖3。

圖3 使用Logstash完成M YSQL與ElasticSearch同步Fig.3 Synchronization of mysql and elasticsearch using logstash

同步根據(jù)Logstash腳本配置完成。項目中同步的示例代碼見圖4。

其中,document_id指示唯一ID,用于解決同步過程中的冗余問題。為了解決文獻數(shù)據(jù)持續(xù)增量更新問題,可以在上述腳本中增加“scheduler”屬性,指示腳本周期性自動執(zhí)行同步。此外,MYSQL查詢時以“sql_last_value”為條件,只查詢同步以后新加入的數(shù)據(jù)。

1.4 應(yīng)用數(shù)據(jù)庫

基于ElasticSearch的疾病動物檢索平臺,借助開源SNS系統(tǒng)UCHOME,通過二次開發(fā)文獻檢索插件為用戶提供文獻檢索服務(wù),見圖5。用戶數(shù)據(jù)存儲在應(yīng)用數(shù)據(jù)庫中,包含用戶信息,用戶積分體系、活動、群組及分享信息。而文獻檢索功能通過ElasticSearch提供的RESTful API完成。實驗表明,該方案能夠推廣應(yīng)用于其他第三方應(yīng)用平臺,如移動應(yīng)用。

1.5 系統(tǒng)設(shè)計

圖4 Logstash同步腳本Fig.4 Logstash synchronization scrip t

圖5 基于ElasticSearch的疾病動物檢索平臺的用戶交互界面Fig.5 User Interface of Disease Animal Retrieval platform based on elasticsearch

綜上所述,基于 ElasticSearch的疾病動物檢索平臺使用MYSQL,Appache服務(wù)器,服務(wù)器端采用W indows NT/2008 Server操作系統(tǒng),編程語言為Java。文獻搜索功能的實現(xiàn)采用的是ElasticSearch,即實時分布式搜索和分析引擎。這種彈性搜索模式主要用于全文搜索、結(jié)構(gòu)化搜索和分析,是一種基于Apache Lucene(TM)的開源搜索引擎。文獻自動分類利用分級檢索機制將文獻檢索分為兩個步驟:①以“動物分類+疾病分類”的檢索組合方式,針對文獻的“題目和摘要”進行一級檢索,并下載全文。②利用建立好的標(biāo)準(zhǔn)字典與數(shù)據(jù)字典,以“模型制作方法分類”為相關(guān)的檢索詞,針對文獻的“材料與方法”進行二級檢索。這種分級檢索機制在實現(xiàn)文獻分類的同時,還可以系統(tǒng)自動剔除無關(guān)文獻,保證檢索獲得的文獻具有很高的相關(guān)性。基于ElasticSearch的疾病動物檢索平臺的系統(tǒng)結(jié)構(gòu)見圖6。

圖6 基于ElasticSearch的疾病動物檢索平臺的系統(tǒng)結(jié)構(gòu)Fig.6 System structure Diagram of Disease Animal Retrieval platform based on Elasticsearch

2 結(jié)論

本文從構(gòu)建疾病動物檢索平臺采集服務(wù)、基礎(chǔ)數(shù)據(jù)庫、彈性檢索和應(yīng)用數(shù)據(jù)庫四方面進行討論。采集服務(wù)中針對兩種不同的爬蟲策略展開討論,并給出技術(shù)實施建議。彈性檢索是系統(tǒng)構(gòu)建核心,研究中采用兩種不同的異構(gòu)數(shù)據(jù)庫系統(tǒng),難點在于如何實現(xiàn)數(shù)據(jù)的持續(xù)增量更新和解決冗余方案,本文給出研究中的解決方案。

二次開發(fā)在社區(qū)平臺的基礎(chǔ)上集成文獻分類檢索功能,并給出完整的系統(tǒng)架構(gòu)。本研究開發(fā)的文獻分類檢索平臺,可實現(xiàn)腫瘤疾病動物模型文獻數(shù)據(jù)資源的整合,解決目前腫瘤動物模型資源數(shù)據(jù)信息無序分散的問題,并能動態(tài)地為研究者提供動物模型的最新研究進展,為科研工作者提供一個方便、實時、高效、專業(yè)的網(wǎng)絡(luò)信息平臺工具。同時,本研究將為進一步開展腫瘤動物模型文獻數(shù)據(jù)挖掘工作奠定基礎(chǔ),逐步為行業(yè)提供模型制備的數(shù)據(jù)分析服務(wù),并增值開發(fā)相關(guān)的特色數(shù)據(jù)庫。

該文獻分類檢索系統(tǒng)的開發(fā),是實現(xiàn)動物模型文獻資源挖掘的第一步,是建設(shè)疾病動物模型資源共享平臺的基礎(chǔ),是進一步挖掘文獻數(shù)據(jù)資源、開發(fā)增值功能軟件、建立特色數(shù)據(jù)庫的關(guān)鍵。

猜你喜歡
爬蟲動物模型檢索
肥胖中醫(yī)證候動物模型研究進展
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
胃癌前病變動物模型復(fù)制實驗進展
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
潰瘍性結(jié)腸炎動物模型研究進展
2019年第4-6期便捷檢索目錄
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
糖尿病性視網(wǎng)膜病變動物模型研究進展
汕头市| 房产| 蓬莱市| 武定县| 仙桃市| 萝北县| 都江堰市| 南京市| 清新县| 黑山县| 福贡县| 巨鹿县| 青岛市| 郧西县| 正安县| 花莲县| 滦南县| 黄大仙区| 康保县| 河间市| 乌审旗| 怀来县| 万山特区| 宝兴县| 滨州市| 临泉县| 杭锦旗| 昂仁县| 天柱县| 西平县| 东港市| 龙州县| 广平县| 博湖县| 濮阳县| 武隆县| 玛多县| 丰原市| 福海县| 巴林右旗| 河北省|