薛萌
摘要:隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)設(shè)備的普及,大數(shù)據(jù)時(shí)代下信息的需求量逐漸增加。對(duì)于專業(yè)要求性強(qiáng)且發(fā)展迅速的醫(yī)學(xué)來說,信息檢索技術(shù)的優(yōu)化和利用對(duì)于促進(jìn)醫(yī)學(xué)信息建設(shè),加強(qiáng)信息的互動(dòng)性和層次性有重要意義。本文就目前醫(yī)學(xué)信息檢索技術(shù)展開研究,并基于醫(yī)學(xué)專業(yè)信息檢索特點(diǎn),提出了更為便捷的信息檢索方式,以期促進(jìn)醫(yī)學(xué)信息檢索技術(shù)的發(fā)展。
關(guān)鍵詞:信息檢索;醫(yī)學(xué)信息;檢索技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)23-0241-02
隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的到來,醫(yī)學(xué)理論和醫(yī)學(xué)專業(yè)技術(shù)的革命速度加快,信息量逐漸增大。大量的信息為醫(yī)務(wù)工作者的學(xué)習(xí)和研究提供了便利,同時(shí)海量的數(shù)據(jù)也為其帶來了信息檢索和篩選的障礙。傳統(tǒng)的醫(yī)學(xué)信息檢索方式通過文本檢索的方式得到的返回結(jié)果數(shù)量過多,需要額外對(duì)返回結(jié)果進(jìn)行過濾和選擇,難以滿足人們對(duì)醫(yī)學(xué)信息檢索精準(zhǔn)和快捷的需求。因此,本文在分析了醫(yī)學(xué)信息檢索相關(guān)技術(shù)的基礎(chǔ)上,探討了短語檢索方式在醫(yī)學(xué)信息檢索與利用中的優(yōu)勢(shì),為醫(yī)學(xué)信息檢索與利用提供參考和借鑒。
1 醫(yī)學(xué)信息檢索的概述
1.1 醫(yī)學(xué)信息檢索的概念
信息檢索是指利用一定的方式將信息進(jìn)行有序地組織,根據(jù)信息檢索者的需求來找出其需求信息的過程與技術(shù)。那么醫(yī)學(xué)信息檢索的概念就是指,從信息資源的大集合中,查找所需要的醫(yī)學(xué)文獻(xiàn)或者是查找醫(yī)學(xué)文獻(xiàn)中所需要的醫(yī)學(xué)信息內(nèi)容的過程和技術(shù)。從概念中我們得知醫(yī)學(xué)信息檢索是醫(yī)學(xué)信息重新匹配的過程,包括了醫(yī)學(xué)信息的處理和檢索兩個(gè)部分。
信息檢索的方式包括手工檢索、機(jī)械檢索和計(jì)算機(jī)檢索,其中計(jì)算機(jī)檢索是信息檢索的重點(diǎn)部分,是指利用互聯(lián)網(wǎng)終端和信息技術(shù),查找和獲取信息的檢索方式,這種方式符合大數(shù)據(jù)時(shí)代的要求,也是未來發(fā)展的主要方向,本文就計(jì)算機(jī)信息檢索展開研究。
1.2 醫(yī)學(xué)信息檢索的特點(diǎn)
專業(yè)性。醫(yī)學(xué)是一項(xiàng)非常嚴(yán)謹(jǐn)?shù)膶I(yè)研究,從事醫(yī)學(xué)工作的醫(yī)務(wù)人員都有非常具體而明確的研究目標(biāo)與方向,對(duì)相關(guān)的信息資源有著非常深入的了解,且關(guān)注的范圍和內(nèi)容有針對(duì)性,有強(qiáng)烈的專業(yè)特征。
時(shí)效性。由于醫(yī)學(xué)技術(shù)的迅速發(fā)展,在知識(shí)不斷更新、技術(shù)不斷優(yōu)化的醫(yī)學(xué)領(lǐng)域中,對(duì)于醫(yī)學(xué)信息的實(shí)時(shí)了解與研究非常重要。醫(yī)學(xué)專業(yè)的工作者對(duì)于醫(yī)學(xué)信息檢索的時(shí)效性需求更為強(qiáng)烈,及時(shí)、高效的醫(yī)學(xué)信息對(duì)于醫(yī)療技術(shù)的發(fā)展和進(jìn)步也有至關(guān)重要的作用。
價(jià)值性。對(duì)于醫(yī)學(xué)而言,高質(zhì)量、高效率的醫(yī)學(xué)信息資源利用是提升醫(yī)學(xué)專業(yè)理論水平,加深專業(yè)深度的重要方面。在大數(shù)據(jù)時(shí)代下,海量的信息中不乏虛假、質(zhì)次、不準(zhǔn)確的信息,這種信息的存在給醫(yī)學(xué)的發(fā)展和醫(yī)學(xué)信息檢索帶來不利。醫(yī)學(xué)信息檢索和利用中的價(jià)值性非常重要。
2 醫(yī)學(xué)信息檢索與利用的相關(guān)技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
網(wǎng)絡(luò)爬蟲技術(shù)是根據(jù)一定的規(guī)則和方法自動(dòng)的抓取萬維網(wǎng)中信息的程序或者腳本技術(shù)。網(wǎng)絡(luò)爬蟲技術(shù)是信息檢索與利用的主要技術(shù),為醫(yī)學(xué)信息的檢索提供了必要的信息來源。
網(wǎng)絡(luò)爬蟲技術(shù)的模塊包括了初始的URL集合、頁面庫、待抓取URL隊(duì)列、頁面下載模塊、頁面分析模塊和鏈接過濾模塊六部分。常見的信息抓取策略有深度優(yōu)先策略和廣度優(yōu)先策略兩種。深度優(yōu)先是指在抓取信息時(shí)以深度為最優(yōu)先的選擇,隨著鏈接逐漸往下跟蹤,直到達(dá)到這條鏈條的重點(diǎn),再?gòu)钠渌撁骈_始抓取信息。廣度優(yōu)先是將頁面所有鏈接都進(jìn)行提取,放入帶抓取URL隊(duì)列,逐層抓取頁面信息。
2.2 結(jié)構(gòu)化信息
信息在經(jīng)過分析之后可以分解為多個(gè)有聯(lián)系的組成部分,各個(gè)部分之間存在著明確的層次結(jié)構(gòu)被稱之為結(jié)構(gòu)化信息,結(jié)構(gòu)化信息的使用和維護(hù)可以通過數(shù)據(jù)庫進(jìn)行有效管理和操作。醫(yī)學(xué)信息多數(shù)由文本、圖片、表格、檔案、多媒體內(nèi)容等形式組成,這類信息內(nèi)容不可預(yù)知,其內(nèi)容無法直接進(jìn)行組織排列,被稱為非結(jié)構(gòu)化信息。非結(jié)構(gòu)化信息難以實(shí)現(xiàn)高效的流轉(zhuǎn),增加了檢索中的信息處理難度,非結(jié)構(gòu)化信息的結(jié)構(gòu)化是信息檢索和利用的重要步驟。利用網(wǎng)絡(luò)爬蟲技術(shù)抓取的網(wǎng)頁并非是結(jié)構(gòu)化信息,需要進(jìn)一步對(duì)信息進(jìn)行提取和過濾,增加信息檢索的精確度,將信息以結(jié)構(gòu)化的形式進(jìn)行保存。
2.3 索引技術(shù)
索引技術(shù)是提高非結(jié)構(gòu)化信息的檢索和提取效率的有效方法,利用索引技術(shù)能夠有效地提取非結(jié)構(gòu)化數(shù)據(jù)信息,使得數(shù)據(jù)信息得以重新組織,加強(qiáng)其結(jié)構(gòu)性,加快信息檢索的效率。索引技術(shù)包括了前向索引和倒排索引兩種。
前向索引是較早也較成熟的索引技術(shù),利用前向索引技術(shù)對(duì)文本信息進(jìn)行分詞組分析,獲取文本信息中的詞元token、頻次等信息。這種技術(shù)進(jìn)行信息檢索頗為不便,然而利用前向索引獲取的詞,可以為倒排索引建立條件。
倒排索引通過關(guān)鍵字來獲取信息,一般情況下倒排索引包括了詞典和倒排鏈表兩部分。詞典是根據(jù)索引詞的規(guī)則排列而成的,是對(duì)索引詞、頻次和指針的記錄。倒排鏈表是對(duì)文本的集合,倒排鏈表的節(jié)點(diǎn)數(shù)是根據(jù)詞典中的document frequency來制定。
倒排索引能夠?qū)?fù)雜信息進(jìn)行高效查詢,將信息轉(zhuǎn)變?yōu)閹讉€(gè)集合的交集,通過一定的計(jì)算方法獲取所需的數(shù)據(jù)信息,減少了信息讀取的時(shí)間,降低了數(shù)據(jù)運(yùn)算的難度,提升了檢索的效率。
2.4 搜索結(jié)果排序技術(shù)
信息索引完成之后,利用關(guān)鍵字進(jìn)行查詢能夠快速獲得所需的信息。然而對(duì)于專業(yè)程度高、信息量巨大且更新快速的醫(yī)學(xué)信息來說,在通過信息索引完成信息檢索,其檢索的結(jié)果是大量的相關(guān)信息但排列無序仍然無法滿足信息檢索與利用的需求。對(duì)信息搜索結(jié)果的排序非常重要。信息搜索結(jié)果的排序需要先利用關(guān)鍵詞查詢獲取相關(guān)信息文本,再通過一定的計(jì)算方法對(duì)本文的相關(guān)度進(jìn)行計(jì)算或者評(píng)分,根據(jù)計(jì)算的結(jié)果來進(jìn)行排序獲取結(jié)果集。通常情況下,搜索結(jié)果排序中的計(jì)算方法包括PageRank計(jì)算法和Hits計(jì)算法兩種。
PageRank計(jì)算法是利用入鏈的數(shù)量來判斷網(wǎng)頁信息的重要性的,頁面的入鏈數(shù)量越大則判斷頁面越重要,在實(shí)際計(jì)算中需要多次的迭代來確定信息的評(píng)分。Hits計(jì)算法是根據(jù)樞紐值和權(quán)威值互相增強(qiáng)的關(guān)系來進(jìn)行計(jì)算的。樞紐值是指頁面中包含的鏈接所指向頁面的權(quán)威值的和。權(quán)威值是指包含頁面鏈接中頁面的樞紐值的和。在計(jì)算過程中根據(jù)Root Set結(jié)合內(nèi)頁面的出入度建立數(shù)據(jù)矩陣,對(duì)矩陣進(jìn)行迭代計(jì)算,樞紐值和權(quán)威值達(dá)到既定的收斂閾值獲取結(jié)果。
3 醫(yī)學(xué)信息檢索與利用的優(yōu)化——基于短語檢索方法的查詢擴(kuò)展
隨著大數(shù)據(jù)時(shí)代的到來,對(duì)于醫(yī)學(xué)專業(yè)而言,在海量信息中精確獲取目標(biāo)信息變得越來越重要?;诙陶Z檢索方法的查詢擴(kuò)展能夠引導(dǎo)醫(yī)學(xué)信息的需求者發(fā)現(xiàn)需要的信息,實(shí)現(xiàn)信息的高效利用。
基于短語檢索方法的查詢擴(kuò)展能夠利用富含語義信息的概念來取代傳統(tǒng)信息檢索方式,傳統(tǒng)信息檢索方式有耗時(shí)耗力、增加索引存儲(chǔ)空間的弊端。短語信息檢索模型在醫(yī)學(xué)信息檢索與利用中以自身比單詞長(zhǎng)比句子段的單位特點(diǎn),能夠更好地表達(dá)概念結(jié)構(gòu),消除歧義,確定上下文環(huán)境,以提升醫(yī)學(xué)檢索的性能。在短語檢索中分為句法層面的短語構(gòu)造和統(tǒng)計(jì)學(xué)意義的短語構(gòu)造,為了提升檢索精確度,句法層面的短語構(gòu)造更有利用價(jià)值。
在醫(yī)學(xué)信息檢索與利用中,短語檢索方式和查詢擴(kuò)展包括三個(gè)步驟。第一是借助MetaMap工具自動(dòng)實(shí)現(xiàn)在檢索查詢中識(shí)別短語詞組phrases;第二步是利用檢索引擎Indri和自帶的信息結(jié)構(gòu)化語言實(shí)現(xiàn)在文本中識(shí)別短語詞組phrases;第三步同樣利用Indri和自帶的信息結(jié)構(gòu)化語言組合短語和原始查詢中的詞項(xiàng),生成新的查詢并進(jìn)行搜索結(jié)果排序計(jì)算完成最終的檢索。
這種基于短語的醫(yī)學(xué)信息檢索與利用方式相對(duì)于傳統(tǒng)檢索方式在各個(gè)性能方面都有很大的提升,能夠縮短信息檢索時(shí)間,提高信息檢索的精確度,面對(duì)較為復(fù)雜的醫(yī)學(xué)信息查詢亦能應(yīng)付自如,是較為理想的醫(yī)學(xué)信息檢索與利用方式。
參考文獻(xiàn):
[1] 陳永莉,洪漪. 檢索語言在醫(yī)學(xué)信息管理與檢索中的應(yīng)用綜述[J]. 圖書情報(bào)知識(shí),2015(3):72-79.
[2] 胡德華,種樂熹,邱均平,等. 國(guó)內(nèi)外知識(shí)檢索研究的進(jìn)展與趨勢(shì)[J]. 圖書情報(bào)知識(shí),2015(3):93-106.
[3] 郭少友,李亞菲,梁園園. 基于細(xì)粒度語義化描述的醫(yī)學(xué)文本檢索[J]. 情報(bào)理論與實(shí)踐,2015(8):130-134.