李潔玉
(江蘇大學(xué)圖書(shū)館 鎮(zhèn)江 212013)
·史考縱橫·
計(jì)算機(jī)情報(bào)檢索系統(tǒng)核心實(shí)現(xiàn)技術(shù)發(fā)展歷程回顧
李潔玉
(江蘇大學(xué)圖書(shū)館 鎮(zhèn)江 212013)
計(jì)算機(jī)情報(bào)檢索系統(tǒng)的研究起始于1950年代,到現(xiàn)在已經(jīng)經(jīng)過(guò)約60年的歲月。目前它已經(jīng)成為情報(bào)學(xué)和計(jì)算機(jī)科學(xué)的一個(gè)重要分支學(xué)科。本文從情報(bào)檢索的萌芽階段,交互式搜索的興起,文本搜索的開(kāi)始,全文本搜索、英特網(wǎng)與搜索引擎,英特網(wǎng)走向昌盛五個(gè)階段簡(jiǎn)要介紹這60年來(lái)計(jì)算機(jī)信息檢索系統(tǒng)研究方面的歷史,著重介紹檢索算法和能提高檢索性能的核心實(shí)現(xiàn)技術(shù)。并對(duì)信息檢索中的中文分詞和中文信息檢索評(píng)價(jià)研究工作亦進(jìn)行簡(jiǎn)短回顧。
情報(bào)檢索 實(shí)現(xiàn)技術(shù) 發(fā)展階段 排序算法
直到20世紀(jì)40年代,情報(bào)檢索作為一個(gè)研究學(xué)科還處于萌芽階段,尚未形成專(zhuān)業(yè)化的情報(bào)檢索系統(tǒng)[1]。1948年,在英國(guó)皇家學(xué)會(huì)的一個(gè)主題為如何應(yīng)付科技信息量爆炸式增長(zhǎng)的專(zhuān)題討論會(huì)上,Holmstrom描述了一個(gè)名為Univac的機(jī)器,該機(jī)器能夠搜索與所給定的科目代碼相關(guān)的參考文獻(xiàn),代碼和參考文獻(xiàn)文本均被存儲(chǔ)在穿孔紙帶上[2]。這是首次提到計(jì)算機(jī)用于文獻(xiàn)檢索領(lǐng)域。其他一些計(jì)算機(jī)檢索系統(tǒng)的介紹見(jiàn)文獻(xiàn)3[3]。早期的計(jì)算機(jī)情報(bào)檢索主要在兩個(gè)方向上有重要進(jìn)展:為文檔建立索引和如何對(duì)文檔進(jìn)行檢索。
1.1 為文檔建立索引
在圖書(shū)館領(lǐng)域,如何將“項(xiàng)”(item)組織成集合是經(jīng)常辯論的主題。傳統(tǒng)的方法是使用層次型學(xué)科分類(lèi)方案,如杜威十進(jìn)制分類(lèi)系統(tǒng)(the Dewey Decimal system)。然而,有很多替代方案被提出。最有名的是Taube等人提出的單元詞(Uniterm)[4],它的基本思想是用一組關(guān)鍵字為項(xiàng)建立索引。在今天看來(lái),這個(gè)想法非常簡(jiǎn)單,但在當(dāng)時(shí)這被看作是非常激進(jìn)的一步。幾年以后,Cleverdon對(duì)單元項(xiàng)系統(tǒng)和傳統(tǒng)的分類(lèi)方法的有效性[5]進(jìn)行了詳細(xì)的比較,結(jié)論是單元詞至少和其他方法一樣好,甚至有可能比其他方法更好。這個(gè)結(jié)論非常出人意外。但經(jīng)過(guò)其他人的反復(fù)驗(yàn)證,Cleverdon的實(shí)驗(yàn)結(jié)果得到同行認(rèn)可。
1.2 基于排名的檢索
在早期的情報(bào)檢索系統(tǒng)中,廣泛采用布爾查詢(xún)。布爾查詢(xún)由一些詞組合而成,據(jù)此我們可找出和查詢(xún)完全匹配的所有文檔。Luhn提出一種新的方法:為文檔集合中的每個(gè)文檔分配相應(yīng)的得分以表示該文檔與給定查詢(xún)之間的相關(guān)性,然后將這些文檔根據(jù)得分進(jìn)行排序[6]。Maron、Kuhns和Ray進(jìn)行了測(cè)試,結(jié)果表明它優(yōu)于布爾搜索[7]。同年,基于Maron等人的工作,Luhn提出“一個(gè)詞在一篇文檔中出現(xiàn)的次數(shù)是決定這個(gè)詞重要性的有效指標(biāo)”[8]。該方法后來(lái)被稱(chēng)為詞頻加權(quán)。由此采用排名的檢索方法在學(xué)界受到重視。接下來(lái)的幾十年里,該方法被廣泛使用并被不斷細(xì)化和改進(jìn)。
2.1 商業(yè)搜索公司的興起
在20世紀(jì)60年代,一些商業(yè)搜索公司從專(zhuān)為大型公司或政府機(jī)構(gòu)研制專(zhuān)用檢索系統(tǒng)的項(xiàng)目中脫殼而出。Dennis在其論文中描述了早期的一個(gè)能搜索數(shù)以萬(wàn)計(jì)文檔的情報(bào)檢索系統(tǒng)[9]。 另一個(gè)例子是Dialog公司,它成立于1966年,是首先專(zhuān)門(mén)為客戶(hù)提供搜索的公司之一,該公司起源于為美國(guó)航空航天局創(chuàng)建的一個(gè)情報(bào)檢索系統(tǒng)[10]。
2.2 空間向量模型
在研究領(lǐng)域,情報(bào)檢索算法的形式化是一項(xiàng)有意義的工作,它是進(jìn)一步提高情報(bào)檢索性能的有效途徑。值得注意的一種方法是由Switzer提出的空間向量模型[11]。在該模型中,文檔集合中所有索引詞條形成一幾何空間,而文檔和查詢(xún)都看作是該間中的向量。文檔和查詢(xún)向量之間的相似性由它們之間的的余弦系數(shù)來(lái)測(cè)定[12]。
3.1 逆文檔頻率
Jones首次提出逆文檔頻率(IDF)的概念[13]。逆文檔頻率(IDF)是指在一個(gè)文檔集合中,一個(gè)單詞出現(xiàn)的頻率和其檢索意義上的重要性成反比:不太常見(jiàn)的詞傾向于反映更具體的概念,它在檢索中更重要。結(jié)合TF和IDF兩種權(quán)值的想法被提出后很快就被廣泛采納了。另一方面,Salton帶領(lǐng)他的研究組繼續(xù)從事向量空間模型的工作[14]。他們的研究成果支撐了許多研究型檢索系統(tǒng),激勵(lì)后來(lái)者在隨后20年中做了更進(jìn)一步的研究。
3.2 概率模型
情報(bào)檢索系統(tǒng)的另一種建模方法是利用概率論擴(kuò)充Maron、Kuhns和Ray的想法。Robertson定義了概率排名原理[15],對(duì)于特定的評(píng)價(jià)指標(biāo),它確定如何得到基于概率的最佳排名。一些變種在Robertson和Jones發(fā)表的另一篇論文[16]和Rijsbergen的書(shū)[17]中給出。這些成果刺激了大量的對(duì)概率論模型的進(jìn)一步研究。
1971年,第一屆ACM情報(bào)檢索會(huì)議在紐約舉行。1997年召開(kāi)了第二次會(huì)議,此后該會(huì)議每年舉行一次。
4.1 排名函數(shù)BM25
20世紀(jì)70年代,人們對(duì)TF-IDF加權(quán)方案提出了一些變種。Salton和 Buckley[18]對(duì)此方法用于向量空間模型做了廣泛的討論與回顧。在概率模型方面,最初的概率模型沒(méi)有包括TF權(quán)重,一些研究人員有效地將其納入其中。這項(xiàng)工作最終導(dǎo)致了排名函數(shù)BM25。BM25雖然在形式化方面有所不足,但有效性較之前的概率模型有較大的提高。
4.2 潛在語(yǔ)義索引
和向量空間模型有關(guān),潛在語(yǔ)義索引(Latent Semantic Indexing)通過(guò)奇異值分解[19]將任何文檔集合所對(duì)應(yīng)的向量空間的維數(shù)減少。這樣文檔和查詢(xún)被映射到較低維的空間。Deerwester和他的同事聲稱(chēng)降維導(dǎo)致查詢(xún)能夠匹配到更多的相關(guān)文件。
4.3 計(jì)算語(yǔ)言學(xué)方法的應(yīng)用
不同于潛在語(yǔ)義索引這樣的純數(shù)值方法,其他一些探測(cè)性的計(jì)算語(yǔ)言學(xué)方法考慮英語(yǔ)的很多方面如詞的語(yǔ)法與語(yǔ)義、詞的重復(fù)和模糊性、命名實(shí)體等。在這方面雖然進(jìn)行了大量的研究工作,但對(duì)于檢索系統(tǒng)的有效性鮮少有什么幫助。唯一被發(fā)現(xiàn)有用的是詞干提取算法(stemming)。詞干提取算法是指將文檔和查詢(xún)中的英文單詞均去掉詞尾,保留詞頭和詞干。詞干提取算法可以追溯到1960年代。波特在1970年代末開(kāi)發(fā)出一套小巧的適用于英語(yǔ)的提取規(guī)則,他的波特詞干提取算法[20]至今仍有很大影響。
4.4 文本檢索會(huì)議——TREC
1980年代末到1990年代初學(xué)術(shù)界關(guān)注的一個(gè)問(wèn)題是,相較于當(dāng)時(shí)一些商業(yè)搜索引擎公司采用的文檔集合,當(dāng)時(shí)學(xué)術(shù)界用于測(cè)試的文檔集合普遍規(guī)模很小。從1992年起,Donna Harman和她的同事創(chuàng)辦TREC(Text REtrieval Conference,文本檢索)會(huì)議,每年舉辦一次。由眾多的國(guó)際研究團(tuán)體合作構(gòu)造出一些測(cè)試集合,比以前使用的文檔集合要大幾個(gè)數(shù)量級(jí)[21]。采用這些新的數(shù)據(jù)集后可使實(shí)驗(yàn)結(jié)果更具實(shí)際意義。
4.5 學(xué)習(xí)排名
到這一時(shí)期,在搜索引擎中使用的排序函數(shù)是由人工設(shè)計(jì),并在實(shí)驗(yàn)中手動(dòng)調(diào)整一些參數(shù)。Fuhr[22]描述了如何通過(guò)確定一組查詢(xún)和其相關(guān)的文檔作為訓(xùn)練數(shù)據(jù)而學(xué)到檢索函數(shù)。文獻(xiàn)23[23]和文獻(xiàn)24[24]提出了更多的方法。由于缺乏足夠的訓(xùn)練數(shù)據(jù),這些方法在當(dāng)時(shí)效果不佳。到了2000年代,Web查詢(xún)?nèi)罩敬罅砍霈F(xiàn),可用作為訓(xùn)練數(shù)據(jù)。這些方法使用了Web查詢(xún)?nèi)罩竞?,效果變好?/p>
5.1 英特網(wǎng)搜索與相應(yīng)的技術(shù)
Berners-Lee在1990年底創(chuàng)建了萬(wàn)維網(wǎng),在最初幾年網(wǎng)站和網(wǎng)頁(yè)的數(shù)量還相對(duì)較少,采用傳統(tǒng)的手工編目方法就可以。但后來(lái)網(wǎng)站和網(wǎng)頁(yè)的數(shù)量成倍地增長(zhǎng),手工方法日漸不敷。Web搜索引擎在1993年下半年開(kāi)始出現(xiàn),以滿(mǎn)足日益增長(zhǎng)的需要。
為了有效支持Web上的應(yīng)用,出現(xiàn)了兩處重要的研究進(jìn)展,它們是鏈接分析和錨文本的搜索。錨文本不僅搜索網(wǎng)頁(yè)本身的內(nèi)容,并且搜索鏈接指向的文本。錨文本一般是頁(yè)面的一個(gè)簡(jiǎn)短的總結(jié),在較早時(shí)候就被認(rèn)識(shí)到可作為有價(jià)值的信息源(如McBryan在1994年的工作[25])。一些人為網(wǎng)頁(yè)寫(xiě)作了錨文本,主要目的是使操縱該文本更難實(shí)現(xiàn)。使用錨文本是谷歌搜索引擎的一個(gè)主要特點(diǎn)[26]。鏈接分析法PageRank由谷歌的創(chuàng)始人提出,而HITS是在差不多同時(shí)由Kleinberg 提出[27]。
在現(xiàn)有的文檔排序功能上添加鏈接分析和文檔的多重文本表示,意味著我們會(huì)使情報(bào)檢索系統(tǒng)的內(nèi)部算法變得更加復(fù)雜。為不同的特征正確地設(shè)置參數(shù)是一個(gè)挑戰(zhàn),這使得人們重新探討由Fuhr啟動(dòng)的學(xué)習(xí)排序方法。Fuhr當(dāng)時(shí)苦于缺乏足夠的訓(xùn)練數(shù)據(jù),但是,當(dāng)搜索引擎廣泛流行,人們認(rèn)識(shí)到,用戶(hù)交互的日志可作此用。
5.2 從查詢(xún)?nèi)罩局刑崛⌒畔?/p>
從搜索引擎的日志中自動(dòng)提取信息也引起人們的注意。雖然存儲(chǔ)并檢查日志的實(shí)踐已有多年,但大多數(shù)情況是作為對(duì)手動(dòng)調(diào)節(jié)檢索系統(tǒng)提供有用的信息。當(dāng)大眾普遍開(kāi)始使用Web搜索引擎時(shí),人們逐步認(rèn)識(shí)到可從這些日志中提取有價(jià)值的信息的真正潛力。檢查用戶(hù)的查詢(xún)、選擇結(jié)果列表中文檔的用戶(hù)模式和用戶(hù)查詢(xún)的再形成,使研究人員能準(zhǔn)確理解用戶(hù)的“意圖”, 以制定更有效的查詢(xún)處理技術(shù),如自動(dòng)拼寫(xiě)校正[28]、自動(dòng)查詢(xún)擴(kuò)展[29]和更準(zhǔn)確的詞干保留技術(shù)(stemming)[30]。
5.3 信息需求的多樣性
人們?cè)缇驼J(rèn)識(shí)到,即使是使用同一個(gè)查詢(xún),不同的用戶(hù)可能有不同的信息需求,情報(bào)檢索系統(tǒng)應(yīng)該能夠滿(mǎn)足這些不同的需求。這就需要在對(duì)文檔進(jìn)行排名時(shí),搜索引擎要同時(shí)考慮文檔的相關(guān)性和多樣性。自1990年代末以來(lái),已經(jīng)有很多科學(xué)家共同努力試圖解決這個(gè)問(wèn)題。Carbonell和Goldstein關(guān)于他們的多樣性系統(tǒng)MMR的描述[31]是該問(wèn)題的一篇核心論文。
5.4 檢索模型的新進(jìn)展
在此期間,作為情報(bào)檢索系統(tǒng)中的核心排名功能的基礎(chǔ),檢索模型繼續(xù)有新的進(jìn)展。特別值得注意的是使用語(yǔ)言模型的概率方法,最早由Ponte、Croft[32]和Hiemstra[33]提出。通過(guò)對(duì)文檔和查詢(xún)之間的匹配過(guò)程采取新的觀(guān)點(diǎn),語(yǔ)言模型方法為一些情報(bào)檢索過(guò)程,如相關(guān)性反饋、形成文檔的集群(cluster)、項(xiàng)之間的依賴(lài)等提供了新的認(rèn)識(shí)。
隨著計(jì)算環(huán)境的變化,搜索和情報(bào)檢索仍然繼續(xù)發(fā)展。近來(lái)這種類(lèi)型的變化最明顯的例子就是移動(dòng)設(shè)備和社交媒體的快速增長(zhǎng)。情報(bào)檢索學(xué)界對(duì)此的反應(yīng)是開(kāi)展對(duì)社會(huì)化搜索的研究,其中涉及到用戶(hù)社區(qū)和非正式的信息交換。新的研究在各種主題諸如用戶(hù)標(biāo)記、談話(huà)檢索、過(guò)濾和推薦、協(xié)作搜索等開(kāi)展,并開(kāi)始提供用于管理個(gè)人和社會(huì)信息有效的新工具。
5.5 短查詢(xún)與長(zhǎng)查詢(xún)
根據(jù)統(tǒng)計(jì)大部分提交到Web搜索引擎的查詢(xún)都很短(1~3詞),所以很多基于Web的情報(bào)檢索研究都把注意力集中于短查詢(xún)。短查詢(xún)一般沒(méi)有什么語(yǔ)言結(jié)構(gòu),有些時(shí)候只由一個(gè)名詞或名詞短語(yǔ)組成。另一項(xiàng)進(jìn)展是支持用戶(hù)提出的長(zhǎng)查詢(xún)。這項(xiàng)研究工作的開(kāi)始與TREC的問(wèn)題回答任務(wù)[34]有關(guān)。該任務(wù)試圖對(duì)某些類(lèi)型的問(wèn)題(像“WH”問(wèn)題如“誰(shuí)”和“什么時(shí)候”)找出簡(jiǎn)短的答案。該任務(wù)很適合大型社區(qū)答疑檔案這樣的應(yīng)用。研究人員還一直在對(duì)更詳細(xì)的問(wèn)題開(kāi)發(fā)、提供更有針對(duì)性的答案的技術(shù)。一些應(yīng)用程序如蘋(píng)果的情報(bào)檢索Siri、IBM的Watson和雅虎問(wèn)答的成功,很大程度上是由于該項(xiàng)研究的開(kāi)展。
中文信息檢索是中文情報(bào)處理的一部分。中國(guó)中文信息學(xué)會(huì)成立于1981年6月,錢(qián)偉長(zhǎng)、甄健民、安其春等為主要發(fā)起人。中文信息處理學(xué)科是在語(yǔ)言文字學(xué)、計(jì)算機(jī)應(yīng)用技術(shù)、人工智能、認(rèn)知心理學(xué)和數(shù)學(xué)等相關(guān)學(xué)科的基礎(chǔ)上形成的一門(mén)交叉學(xué)科。中文信息檢索系統(tǒng)的實(shí)現(xiàn)多采用國(guó)際上已有的基于英文的信息檢索技術(shù)。但在下述兩個(gè)方面有差別。
6.1 中文分詞
中英文信息(情報(bào))檢索的主要區(qū)別在于檢索的基本單位不同。英文詞之間一般可根據(jù)空格自動(dòng)區(qū)分,而中文檢索更為復(fù)雜。如為所有的單字建立索引,則檢索效果不理想。所以一般為一個(gè)或多個(gè)字組成的詞建立索引,則需要好的分詞算法。現(xiàn)有的分詞算法可分為三類(lèi):基于辭典、詞庫(kù)匹配的分詞方法,基于詞頻統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法。對(duì)于每一類(lèi),都已提出了很多種方法。
6.2 中文信息檢索評(píng)價(jià)
2003 年,國(guó)家863 計(jì)劃軟硬件主題設(shè)立了“中文信息處理和智能人機(jī)接口技術(shù)評(píng)測(cè)”專(zhuān)項(xiàng)課題,對(duì)包括機(jī)器翻譯、語(yǔ)音識(shí)別、信息檢索在內(nèi)的中文信息處理關(guān)鍵技術(shù)進(jìn)行評(píng)測(cè)。該課題由中國(guó)科學(xué)院計(jì)算技術(shù)研究所承辦,從2003 年到2005年連續(xù)舉辦三屆[35]。
SEWM是另一項(xiàng)主要的中文信息檢索評(píng)測(cè)活動(dòng),這項(xiàng)活動(dòng)由北京大學(xué)從2004年起至2011年共舉辦8次[36]。該活動(dòng)側(cè)重于Web信息檢索,在某些年份,也有其他一些不同的主題如垃圾郵件過(guò)濾、非網(wǎng)頁(yè)數(shù)字資源分類(lèi)等。關(guān)于構(gòu)建測(cè)試集的一些考慮因素的討論見(jiàn)文獻(xiàn)37[37]。
在20世紀(jì)初,人們常常利用圖書(shū)館,通過(guò)使用卡片目錄,希望找到有關(guān)的書(shū)籍或文檔資料,以滿(mǎn)足查找信息的需求。這種方式既不方便又慢,效率較低,還受到圖書(shū)館收藏的局限,通常僅能找到有限的信息,用它解決極少量的問(wèn)題。到了21世紀(jì),基于Web的搜索幾乎是無(wú)處不在的,人們通過(guò)互聯(lián)網(wǎng),采用搜索引擎在瞬間訪(fǎng)問(wèn)到數(shù)百萬(wàn)兆字節(jié)的網(wǎng)頁(yè)、視頻剪輯、新聞、圖片、社會(huì)媒體掃描的書(shū)籍、學(xué)術(shù)論文、音樂(lè)、電視節(jié)目和電影。在過(guò)去幾年中,甚至發(fā)展到利用移動(dòng)電話(huà)來(lái)進(jìn)行類(lèi)似的搜索。與100年前的情報(bào)檢索方式唯一的共同點(diǎn)是,這兩種服務(wù)一般都可以免費(fèi)使用。
如今的情報(bào)檢索系統(tǒng)已經(jīng)很容易使用,然而情報(bào)檢索系統(tǒng)背后的技術(shù)卻凝聚了眾多科學(xué)家和研究人員的心血,是他們60多年來(lái)的不斷創(chuàng)新和努力的結(jié)果。
展望未來(lái),短期而言,各種垂直型的搜索引擎(如旅游、餐飲、購(gòu)物、體育、學(xué)術(shù)等)、社會(huì)網(wǎng)絡(luò)分析與事件和輿情的識(shí)別、移動(dòng)訪(fǎng)問(wèn)、與位置和時(shí)間有關(guān)的情報(bào)檢索、個(gè)性化服務(wù)、多媒體情報(bào)檢索等還會(huì)有進(jìn)一步的發(fā)展。從長(zhǎng)期的和用戶(hù)的角度而言,更加完善的情報(bào)檢索系統(tǒng)包括能夠提供無(wú)可挑剔的語(yǔ)音識(shí)別、自然對(duì)話(huà)的管理、對(duì)于搜索者的信息需求的高水平的語(yǔ)義理解,以及能夠?qū)Υ罅康奈臋n和聯(lián)邦數(shù)據(jù)庫(kù)的無(wú)限制訪(fǎng)問(wèn)。
[1] 丁 蔚,倪 波,成 穎. 情報(bào)檢索的發(fā)展——情報(bào)學(xué)世紀(jì)回眸之一[J]. 情報(bào)科學(xué),2001,19(1):81-86.
[2] Holmstrom J E. Section III. Opening plenary session [C]// The Royal Society Scientific Information Conference, 21 June-2 July 1948 : report and papers submitted. London: Royal Society, 1948.
[3] Nanus B. The use of electronic computers for information retrieval[J]. Bulletin of the Medical Library Association, 1960, 48(3): 278.
[4] Taube M, Gull C D, Wachtel I S. Unit terms in coordinate indexing[J]. American documentation, 1952, 3(4): 213-218.
[5] Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin?[J]. Communications of the ACM, 1992, 35(12): 29-38.
[6] Luhn H P. A statistical approach to mechanized encoding and searching of literary information[J]. IBM Journal of research and development, 1957, 1(4): 309-317.
[7] Maron M E, Kuhns J L, Ray L C. Probabilistic indexing. a statistical technique for document identification and retrieval[R]. Los Angeles:Thompson Ramo Wooldridge Inc , 1959.
[8] Luhn H P. The automatic creation of literature abstracts[J]. IBM Journal of research and development, 1958, 2(2): 159-165.
[9] Dennis B K, Brady J J, Dovel Jr J A. Index manipulation and abstract retrieval by computer[J]. Journal of Chemical Documentation, 1962, 2(4): 234-242.
[10] Bjorner S, Ardito S C. Online before the Internet: Early pioneers tell their stories, Part 2: Growth of the online industry[J]. Searcher, 2003, 11(7): 52-61.
[11] Switzer P. Vector images in document retrieval[J]. Statistical association methods for mechanized documentation, 1965: 163-171.
[12] Rocchio J J. Relevance feedback in information retrieval[R]. Cambridge:Harvard University, 1965.
[13] Jones K S. A statistical interpretation of term specificity and its application in retrieval[J]. Journal of documentation, 1972, 28(1): 11-21.
[14] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
[15] Robertson S E. The probability ranking principle in IR[J]. Journal of documentation, 1977, 33(4): 294-304.
[16] Robertson S E, Jones K S. Relevance weighting of search terms[J]. Journal of the American Society for Information science, 1976, 27(3): 129-146.
[17] Van Rijsbergen C J. Information Retrieval[M]. Oxford: Butterworth-Heinemann Ltd, 1979:224.
[18] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523.
[19] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. JASIS, 1990, 41(6): 391-407.
[20] Porter M F. An algorithm for suffix stripping[J]. Program: electronic library and information systems, 1980, 14(3): 130-137.
[21] Voorhees E M,Harman D K. TREC: Experiment and evaluation in information retrieval[M]. Cambridge: MIT press, 2005:123-152.
[22] Fuhr N. Optimum polynomial retrieval functions based on the probability ranking principle[J]. ACM Transactions on Information Systems (TOIS), 1989, 7(3): 183-204.
[23] Fuhr N, Buckley C. A probabilistic learning approach for document indexing[J]. ACM Transactions on Information Systems (TOIS), 1991, 9(3): 223-248.
[24] Cooper W S, Gey F C, Dabney D P. Probabilistic retrieval based on staged logistic regression[C]// Proceedings of the 15th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1992: 198-210.
[25] McBryan O A. GENVL and WWWW: Tools for taming the web[C]// Proceedings of the first international world wide web conference. 1994:341.
[26] Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J]. Computer networks and ISDN systems, 1998, 30(1): 107-117.
[27] Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM, 1999, 46(5): 604-632.
[28] Cucerzan S, Brill E. Spelling Correction as an Iterative Process that Exploits the Collective Knowledge of Web Users[C]// EMNLP. 2004, 4: 293-300.
[29] Agichtein E, Brill E, Dumais S. Improving web search ranking by incorporating user behavior information[C]// Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006: 19-26.
[30] Peng F, Ahmed N, Li X, et al. Context sensitive stemming for web search[C]// Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2007: 639-646.
[31] Carbonell J, Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries[C]// Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 335-336.
[32] Ponte J M, Croft W B. A language modeling approach to information retrieval[C]// Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 275-281.
[33] Hiemstra D. A linguistically motivated probabilistic model of information retrieval[M]// Research and advanced technology for digital libraries. Berlin: Springer Berlin Heidelberg, 1998: 569-584.
[34] Voorhees E M. The TREC question answering track[J]. Natural Language Engineering, 2001, 7(4): 361-378.
[35] 中國(guó)科學(xué)院計(jì)算技術(shù)研究所. 信息檢索評(píng)測(cè)技術(shù)概述[EB/OL]. [2014-04-20]. http://www.ict.ac.cn/kxcb/kxr/201009/t20100907_2945830.html.
[36] 北京大學(xué)網(wǎng)絡(luò)實(shí)驗(yàn)室. 中文Web信息檢索論壇(CWIRF)[EB/OL]. [2014-04-20]. http://www.cwirf.org/.
[37] 李靜靜,閆宏飛. 中文網(wǎng)頁(yè)信息檢索測(cè)試集的構(gòu)建、分析及應(yīng)用[J]. 中文信息學(xué)報(bào),2008,22(1):30-36.
(責(zé)任編校 田麗麗)
ABriefIntroductiontotheHistoryoftheKeyImplementationTechnologyofComputerInformationRetrieval
Li Jieyu
Jiangsu University Library, Zhenjiang 212013, China
It has been over 60 years since researchers began to investigate computerized information retrieval systems in the 1950s. Up to now it has become an important branch in information science and computer science as well. We break the whole 60 years down to 5 stages, namely appearance of information retrieval, interactional search, text search, whole text search and Internet search engine, Internet tending towards prosperity, and discuss each of them with a focus on the key implementation technology. We also give a brief account of the evaluation of Chinese segmentation and Chinese information retrieval.
information retrieval; implementation technology; stage of development; ranking algorithm
G354
李潔玉,女,1963年生,碩士,工程師。