程學旗,郭嘉豐,靳小龍
(中國科學院 計算技術(shù)研究所,北京 100190)
隨著互聯(lián)網(wǎng)在人們?nèi)粘I钆c工作中的廣泛普及和各種互聯(lián)網(wǎng)應(yīng)用的層出不窮,爆發(fā)式增長的網(wǎng)絡(luò)信息已經(jīng)使互聯(lián)網(wǎng)成為了人類迄今為止規(guī)模最大的數(shù)據(jù)資源。據(jù)Google聲稱,他們在2008年索引的網(wǎng)頁數(shù)據(jù)量已經(jīng)達到1萬億,而社交網(wǎng)站Twitter在2011年上半年每天生成的tweet數(shù)據(jù)就高達2億條?;ヂ?lián)網(wǎng)上的海量信息,既包括了傳統(tǒng)意義上的網(wǎng)頁內(nèi)容數(shù)據(jù),例如,來自新聞、博客、微博、社區(qū)、論壇上的各類文本、圖片、音頻、視頻數(shù)據(jù),也包括了大量的用戶行為數(shù)據(jù),例如,用戶的查詢、瀏覽、打分、評論等行為產(chǎn)生的數(shù)據(jù),還包括了各類結(jié)構(gòu)關(guān)系數(shù)據(jù),例如,鏈接關(guān)系、跟隨關(guān)系。海量的網(wǎng)絡(luò)信息是一把雙刃劍,它既是超大規(guī)模的人類知識寶庫,具有難以估量的價值,同時如何從非結(jié)構(gòu)化、富噪聲、高維稀疏的海量網(wǎng)絡(luò)信息中發(fā)現(xiàn)有價值的知識,已經(jīng)成為了網(wǎng)絡(luò)信息處理與服務(wù)領(lǐng)域面臨的巨大挑戰(zhàn)。圍繞著日益龐大的網(wǎng)絡(luò)信息,檢索與挖掘成為了這個領(lǐng)域研究的工作重點?;仡櫥ヂ?lián)網(wǎng)發(fā)展的近30年,有大量的研究與應(yīng)用工作沿著這個方向在不斷探索發(fā)展并取得了一些重要的成果。
在網(wǎng)絡(luò)信息的檢索與挖掘領(lǐng)域,相關(guān)工作大致可以分為三個方向,即信息表達、信息挖掘以及信息檢索。對信息表達的研究是信息檢索與挖掘的基礎(chǔ)。為了能夠更好的讓網(wǎng)絡(luò)信息為用戶服務(wù),人們首先需要理解信息,進而正確地表達信息;對信息挖掘的研究,則主要關(guān)注如何從海量網(wǎng)絡(luò)信息中發(fā)現(xiàn)內(nèi)在規(guī)律,挖掘其蘊含的知識;而對信息檢索的研究,則關(guān)注如何幫助用戶快速高效的從海量信息中獲取相關(guān)內(nèi)容,以滿足用戶需求。
本文從這三個方向入手,簡要回顧相關(guān)研究工作的進展,嘗試厘清其發(fā)展變化的歷程和趨勢,一起回顧并總結(jié)在網(wǎng)絡(luò)信息探索研究的道路上,我們已經(jīng)走了多遠?我們未來將走向何方?
信息表達的方式代表了人們對信息的理解和認識程度,良好的信息表達形式是機器來求解問題的基本前提,對問題的有效解決起著舉足輕重的作用。當前,雖然網(wǎng)絡(luò)上各種類型的信息(包括文本、圖片、音頻、視頻等)呈現(xiàn)出爆炸性的增長趨勢,但文本仍然是信息交流和傳播的主要載體,因此本文主要關(guān)注如何對文本信息進行表示建模。對文本信息進行表示和建模其目的是讓計算機能夠正確理解人類的語言,能夠分析和表達出其中的語義信息,這是一個非常有趣但又極具挑戰(zhàn)的問題。文本信息的表達經(jīng)歷了從淺層詞語表達方式到深層語義表達方式這樣一個歷程,其中代表性的工作包括了向量空間表示(VSM)[1]、隱語義索引(LSI)[2]和概率話題模型(PLSA、LDA)[3-4]等。
早在1975年就已被提出的向量空間表示,就是將文檔表示成具有代表性關(guān)鍵詞的向量形式,這組關(guān)鍵詞稱為索引詞項。向量中的每一個分項對應(yīng)一個索引詞項,每個分項的數(shù)值定義為權(quán)重。這樣,文檔就可以看成是由索引詞項所構(gòu)成的向量空間中的一個點。索引詞項的權(quán)重體現(xiàn)了該詞項描述文檔語義內(nèi)容的能力和重要程度,具有多種計算方式。經(jīng)典的計算方式的是Salton等人[5]提出的TF-IDF權(quán)重,其中TF (Term Frequency)是詞項頻率,即詞項在文檔中的出現(xiàn)頻率,體現(xiàn)了詞項對文檔的重要程度;IDF(Inverse Document Frequency)是逆文檔頻率,體現(xiàn)了詞項對文檔的區(qū)分程度。TF-IDF這種計算模式在一定程度上體現(xiàn)了類內(nèi)聚合性和類間差異性,在文本檢索和挖掘領(lǐng)域內(nèi)得到了廣泛的應(yīng)用并取得了顯著的效果。正所謂“瑕瑜互見”,向量空間表達方式雖然具有很多優(yōu)點,但是沒有能力處理自然語言的兩個經(jīng)典問題: 一義多詞(synonymy)和一詞多義(polysemy)。另外,向量空間表達方式容易產(chǎn)生高維稀疏性問題。
因而在1990年,Deerwester等人[2]提出了隱語義分析(Latent Semantic Analysis, LSA)。LSA的基本思想是將文檔由高維表示空間映射到低維表示空間上。具體來說,就是通過奇異值分解(SVD),將文檔從詞項空間映射到隱語義空間上。LSA的最終目的是為了表現(xiàn)詞語與文檔,詞語與詞語,以及文檔與文檔在隱語義空間內(nèi)的語義關(guān)系。LSA在很多文本挖掘的實際問題中得到了應(yīng)用,已經(jīng)被證明是一個很有效的分析方法。但是,LSA方法的理論基礎(chǔ)不完整,不能令人滿意。另外,通過LSA方法得到的隱語義層無法得到很好的解釋,而且不能真正解決一詞多義的現(xiàn)象。
為此,在20世紀90年代末,Hofmann[3]提出了概率隱語義分析(Probabilistic Latent Semantic Analysis, PLSA)。PLSA的基本假設(shè)是文檔中含有多個潛在的話題,并且文檔中的每個詞語產(chǎn)生于混合話題模型,其中話題用詞語的多項式分布來表示。通過PLSA可以使用隱語義空間表示文檔,其中隱語義空間的每一維就對應(yīng)一個話題,所以 PLSA 也能夠起到降維作用。相比于LSA,PLSA具有更為堅實的理論基礎(chǔ),對話題也有清晰合理的解釋,同時也解決了一詞多義的現(xiàn)象。然而PLSA并不是一個真正的產(chǎn)生式概率模型,因為話題的選擇同具體的文檔相關(guān),同時也帶來了待估參數(shù)過多的問題。
為了解決上述問題,Blei等人[4]在2003年提出了LDA話題模型。該模型的基本假設(shè)是文檔的話題選擇從一個先驗分布(Dirichlet)中產(chǎn)生,因此它是一個貝葉斯模型。LDA具有了對新文檔話題預測的能力,同時LDA模型也解決了PLSA模型需要估計的參數(shù)過多的問題。
概率話題模型(如PLSA和LDA)的提出,對網(wǎng)絡(luò)信息檢索與挖掘具有重要的意義。隨著研究不斷深入,話題模型被廣泛的應(yīng)用在各個領(lǐng)域,包括文本挖掘[6],文檔檢索[7],引用分析[8],社會網(wǎng)絡(luò)分析[9]以及情感分析[10]等。國內(nèi)近幾年對于信息表達方面的研究也取得了不少成果,很多研究工作提出了改進的話題模型[11-12],以增強已有話題模型的學習能力,解決其跨領(lǐng)域的問題等等,從而使其能更好地應(yīng)用于文本信息的表達。
盡管對信息表達的研究歷經(jīng)了很長的時間,但是對于海量網(wǎng)絡(luò)信息的建模還面臨著很多新的挑戰(zhàn)。例如,對于海量文本信息的建模,我們需要模型能夠?qū)Ω笠?guī)模的參數(shù)空間進行有效的學習,需要能夠有效的建模并解決信息的稀疏性所帶來的問題,需要能夠?qū)討B(tài)演化的網(wǎng)絡(luò)信息進行合理的表達。此外,對于圖片和多媒體信息數(shù)據(jù),我們也需要進一步探索其建模與表達方式,以便能夠更加有效的表達其內(nèi)在的語義信息。
作為用戶與數(shù)據(jù)進行交互的主要手段之一,信息檢索的目的在于讓用戶更加容易的訪問到所需要的信息。信息檢索融合了數(shù)據(jù)的表示、組織、存儲與檢索等多個方面,包括了信息獲取、信息索引、查詢處理、信息排序、結(jié)果反饋等基本環(huán)節(jié)。為了能夠提高信息檢索的質(zhì)量與效率,研究人員對各個基本檢索環(huán)節(jié)都展開了深入的研究,其中包括了如何實現(xiàn)對海量網(wǎng)絡(luò)數(shù)據(jù)高效友好的抓取[13]、對索引結(jié)構(gòu)的不斷優(yōu)化[14]、對用戶查詢的處理與分析[15]、對結(jié)果排序質(zhì)量的不斷提高[16-17]等等。此外,還包括了對相關(guān)反饋的探索、對檢索性能評價、跨語言檢索、多媒體檢索等研究。盡管信息檢索領(lǐng)域涉及的研究工作十分廣泛,但其圍繞的核心問題始終是如何使用戶需求和數(shù)據(jù)實現(xiàn)更好的匹配。檢索模型作為用戶查詢與數(shù)據(jù)進行匹配過程的形式化表示,可以說是解決該核心問題的關(guān)鍵點。由于篇幅所限,我們下面就以檢索模型的演化來窺視信息檢索技術(shù)的發(fā)展。
相關(guān)性是信息檢索中最基本的概念,它反映了用戶對于檢索結(jié)果的最基本的要求。因此檢索模型的首要任務(wù)是如何定義相關(guān)性。早期的布爾模型[18]認為相關(guān)性是二值的,查詢用布爾表達式表示,待檢索對象構(gòu)成一個集合,對集合中的每個對象采用完全匹配。布爾模型的優(yōu)點在于形式簡單,便于實現(xiàn),但缺陷也是顯而易見的,模糊的查詢需求有時很難轉(zhuǎn)換為精確的布爾表達式,檢索結(jié)果的數(shù)量也不可控。向量空間模型[1]可以很好的解決這些問題,它認為文檔和查詢都可以表示為索引詞構(gòu)成的向量,用兩個向量間的相似度來估計文檔對于給定查詢的相關(guān)性,從而克服了二值相關(guān)性假設(shè)帶來的缺陷。向量空間模型能夠反映不同索引詞在文檔中的重要程度,可以根據(jù)與查詢的相似程度對文檔進行排序,從而控制輸出結(jié)果的數(shù)量,其不足之處在于文檔表示形式的假設(shè),認為表示文檔的索引詞之間是相互獨立的,這一假設(shè)實際上不符合自然語言表達的實際情況,未能揭示詞語之間的關(guān)系。這些經(jīng)典的檢索模型成為20世紀80年代人們的研究重點。
從20世紀80年代末開始,以BM25[19]為代表的概率模型出現(xiàn),它將檢索問題歸結(jié)為求條件概率問題,有嚴格的數(shù)學理論基礎(chǔ),可以根據(jù)相關(guān)概率來排序從而控制檢索結(jié)果的數(shù)量。但這類模型的相關(guān)性定義是抽象的,仍舊沒有考慮關(guān)鍵詞間的關(guān)系,需要手動選擇最優(yōu)參數(shù)。與傳統(tǒng)的概率模型不同,統(tǒng)計語言模型[20]給出了相關(guān)性地清晰定義,認為每個文檔對應(yīng)一個統(tǒng)計語言模型,用該語言模型生成查詢的概率來估計該文檔與查詢相關(guān)的程度。該模型摒棄了向量空間模型中的索引詞集合的假設(shè),利用語言模型建模關(guān)鍵詞之間的上下文關(guān)系,n-gram模型[21]便是其中的典型代表。這類模型的共同缺點是計算量大,需要運用平滑技術(shù)來處理數(shù)據(jù)稀疏性問題,而數(shù)據(jù)稀疏性目前還沒有一個放之四海皆準的解決方案。
近十年來,越來越多的研究工作關(guān)注排序?qū)W習算法。它將文檔表示為特征項向量,利用成熟的機器學習算法自動從訓練數(shù)據(jù)中學習出排序函數(shù)。其中的特征項既可以是文檔的各種元數(shù)據(jù)信息,也可以是PageRank、BM25等傳統(tǒng)檢索模型的得分。它以損失函數(shù)為優(yōu)化目標,尋找在檢索領(lǐng)域中常用的評價準則(平均準確率(MAP)、歸一化折扣累計增益(NDCG))下最好的排序函數(shù)。根據(jù)損失函數(shù)所定義的基本單位的不同,常見的排序?qū)W習算法可以分為逐點的(Pointwise,如McRank[22]),逐對的(Pairwise,如Ranking SVM[16]、RankBoost[17]、RankNet[18])和逐列的(Listwise,如ListMLE[19]、ListNet[20]、RankCosine[21]、AdaRank[22]、SVMMAP[23]、SoftNDCG[24])三類。排序?qū)W習算法避免了排序函數(shù)的定義過分依賴于經(jīng)驗以及人工調(diào)參數(shù)時可能帶來的過擬合問題,便于融合一些優(yōu)秀的檢索模型。而且,盡管它使用的特征和學習算法都不是很復雜,但在檢索效果上和目前可見的性能最好的檢索算法相當,甚至更好。另外,在理論方面,使用統(tǒng)計機器學習理論的有效工具,排序?qū)W習問題的理論研究也得到了深入的發(fā)展,可以保證排序?qū)W習算法的整體性能。它的主要缺點在于學習是一個耗時的過程需要離線進行,算法的性能依賴于訓練數(shù)據(jù)的質(zhì)量。
對檢索模型的研究也一直是國內(nèi)信息檢索領(lǐng)域的研究熱點,包括清華大學、哈爾濱工業(yè)大學、大連理工大學、南開大學、中國科學院計算技術(shù)研究所在內(nèi)的多個高校和科研機構(gòu)都開展了很多相關(guān)的研究工作。這些研究工作包括有對現(xiàn)有排序?qū)W習算法的直接改進,如通過加入pointwise損失函數(shù)來改善pairwise方法的性能的排序?qū)W習方法[25],分析排序?qū)W習算法對檢索結(jié)果的有效性[26]等。
雖然現(xiàn)有的檢索模型能夠靈活有效地建模用戶需求與數(shù)據(jù)之間的匹配關(guān)系,但對實際數(shù)據(jù)和用戶需求的建模還存在很多不足。例如,用戶需求往往是復雜多樣的,因此相關(guān)性不應(yīng)該是對于排序結(jié)果的唯一要求,需要結(jié)合多樣性、重要性等多個不同的目標進行排序;而且實際數(shù)據(jù)往往多源異構(gòu)且含有大量噪音,因此像排序?qū)W習這樣對訓練數(shù)據(jù)的質(zhì)量有重大依賴的算法,必須要基于能夠抗噪的檢索模型。此外,用戶需求通過簡短的關(guān)鍵詞查詢來表達,所以對用戶查詢的深入理解、分析進而掌握用戶的真實查詢意圖,將是檢索成功的重要前提。
信息挖掘是人們從海量的網(wǎng)絡(luò)信息中發(fā)現(xiàn)其內(nèi)在規(guī)律、獲取其蘊含的知識的基本手段,它為構(gòu)建更高智能的應(yīng)用提供了基本信息原料。信息挖掘的研究歷經(jīng)了從早期圍繞關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)信息,到如今面向海量的半結(jié)構(gòu)甚至非結(jié)構(gòu)化數(shù)據(jù)信息、用戶產(chǎn)生數(shù)據(jù)信息的研究;從早期關(guān)注于挖掘數(shù)據(jù)信息的內(nèi)在模式和規(guī)則,到如今更關(guān)心挖掘數(shù)據(jù)信息中包含的話題、實體、關(guān)系等多種類型的知識;在研究的對象、內(nèi)容、方法上經(jīng)歷了一系列的演變,涌現(xiàn)出很多經(jīng)典的模型和方法,但也正面臨著很多新的挑戰(zhàn)。
模式挖掘是早期信息挖掘的主要目標,即發(fā)現(xiàn)數(shù)據(jù)信息中隱藏的模式。20世紀90年代早期,隨著關(guān)系數(shù)據(jù)庫的流行,商業(yè)應(yīng)用中出現(xiàn)了大量事務(wù)型數(shù)據(jù)信息,如何從中發(fā)現(xiàn)有價值的模式,成為商業(yè)智能亟需解決的問題。1993年,IBM的Agrawal等人提出了通過挖掘頻繁項集來生成關(guān)聯(lián)規(guī)則并支持決策的里程碑技術(shù)(Apriori算法)[27]。例如,將關(guān)聯(lián)度高的啤酒和尿布擺放在一起,可以同時提高二者的銷量。由于關(guān)聯(lián)規(guī)律的普遍性和有用性,頻繁項集成為最重要的模式之一。為解決頻繁項集的挖掘問題,涌現(xiàn)了很多的挖掘算法。特別地,Han等人所提出的FP-Growth算法[28],挖掘過程只需掃描數(shù)據(jù)庫兩次,從而有效地解決了Apriori算法需要多次掃描數(shù)據(jù)庫所以難以處理大規(guī)模數(shù)據(jù)的問題,成為一種經(jīng)典算法。
對頻繁項集進行高效挖掘的研究如火如荼地持續(xù)到了21世紀初,從一開始挖掘壓縮的頻繁項集(如極大頻繁項集挖掘[29]、頻繁閉項集挖掘[30]和Top-K頻繁項集[31]),到后來挖掘興趣度高的頻繁項集。頻繁項集不僅可以用來計算關(guān)聯(lián)規(guī)則,還成為聚類、分類以及眾多數(shù)據(jù)分析應(yīng)用的基礎(chǔ)。隨著信息技術(shù)的高速發(fā)展,涌現(xiàn)出各種海量的非事務(wù)型數(shù)據(jù)信息,包括文本數(shù)據(jù)、多媒體數(shù)據(jù)、空間數(shù)據(jù)、流數(shù)據(jù)、圖數(shù)據(jù)、Web數(shù)據(jù)等,頻繁項集的成功促使人們?nèi)グl(fā)現(xiàn)其中特有的頻繁模式。對于網(wǎng)絡(luò)信息,頻繁模式主要從三個方面進行挖掘: 結(jié)構(gòu)數(shù)據(jù) (如頁面布局結(jié)構(gòu)和超鏈接)、內(nèi)容數(shù)據(jù)(如頁面中文本、圖片和多媒體數(shù)據(jù))和用戶使用數(shù)據(jù)信息(如Google對查詢?nèi)罩镜念l繁模式分析,Yahoo!基于頻繁模式從社會標注數(shù)據(jù)中挖掘用戶興趣)。
近年來,對于網(wǎng)絡(luò)信息的挖掘,人們更加關(guān)心的是如何從海量信息中獲取其蘊含的內(nèi)在知識,這樣的知識包括了對命名實體、實體關(guān)系的挖掘等等。命名實體是現(xiàn)實世界中的具體或者抽象但具有特定意義的實體,例如,人、地點、組織等。在文本中,命名實體往往是信息的主要載體,是文本的核心語義單元,也是人們正確理解文本的基礎(chǔ)。早期的命名實體挖掘研究主要集中在自然語言處理領(lǐng)域,是該領(lǐng)域的一項重要技術(shù)。隨著Web上信息爆炸式的增長以及人們應(yīng)用需求的增加,人們所關(guān)注的類型越來越多,粒度也越來越細,例如,電影、小說、游戲、科學家和政治家等等。
早在1991年,Rau[32]描述了一個能夠抽取和識別公司名稱的系統(tǒng),該系統(tǒng)主要基于人工編寫的啟發(fā)式規(guī)則。但是手工編寫規(guī)則需要有豐富的領(lǐng)域知識和語言學知識,同時還需要大量的人工分析來進行總結(jié)歸納,是一項非常耗時又費力的工作。伴隨著機器學習的不斷發(fā)展,相應(yīng)的學習方法被引入了命名實體挖掘領(lǐng)域,包括監(jiān)督式學習[33-34],半監(jiān)督式學習[35]和無監(jiān)督式學習[36],促進了命名實體挖掘技術(shù)的快速發(fā)展。隨著大量用戶行為數(shù)據(jù)信息(如查詢?nèi)罩?的積累,近年來有不少實體挖掘的研究工作專門針對這類數(shù)據(jù)展開(如文獻[11,37])。
對實體關(guān)系挖掘的主要目標是發(fā)現(xiàn)不同類型實體之間的關(guān)系。實體關(guān)系包括二元實體關(guān)系和多元實體關(guān)系,大多數(shù)研究工作更加關(guān)注二元實體關(guān)系的挖掘。針對實體關(guān)系挖掘,研究人員提出了各種解決方法,包括了基于規(guī)則的方法[38-39]和基于機器學習的方法[40-42]。2007年,馬里蘭大學的Getoor等人提出了統(tǒng)計關(guān)系學習[43],成為關(guān)系挖掘領(lǐng)域的里程碑技術(shù)。傳統(tǒng)統(tǒng)計模型都是基于獨立同分布的,它包含有兩個基本假設(shè),即統(tǒng)計模型的對象是同類型的,統(tǒng)計模型中的對象是不相關(guān)的。統(tǒng)計關(guān)系模型否定了這兩個假設(shè),認為模型中的對象類型不同且彼此之間有聯(lián)系,因此統(tǒng)計關(guān)系學習可以更全面地表達領(lǐng)域知識。實體關(guān)系挖掘的研究工作同MUC、ACE等一系列評測會議和項目計劃密切相關(guān),這些評測會議對實體關(guān)系挖掘技術(shù)的發(fā)展起到了積極的推動作用。
目前,網(wǎng)絡(luò)信息挖掘領(lǐng)域仍是互聯(lián)網(wǎng)研究界最受關(guān)注的領(lǐng)域之一,有很多亟待解決的問題擺在人們面前。例如,對于頻繁模式挖掘,我們面臨的主要挑戰(zhàn)是如何提高挖掘結(jié)果的有用性和可理解性;在實體和關(guān)系的挖掘方面,我們不但需要實現(xiàn)對互聯(lián)網(wǎng)上開放領(lǐng)域的實體和關(guān)系的挖掘,而且需要解決對不斷涌現(xiàn)的新的實體和關(guān)系的挖掘問題。此外,我們還需要進一步考慮如何能夠更好的組織、管理通過信息挖掘所獲取的知識,如何構(gòu)建大規(guī)模高效率的知識庫、本體庫和語義網(wǎng)絡(luò)等等。
綜上所述我們可以看到,在面向海量網(wǎng)絡(luò)信息的研究領(lǐng)域,為了能夠讓網(wǎng)絡(luò)信息更好地為用戶服務(wù),人們分別從信息表達、信息檢索、信息挖掘三個方向展開了廣泛而深入的研究。通過結(jié)合統(tǒng)計分析、機器學習等方法,人們對非結(jié)構(gòu)、富噪聲、高維稀疏的網(wǎng)絡(luò)信息進行了更好地建模與分析。通過這些研究工作,人們對信息的表達更加準確,對語義的理解不斷深化。在此基礎(chǔ)之上,人們應(yīng)用于信息檢索與挖掘的技術(shù)愈加的智能有效,從而也催生了很多成功的應(yīng)用與服務(wù)。
回顧歷史,我們很高興地看到,海量網(wǎng)絡(luò)信息檢索與挖掘領(lǐng)域在過去的三十年里不斷的發(fā)展壯大,取得了累累的碩果。然而真正利用海量網(wǎng)絡(luò)信息,為人們提供智能應(yīng)用,服務(wù)于人們的信息需求,人們還面臨著很多實際的挑戰(zhàn),包括數(shù)據(jù)規(guī)模帶來的復雜度和可擴展性的挑戰(zhàn),數(shù)據(jù)的多源異構(gòu)帶來的融合分析的挑戰(zhàn),數(shù)據(jù)的動態(tài)演化帶來的適應(yīng)性的挑戰(zhàn)等等。正如2008年Nature雜志以“Big Data”為主題的??岬?,互聯(lián)網(wǎng)中蘊含著人類有史以來可訪問的最大量信息,如何通過對海量信息的融合分析,充分發(fā)掘其信息價值為用戶提供服務(wù),將是我們面臨的巨大機遇與挑戰(zhàn)。鑒于已經(jīng)取得成果,我們有理由相信對于網(wǎng)絡(luò)信息檢索與挖掘的研究,必將會有越來越廣闊的空間。
[1] G. Salton, A. Wong, C. S. Yang. A vector space model for automatic indexing[J]. Communications of the ACM, 1975,41(6):613-620.
[2] S. Deerwester, S. T. Dumais, G. W. Furnas, et al. Indexing by latent semantic analysis[J]. Journal of the American Society for Information Science, 1990,41(6): 391-407.
[3] Thomas Hofmann. Probabilistic latent semantic indexing[C]//Proceedings of the 22ndannual international ACM SIGIR conference on Research and development in information retrieval, SIGIR’99, 1999: 50-57.
[4] David M. Blei, Andrew Y. Ng, Michael I. Jordan. Latent Dirichlet allocation[J]. Journal of machine learning research, 2003, 3:993-1022.
[5] Gerard Salton, Edward A. Fox, Harry Wu. Extended Boolean information retrieval[J]. Communications of the ACM. 1983,26(11): 1022-1036.
[6] Cheng Xiang Zhai, Atulya Velivelli, Bei Yu. A cross-collection mixture model for comparative text mining[C]//Proceedings of the 10th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, 2004: 743-748.
[7] Xing Wei, W. Bruce Croft. LDA-based document models for ad-hoc retrieval[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’06, 2006: 178-185.
[8] Laura Dietz, Steffen Bickel, Tobias Scheffer. Unsupervised prediction of citation influences[C]//Proceedings of the 24th international conference on Machine learning, ICML ’07, 2007: 233-240.
[9] Qiaozhu Mei, Deng Cai, Duo Zhang, et al. Topic modeling with network regularization[C]//Proceeding of the 17th international conference on World Wide Web, WWW ’08, 2008: 101-110.
[10] Yue Lu, Chengxiang Zhai. Opinion integration through semi-supervised topic modeling[C]//Proceeding of the 17th international conference on World Wide Web, WWW’08, 2008, 121-130.
[11] Jiafeng Guo, Gu Xu, Xueqi Cheng, et al. Named entity recognition in query[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, SIGIR ’09, 2009, 267-274.
[12] Fuzhen Zhuang, Ping Luo, Zhiyong Shen, et al. Collaborative Dual-PLSA: Mining Distinction and Commonality across Multiple Domains for Text Classification[C]//Proceedings of the 19th ACM Conference on Information and Knowledge Management, CIKM ’10, 2010, 359-368.
[13] Lee, Hsin-Tsang, Leonard et al. IRLbot: scaling to 6 billion pages and beyond[C]//Proceedings of the 17th international conference on World Wide Web, WWW ’08, 2008: 427-436.
[14] Ruijie Guo, Xueqi Cheng, Hongbo Xu et al. Efficient on-line index maintenance for dynamic text collections by using dynamic balancing tree[C]//Proceedings of the 16th ACM Conference on Information and Knowledge Management, CIKM ’07, 2007: 751-760.
[15] Jiafeng Guo, Gu Xu, Hang Li et al. A unified and discriminative model for query refinement[C]//Proceedings of the 32nd international ACM SIGIR conference, SIGIR ’08, 2008: 379-386.
[16] T. Joachims. Optimizing Search Engines Using Clickthrough Data[C]//Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, KDD ’02, 2002: 133-142.
[17] Yoav Freund, Raj Iver, Robert E, et al. An efficient boosting algorithm for combining preferences[J]. Journal of machine learning research. 2003, 4: 933-969.
[18] F. W. Lancaster, E. G. Fayen. Information Retrieval On-Line[M]. Melville Publishing Co., 1973.
[18] Chris Burges, Tal Shaked, Erin Renshaw, et al. Learning to rank using gradient descent[C]//Proceedings of the International Conference on Machine Learning, ICML ’05, 2005: 89-96.
[19] Karen Sp rck Jones, Steve Walker, Stephen E. Robertson. A Probabilistic Model of Information Retrieval: Development and Comparative Experiments (parts 1 and 2)[J]. Information Processing and Management, 2000, 36(6): 779-840.
[19] Fen Xia, Tie-Yan Liu, Jue Wang, et al. Listwise Approach to Learning to Rank -Theory and Algorithm[C]//Proceedings of the International Conference on Machine Learning, ICML ’08, 2008: 1192-1199.
[20] J. M. Ponte, W. B. Croft. A Language Modeling Approach to Information Retrieval[M]. Research and Development in Information Retrieval, 1998: 275-281.
[20] Zhe Cao, Tao Qin, Tie-Yan Liu, et al. Learning to Rank: From Pairwise Approach to Listwise Approach[C]//Proceedings of the International Conference on Machine Learning, ICML ’07, 2007: 129-136.
[21] Frederick Jelinek. Markov Models and Linguistic Theory : An Experimental Study of a Model for English[M]. Mouton De Gruyter, The Hague, 1971.
[21] Tao Qin, Xu D. Zhang, Ming F. Tsai, et al. Query-level loss functions for information r etrieval[J]. Information processing and management, 2008, 44(2): 838-855.
[22] Jun Xu, Hang Li. AdaRank: a boosting algorithm for information retrieval[C]//Proceedings of the 31nd international ACM SIGIR conference, SIGIR ’07, 2007: 391-398.
[22] P. Li, C. Burges, Q. Wu. MCRank: Learning to rank using multiple classification and gradient boosting[C]//Proceedings of Advances in Neural Information Processing Systems, NIPS ’07, 2007.
[23] Y. Yue, T. Finley, F. Radlinski, et al. A Support Vector Method for Optimizing Average Precision[C]//Proceedings of the 31nd international ACM SIGIR conference, SIGIR ’07, 2007: 271-278.
[24] Michael Taylor, John Guiver, Stephen Robertson et al. SoftRank: optimizing non-smooth rank metrics[C]//Proceedings of the international conference on Web search and data mining, WSDM ’08, 2008: 77-86.
[25] 吳佳金, 楊志豪, 林原, 等. 基于改進Pairwise損失函數(shù)的排序?qū)W習方法[C]//第六屆全國信息檢索學術(shù)會議論文集, 2010.
[26] Min Zhang, Da Kuang, Guichun Hua et al. Is learning to rank effective for Web search[C]//SIGIR 2009 workshop: Learning to Rank for Information Retrieval. 2009.
[27] Rakesh Agrawal , Tomasz Imieliński , Arun Swami. Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data, SIGMOD’93, 1993: 207-216.
[28] Jiawei Han, Jian Pei, Yiwen Yin. Mining frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM SIGMOD international conference on Management of data, SIGMOD ’00, 2000: 1-12.
[29] Douglas Burdick, Manuel Calimlim, Johannes Gehrke. MAFIA: A Maximal Frequent Itemset Algorithm for Transactional Databases[C]//Proceedings of the 17th International Conference on Data Engineering, ICDE’01, 2001: 443-452.
[30] Nicolas Pasquier, Yves Bastide, Rafik Taouil, et al. Discovering Frequent Closed Itemsets for Association Rules[C]//Proceedings of the 7th International Conference on Database Theory, ICDT ’99, 1999: 398-416.
[31] Jianyong Wang, Jiawei Han, Ying Lu, et al, TFP: An Efficient Algorithm for Mining Top-K Frequent Closed Itemsets[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(5): 652-664.
[32] Lisa F. Rau. Extracting company names from text[C]//Proceedings of Seventh IEEE Conference on Artificial Intelligence Applications, CAIA’91, 1991: 29-32.
[33] Hai Leong Chieu, Hwee Tou Ng. Named entity recognition: a maximum entropy approach using global information[C]//Proceedings of the 19th international conference on Computational linguistics, COLING ’02, 2002, 1: 1-7.
[34] Fabio Ciravegna. Adaptive information extraction from text by rule induction and generalisation[C]//Proceedings of the 17th international joint conference on Artificial Intelligence, IJCAI’01, 2001, 2: 1251-1256.
[35] Ellen Riloff, Rosie Jones. Learning dictionaries for information extraction by multilevel bootstrapping[C]//Proceedings of the 16th national conference on Artificial intelligence, AAAI’99, 1999: 474-479.
[36] Enrique Alfonseca, Suresh Manandhar. An unsupervised method for general named entity recognition and automated concept discovery[C]//Proceedings of the 1st International Conference on General WordNet, 2002.
[37] Marius P. Weakly-supervised discovery of named entities using web search queries[C]//Proceedings of the 16th ACM Conference on information and knowledge management, CIKM ’07, 2007:683-690.
[38] Roman Yangarber, Ralph Grishman. Nyu: description of the proteus/pet system as used for muc-7[C]//Proceedings of the 7th Message Understanding Conference, MUC’98, 1998.
[39] Chinatsu Aone, Mila Ramos-Santacruz. Rees: a large-scale relation and event extraction system[C]//Proceedings of the 6th conference on Applied natural language processing, ANLC ’00, 2000: 76-83.
[40] Dmitry Zelenko, Chinatsu Aone, Anthony Richardella. Kernel methods for relation extraction[J]. Journal of machine learning research, 2003,3: 1083-1106.
[41] Jun Zhu, Zaiqing Nie, Xiaojiang Liu et al. Statsnowball: a statistical approach to extracting entity relationships[C]//Proceedings of the 18th international conference on World wide web, WWW’09, 2009: 101-110.
[42] Takaaki Hasegawa, Satoshi Sekine, Ralph Grishman. Discovering relations among named entities from large corpora[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics, ACL ’04, 2004.
[43] Lise Getoor, Ben Taskar. Introduction to Statistical Relational Learning[M]. Adaptive Computation and Machine Learning, The MIT Press, 2007.