寧 健,林鴻飛
(大連理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
隨著網(wǎng)絡(luò)信息的迅速膨脹,信息檢索技術(shù)得到了充分的發(fā)展,從開始的基于關(guān)鍵字匹配到現(xiàn)在的基于語義的分析、基于上下文的分析、模式匹配以及應(yīng)用統(tǒng)計策略進行分析等等,已經(jīng)形成了一套比較成熟的檢索算法,并被廣泛應(yīng)用到了各類搜索引擎上,如Google、Yahoo和Baidu等。然而隨著網(wǎng)絡(luò)的發(fā)展和用戶對查詢需求的提高,單一語種檢索的局限性越來越明顯,人們已經(jīng)不能滿足于僅僅在同一語種中進行檢索,而是更多地希望能夠查詢到其他語種中的相關(guān)信息,于是研究者們又將目光投向了跨語言信息檢索領(lǐng)域,試圖利用現(xiàn)有的單一語言檢索技術(shù)來實現(xiàn)跨語言的信息檢索任務(wù),而其中的關(guān)鍵問題就是如何實現(xiàn)語言障礙的克服??缯Z言信息檢索的研究目前多數(shù)集中于用戶的查詢翻譯[1]方面,由于機器可讀雙語詞典[2]的方法具有處理簡單、速度快等特點,在解決跨語言問題時被普遍采用。因此對查詢翻譯的研究一直是跨語言檢索領(lǐng)域的熱點,例如Dong Zhou和Mark Truran[3-4]在查詢翻譯中運用了基于圖的方法并對未登錄詞的翻譯進行了改進;Guihong Cao和Jianfeng Gao[5]等利用Markov Chains為待翻譯的查詢語句建模,通過計算不同語言環(huán)境下的語義相似度達到查詢翻譯的效果。除此之外,Jianyun Nie[6]提出了概率論翻譯模型,用基于相關(guān)文本的方法來解決CLIR的問題;Jianfeng Gao和JianYun Nie[7]結(jié)合了共現(xiàn)模型和上下文相關(guān)文法。
在多語交叉檢索中,應(yīng)用潛在語義索引[8]取得了令人滿意的效果,因為它能自動地將建構(gòu)一個多語語義空間,該語義空間以向量詞匯的方式為多語檢索提供了極大的方便,即將每種語言中的每個詞匯都映射為高維語義空間上的一點。Landauer和Littman[9]曾經(jīng)對LSI在跨語言檢索中的應(yīng)用做了一些嘗試,他們使用Canadian Hansards語料經(jīng)人工整理的英法雙語對齊的加拿大議會會議文件作為訓(xùn)練和評測數(shù)據(jù)對訓(xùn)練語料構(gòu)造向量而后用奇異值分解得到雙語對照的關(guān)鍵特征,獲得了不錯的效果。Berry和Young[10]重復(fù)了此項實驗,但采用的是英文、希臘文對照的圣經(jīng)。以上方法在翻譯規(guī)范、沒有噪音的Canadian Hansards語料,英文、希臘文對照的圣經(jīng)上獲得了不錯的檢索結(jié)果。但是在翻譯規(guī)則不嚴(yán)格、風(fēng)格不統(tǒng)一、噪音信息大的生物醫(yī)學(xué)領(lǐng)域的摘要語料中,這些方法無法反映領(lǐng)域特征,檢索效果也明顯下降。
本文以生物醫(yī)學(xué)領(lǐng)域基于語義的跨語言檢索為背景,目的是構(gòu)建生物醫(yī)學(xué)領(lǐng)域中英文交叉語言檢索模型。本文利用基于SVD和NMF[11]矩陣分解的改進的潛在語義分析方法構(gòu)建高維矩陣的思想為中英文段落對齊的語料進行建模,并對不同矩陣分解結(jié)果進行加權(quán)求和,綜合考慮兩種方法的結(jié)果。通過奇異值分解的方法,對高維矩陣進行分解,形成新的中英雙語語義空間。如果兩個文本相似,則出現(xiàn)在相同或相似上下文環(huán)境的詞空間,位置十分接近,通過相互的點內(nèi)積計算,按照一定的閾值,選擇相應(yīng)的多語文本。
潛在語義空間的轉(zhuǎn)換實質(zhì)上是降維過程,如何選擇降維因子k值非常重要,以前的k值基本上都是基于經(jīng)驗的,從100~300之間選取一個單一的值,然后構(gòu)建檢索模型,但是單一的k值模型不能達到對所有查詢都是最優(yōu)的目的[12]。因此,本文選擇了一種模型平均化潛在語義方法[13](MALSI),不同于以往的選擇單一的k值建模,MALSI選擇多個k值,每個k值都建立一個檢索模型。我們認為選擇單一的k值模型是有風(fēng)險的,如果k值過大,則計算量過大,并且會產(chǎn)生過擬合現(xiàn)象;如果k值過小,則會丟失很多有用信息。MALSI方法選取不同的k值,建立多個模型,對于特定查詢來說,MALSI允許每個模型都對相關(guān)文檔的相似度“投票”,給每個模型都賦予一個信任度進行計算總的文檔相似度,從而補償了單一模型的風(fēng)險。
潛在語義分析方法通常采用奇異值分解(SVD)的矩陣分解方法對數(shù)據(jù)進行分析處理,但是單一的SVD矩陣分解方法具有一定的局限,分解后的矩陣允許負值的存在,這對語義結(jié)構(gòu)的向量表示產(chǎn)生一定的損失,而且語義結(jié)構(gòu)的物理意義非常模糊,檢索效果也受到一定的影響。因此引入了一種非負矩陣分解方法(NMF),此方法使得分解后的向量所有結(jié)果均為正值,分解后的一個矩陣為語義空間的基數(shù),另一個矩陣為語義結(jié)構(gòu)明確表示為在語義空間中另一個矩陣的列向量,這樣語義結(jié)構(gòu)的向量表示非常明確,并且沒有負值影響,能夠有效解決SVD分解中語義結(jié)構(gòu)的向量損失的問題。我們利用模型平均化的思想,計算兩種矩陣分解模型的信任度作為系數(shù),將兩種方法的檢索結(jié)果結(jié)合起來,這樣能夠較好的補充SVD矩陣分解的不足,綜合兩種矩陣分解的優(yōu)點,從而達到較好的檢索效果。
為了量化每個模型的信任度,我們計算模型的Akaike Information Criterion(AIC),AIC為每個k維模型與未知的準(zhǔn)確模型之間的KL距離[14]:
AIC=-2log (L(Uk|A))+2D
(1)
其中在SVD分解中Uk是矩陣A進行奇異值分解(A=USVT)后U進行降維的矩陣,在NMF分解中是Uk矩陣A進行矩陣分解(A=UV)后U進行降維的矩陣。D=rk+1-k(k-1)/2,r是矩陣A的秩。Chris Ding[15]給出了k維潛在語義模型的對數(shù)似然函數(shù):
logL(Uk)=λ1+…+λk-nlogZ(Uk)
(2)
其中λk是矩陣A′A的前k個特征值,Z是分割函數(shù):
(3)
在極大似然估計中,我們可以簡化分割函數(shù)Zk:
(4)
于是根據(jù)包含多個不同的k維模型的集合M(模型的k值在kmin和kmax之間),我們就能計算SVD分解、NMF分解和兩種方法結(jié)合考慮的查詢和文檔的相似度:
(5)
其中wk是k維SVD矩陣分解模型的信任度(AIC的反比),Uk、Sk和Vk分別是奇異值分解(A=USVT)的降維后的矩陣。
(6)
其中wk是k維NMF矩陣分解模型的信任度,Uk是非負矩陣分解(A=UV)的降維后的矩陣。
(7)
其中wk1是K維SVD矩陣分解模型的信任度,wk2是k維NMF矩陣分解模型的信任度。
首先,最初的訓(xùn)練集為生物醫(yī)學(xué)文獻的雙語文檔集,我們運用模型平均化潛在語義分析(MALSI)對訓(xùn)練集進行訓(xùn)練。潛在語義索引雖然給出了降維后的語義空間,給出了項和文本的語義結(jié)構(gòu)表示,但語義結(jié)構(gòu)是隱性的,缺乏明確的解析表達。因此不能作為文本的特征加以抽取。但是可以通過矩陣分解,間接地尋找與K個語義結(jié)構(gòu)密切相關(guān)的項作為文本的特征項,選取N個降維因子k(模型的k值在kmin和kmax之間)分別建模,得到N個低維的雙語語義空間。這N個空間中包括訓(xùn)練集中的文檔和特征項,并且語義相近的文檔和特征項在這個空間中的距離會相應(yīng)的靠近。由于文檔集是包含中英文的雙語文檔,所以每個空間中都包含中英文雙語的特征項。這就使得CL-LSI方法避免查詢翻譯或文檔翻譯進行雙語檢索成為可能。意思相同的漢語和英語詞匯將會得到相同的向量表示,意思相近的漢語和英語詞匯將會得到相似的向量表示。
下一步,就是加入單語的英文和單語中文文檔,采用 fold-in方法對潛在語義空間進行更新,即在初始構(gòu)造的三個語義空間基礎(chǔ)上加入新的特征項,不重新進行矩陣分解。向SVD模型加入新文本時,首先利用抽詞程序生成該反映該文本詞頻信息的文本向量d,利用生成的語義空間Uk和Sk矩陣,將其表示成k維空間向量;類似地,對于新加入的詞條,將其對應(yīng)的詞向量t,轉(zhuǎn)化為k為語義空間中的向量:
(8)
(9)
每個新生成的文本向量和詞向量都能附加到Vk的列上,這樣就能將新向量映射到形成的雙語語義空間之中。
向NMF模型加入新文本和詞條時,思想是將新文本映射到新的語義空間中,對于新的文本向量d和詞向量,我們將其投射到語義空間的基向量矩陣Uk上面:
(10)
(11)
這樣就產(chǎn)生了N個新的SVD和NMF語義空間,空間中的語義結(jié)構(gòu)可以看作是潛在概念,表示是從許多不同的詞和文本中抽取出來的具有共同意義的單元。
最后,計算N個k維模型的信任度,并計算每個查詢的相似度。每個項和文本都以權(quán)重向量作為其表示手段,其權(quán)重表示了它與每個潛在概念的相關(guān)程度。采用在語義空間中的項與項的相關(guān)矩陣作為概念分層的基礎(chǔ),顯然要優(yōu)于直接用項的特征向量計算相關(guān)關(guān)系的方法。因為在新的語義空間,在基本上消除了斜交現(xiàn)象以及同義和多義現(xiàn)象空間中的特征項和文本的向量表示是獨立于語言的向量特征。用戶可以用中文或英文查詢進行檢索,得到的查詢結(jié)果是語義上最相近的文檔,而且是忽略語言差異的,這樣便達到了交叉檢索的目的。
利用潛在語義索引,獲得特征項和文本的語義結(jié)構(gòu)表示。在語義空間考慮特征項的權(quán)重,不是依賴于單純的詞頻信息,而是考慮到特征項對于文本主題的表現(xiàn)能力以及在整個文本集中使用的模式。
在生物醫(yī)學(xué)文獻雙語摘要,很多英文單詞及其縮寫、指標(biāo)信息、阿拉伯?dāng)?shù)字以及格式化用語同時存在于中文和英文摘要中。例如:
① 此放大電路輸入阻抗高(10~11Ω)、噪聲低、共模抑制比高(KCMRR≥90dB)、體積小,便于攜帶,滿足腦電假手的使用要求。
The amplifier circuits has the characteristics of High-input impedance(10~11Ω),low-noise, high-CMRR(K_CMRR≥90dB) and can be take everywhere satisfying the demand.
② 人造輸尿管的研制已進行了近60年,但至今仍處于實驗研究階段。
Artificial ureter has been studied for nearly60years, however it is still in experimental stage.
這些例子中,中文摘要和相應(yīng)的英文摘要中包含和相似或相同的錨信息,如“10-11Ω”、“KCMRR≥90 dB”、“60”等。這些項可以作為信息特征來代表相應(yīng)的摘要文檔。這里將特征項與文本的相似度作為特征項的權(quán)重。定義特征權(quán)重函數(shù)為:
(12)
式中:ti是特征項,Vj是文本,xi是US1/2的第i行,yj是DS1/2的第j行。
如果特征項為關(guān)鍵詞特征則α=0.4,β=0.6,如果特征項為錨信息特征則α=0.3,β=0.7。否則α=0,β=1.0。目的是突出關(guān)鍵詞特征和錨信息特征對于檢索的作用。由于對應(yīng)的中文和英文摘要中的錨信息特征都相似或者相同,故在潛在語義空間中中文和英文文檔中的錨信息特征會映射到距離相近的點上面,從而包含這個信息的中文文檔和英文文檔也將在潛在語義空間中更加靠近,加大這些信息的權(quán)重會使得檢索的準(zhǔn)確率得到相應(yīng)的提高。
手工從1996年到2006年中圖分類號為R318的生物醫(yī)學(xué)文獻中篩選出3 000篇具有雙語摘要的期刊論文的摘要作為訓(xùn)練語料TC。構(gòu)造的雙語文檔見下圖。
圖1 潛在語義分析雙語訓(xùn)練文檔
語料具有以下統(tǒng)計特征:
(1) 雙語摘要同時包含中英文的論文篇名和關(guān)鍵詞,我們認為這些特征能夠明顯體現(xiàn)文檔特征,所以在向量表示時賦予其較高權(quán)重。
(2) 生物醫(yī)學(xué)領(lǐng)域期刊論文摘要中,存在大量的英文縮寫和數(shù)學(xué)符號。例如:在9具新鮮成人頸椎標(biāo)本(C3-T1)上、對雙側(cè)75%小關(guān)節(jié)切除后失穩(wěn)的C4-5節(jié)段,安放了Halifax椎板夾和棘突鋼絲固定,通過脊柱三維運動穩(wěn)定性評價方法,評價它們重建頸椎穩(wěn)定性的即刻效果。
On nine fresh adult cervical spinal specimens(C3-T1), the three-dimensional motions of C4-5 segment were analyzed to evaluate the immediate stability following bilateral mastectomy,Halifax Clamp and wire fixation.
對訓(xùn)練語料進行統(tǒng)計發(fā)現(xiàn),有59.4%的對齊句對中包含以上類似信息,這類信息稱為錨信息[16]。由于相對應(yīng)的中英文摘要中的錨信息往往基本相同,這些信息可以作為檢索的特征。比如,無論是英語文本還是漢語文本,互譯的文本中表示比例關(guān)系都使用“%”,中文句子的結(jié)束標(biāo)志是“?!保瑢?yīng)的英文句子的結(jié)束標(biāo)志為“.”。如圖2所示。
圖2 錨信息
英語摘要和漢語摘要的錨信息特征都很相似,甚至相同,我們可以在雙語檢索中應(yīng)用到錨信息特征,由于這類錨信息會在潛在語義空間中的距離很近,所以包含這些錨信息的中英文摘要文檔也會相應(yīng)的靠近。
手工從1996年到2006年中圖分類號為R318的生物醫(yī)學(xué)文獻中篩選出1 000篇僅含有漢語摘要的期刊論文和1 000篇僅含有英文摘要的期刊論文作為測試語料。將測試語料采用fold-in方法分別加入降維后的雙語空間,使每篇單語摘要都映射成為空間中的一點。語料規(guī)模為5 000篇文檔,其中包括3 000篇對齊的英漢雙語摘要,以及各1 000篇英漢單語摘要。
我們選擇了30個主題進行測試,采用人工相關(guān)性判斷的方法制作相應(yīng)的答案。
我們設(shè)計了三個實驗(T1,T2,T3)和一個對比試驗(baseline),baseline采用的是經(jīng)典的基于潛在語義分析方法進行跨語言檢索。T1使用MALSI方法計算三個模型(k=100,k=150,k=200)的信任度,并且進行平均來計算查詢和文本相似度,T2使用了T1的方法,同樣建立三個模型(k=100,k=150,k=200),但是采用了NMF矩陣分解的方法。T3采用公式(7)的方法綜合分析SVD分解模型和NMF分解模型的檢索結(jié)果,得到每個查詢和文檔的相似度。
表1和表2給出的是,在生物醫(yī)學(xué)數(shù)據(jù)集上各種方法的檢索性能。其中p@10為30個查詢主題返回的前十篇文檔中相關(guān)文檔所占比率的平均值,r@10為30個查詢主題返回的前十篇文檔中相關(guān)文檔所占總相關(guān)文檔數(shù)比率的平均值。我們計算召回率為0.2,0.4,0.6,0.8和1時的查準(zhǔn)率,平均精度定義為所有查詢主題在這5個點上的查準(zhǔn)率的平均值。
表1 中文檢索英文各方法的檢索性能
表2 英文檢索中文各方法的檢索性能
實驗Baseline采用經(jīng)典的基于潛在語義分析的檢索模型,這種方法在同源的英法Hansards語料集上獲得了很好的檢索效果,但是由于英語和漢語不是同源語言,作者英語寫作水平參差不齊,寫作習(xí)慣不同,譯文質(zhì)量有好有壞,并且單一的k值模型不能達到對所有查詢都是最優(yōu)的目的,如果k值過大,則計算量過大,并且會產(chǎn)生過擬合現(xiàn)象;如果k值過小,則會丟失很多有用信息。因此,Baseline的方法的準(zhǔn)確率和召回率都很低。
MALSI模型平均化潛在語義方法選取不同的k值,建立多個模型,MALSI允許每個模型都對相關(guān)文檔的相似度產(chǎn)生影響,給每個模型都賦予一個信任度進行計算總的文檔相似度,從而補償了單一模型的風(fēng)險,因此檢索效果得到了提高。基于SVD和NMF分解的多模型平均化潛在語義分析方法T1和T2都取得了較好的檢索效果。T3運用模型平均化的思想,通過每個模型的信任度將兩種矩陣分解模型結(jié)合起來,結(jié)合考慮兩種矩陣分解方法的結(jié)果,由于NMF分解后的矩陣不存在負值,語義結(jié)構(gòu)的向量表示物理意義明確,并且沒有受到損失,所以將兩種矩陣分解模型結(jié)合起來后,較好地彌補了SVD矩陣分解模型存在的語義結(jié)構(gòu)的向量表示受負值影響的損失。
從實驗結(jié)果可以看出,基于模型平均化的潛在語義方法明顯改善了檢索系統(tǒng)的性能,2組基于SVD和NMF矩陣分解的模型平均化方法在平均精度上優(yōu)于向量空間模型。對于2種不同的矩陣分解技術(shù),基于SVD分解的檢索模型準(zhǔn)確率—召回率曲線在召回率較小的情況下準(zhǔn)確率比較高,但是由于矩陣分解后存在負值,影響了語義結(jié)構(gòu)的向量表示,在召回率大于0.6以后準(zhǔn)確率下降比較劇烈;相對來說基于NMF矩陣分解后的矩陣全為正值,語義結(jié)構(gòu)的向量表示沒有受到損失,所以召回率—準(zhǔn)確率曲線更平滑,在召回率很高的情況下仍然保持了一定的準(zhǔn)確率。T3結(jié)合了兩種不同模型的結(jié)果,實驗結(jié)果也得到了相應(yīng)的提高,表現(xiàn)為召回率較小的情況下的準(zhǔn)確率比較高,并且在召回率很高的情況下,曲線依然很平滑,準(zhǔn)確率基本維持在NMF分解的水平上。從實驗結(jié)果上看,T3的方法在準(zhǔn)確率和召回率上面吸收了兩種矩陣分解方法的優(yōu)點。不同方法的檢索結(jié)果的對比關(guān)系可以從圖3中更直觀地看到(橫坐標(biāo)為召回率,縱坐標(biāo)為準(zhǔn)確率):
圖3 不同方法的準(zhǔn)確率召回率曲線
由于沒有使用標(biāo)準(zhǔn)的相關(guān)性判斷語料,我們又采用了文獻[8]中的方法來對結(jié)果進行評價。即用測試集中的1 000篇中文文檔作為長查詢進行檢索,統(tǒng)計檢索到得相應(yīng)的英文文檔數(shù)目;同樣用測試集中的1 000篇英文文檔作為長查詢進行檢索,統(tǒng)計檢索到得相應(yīng)的中文文檔數(shù)目,如果返回文檔的相似度閾值大于0.5,我們就認為檢索到了對應(yīng)的文檔。此方法中我們加入了語料中普遍存在的錨信息特征,由于錨信息的引入使得檢索結(jié)果如下普遍有所提高,表3、表4給出SVD模型平均化潛在語義檢索結(jié)果及加入錨信息檢索的結(jié)果。
表3 模型平均化潛在語義檢索結(jié)果
表4 加入錨信息的模型平均化潛在語義檢索結(jié)果
錨信息特征的引入,使得檢索的準(zhǔn)確率得到很大的提高,這是由于錨信息能夠針對生物醫(yī)學(xué)領(lǐng)域的領(lǐng)域特點,充分利用了生物醫(yī)學(xué)領(lǐng)域里的特殊字符以及雙語摘要段落結(jié)構(gòu)等特征。由于潛在語義分析方法的優(yōu)點就是能夠?qū)⑼x詞映射到空間中距離相近的位置,從而能夠檢索出同義詞,所以同義的錨信息也將被映射到空間中距離相臨的位置,同時將包含此錨信息的中文摘要和英文摘要映射到潛在語義空間后也將位置相鄰,這樣檢索的準(zhǔn)確率將會得到提高。
對實驗結(jié)果進行分析,錯誤相對集中,英文單語文檔作為查詢檢索中文時,58.3%的未檢索到文檔為漢字少于50字的漢語的文檔;雙語摘要中沒有錨信息時,錯誤也容易發(fā)生。這是由于模型的信任度計算公式各個部分的經(jīng)驗系數(shù)是靜態(tài)的,無法根據(jù)每個雙語摘要的統(tǒng)計特征動態(tài)調(diào)整單語摘要中各部分的比重,所以在沒有錨信息特征的情況下,關(guān)鍵詞特征較少的單語文檔不容易獲得較高的相似度。
通過對生物醫(yī)學(xué)雙語摘要語料的分析,本文運用了改進的潛在語義方法,通過選取不同的k值,分別構(gòu)建多個SVD和NMF矩陣分解雙語檢索模型,通過計算每個模型的信任度,將不同矩陣分解模型的結(jié)果相結(jié)合,使得每個模型都對相似度的計算做出了貢獻,實驗表明這種方法對于基于傳統(tǒng)的潛在語義索引的跨語言檢索的準(zhǔn)確率有一定的提高。將該方法用于段落不長,而且具有英文縮寫、數(shù)學(xué)符號以及結(jié)構(gòu)化信息的生物醫(yī)學(xué)文獻雙語摘要語料的交叉語言檢索中,具有較好的檢索效果。
在本文的實驗中,由于條件的限制,文檔集的規(guī)模不夠大,在下一步的研究中擴大實驗的規(guī)模,并將對基于概率潛在語義分析的模型平均化方法進行研究。
[1] Kazuaki Kishida. Technical Issues of Cross-Language Information Retrieval: a Review[J]. Information Processing and Management, 2005, 41(3): 433-455.
[2] Gina-Anne Levowa, Douglas W. Oardb, Philip Resnikc. Dictionary-based techniques for cross-language information retrieval[J]. Information Processing and Management, 2005, 41(3):523-547.
[3] Dong Zhou, Mark Truran. A Graph-Based Technique for Resolving Ambiguity in Query Translation Candidates. Symposium on Applied Computing [C]// Proceedings of the 2008 ACM symposium on Applied computing, Fortaleza, Ceara, Brazil: ACM New York, USA, 2008: 1566-1573.
[4] Dong Zhou, Mark Truran. A Hybrid Technique for English-Chinese Cross Language Information Retrieval[J]. ACM Transactions on Asian Language Information Processing (TALIP), 2008, 7(2):1-35.
[5] Guihong Cao,Jianfeng Gao. Extending query translation to cross-language query expansion with markov chain models [C]// Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, 2007: 351-360.
[6] J. Y. Nie, M. Simard, P. Cross-Language Information Retrieval based on Parallel Texts and Automatic Mining of Parallel Texts in the Web [C]// Proceedings of SIGIR’99, Berkeley, 1999: 74-81.
[7] GAO JF, Nie JY. Trec-9 CLIR Experiments at MSRCN [C]// Proceeding of the Ninth Text Retrieval Conference. USA, 2000: 343-353.
[8] Susan T. Dumais, Furnas G W. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
[9] Michael L. Littman, Susan T. Dumais, Thomas K. Landauer. Automatic cross-language retrieval using latent semantic indexing [C]// Proc. of SIGIR’96, 1996: 16-23.
[10] Berry, M.W., Young, P.G. Using Latent Semantic Indexing for Multilingual Information Retrieval[J]. Computers and Humanities, 1995, 29(6):413-429
[11] Michael W. Berry, Murray Browne, Amy N. Langville. Algorithms and applications for approximate nonnegative matrix factorization[J]. Computational Statistics & Data Analysis, 2007, 52(1): 155-173.
[12] H. Bast and D. Majumdar. Why spectral retrieval works [C]// Proceedings of SIGIR’05, 2005: 11-18.
[13] Miles Efron. Model-averaged latent semantic indexing [C]// Proceedings of SIGIR’07, 2007: 755-756.
[14] K. P. Burnham and D. R. Anderson. Model Selection and Multimodel Inference[M]. Springer, New York, 2002.
[15] C. H. Q. Ding. A similarity-based probability model for latent semantic indexing [C]// Proceedings of SIGIR’99, 1999: 58-65.
[16] 陳相,林鴻飛. 基于錨信息的生物醫(yī)學(xué)文獻雙語摘要句子對齊[J].中文信息學(xué)報,2009,23(1):58-62.