詹志建,楊小平
(中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)
一種基于復(fù)雜網(wǎng)絡(luò)的短文本語(yǔ)義相似度計(jì)算
詹志建,楊小平
(中國(guó)人民大學(xué) 信息學(xué)院,北京 100872)
將傳統(tǒng)的文本相似度量方法直接移植到短文本時(shí),由于短文本內(nèi)容簡(jiǎn)短的特性會(huì)導(dǎo)致數(shù)據(jù)稀疏而造成計(jì)算結(jié)果出現(xiàn)偏差。該文通過使用復(fù)雜網(wǎng)絡(luò)表征短文本,提出了一種新的短文本相似度量方法。該方法首先對(duì)短文本進(jìn)行預(yù)處理,然后對(duì)短文本建立復(fù)雜網(wǎng)絡(luò)模型,計(jì)算短文本詞語(yǔ)的復(fù)雜網(wǎng)絡(luò)特征值,再借助外部工具計(jì)算短文本詞語(yǔ)之間的語(yǔ)義相似度,然后結(jié)合短文本語(yǔ)義相似度定義計(jì)算短文本之間的相似度。最后在基準(zhǔn)數(shù)據(jù)集上進(jìn)行聚類實(shí)驗(yàn),驗(yàn)證本文提出的短文本相似度計(jì)算方法在基于F-度量值標(biāo)準(zhǔn)上,優(yōu)于傳統(tǒng)的TF-IDF方法和另一種基于詞項(xiàng)語(yǔ)義相似度的計(jì)算方法。
復(fù)雜網(wǎng)絡(luò);綜合特征值;短文本;語(yǔ)義相似度
文本聚類(Document clustering, or Text clustering)是指自動(dòng)地將大規(guī)模數(shù)據(jù)集分組為多個(gè)類別,并使同一個(gè)類別中的文本信息之間具有較高的相似度,而不同類別之間的相似度較低[1]。作為文本挖掘的基礎(chǔ)研究課題,文本聚類算法近年來得到系統(tǒng)研究及開發(fā),并取得了一些良好的效果。文本聚類過程中有幾個(gè)關(guān)鍵問題: 如何確定文本聚類的數(shù)目?如何計(jì)算文本之間的相似度?如何評(píng)價(jià)文本聚類?在這些問題當(dāng)中,如何計(jì)算文本之間的相似度是文本聚類的核心問題。
隨著互聯(lián)網(wǎng)的飛速發(fā)展,微博、短消息、即時(shí)通訊消息等短文本在人們的日常生活和工作當(dāng)中占據(jù)著越來越重要的地位。短文本是相對(duì)長(zhǎng)文本而言的,包含的信息量少,通常情況下不超過200字。但短文本一般都有明確的主題,表達(dá)了作者的意圖。傳統(tǒng)的文本相似度計(jì)算方法通過統(tǒng)計(jì)文本間共有的詞語(yǔ)信息得到文本間的相似度。對(duì)于長(zhǎng)文本來說,它所包含的詞語(yǔ)數(shù)量多,文本相似度可以通過共有詞語(yǔ)信息計(jì)算得出。但對(duì)于短文本來說,由于只包含很少數(shù)量的詞語(yǔ),短文本之間可能就沒有共同的詞語(yǔ)。如果此時(shí)再用長(zhǎng)文本的相似度計(jì)算方法來計(jì)算的話,會(huì)得到偏差較大的結(jié)果。例如,有兩個(gè)短文本: “如何從互聯(lián)網(wǎng)上下載電影”和“怎么將視頻傳到電腦里”。如果單單統(tǒng)計(jì)共有詞語(yǔ)信息,這兩句話沒有任何相同詞語(yǔ)。但事實(shí)上這兩句話具有很高的相似度。
短文本相似度計(jì)算在許多領(lǐng)域有著廣泛的應(yīng)用: 在信息檢索中,短文本相似度計(jì)算被認(rèn)為是改進(jìn)檢索效果最好的方法之一[2];在郵件信息處理中,利用短文本相似度計(jì)算可以更快地實(shí)現(xiàn)郵件分類[3];在數(shù)據(jù)庫(kù)自然語(yǔ)言接口開發(fā)中,可以利用短文本相似度擴(kuò)展查詢接口[4];此外,在其它研究領(lǐng)域,包括健康咨詢對(duì)話系統(tǒng)[5]、房地產(chǎn)銷售[6]、電話銷售[7]和智能導(dǎo)游[8]等領(lǐng)域,短文本相似度計(jì)算也有著非常重要的應(yīng)用。
將傳統(tǒng)的文本相似度量方法(例如,廣泛使用的向量空間相似度量方法)直接移植到短文本相似度計(jì)算上,往往得不到正確的結(jié)果。因?yàn)閭鹘y(tǒng)的文本相似度量方法大都將文本看作一組詞語(yǔ)的集合,通過計(jì)算詞語(yǔ)在文本中出現(xiàn)的次數(shù)以及在文本集中出現(xiàn)的次數(shù)對(duì)文本建立特征向量,再利用向量之間的余弦相似度或Jaccard相似度等計(jì)算文本間的相似度[9]。由于短文本字?jǐn)?shù)少,內(nèi)容簡(jiǎn)短,該方法忽略了短文本中詞語(yǔ)的語(yǔ)義信息,也忽略了詞語(yǔ)的順序信息和語(yǔ)法信息,并且建立的向量空間維度非常高,數(shù)據(jù)稀疏問題不可避免,最終計(jì)算效率低下。
針對(duì)上述方法存在的缺陷,本文提出了一種既能有效表示短文本的特征模型,又能結(jié)合短文本中詞語(yǔ)的語(yǔ)義信息進(jìn)行相似度計(jì)算的方法。給定兩個(gè)短文本,通過本文提出的算法,能夠高效、快速的計(jì)算出兩個(gè)短文本在語(yǔ)義層次上的相似度,而且能夠應(yīng)用在較為廣泛的領(lǐng)域。
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)上的文本資源急劇膨脹。事實(shí)上網(wǎng)絡(luò)上80%的資源是文本資源。在過去的幾十年中,有關(guān)電子文本資源的自動(dòng)化處理成為研究人員的關(guān)注焦點(diǎn)。網(wǎng)絡(luò)上的文本資源范圍廣泛,包括網(wǎng)頁(yè)文本、電子郵件、新聞組消息、網(wǎng)絡(luò)新聞等。面對(duì)浩如煙海的網(wǎng)絡(luò)文本,如何挖掘出人們所需要的信息,是文本處理的主要研究方向[10]。在二十世紀(jì)80年代,關(guān)于文本處理的應(yīng)用主要是知識(shí)工程領(lǐng)域的文本分類,事先由專家人工定義規(guī)則知識(shí)庫(kù),然后判斷將文本歸結(jié)到哪個(gè)分類底下[11]。為了避免人工過多參與規(guī)則庫(kù)的編寫造成效率低下問題,在90年代的時(shí)候研究人員又提出了許多改進(jìn)的方法,其中包括基于機(jī)器學(xué)習(xí)的規(guī)則庫(kù)構(gòu)建方法?;跈C(jī)器學(xué)習(xí)的規(guī)則庫(kù)構(gòu)建方法達(dá)到的效果不亞于人工專家手工構(gòu)造的效果,而且在很大程度上解放了人力資源,提高了效率[12]。
不僅文本挖掘領(lǐng)域中需要用到文本處理,在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)語(yǔ)言學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)、信息學(xué)等領(lǐng)域,對(duì)文本的處理也提出了相應(yīng)的要求。網(wǎng)絡(luò)上的文本資源是海量的、異構(gòu)的、分布廣泛的。文本內(nèi)容又都是人類自然語(yǔ)言,無(wú)法為計(jì)算機(jī)直接所理解。傳統(tǒng)的計(jì)算機(jī)處理的數(shù)據(jù)都是結(jié)構(gòu)化的,而文本是半結(jié)構(gòu)或無(wú)結(jié)構(gòu)的,尤其短文本的內(nèi)容更少,可能是幾句話,一句話或幾個(gè)單詞,甚至只有一個(gè)單詞。所以,文本處理的首要問題是如何在計(jì)算機(jī)中有效地表示文本[13],使之能夠反映文本的特征。
近年來關(guān)于復(fù)雜網(wǎng)絡(luò)的研究引起了研究人員的極大關(guān)注。復(fù)雜網(wǎng)絡(luò)在我們的生活中幾乎無(wú)處不在,復(fù)雜網(wǎng)絡(luò)模型廣泛應(yīng)用在生命科學(xué)領(lǐng)域[14]、應(yīng)激介質(zhì)[15]、神經(jīng)網(wǎng)絡(luò)[16]、時(shí)空博奕[17]、基因控制網(wǎng)絡(luò)[18]和其它自組織系統(tǒng)中。復(fù)雜網(wǎng)絡(luò)系統(tǒng)是由節(jié)點(diǎn)和連邊組成的,包括可視和不可視的系統(tǒng)。例如,電話網(wǎng)絡(luò)和油氣傳輸系統(tǒng)是可見的,有著實(shí)體的節(jié)點(diǎn)和連邊,而人際關(guān)系網(wǎng)絡(luò)、社會(huì)工作合作關(guān)系網(wǎng)絡(luò)等是不可見的。復(fù)雜網(wǎng)絡(luò)的拓?fù)鋱D一般情況下要么是完全規(guī)則的,要么是完全隨機(jī)的,但許多生物網(wǎng)絡(luò)、技術(shù)網(wǎng)絡(luò)和社會(huì)網(wǎng)絡(luò)卻介于這兩者之間[19]。
研究表明,人類語(yǔ)言也具有小世界復(fù)雜網(wǎng)絡(luò)特性[20]。以人們平常使用的詞語(yǔ)為節(jié)點(diǎn),詞語(yǔ)間的語(yǔ)義關(guān)系為邊可以建立人類語(yǔ)言的復(fù)雜網(wǎng)絡(luò)?;谶@種思路,我們可以對(duì)文本建立語(yǔ)言復(fù)雜網(wǎng)絡(luò),然后通過計(jì)算語(yǔ)言復(fù)雜網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的特征值,給出各個(gè)詞語(yǔ)的權(quán)重及詞語(yǔ)的語(yǔ)義信息。而要作為能夠表示文本意思的詞語(yǔ),必須具備以下四點(diǎn)特性。
1) 詞語(yǔ)能夠明確表示文本內(nèi)容;
2) 詞語(yǔ)具有明確的區(qū)分能力,能將文本的意思與其他文本意思區(qū)分開來;
3) 詞語(yǔ)的數(shù)量不能過多;
4) 抽取詞語(yǔ)的算法不能過于復(fù)雜。
對(duì)于長(zhǎng)文本來說,一般內(nèi)容較多,詞語(yǔ)數(shù)量也多,從而計(jì)算復(fù)雜度較高。而對(duì)于短文本來說,由于內(nèi)容簡(jiǎn)短,表達(dá)主題明確,詞語(yǔ)的數(shù)量不會(huì)過多。因此,本文經(jīng)過比較,選擇復(fù)雜網(wǎng)絡(luò)來表征短文本。在對(duì)短文本建立復(fù)雜網(wǎng)絡(luò)模型之后,我們通過研究短文本詞語(yǔ)之間的關(guān)系來計(jì)算短文本相似度。Harris認(rèn)為短文本之所能能夠計(jì)算相似度,是因?yàn)闃?gòu)成短文本的基礎(chǔ)元素詞語(yǔ)在相似的短文本中表達(dá)了類似的意思[21]。Harris的觀點(diǎn)得到了Firth的驗(yàn)證。Firth認(rèn)為,在任何語(yǔ)言中,相關(guān)的詞總是結(jié)伴出現(xiàn)[22]。Miller進(jìn)一步驗(yàn)證了只要文本相似,文本中的詞語(yǔ)在一定程度上也是相似的[23]。因此,我們可以總結(jié)出這么一個(gè)結(jié)論: 相似詞語(yǔ)表達(dá)了相似的主題,由相似詞語(yǔ)按照一定結(jié)構(gòu)組成的短文本,表達(dá)了相似的內(nèi)容。
目前國(guó)內(nèi)外已有多種方法用于短文本相似度計(jì)算,如張奇提出了一種句子相似度度量的方法,考慮句子中的uni-gram、bi-gram和tri-gram,通過回歸方法將這幾種相似度結(jié)果綜合起來[24]。王榮波提出了一種通過比較兩個(gè)句子的詞類信息串,進(jìn)行最優(yōu)匹配,得到漢語(yǔ)句子結(jié)構(gòu)相似性的計(jì)算方法[25]。熊大平提出了一種基于LDA的匹配框架來解決相似問句的匹配問題,分別從問句的統(tǒng)計(jì)信息、語(yǔ)義信息和主題信息三個(gè)方面來計(jì)算問句相似度,綜合得到整體相似度[26]。車萬(wàn)翔提出一種基于改進(jìn)的編輯距離方法主要思想是通過“插入”、“刪除”和“替換”等操作,將字符串替換為另一個(gè)字符串所采取的最小編輯操作代價(jià)[27]。秦兵等人采用TF-IDF方法和基于語(yǔ)義的方法,面向常見問題集計(jì)算問句之間的相似度[28]。穗志方和俞士汶在研究機(jī)器翻譯的基礎(chǔ)上,面向語(yǔ)法結(jié)構(gòu)提出了基于骨架依存樹的語(yǔ)句相似度計(jì)算方法[29]。趙妍妍等人通過深入分析句子,結(jié)合句子的詞語(yǔ)特征、語(yǔ)義特征以及句法特征,提出了一種基于多特征融合的句子相似度計(jì)算方法,并通過對(duì)不同的特征權(quán)重調(diào)節(jié)從而使計(jì)算結(jié)果最優(yōu)[30]。Lin提出的基于詞共現(xiàn)的方法通過建立文本詞庫(kù),將短文本映射為詞語(yǔ)向量表示,通過向量相似度表示短文本相似度[31]。Islam和Inkpen提出一種結(jié)合字符串相似度、詞語(yǔ)語(yǔ)義相似度和順序相似度的短文本相似度計(jì)算方法[32],首先利用字符串表示方法將短文本表示成字符串集合,再利用求最長(zhǎng)公共子串的方法得到字符串之間的相似度,然后利用WordNet計(jì)算詞之間的語(yǔ)義相似度,并按詞在短文本中出現(xiàn)的順序計(jì)算順序相似度,最后將三者相似度綜合加權(quán)得到短文本的相似度。上述方法只注重短文本詞語(yǔ)之間的相似度,通過詞語(yǔ)相似度加權(quán)得到短文本相似度,忽略了短文本中詞語(yǔ)之間的內(nèi)在邏輯關(guān)系和權(quán)重關(guān)系。而通過復(fù)雜網(wǎng)絡(luò)建模,可以將短文本中起到關(guān)鍵作用的詞語(yǔ)清楚表示出來,為短文本的相似度計(jì)算打下良好表征基礎(chǔ)。
帶著以上問題,本文在綜合分析復(fù)雜網(wǎng)絡(luò)的特征后,提出了一種新的基于復(fù)雜網(wǎng)絡(luò)的短文本相似度計(jì)算方法。本文的貢獻(xiàn)主要有以下幾個(gè)方面: 首先應(yīng)用復(fù)雜網(wǎng)絡(luò)對(duì)短文本進(jìn)行建模,為短文本的語(yǔ)義相似度計(jì)算提供一個(gè)合適的表征模型。然后結(jié)合復(fù)雜網(wǎng)絡(luò)的重要特征和詞語(yǔ)語(yǔ)義信息,給出了短文本相似度計(jì)算方法。最后通過幾種主流的短文本聚類實(shí)驗(yàn),驗(yàn)證本文提出的短文本相似度計(jì)算方法是否有效。實(shí)驗(yàn)對(duì)比了傳統(tǒng)的TF-IDF相似度度量方法和文獻(xiàn)[33]提出的文本相似度度量方法,結(jié)果表明,我們的方法在F-度量指標(biāo)上優(yōu)于這兩種方法。
3.1 復(fù)雜網(wǎng)絡(luò)重要特征
為了能夠用數(shù)學(xué)語(yǔ)言對(duì)復(fù)雜網(wǎng)絡(luò)建立模型,根據(jù)業(yè)界普遍認(rèn)可的復(fù)雜網(wǎng)絡(luò)的重要特征,我們給出復(fù)雜網(wǎng)絡(luò)的圖定義。
定義1(復(fù)雜網(wǎng)絡(luò)): 設(shè)復(fù)雜網(wǎng)絡(luò)G=(V,E,W)是以V為節(jié)點(diǎn)集合,以E為邊集合,以W為權(quán)重集合的圖,其中V={v1,vi……vn}為復(fù)雜網(wǎng)絡(luò)節(jié)點(diǎn)集合,E={(vi,vj),vi∈V,vj∈V}為復(fù)雜網(wǎng)絡(luò)的連邊集合,W={wij|(vi,vj)∈E}為復(fù)雜網(wǎng)絡(luò)的權(quán)重集合。下面我們分別給出復(fù)雜網(wǎng)絡(luò)的重要特征公式。
1) 節(jié)點(diǎn)vi的度Di定義為:
(1)
在復(fù)雜網(wǎng)絡(luò)圖中,Di表示與節(jié)點(diǎn)vi有連邊的節(jié)點(diǎn)數(shù)。度分布反映了節(jié)點(diǎn)與其它節(jié)點(diǎn)的連接情況。
2) 節(jié)點(diǎn)vi的聚集度Ki定義為:
(2)
在復(fù)雜網(wǎng)絡(luò)圖中,聚集度Ki表示以節(jié)點(diǎn)vi為中心的節(jié)點(diǎn)間的連接情況,反映了局部范圍內(nèi)節(jié)點(diǎn)聚集情況。
3) 節(jié)點(diǎn)vi的聚集系數(shù)Ci定義為:
(3)
聚集系數(shù)Ci定義公式的分子表示節(jié)點(diǎn)vi的聚集度,分母表示完全連通時(shí)的度分布統(tǒng)計(jì)。
4) 節(jié)點(diǎn)vi的權(quán)重度WDi定義為:
(4)
節(jié)點(diǎn)vi權(quán)重度WDi由所有連接vi的邊的權(quán)重相加而得。
5) 節(jié)點(diǎn)vi的權(quán)重聚集度WKi定義為:
(5)
節(jié)點(diǎn)vi權(quán)重聚集度WKi由所有以節(jié)點(diǎn)vi以中心的邊的權(quán)重相加而得。
6) 節(jié)點(diǎn)vi的聚集綜合度WCi定義為:
(6)
節(jié)點(diǎn)vi的聚集綜合度WCi與節(jié)點(diǎn)的權(quán)重聚集度和聚集系數(shù)成正比,與節(jié)點(diǎn)vi的權(quán)重度成反比。
7) 節(jié)點(diǎn)vi的聚類系數(shù)BCi定義為:
(7)
其中l(wèi)jk(i)表示節(jié)點(diǎn)vj和節(jié)點(diǎn)vk之間經(jīng)過節(jié)點(diǎn)vi的最短路徑的長(zhǎng)度,ljk表示節(jié)點(diǎn)vj和節(jié)點(diǎn)vk之間的所有可能最短路徑。
節(jié)點(diǎn)vi的聚類系數(shù)BCi具有很強(qiáng)的現(xiàn)實(shí)意義,反映了節(jié)點(diǎn)vi對(duì)復(fù)雜網(wǎng)絡(luò)的信息流動(dòng)影響。研究表明,復(fù)雜網(wǎng)絡(luò)可看作由一系列子網(wǎng)絡(luò)連接而成。處于子網(wǎng)絡(luò)連接點(diǎn)的那些節(jié)點(diǎn)起到了關(guān)鍵作用,是連接各個(gè)子網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)。所以對(duì)于求不同子網(wǎng)絡(luò)節(jié)點(diǎn)之間的最短路徑,都會(huì)通過節(jié)點(diǎn)vi。
8) 節(jié)點(diǎn)vi路徑系數(shù)BPi定義為:
(8)
提出節(jié)點(diǎn)vi的路徑系數(shù)定義是為了解決聚類系數(shù)可能出現(xiàn)0值的情況。因?yàn)楫?dāng)有關(guān)鍵節(jié)點(diǎn)不處于最短路徑時(shí),聚類系數(shù)BCi=0。而事實(shí)上這些節(jié)點(diǎn)是復(fù)雜網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)。而且聚類系數(shù)強(qiáng)調(diào)的是局部的連通性,所以引進(jìn)路徑系數(shù)BPi是為了增加全局連通性的考慮。
9) 節(jié)點(diǎn)vi的復(fù)雜網(wǎng)絡(luò)綜合特征值Zi定義為:
(9)
其中根據(jù)不同的應(yīng)用,調(diào)節(jié)因子α、β和η取不同的數(shù)值。
3.2 短文本預(yù)處理
盡管短文本字?jǐn)?shù)較少,內(nèi)容簡(jiǎn)短,但目前的自然語(yǔ)言處理技術(shù)也無(wú)法完全處理文本信息。因此,在對(duì)短文本建立特征模型之前,對(duì)短文本的預(yù)處理是必要的,主要包括分詞、去除停用詞、取詞根和詞性標(biāo)注等。對(duì)于英文文本,單詞間由空格或明顯的標(biāo)點(diǎn)符號(hào)分隔,分詞可以根據(jù)此標(biāo)志快速實(shí)現(xiàn)。而中文文本中詞語(yǔ)之間沒有明顯的邊界,因此我們需要通過算法對(duì)中文文本進(jìn)行分詞。中文分詞是中文信息處理的重要基礎(chǔ),分詞結(jié)果好壞對(duì)應(yīng)用效果有著非常大的影響。例如,“網(wǎng)球拍賣完了”,可以分詞為“網(wǎng)球拍/ 賣/ 完了”,也可以分詞為“網(wǎng)球/ 拍賣 /完了”。具體分詞算法需要結(jié)合具體的語(yǔ)境上下文才能取得更好的效果。
在對(duì)短文本分詞之后,需要去除停用詞。停用詞是指那些對(duì)文本表示影響可以忽略不計(jì),不包含對(duì)文本處理有任何價(jià)值的詞語(yǔ),例如,英文的“the、a、of、for、in”,中文的“的、地、得”等。去除停用詞最常用的方法是維護(hù)一個(gè)停用詞列表,當(dāng)文本分詞后的詞語(yǔ)出現(xiàn)在停用詞列表中,就去除掉。停用詞一般跟領(lǐng)域有關(guān),不同的領(lǐng)域可能會(huì)有不同的停用詞列表。
由于本文提出的方法需要對(duì)短文本進(jìn)行語(yǔ)義分析,分詞后除了刪除停用詞外,還需要進(jìn)行以下兩個(gè)步驟:
1) 將短文本中的人名、地名和組織機(jī)構(gòu)名等特殊詞語(yǔ)進(jìn)行處理,采用命名實(shí)體識(shí)別技術(shù)統(tǒng)一替換為特定的字符串,其中人名替換為PEO,地名替換為ADD,組織機(jī)構(gòu)名替換為COM。
2) 對(duì)短文本中的詞語(yǔ)進(jìn)行詞性標(biāo)注。詞語(yǔ)根據(jù)不同的性質(zhì)和用途可以分為不同的類型,最能表征短文本含義的主要是實(shí)詞,因此需要區(qū)分詞語(yǔ)是名詞、動(dòng)詞、形容詞還是副詞。
3.3 復(fù)雜網(wǎng)絡(luò)構(gòu)建
人類語(yǔ)言區(qū)別于其他生物交流語(yǔ)言的一個(gè)重要特點(diǎn)是擁有數(shù)量龐大的詞匯。人們可以在不超過100ms的時(shí)間內(nèi)判斷一個(gè)字或詞的組合是否正確或合理。研究表明,人類之所以具有這種識(shí)字本領(lǐng),是因?yàn)槿祟愓Z(yǔ)言之間存在著千絲萬(wàn)縷的內(nèi)部聯(lián)系。人類語(yǔ)言具有小世界網(wǎng)絡(luò)特性,人類語(yǔ)言文本中的詞語(yǔ)并不是隨機(jī)亂序的,而是按詞間關(guān)系表達(dá)了特定的主題。詞語(yǔ)數(shù)量有限,但不同的詞語(yǔ)排列組成成千上萬(wàn)的意思。文本主要由段落和句子組成,句子的基本組成元素是詞語(yǔ),以詞語(yǔ)作為節(jié)點(diǎn),詞語(yǔ)之間的關(guān)系作為連邊,可以將文本構(gòu)建成復(fù)雜網(wǎng)絡(luò)。文本語(yǔ)言復(fù)雜網(wǎng)絡(luò)構(gòu)建的思路是以每個(gè)詞語(yǔ)作為節(jié)點(diǎn),詞語(yǔ)在同一個(gè)句子中出現(xiàn)作為連邊建立網(wǎng)絡(luò)。不同的詞語(yǔ)出現(xiàn)在同一個(gè)句子中,說明詞語(yǔ)之間存在語(yǔ)法關(guān)系。所以緊鄰的詞語(yǔ)之間必然存在連邊。但是非緊鄰的詞語(yǔ)之間是否存在語(yǔ)法關(guān)系,以及如何確定多長(zhǎng)距離之內(nèi)的詞語(yǔ)具有連邊關(guān)系?連邊的收集,若只采集兩個(gè)緊鄰的詞語(yǔ)之間的聯(lián)系,則可能會(huì)丟失一些長(zhǎng)程的關(guān)聯(lián),同時(shí)卻提高某些無(wú)用詞在網(wǎng)絡(luò)中的重要性。因而需要確定詞語(yǔ)在句子中的關(guān)聯(lián)跨度。若跨度太短,很多重要的關(guān)聯(lián)無(wú)法記錄;若跨度太大,可能產(chǎn)生許多冗余信息。本文采用文獻(xiàn)[20]中所遵循的規(guī)則,即取關(guān)聯(lián)跨度最大為2進(jìn)行研究,因?yàn)檫@種長(zhǎng)度的關(guān)聯(lián)在語(yǔ)言復(fù)雜網(wǎng)絡(luò)中最為常見和重要。例如,對(duì)于句子“文本相似度計(jì)算過程”,通過分詞產(chǎn)生“文本”、“相似度”、“計(jì)算”、“過程”,從而可以建立如圖1所示的語(yǔ)言網(wǎng)絡(luò)。對(duì)于整個(gè)文本語(yǔ)言復(fù)雜網(wǎng)絡(luò)的構(gòu)建,則可以通過合并各個(gè)句子語(yǔ)言復(fù)雜網(wǎng)絡(luò)中相同的節(jié)點(diǎn)與連邊來產(chǎn)生。
圖1 一個(gè)句子的語(yǔ)言復(fù)雜網(wǎng)絡(luò)
3.4 短文本相似度計(jì)算
構(gòu)建完短文本的語(yǔ)言復(fù)雜網(wǎng)絡(luò)后,我們就可以利用式(9)計(jì)算各個(gè)詞語(yǔ)節(jié)點(diǎn)的綜合特征值,并將短文本中各個(gè)詞語(yǔ)的綜合特征值表示為向量權(quán)重,以此計(jì)算短文本之間的相似度。由于短文本字?jǐn)?shù)少,內(nèi)容簡(jiǎn)短,預(yù)處理后產(chǎn)生的詞語(yǔ)個(gè)數(shù)也不會(huì)太多,因此這個(gè)向量的維度通常不會(huì)太高。在得到了短文本的特征向量之后,接下來要考慮的就是如何計(jì)算短文本之間的相似度。由于短文本詞語(yǔ)代表了短文本的信息,因此短文本的相似度就可以轉(zhuǎn)化為向量間的相似度。另外,由于每篇短文本長(zhǎng)短不一,因而表征每篇短文本詞語(yǔ)向量的維度也不一樣,本文必須消除這種影響,使得特征向量間的相似度滿足基本的相似度量標(biāo)準(zhǔn)。
設(shè)vi和vj是兩篇不同短文本X和Y的特征向量,其中vi=(wi1,wi2,……wim),vj=(wj1,wj2,……wjn)。定義短文本之間的相似度為:
(10)
其中cf表示短文本特征向量vi和vj之間相似度的加權(quán)因子,VectSim(vi,vj)表示特征向量vi和vj之間的相似度。短文本中詞語(yǔ)的復(fù)雜網(wǎng)絡(luò)綜合特征值越高,表明該詞語(yǔ)在短文本的復(fù)雜網(wǎng)絡(luò)中處于越重要的位置,即表示該詞語(yǔ)越能代表短文本的主題。同時(shí),如果兩篇短文本中彼此相似的詞語(yǔ)越多,說明短文本的主題越相似。因此,根據(jù)詞語(yǔ)的復(fù)雜網(wǎng)絡(luò)特征值和詞語(yǔ)間的相似度值,我們首先找出滿足詞語(yǔ)相似度閥值條件的特征詞語(yǔ),再計(jì)算這些特征詞語(yǔ)的復(fù)雜網(wǎng)絡(luò)綜合特征值之和,最后求出上述結(jié)果值占整篇短文本特征值總和的比例,具體的加權(quán)因子計(jì)算公式由式(11)給出。
(11)
其中Zik表示詞語(yǔ)wik的語(yǔ)言復(fù)雜網(wǎng)絡(luò)綜合特征值,左端項(xiàng)分子部分表示滿足相似度閥值條件的詞語(yǔ)的綜合特征值之和,分母部分表示所有詞語(yǔ)綜合特征值之和。式(11)中的集合Λi和Λj定義如下:
(12)
(13)
其中sim(wjl,wik)表示詞語(yǔ)wjl和wik之間的語(yǔ)義相似度。由于詞語(yǔ)相似度不在本文討論范圍,所以我們直接引用文獻(xiàn)[23]和文獻(xiàn)[34]中的詞語(yǔ)相似度計(jì)算方法。如果特征向量vi中的某個(gè)詞語(yǔ)wik與另一個(gè)特征向量vj中的詞語(yǔ)wjl(l=1,2……n)的相度閥值超過用戶設(shè)定的相似度閥值,則將該詞語(yǔ)wik放入到集合Λi中。集合Λj包含的元素依據(jù)集合Λi的方法對(duì)特征向量vj中的詞語(yǔ)進(jìn)行選擇。|Λi|、|Λj|分別表示集合Λi和Λj的元素個(gè)數(shù)。集合元素越多,說明滿足相似度閥值條件的詞語(yǔ)個(gè)數(shù)越多,對(duì)相似度的影響越大。
(14)
特征向量vi和vj之間的相似度VectSim(vi,vj)由向量vi和vj中所包含的詞語(yǔ)相似度和向量之間的余弦相似度決定。相似的短文本必然由相似的詞語(yǔ)組成,相似詞語(yǔ)組成的短文本表達(dá)了相似的意思。
3.5 算法流程
輸入: 兩篇短文本X和Y,詞語(yǔ)相似度閥值μ
輸出: 短文本X和Y的相似度值STSim
step1 對(duì)短文本X和Y進(jìn)行預(yù)處理,建立相應(yīng)的復(fù)雜網(wǎng)絡(luò),根據(jù)式(3)—式(9)計(jì)算復(fù)雜網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)的綜合特征值Z;
step2 將文本X和Y建模為特征向量vi=(wi1,wi2,……wim)和vj=(wj1,wj2,……wjn),其中各個(gè)詞語(yǔ)的權(quán)重為復(fù)雜網(wǎng)絡(luò)綜合特征值;
step3 從向量vi的詞語(yǔ)wi1開始,尋找向量vj中與wi1相似度最高的詞語(yǔ)wjk,記錄wi1和wjk之間的相似度值θ,并判斷θ與μ大小。如果θ>μ,則將wi1放入到集合Λi中;
step4 重復(fù)step3的過程,直至向量vi中所有的詞語(yǔ)都在向量vj中找到各自相似度最大的詞語(yǔ),同時(shí)記錄相似度值并調(diào)整集合Λi;
step5 統(tǒng)計(jì)step3和step4的相似度值總和,除以向量vi中詞語(yǔ)的數(shù)量,以此作為向量vi對(duì)vj的相似度值Sim(vi,vj);
step6 同理求得Λj和Sim(vj,vi);
step7 根據(jù)step5和step6的計(jì)算結(jié)果,再根據(jù)式(3-14)求得VectSim(vi,vj);
step8 計(jì)算集合Λi中所有詞語(yǔ)的綜合特征值總和,以及集合Λj中所有詞項(xiàng)的綜合特征值總和,并根據(jù)式(3-11)計(jì)算加權(quán)因子cf;
step9 根據(jù)step7和step8和計(jì)算結(jié)果,再結(jié)合式(3-10)求得文本X和Y的相似度值STSim。
本文實(shí)驗(yàn)數(shù)據(jù)選用業(yè)界廣泛使用的BBC數(shù)據(jù)集*BBC Dataset, Machine Learning Group. http://mlg.ucd.ie和復(fù)旦大學(xué)自然語(yǔ)言處理小組收集與整理的文本語(yǔ)料庫(kù)*http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15。這些數(shù)據(jù)集中的聚類數(shù)目、文本大小以及文本分布都有著顯著的差異,本文挑選其中不超過200字的短文本作為基準(zhǔn)數(shù)據(jù)集,分別選取兩個(gè)文本集合中各四個(gè)文本子集用于本文實(shí)驗(yàn),即BBC1、BBC2、BBC3、BBC4和FUDAN1、FUDAN2、FUDAN3、FUDAN4。每篇短文本預(yù)先被劃分到一個(gè)或多個(gè)類別中,各個(gè)數(shù)據(jù)子集的特點(diǎn)如表1所示。
該語(yǔ)料庫(kù)中各個(gè)類別的子類別可以作為各個(gè)文本集的標(biāo)準(zhǔn)聚類結(jié)果。實(shí)驗(yàn)首先采用LingPipe*LingPipe, Alias-I, Inc. http://www.alias-i.com對(duì)
表1 實(shí)驗(yàn)數(shù)據(jù)摘要
BBC數(shù)據(jù)集進(jìn)行預(yù)處理,采用中國(guó)科學(xué)院分詞軟件ICTCLAS*ICTCLAS漢語(yǔ)分詞系統(tǒng). http://www.ictclas.org/對(duì)FUDAN數(shù)據(jù)集進(jìn)行預(yù)處理,然后建立短文本語(yǔ)言復(fù)雜網(wǎng)絡(luò),計(jì)算各個(gè)分詞的綜合特征值Z,并以此特征值作為短文本詞語(yǔ)向量權(quán)重。短文本詞語(yǔ)之間的相似度計(jì)算采用文獻(xiàn)[23]和文獻(xiàn)[34]的方法,再結(jié)合本文提出的短文本相似度計(jì)算方法,對(duì)短文本數(shù)據(jù)集進(jìn)行相似度計(jì)算,得到短文本相似度矩陣。
為了驗(yàn)證本文算法的有效性,本文同時(shí)實(shí)現(xiàn)了基于TF-IDF方法的短文本相似度[10]、文獻(xiàn)[18]提出的結(jié)合詞項(xiàng)語(yǔ)義信息的文本相似度計(jì)算方法TSemSim以及文獻(xiàn)[35]提出的基于子樹匹配的文本相似度算法SubTSim,進(jìn)行聚類結(jié)果的比較。本文采用CLUTO工具包*Karypis G. CLUTO-A clustering toolkit. Department of Computer Science, University of Minnesota. http://www.cs.umn.edu/~karypis/cluoto進(jìn)行聚類實(shí)驗(yàn),并實(shí)現(xiàn)了CLUTO工具包中K-均值(DKM)、二分K-均值(BKM)和凝聚K-均值(AKM)的聚類算法。
本文實(shí)驗(yàn)采用F-度量值來衡量短文本相似度計(jì)算結(jié)果。F-度量值是根據(jù)準(zhǔn)確率P(Precision)和召回率R(Recall)給出的一個(gè)綜合的評(píng)價(jià)指標(biāo),其定義如式(15)—式(17)所示。
(15)
(16)
(17)
其中,ni表示類別i的短文本數(shù)量,nj是聚類j的短文本數(shù)量,nij表示聚類j中應(yīng)屬于類別i的短文本數(shù)量。
全局聚類的F-度量值定義如式(18)所示。
(18)
式(18)中,ni表示各個(gè)子類別的文本數(shù)目,n表示所有文本數(shù)量,j表示計(jì)算的聚類結(jié)果。F值越大,聚類結(jié)果越好。
實(shí)驗(yàn)首先要確定詞語(yǔ)相似度閥值μ的大小對(duì)聚類結(jié)果的影響。為了客觀體現(xiàn)本文算法的真實(shí)性,選取CLUTO工具包中最直接的DKM算法進(jìn)行聚類。圖2給出了在利用DKM聚類算法進(jìn)行計(jì)算時(shí),同一聚類中的詞語(yǔ)相似度閥值μ的大小對(duì)聚類結(jié)果的影響。隨著短文本之間詞語(yǔ)相似度閥值μ的逐漸升高,聚類效果也逐步提升。這是因?yàn)殡S著閥值的提升,短文本之間的區(qū)分度也越來越大,因此聚類效果也越來越好。從圖中可以看出,當(dāng)μ落值在區(qū)間[0.65,0.75]之間時(shí),達(dá)到最好的聚類效果。而當(dāng)μ值超過0.75時(shí),F(xiàn)-度量值急劇下降,這是因?yàn)楸疚倪x取的詞語(yǔ)相似度算法對(duì)于短文本之間詞語(yǔ)的相似度計(jì)算較少有超過0.75值,導(dǎo)致短文本相似度加權(quán)因子下降,因而在整體上降低F-度量值。
圖2 詞語(yǔ)相似度閥值μ對(duì)聚類結(jié)果的影響
根據(jù)以上實(shí)驗(yàn)結(jié)果,本文選取詞語(yǔ)相似度閥值μ為0.7,采用本文算法與TF-IDF、TSemSim算法、SubTSim算法進(jìn)行比較,比較結(jié)果如圖3所示。從圖中可以看出,無(wú)論是BBC數(shù)據(jù)集,還是FUDAN數(shù)據(jù)集,在DKM算法、BKM算法和AKM算法中,本文算法的F-度量值都要高于其它算法。這與本文算法既考慮了短文本的文本信息量少、用復(fù)雜網(wǎng)絡(luò)表示詞語(yǔ)之間的聯(lián)系有關(guān),也與考慮了詞語(yǔ)之間的語(yǔ)義信息有關(guān)。傳統(tǒng)的TF-IDF方法在短文本相似度計(jì)算中的F-度量值最低,這是因?yàn)門F-IDF方法只考慮詞語(yǔ)的TF-IDF值,而未考慮其它因素。TSemSim算法和SubTSim算法主要著眼于長(zhǎng)文本的相似度計(jì)算,在長(zhǎng)文本方面相似度計(jì)算方面有著比較好的優(yōu)勢(shì),其中TSemSim算法也考慮了詞語(yǔ)之間的語(yǔ)義信息,SubTSim算法還借助子樹計(jì)算文本相似度。但對(duì)于短文本相似度的計(jì)算,上述兩種算法對(duì)短文本的文本特征表示不夠到位,故最終得出的F-度量值低于本文算法。
為了進(jìn)一步證明本文算法的優(yōu)異性,根據(jù)實(shí)驗(yàn)結(jié)果,選擇雙樣本等方差假設(shè)進(jìn)行兩兩比較,即首先對(duì)DKM算法中的STSim和TF-IDF方法作顯著性檢驗(yàn)分析,選取顯著性水平α=0.05。再對(duì)STSim和TSemSim作顯著性檢驗(yàn),依次類推,分析結(jié)果如表2—表4所示。
表2 DKM算法的顯著性檢驗(yàn)結(jié)果
續(xù)表
圖3 本文算法STSim、TF-IDF算法、TsemSim、SubTSim算法在聚類算法上的F-度量值比較
STSimTF-IDFSTSimTSemSimSTSimSubTSim平均0.6286250.566750.6286250.5753750.6286250.587875方差0.0005351250.0014839290.0005350.0016610.0005350.001689觀測(cè)值888888合并方差0.0010095270.0010980.001112假設(shè)平均差000
續(xù)表
表4 AKM算法的顯著性檢驗(yàn)結(jié)果
從表2—表4可以看出P(T<=t)雙尾均小于0.05,說明本文算法與TF-IDF、TSemSim算法和SubTSim算法有著顯著的差異,效果優(yōu)于這些算法。
本文首先通過分析已有的文本相似度計(jì)算方法移植到短文本時(shí)會(huì)出現(xiàn)的偏差問題,然后根據(jù)復(fù)雜網(wǎng)絡(luò)的重要特征以及人類語(yǔ)言所具有的小世界復(fù)雜網(wǎng)絡(luò)特性,提出了一種新的基于復(fù)雜網(wǎng)絡(luò)的短文本相似度計(jì)算方法。與現(xiàn)有的短文本相似度計(jì)算方法相比,本文提出的算法既能夠有效表示短文本的語(yǔ)義信息,又結(jié)合詞語(yǔ)間的語(yǔ)義相似度計(jì)算短文本間的相似度。并通過經(jīng)典的聚類算法實(shí)驗(yàn),驗(yàn)證了本文算法的有效性。本文的后續(xù)工作將在現(xiàn)有語(yǔ)言復(fù)雜網(wǎng)絡(luò)和詞語(yǔ)語(yǔ)義信息分析的基礎(chǔ)上,進(jìn)一步深入分析短文本中不同位置、不同權(quán)重的詞語(yǔ)對(duì)短文本相似度計(jì)算結(jié)果的影響,綜合考慮短文本中詞語(yǔ)的位置權(quán)重、文本結(jié)構(gòu)等信息,更好地提高短文本相似度計(jì)算精度。
[1] BCM Fung, K Wang, M Ester. Hierarchical document clustering[J]. The Encyclopedia of Data Warehousing and Ming, Idea Group, 2005:970-975.
[2] Mihai Lintean, Vasile Rus. Measuring Semantic Similarity in Short Texts through Greedy Pairing and Word Semantics[C]//Proceedings of the 25th International Florida Artificial Intelligence Research Society Conference, 2012: 244-249.
[3] Luc Lamontagne, Guy Lapalme. Textual Reuse for Email Response[J]. Lecture Notes in Computer Science, 2004(3155):242-256.
[4] James Glass, Eugene Weinstein, Scott Cyphers. A Framework for Developing Conversational User Interfaces[C]//Proceedings of the Fourth International Conference on Computer-Aided Design of User Interfaces, Funchal, Isle of Madeira, Portugal 2005:349-360.
[5] Timothy Bickmore, Toni Giorgino. Health dialog systems for patients and consumers[J]. Journal of Biomedical Informatics, 2006(39): 556-571.
[6] Cassell Justine. Embodied Conversational Agents[C]//Proceedings of the Encyclopedia of the Sciences of Learning, 2000.
[7] AL Gorin,G Riccardi,JH Wright. How I help you? Speech Communication [J]. Speech Computication, 1997,(23):113-127.
[8] AC Graesser, P Chipman, BC Haynes, A Olney. AutoTutor: An Intelligent Tutoring System With Mixed Initiative Dialogue[C]//Proceedings of the IEEE Transactions on Education 2005,48(4): 612-618.
[9] Salton G. The SMART Retrieval System-Experiments in Automatic Document Processing[C]//Proceedings of the Englewood Cliffs, New Jersey: Prentice Hall Inc, 1971.
[10] R Dinesh, BS Harish, DS Guru, et al. Concept of Status Matrix in Text Classification[C]//Proceedings of Indian International Conference on Artificial Intelligence, Tumkur, India. 2009:2071-2079.
[11] V Mitra, CJ Wang, S Banerjee. Text Classification: A least square support vector machine approach[J]. Journal of Applied Soft Computing. 2007,(7):908-914.
[12] GPC Fung, JX Yu,H Lu, PS Yu. Text classification without negative example revisit[C]//Proceedings of the IEEE Transactions on Knowledge and Data Engineering. 2006,(18): 23-47.
[13] Aliaksei S., Massimo N., Alessandro M. Learning Semantic Textual Similarity with Structural Representations[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria, 2013:714-718.
[14] SH Strogatz, I Stewart. Coupled oscillators and biological synchronization[J]. Sci. Am. 1993, 269(6):102-109.
[15] Martin Gerhardt, Heike Schuster, John J Tyson. A cellular automaton model of excitable media including curvature and dispersion[J]. Science. 1990(247): 1563-1566.
[16] John J Hopfield, Andreas V M Herz. Rapid local synchronization of action potentials: Toward computation with coupled integrate-and-fire neurons[C]//Proceedings of the Natl Acad. Sci. USA,1995(92):6655-6662.
[17] Martin A. Nowak, Robert M. May. Evolutionary games and spatial chaos[J]. Nature. 1992,(359):826-829.
[18] Kauffman S A. Metabolic stability and epigenesis in randomly constructed genetic nets[J]. Journal of Theoretical Biology. 1969,(22):437-467.
[19] Duncan Watts, Steven Strogatz. Collective dynamics of ‘small-world’ networks[J]. Nature. 1998,(393): 440-442.
[20] Ferreri Cancho R. Sole R V. The small world of human language[J]. Biological Sciences, 2011,268(1482):2261-2265.
[21] Harris, Z. Distributional Structure[J]. Word, 1954(10):146-162.
[22] Firth J R. A Synopsis of Linguistic Theory, 1930-1957[J]. In Special volume of the Philological Society. Oxford: Blackwell, 1957.
[23] Miller G, Harles W. Contextual Correlates of Semantic Similarity[C]//Proceedings of the Language and Cognitive Processes,1991,(6): 1-28.
[24] Zhang Qi, Huang Xuanjing, Wu Li-de. A New Method for Calculating Similarity Between Sentences and Application on Automatic Text Summarization[J]. Journal Of Chinese Information Processing, 2005,19(2):60-68.
[25] Wang Rongbo, Chi Zheru. A Similarity Measure Method of Chinese Sentence Structures[J]. Journal Of Chinese Information Processing, 2005, 19(1):21-29.
[26] Xiong Daping, Wang Jian, Lin Hongfei. An LDA-based Approach to Finding Similar Questions for Community Question Answer[J]. Journal Of Chinese Information Processing, 2012, 26(5):40-45.
[27] Wanxiang Che, Ting Liu, Bin Qin. Similar sentence retrieval based on improved edit distance Chinese[J]. High Technology Letters,2004,(7):15-19.
[28] Bin Qin, Ting Liu, Yang Wang. Research on question answering system based on frequently asked question set Chinese[J]. Journal of Harbin Institute Technology. 2003,35(10):1179-1182.
[29] Zhifang Sui, Shiwen Yu. The calculation model of sentence similarity based on skeleton dependency tree[C]//Proceedings of the International Conference On Chinese Computing,1998.
[30] Yanyan Zhao, Bin Qin, Ting Liu. Sentence similarity computing based on multi features fusion[C]//Proceedings of the Joint Conference on Computational Linguistics’2005, Nanjing,2005:168-174.
[31] Lin C, Hovy E. Automatic evaluation of summaries using n-gram co-occurrence statistics[C]//Proceedings of the Human Language Technology Conference. 2003.
[32] Islam A. Inkpen D. Semantic Text Similarity using Corpus-based Word Similarity and String Similarity[C]//Proceedings of the ACM Transactions on Knowledge Discovery from Data. 2008.
[33] Yuhua Li, David McLean, Zuhair A. Bandar, et al. Sentence Similarity Based on Semantic Nets and Corpus Statistics[J]. IEEE Transactions on Knowledge and Data Engineering, 2006,18(8):1138-1150.
[34] Zhijian Z., Lina L., Xiaoping Y. Word Similarity Measurement Based on BaiduBaike[J]. Computer Science. 2013,40(6):199-202.
[35] Zhang Peiyun,Chen Chuanming, Huang Bo. Texts Similarity Algorithm Based on Subtrees Matching[J]. Pattern Recognition and Artificial Intelligence,2014,27(3):226-234.
Measuring Semantic Similarity in Short Texts Through Complex Network
ZHAN Zhijian, YANG Xiaoping
(School of Information, Renmin University of China, Beijing 100872, China)
Traditional methods of text similarity measure will cause erroneous results when applied in short texts, because most of them treat texts as a set of words. Due to the very brief content of short texts, those methods not only ignore the semantics information of the words but also the order information and grammar information. This paper proposes a new semantic similarity measurement between short texts, based on the complex network. This approach first pre-processes short text, and uses the complex network to model short text. With the definition of short text semantic similarity, this paper resolves the semantic information of terms in short text. Finally, several K-Means clustering methods are used for evaluating performance of the new short text similarity measurement. By comparing with TF-IDF and another semantic information method, the results show that it can promote the evaluation metrics of F-Measure.
complex network; comprehensive eigenvalue; short text; semantic similarity
詹志建(1982-),博士,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)工程。E-mail:zhanzj@ruc.edu.cn楊小平(1956-),博士,教授,主要研究領(lǐng)域?yàn)樾畔⑾到y(tǒng)工程。E-mail:yang@ruc.edu.cn
1003-0077(2016)04-0071-10
2014-07-08 定稿日期: 2015-02-10
國(guó)家自然科學(xué)基金(70871115)
TP391
A