潘 湑, 顧宏斌
(南京航空航天大學(xué) 民航學(xué)院,江蘇 南京 210016)
隨著國(guó)內(nèi)航空業(yè)的發(fā)展,對(duì)于民航從業(yè)人員的培訓(xùn)需求迅速增長(zhǎng)。當(dāng)前各種培訓(xùn)材料主要來(lái)源于各種技術(shù)文檔和維護(hù)手冊(cè),而針對(duì)特定目的的培訓(xùn)教材和考核試題則完全由培訓(xùn)教員手動(dòng)編寫(xiě)。術(shù)語(yǔ)可以是單個(gè)的詞或者短語(yǔ),其定義是培訓(xùn)素材中可以用來(lái)描述術(shù)語(yǔ)所描述的事物的本質(zhì)特點(diǎn)、作用、發(fā)生原因、位置、成分結(jié)構(gòu),或者其來(lái)源、形成情況等的句子[1]。這樣的句子不僅包含了可用于培訓(xùn)教材的認(rèn)知型信息,而且其結(jié)構(gòu)很適合作為考核題庫(kù)以及領(lǐng)域本體系統(tǒng)的備選資料。
現(xiàn)有的定義抽取技術(shù)主要用于在自動(dòng)問(wèn)答系統(tǒng)中抽取答案,抽取的定義限于表達(dá)‘what is’和‘who is’類(lèi)型的知識(shí),利用的語(yǔ)料一般是使用給定術(shù)語(yǔ)詞匯從搜索引擎或者語(yǔ)料庫(kù)中抓取的相關(guān)文本信息。抽取的一般步驟是先用規(guī)則匹配方法獲取候選定義句,之后用分類(lèi)的方法作進(jìn)一步劃分以提高準(zhǔn)確率,或者用排序的方法選出得分較高的句子作為給定術(shù)語(yǔ)的定義。
本文的目標(biāo)是從航空民航專(zhuān)業(yè)語(yǔ)料庫(kù)中識(shí)別出所有包含航空、民航專(zhuān)業(yè)術(shù)語(yǔ)定義的單句,和現(xiàn)有的定義抽取技術(shù)的目標(biāo)相比有一些不同之處。首先是要求獲得語(yǔ)料中所有的包含術(shù)語(yǔ)定義的單句,而不是給定術(shù)語(yǔ)的定義句;其次,要求可以獲得類(lèi)型多種多樣的定義句,而不僅僅是‘what is’和‘who is’類(lèi)型;再次,要求抽取的結(jié)果能夠達(dá)到盡可能高的召回率和準(zhǔn)確率,而不僅僅是保證排序較高的少數(shù)幾個(gè)句子的準(zhǔn)確性;最后,現(xiàn)有方法大多利用經(jīng)初步篩選后的語(yǔ)料中包含的詞語(yǔ)的出現(xiàn)頻率來(lái)計(jì)算排序分值,這種方法既不利于按領(lǐng)域劃分術(shù)語(yǔ)定義也不利于保證最終結(jié)果中術(shù)語(yǔ)定義的時(shí)效性。由此可見(jiàn),現(xiàn)有的定義抽取方法無(wú)法滿足本文的要求,因此本文提出了一種完全依靠分類(lèi)方法來(lái)進(jìn)行發(fā)現(xiàn)語(yǔ)料中的所有專(zhuān)業(yè)術(shù)語(yǔ)定義的方法。
本文的以后的內(nèi)容安排如下: 第2節(jié)介紹了近年來(lái)國(guó)內(nèi)外對(duì)于各種術(shù)語(yǔ)定義抽取方法的研究和應(yīng)用,并在最后提出了本文所使用方法的基本思想。第3節(jié)介紹了本文實(shí)驗(yàn)所采用的語(yǔ)料庫(kù)的情況以及本文實(shí)驗(yàn)的一些設(shè)計(jì)。第4節(jié)首先在本文實(shí)驗(yàn)的語(yǔ)料庫(kù)上進(jìn)行了僅使用BRF方法的實(shí)驗(yàn),之后介紹了本文提出的基于實(shí)例距離分布信息的過(guò)采樣方法的實(shí)驗(yàn)。第5節(jié)是全文的結(jié)論。
當(dāng)前用于自動(dòng)問(wèn)答系統(tǒng)的定義抽取,大多先用規(guī)則匹配方法獲取候選定義句。使用的規(guī)則模板大致分為兩類(lèi),一類(lèi)是硬匹配模式(Hard Patterns)[2-3],另一類(lèi)為柔性模式(Soft Pattern)[4-5]。大部分針對(duì)英文語(yǔ)料的實(shí)驗(yàn),主要針對(duì)系動(dòng)詞和核心動(dòng)詞建立模版;而在中文研究中,采用的模版包含了除核心動(dòng)詞外的其他一些詞匯,同時(shí),在目前所見(jiàn)的研究中,均為硬匹配模版,模式的數(shù)量一般在5~8個(gè)之間。
而柔性模式,則是從大量正例文本中通過(guò)結(jié)合詞匯片段和語(yǔ)言學(xué)標(biāo)注,結(jié)合概率模型和上下文順序來(lái)獲取不同層次的模式[6],這種方法在一些信息抽取項(xiàng)目中已被廣泛應(yīng)用[7]。
在分類(lèi)階段所使用的方法包括了大多數(shù)已知的分類(lèi)方法,如K-臨近(Knn)法、樸素貝葉斯(Na?ve Bayes)法、支持向量機(jī)(Svm)方法等。從報(bào)告的結(jié)果看,在針對(duì)斯拉夫語(yǔ)的實(shí)驗(yàn)中,單純是用機(jī)器學(xué)習(xí)方法而不使用規(guī)則模式的時(shí)候,準(zhǔn)確率最低只有不到9%(正例:反例為1∶1),而綜合了規(guī)則模板和多分類(lèi)器的方法則可以達(dá)到20%的準(zhǔn)確率[8-9]。而在針對(duì)英語(yǔ)的實(shí)驗(yàn)中,綜合了機(jī)器學(xué)習(xí)方法和模式規(guī)則的方法效果較好,在定義句占訓(xùn)練語(yǔ)料58.1%的實(shí)驗(yàn)中,可以達(dá)到85%以上的準(zhǔn)確率。但是,采用不同核的SVM 效果差異較大,徑向基(Radial Base Function, RBF)核效果最好,而線性核的效果甚至不如樸素貝葉斯方法[10]。
排序的方法主要見(jiàn)于李航和張榕的論文[2-3],排位越高的句子,越傾向于認(rèn)為是定義。張榕利用詞在術(shù)語(yǔ)和非術(shù)語(yǔ)語(yǔ)料中的出現(xiàn)頻率來(lái)定義詞和句子的隸屬度;李航等使用句子的基本名詞短語(yǔ)為特征,用Svm方法排序。在選取排序前三的結(jié)果進(jìn)行比較時(shí),前者在中文語(yǔ)料上達(dá)到83%的準(zhǔn)確率,后者在包含16.5%的定義句的英文語(yǔ)料上達(dá)到88%的準(zhǔn)確率。
近期也有學(xué)者開(kāi)始用處理不平衡數(shù)據(jù)分類(lèi)的方法作為單一步驟來(lái)處理術(shù)語(yǔ)定義分類(lèi)的問(wèn)題。當(dāng)一個(gè)數(shù)據(jù)集中的一個(gè)類(lèi)別包含的實(shí)例數(shù)量遠(yuǎn)遠(yuǎn)小于其他類(lèi)別時(shí),這個(gè)數(shù)據(jù)集被認(rèn)為是不平衡的。本文使用的語(yǔ)料庫(kù)中,定義句的數(shù)量遠(yuǎn)遠(yuǎn)少于非定義句,可以被認(rèn)為是一種二分類(lèi)的不平衡數(shù)據(jù)集[11-12]。在現(xiàn)實(shí)世界中,存在很多類(lèi)似的問(wèn)題如網(wǎng)絡(luò)入侵檢測(cè)[13]、利用衛(wèi)星圖像進(jìn)行原油泄漏檢測(cè)[14]、罕見(jiàn)疾病診斷、飛機(jī)故障檢測(cè)等。在面對(duì)這樣的極不平衡數(shù)據(jù)時(shí),一般的分類(lèi)器極難準(zhǔn)確預(yù)測(cè)作為少數(shù)類(lèi)的正例。
處理不平衡數(shù)據(jù)分類(lèi)問(wèn)題的策略主要有兩類(lèi)。其一是對(duì)原始數(shù)據(jù)集進(jìn)行重采樣[16-19],既可以對(duì)少數(shù)類(lèi)數(shù)據(jù)進(jìn)行過(guò)采樣,也可以對(duì)多數(shù)類(lèi)數(shù)據(jù)進(jìn)行欠采樣,直至達(dá)到一個(gè)能夠獲得較好分類(lèi)結(jié)果的數(shù)據(jù)分布[20]。其二是通過(guò)給不同的類(lèi)別設(shè)置不同的誤分類(lèi)代價(jià)來(lái)提高分類(lèi)敏感的學(xué)習(xí)方法的分類(lèi)性能[21-23]。
重采樣技術(shù)在將數(shù)據(jù)交給分類(lèi)器處理前先對(duì)數(shù)據(jù)分布進(jìn)行調(diào)整,達(dá)到合適分布。其中最簡(jiǎn)單的方法是進(jìn)行隨機(jī)的過(guò)采樣和欠采樣[17],前者隨機(jī)的復(fù)制正例加入到少數(shù)類(lèi)中,后者隨機(jī)的從多數(shù)類(lèi)中去除反例,但是前者會(huì)導(dǎo)致過(guò)擬合的問(wèn)題,而后者會(huì)去除數(shù)據(jù)中很多重要信息。為了解決這些問(wèn)題,近年來(lái)相關(guān)研究人員針對(duì)重采樣方法進(jìn)行了諸多改進(jìn)。
Chawla等人于2002年設(shè)計(jì)了過(guò)采樣技術(shù)SMOTE(Synthetic Minority Over-Sampling TEchnique)[19],通過(guò)在兩個(gè)相鄰正例之間生成一個(gè)合成實(shí)例來(lái)對(duì)少數(shù)類(lèi)進(jìn)行過(guò)采樣,可以在一定程度上避免過(guò)采樣算法中的過(guò)學(xué)習(xí)問(wèn)題。但是在處理高偏問(wèn)題時(shí)效果有限,因?yàn)楦咂珕?wèn)題中少數(shù)類(lèi)往往過(guò)于稀疏,從而導(dǎo)致少數(shù)類(lèi)和多數(shù)類(lèi)最終混雜在一起。
Han等人,于2005年在SMOTE的基礎(chǔ)上進(jìn)行改進(jìn),提出了Borderline-SMOTE技術(shù)[24],將正例劃分為噪聲、邊界、安全三個(gè)區(qū)域,采用和SMOTE相同的過(guò)采樣方法,但是只對(duì)邊界域中的少數(shù)類(lèi)進(jìn)行過(guò)采樣。
Chumphol Bunkhumpornpat等人于2009年,對(duì)SMOTE做了進(jìn)一步改進(jìn),提出了Safe-Level-SMOTE技術(shù)[25],通過(guò)計(jì)算一個(gè)少數(shù)類(lèi)實(shí)例的safe level,來(lái)確定不同的過(guò)采樣合成實(shí)例的生成位置。該方法可以得到比SMOTE和Borderline-SMOTE更高的準(zhǔn)確率。
改進(jìn)欠采樣的方法有Condensed Nearest Neighbor[26]、Neighborhood Cleaning Rule[27]、One-sided Selection[17]、Tomek Link等[28]。這些方法通過(guò)一些方法,找出邊界樣本和噪音樣本,有選擇地去掉對(duì)分類(lèi)作用不大,即遠(yuǎn)離分類(lèi)邊界或者引起數(shù)據(jù)重疊的多數(shù)類(lèi)樣本,并將其從大類(lèi)中去掉,只留下安全樣本和小類(lèi)樣本作為分類(lèi)器的訓(xùn)練集。通常改進(jìn)的欠采樣方法得到的分類(lèi)效果比隨機(jī)欠采樣理想一些。
Bagging(Bootstrap AGGregatING)算法[29]是一種集成學(xué)習(xí)(ensemble learning)技術(shù)[30],該算法在訓(xùn)練階段,各學(xué)習(xí)器的訓(xùn)練集由原始訓(xùn)練集利用可重復(fù)采樣(bootstrap sampling)技術(shù)獲得,訓(xùn)練集的規(guī)模通常與原始訓(xùn)練集相當(dāng)。原始訓(xùn)練集中的某些實(shí)例可能在新的訓(xùn)練集中出現(xiàn)多次,而另一些實(shí)例可能不出現(xiàn)。Bagging可以顯著提高不穩(wěn)定的分類(lèi)器的泛化能力。大部分集成學(xué)習(xí)算法在生成多個(gè)獨(dú)立的分類(lèi)器之后,通常是對(duì)所有的分類(lèi)器的結(jié)果進(jìn)行聚合,因此很多研究者嘗試使用大規(guī)模的集成來(lái)解決問(wèn)題。BRF方法是在Bagging基礎(chǔ)上發(fā)展起來(lái)的,利用可放回的重采樣方法以不平衡數(shù)據(jù)為基礎(chǔ)獲得平衡訓(xùn)練集的集成學(xué)習(xí)技術(shù)[15]。
本文采用完全依靠分類(lèi)的方法來(lái)解決定義抽取的問(wèn)題,首先使用基于實(shí)例距離分布信息改進(jìn)的過(guò)樣方法調(diào)整語(yǔ)料的不平衡分布,之后結(jié)合隨機(jī)欠采樣方法構(gòu)建多個(gè)平衡訓(xùn)練集用以訓(xùn)練C4.5決策樹(shù),之后使用BRF方法獲得C4.5決策樹(shù)分類(lèi)結(jié)果的聚合。該方法既獲益于重采樣方法對(duì)數(shù)據(jù)分布的調(diào)整,又獲益于Bagging方法對(duì)不穩(wěn)定分類(lèi)器性能的提升。
本文使用的語(yǔ)料庫(kù)及其預(yù)處理過(guò)程和文獻(xiàn)[31]相同,由4本航空專(zhuān)業(yè)教材構(gòu)成,總計(jì)16 627個(gè)句子,其中包含1 359個(gè)定義句或包含定義的句子。如果以定義句為正例,非定義句為反例,則正例占實(shí)例總數(shù)的約8%,正例與反例的數(shù)量比是1∶11.2,是一種極不平衡的數(shù)據(jù)集。
本文的實(shí)驗(yàn)使用新西蘭懷卡托大學(xué)開(kāi)發(fā)的懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,WEKA)中的J48算法來(lái)構(gòu)建分類(lèi)樹(shù),這是C4.5算法的一個(gè)變種。
本文的實(shí)驗(yàn)使用的評(píng)價(jià)方法包括召回率(Recall)、準(zhǔn)確率(Precision)、F-measure,定義如下:
F-measure中β的取值由實(shí)驗(yàn)中召回率和準(zhǔn)確率的重要性來(lái)決定,當(dāng)β取值為1的時(shí)候(F1指標(biāo)),認(rèn)為召回率和準(zhǔn)確率同等重要;當(dāng)β取值為2的時(shí)候(F2指標(biāo)),認(rèn)為召回率比準(zhǔn)確率更加重要。
本文使用詞袋模型作為文本表達(dá)方式,使用的特征為經(jīng)哈爾濱工業(yè)大學(xué)LTP中文處理平臺(tái)分詞得到的中文詞[32]。使用詞匯的TF×IDF(詞頻×逆文檔頻率)作為特征的權(quán)重。
通過(guò)以前的研究表明,使用IG(Information Gain)或者CHI(開(kāi)方檢驗(yàn))方法可以在使用較少數(shù)量的特征時(shí),依然能夠保證分類(lèi)器的性能[31],本文最終使用IG作為本文實(shí)驗(yàn)的特征選擇依據(jù)。如圖1 所示(針對(duì)單顆樹(shù)選取不同比例的特征對(duì)結(jié)果的影響圖),分別給出了使用隨機(jī)重采樣技術(shù)和本文提出的改進(jìn)重采樣技術(shù)情況下,在選用占總特征數(shù)不同比例的特征時(shí)單個(gè)分類(lèi)器分類(lèi)結(jié)果F2指標(biāo)的變化情況。兩組實(shí)驗(yàn)分別使用對(duì)原始數(shù)據(jù)集進(jìn)行50次重采樣得到的數(shù)據(jù)作為訓(xùn)練集,以原始數(shù)據(jù)集作為測(cè)試集,實(shí)驗(yàn)結(jié)果取平均值。實(shí)驗(yàn)結(jié)果表明,使用IG作為特征選擇方法,單個(gè)分類(lèi)器的F2評(píng)價(jià)指標(biāo)隨著選用特征的數(shù)量不同而變化。從選用特征數(shù)量為特征總數(shù)的1%開(kāi)始,F(xiàn)2指標(biāo)逐步提高。當(dāng)選用特征數(shù)量達(dá)到特征總數(shù)的30%~40%時(shí),F(xiàn)2指標(biāo)達(dá)到最高值,隨后F2指標(biāo)開(kāi)始下降。之后的實(shí)驗(yàn)均按照IG方法選取占總數(shù)35%的特征進(jìn)行實(shí)驗(yàn)。
圖1 單顆C4.5樹(shù)使用不同比例特征時(shí)的結(jié)果
如前所述,本文使用的術(shù)語(yǔ)定義語(yǔ)料庫(kù)是一種極不平衡的數(shù)據(jù)集,所以在該數(shù)據(jù)集上應(yīng)用任何一種分類(lèi)方法時(shí),必須考慮到這種實(shí)例分布的特殊性帶來(lái)的影響。本文首先按照ukasz Kobyliński等人[15]的方法建立基礎(chǔ)實(shí)驗(yàn),僅作兩點(diǎn)改動(dòng),一是用C4.5決策樹(shù)代替CART樹(shù),二是用信息增益(Information Gain)方法進(jìn)行特征選擇。
該實(shí)驗(yàn)結(jié)果如圖2所示,實(shí)驗(yàn)結(jié)果同時(shí)表明了在使用Bagging方法處理航空領(lǐng)域術(shù)語(yǔ)定義抽取問(wèn)題時(shí),聚合結(jié)果和參與聚合的樹(shù)的數(shù)量之間的變化關(guān)系。由于使用偶數(shù)顆樹(shù)進(jìn)行聚合時(shí),投票結(jié)果中會(huì)出現(xiàn)對(duì)有些實(shí)例的正例判決得票數(shù)和反例判決得票數(shù)相等的情況,圖中將這類(lèi)實(shí)例稱(chēng)為未定實(shí)例,并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。從該圖可以看出,在樹(shù)的數(shù)量少于30時(shí),聚合結(jié)果隨著樹(shù)的數(shù)量的增長(zhǎng)快速提高,并達(dá)到59%的F1-measure成績(jī)和73%的F2-measure成績(jī)。但是在樹(shù)的數(shù)量超過(guò)30以后,聚合結(jié)果不能繼續(xù)提高。所以當(dāng)處理大規(guī)模的術(shù)語(yǔ)定義抽取問(wèn)題,需要兼顧模型的性能和訓(xùn)練速度時(shí),選用的聚合樹(shù)的數(shù)量可以定在30顆左右。
圖2 聚合樹(shù)數(shù)量和F-measure的對(duì)應(yīng)關(guān)系
本文使用實(shí)例間的歐氏距離分析航空領(lǐng)域術(shù)語(yǔ)定義語(yǔ)料庫(kù)的實(shí)例分布,存在以下特點(diǎn):
1) 如圖3(a)所示,語(yǔ)料庫(kù)中的反例到最近的10個(gè)反例和最近的10個(gè)正例的距離均值集中在0.75~5.5之間,且大多數(shù)反例到最近的反例和到正例的距離均值相同或者很接近,僅有少量反例到反例的距離均值明顯小于到正例的距離均值,但是沒(méi)有反例到反例的距離均值小于到正例的距離均值。如圖3(b)所示,反例到最近的10個(gè)反例距離的方差密集分布于0.25~1.75之間,而反例到最近的10個(gè)正例距離的方差則密集分布在0到0.2之間。由此可見(jiàn)每個(gè)反例到最近10個(gè)正例和反例的平均距離很接近,但是到反例的距離在其均值附近的變化幅度遠(yuǎn)大于到正例的距離。距離每個(gè)反例最近的10個(gè)實(shí)例中,依然是反例占多數(shù)。
圖3 反例到最近的10個(gè)實(shí)例的距離分布
2) 如圖4(a)所示,語(yǔ)料庫(kù)中的大部分正例到最近的10個(gè)正例的歐氏距離密集分布于1~2.5之間,且大多數(shù)正例到最近的正例和到反例的距離均值相同或者很接近,僅有少量正例到正例的距離均值明顯大于到反例的距離均值。如圖4(b)所示大部分正例到最近的10個(gè)正例距離的方差方法密集分布于0.3~0.8之間,而到最近的10個(gè)反例的距離方差密集分布于0~0.1之間。語(yǔ)料庫(kù)中正例到最近的10個(gè)正例的距離均值和到最近的10個(gè)反例的距離均值非常接近,而正例到最近的10個(gè)正例的距離方差遠(yuǎn)遠(yuǎn)大于最近的10個(gè)正例的距離方差。大部分正例的10個(gè)最近鄰實(shí)例中,依然是正例占多數(shù),并且呈現(xiàn)出正例和反例間隔出現(xiàn)的情況。同時(shí),也存在少量實(shí)例的10個(gè)最近鄰實(shí)例都是反例的情況。
圖4 正例到最近10個(gè)實(shí)例的距離方差
3) 如圖5所示,(a)是語(yǔ)料庫(kù)中少數(shù)類(lèi)的正例到最近的10個(gè)正例的距離均值—數(shù)量的對(duì)應(yīng)分布,表明全部正例的35.7%(485個(gè))到最近10個(gè)正例的距離均值在1.20~1.425之間,而到10個(gè)最近正例的距離均值在0.975~1.875之間的正例更是占到總數(shù)的89%(1 210個(gè)),這是一個(gè)密集分布區(qū)。(b)是語(yǔ)料庫(kù)中少數(shù)類(lèi)的正例到最近的10個(gè)反例的距離均值—數(shù)量的對(duì)應(yīng)分布,表明全部正例的33.6%(456個(gè))到最近的10個(gè)反例的距離均值在1.20~1.425之間,而到10個(gè)最近反例距離均值在0.975~1.875之間的正例更是占到總數(shù)的84.5%(1 149個(gè))。這表明單個(gè)正例到10個(gè)最近鄰實(shí)例,不論是同類(lèi)實(shí)例還是異類(lèi)實(shí)例,均集中在0.975~1.875之間,這個(gè)區(qū)域?qū)⒊蔀楸疚南乱徊竭M(jìn)行過(guò)采樣處理的重點(diǎn)區(qū)域。
圖5 正例到最近10個(gè)最近實(shí)例的距離均值的分布
基于以上對(duì)術(shù)語(yǔ)定義數(shù)據(jù)集中實(shí)例間距離的分析,本文對(duì)隨機(jī)重采樣算法做如下改進(jìn):
定義1: 假設(shè)整個(gè)術(shù)語(yǔ)定義數(shù)據(jù)集中的實(shí)例總數(shù)為T(mén),少數(shù)類(lèi)實(shí)例總數(shù)為m,其中一個(gè)實(shí)例Pi到另一個(gè)同類(lèi)實(shí)例Pj的距離為Dij,1
定義2: 設(shè)數(shù)據(jù)集中的少數(shù)類(lèi)實(shí)例Pi(1
1) 對(duì)于少數(shù)類(lèi)中的每個(gè)實(shí)例Pi,在T中計(jì)算它的5個(gè)近鄰實(shí)例并按照距離由小到大的順序排列于隊(duì)列Pi-5NN中。
2) 如果Pi與Pi-5NN中首個(gè)實(shí)例構(gòu)成一個(gè)不安全實(shí)例對(duì)或者中等安全實(shí)例對(duì),則Pi不參與合成新樣本,其Pi-SYN為空,否則從Pi-5NN中逐個(gè)取出實(shí)例并與Pi比較。
3) 如當(dāng)前Pi-5NNk實(shí)例為正例,且〈Pi,Pk〉為安全實(shí)例對(duì)或者中等安全實(shí)例對(duì)(非首個(gè)近鄰實(shí)例時(shí)),將Pi-5NNk加入Pi-SYN;如果當(dāng)前Pi-5NNk實(shí)例為反例,則檢查Pi-5NN剩余實(shí)例(含當(dāng)前實(shí)例)中反例的占比和分布,如果反例的占比大于等于50%或者最近的連續(xù)的25%實(shí)例均為反例,則終止為當(dāng)前Pi挑選新的合成實(shí)例集實(shí)例,否則跳過(guò)當(dāng)前反例,重復(fù)步驟3)直到Pi-5NN為空。
4) 當(dāng)確定了少數(shù)類(lèi)實(shí)例的Pi-SYN后,將開(kāi)始生成新的少數(shù)類(lèi)合成樣本。本文使用數(shù)據(jù)僅包含數(shù)值型特征,合成實(shí)例包含的特征用與SMOTE相同的方法確定,但是采用新的隨機(jī)數(shù)生成方法如下。
定義3: 假定Pi為當(dāng)前少數(shù)類(lèi)實(shí)例;Pcur為Pi-SYN中的當(dāng)前候選合成實(shí)例;Ppre為Pi-SYN中位于Pcur之前的實(shí)例并滿足以下條件: 在Pi-5NN中,Ppre到Pcur之間不存在異類(lèi)實(shí)例且Pi-SYN中不存在比Ppre更靠前的實(shí)例Ppre′在Pi-5NN中到Pcur之間也不存在異類(lèi)實(shí)例。
令Pcur到Pi的距離為Dcur,Ppre到Pi的距離為Dpre。圖5(a)將少數(shù)類(lèi)實(shí)例到最近的同類(lèi)實(shí)例的距離均值從近到遠(yuǎn)劃分為等距離的10檔,表示為L(zhǎng)evel1~Level10,Dpre落在第Leveli檔中,Dcur落在第Levelj檔中。令Xpre為從Level1~Leveli包含的實(shí)例數(shù)量占少數(shù)類(lèi)實(shí)例總數(shù)的比例,Xcur為從Level1~Levelj包含的實(shí)例數(shù)量占少數(shù)類(lèi)實(shí)例總數(shù)的比例,則令合成新樣本過(guò)程中的隨機(jī)數(shù)取為rand[Xpre,Xcur]。
5) 在對(duì)多數(shù)類(lèi)實(shí)例進(jìn)行欠采樣前,去除反例中到最近10個(gè)同類(lèi)實(shí)例的距離均值超過(guò)9.0的所有實(shí)例。去除反例中最近的10個(gè)實(shí)例中正例數(shù)量超過(guò)絕對(duì)多數(shù)的所有實(shí)例。
經(jīng)過(guò)以上處理后,少數(shù)類(lèi)實(shí)例被過(guò)采樣約1.8倍,之后再用可放回的重采樣方法生成多個(gè)訓(xùn)練集。每個(gè)訓(xùn)練集中的少數(shù)類(lèi)實(shí)例數(shù)量和多數(shù)類(lèi)實(shí)例數(shù)量相等,且都為過(guò)采樣后少數(shù)類(lèi)實(shí)例的數(shù)量。用以上訓(xùn)練集訓(xùn)練C4.5決策樹(shù),用全部數(shù)據(jù)集作為測(cè)試集,用投票法獲取最終結(jié)果。由于使用偶數(shù)顆樹(shù)進(jìn)行聚合時(shí),投票結(jié)果中會(huì)出現(xiàn)對(duì)有些實(shí)例的正例判決得票數(shù)和反例判決得票數(shù)相等的情況,圖中將這類(lèi)實(shí)例稱(chēng)為未定實(shí)例,并按照將其劃歸正例和反例分別給出了F1-measure和F2-measure。實(shí)驗(yàn)結(jié)果如圖6所示,在僅使用10顆聚合樹(shù)并將所有未定實(shí)例劃歸正例的情況下,就達(dá)到了F1-measure=0.658、F2-measure=0.78的最佳成績(jī),比使用隨機(jī)采樣的Bagging方法的最好成績(jī)各提高了約5%。隨后,聚合成績(jī)有所下降,但是F1-measure穩(wěn)定在0.63~0.64之間,F(xiàn)2-measure穩(wěn)定在0.75~0.76之間。但是與隨機(jī)采樣的Bagging方法的結(jié)果不同的是,后者的實(shí)驗(yàn)結(jié)果中,將未定實(shí)例劃歸反例可以獲得更好的成績(jī),但是改進(jìn)后的實(shí)驗(yàn)中將未定實(shí)例劃歸正例可以獲得更好的成績(jī)。
圖6 聚合樹(shù)數(shù)量和F-measure對(duì)應(yīng)關(guān)系
通過(guò)以上諸多實(shí)驗(yàn)表明,在本文使用的語(yǔ)料的特征空間中,定義句比非定義句表現(xiàn)出更強(qiáng)的聚集性,并呈現(xiàn)出定義句的絕對(duì)稀疏性和在特定區(qū)域的相對(duì)密集分布。因此,本文的過(guò)采樣方法傾向于將合成樣本的生成位置確定在擁有更多可以構(gòu)成安全實(shí)例對(duì)正例近鄰的區(qū)域,通過(guò)合成樣本有效強(qiáng)化了原數(shù)據(jù)集中的正例密集區(qū)域的分布。同時(shí),本文在合成新樣本時(shí)對(duì)于夾雜在少數(shù)類(lèi)近鄰中的零星多數(shù)類(lèi)實(shí)例的處理方法,使得合成樣本能夠進(jìn)一步鞏固原有少數(shù)類(lèi)實(shí)例密集區(qū)域的邊界。最后,本文去除了部分距離較遠(yuǎn)的多數(shù)類(lèi)實(shí)例。通過(guò)以上方法,一方面調(diào)整了數(shù)據(jù)集中正反例的數(shù)量比,另一方面強(qiáng)化了正例的分布區(qū)域,配合之后的隨機(jī)采樣方法,構(gòu)建了多個(gè)平衡訓(xùn)練集用于訓(xùn)練決策樹(shù)。實(shí)驗(yàn)結(jié)果證明該方法比使用隨機(jī)欠采樣的Bagging方法更加有效。
本文的實(shí)驗(yàn)表明,采用基于實(shí)例距離分布信息改進(jìn)的重采樣方法對(duì)比隨機(jī)重采樣方法,能夠有效的調(diào)整數(shù)據(jù)集分布,并提高Bagging方法的分類(lèi)性能,是應(yīng)對(duì)不平衡數(shù)據(jù)分類(lèi)的有效方法。但是由于不同的數(shù)據(jù)集的數(shù)據(jù)分布情況差異較大,必須根據(jù)相應(yīng)的數(shù)據(jù)分布特點(diǎn)來(lái)確定重采樣策略。
本文的實(shí)驗(yàn)同時(shí)表明,用處理不平衡數(shù)據(jù)分類(lèi)的方法來(lái)處理術(shù)語(yǔ)定義抽取問(wèn)題是一種可行的思路,能夠?qū)⒃杏糜谠u(píng)價(jià)分類(lèi)器的諸多評(píng)價(jià)指標(biāo)引入到術(shù)語(yǔ)定義抽取領(lǐng)域。但是也面臨很多問(wèn)題,如特征數(shù)量很多,導(dǎo)致樣本的特征空間是一種高維的稀疏空間,這也會(huì)極大的影響分類(lèi)性能,這是我們下一步研究的重點(diǎn)之一。
[1] 馮志偉. 現(xiàn)代術(shù)語(yǔ)學(xué)引論[M],語(yǔ)言文化出版社,1997: 31-34.
[2] Jun Xu, Yunbo Cao, Hang Li, Min zhao. Ranking Definitions with Supervised Learning Methods[C]//Proc. 14th International World Wide Web Conference Committee, Chiba, Japan: 2005: 811-819.
[3] 張榕. 術(shù)語(yǔ)定義抽取、聚類(lèi)與術(shù)語(yǔ)識(shí)別研究[D]. 北京: 北京語(yǔ)言文化大學(xué), 2006.
[4] Hang Cui, Min-Yen Kan, Tat-Seng Chua. Soft pattern matching models for definitional question answering[J]. ACM Transactions on Information Systems (TOIS), 2007, 25 (2): 8-es.
[5] H. Cui, M. Kan, and T. Chua. Generic soft pattern models for definitional question answering[C]//Proc. SIGIR’05, Salvador, Brazil: 2005: 384-391.
[6] Hang Cui, Min-Yen Kan, Tat-Seng Chua: Unsupervised learning of soft patterns for generating definitions from online news[C]//Proc. 13th international conference on World Wide Web, New York, NY, USA: 2004: 90-99.
[7] Eugene Agichtein and Luis Gravano. Snowball: Extracting relations from large plain-text collections[C]//Proc. the Fifth ACM International Conference on Digital Libraries, San Antonio, Texas, USA: 2000: 85-94.
[9] Przepiórkowski, A., Marcińczuk, M., Degórski..: Dealing with small, noisy and imbalanced data: Machine learning or manual grammars?[C]//Proc. TSD2008, Brno, Czech Republic: September 2008.
[10] Ismail Fahmi and Gosse Bouma. Learning to identify definitions using syntactic features[C]//Proc. the EACL workshop on Learning Structured Information in Natural Language Applications, Trento, Italy: 2006.
[11] Chawla, N., Japkowicz, N., Kolcz, A. Editorial: Special Issue on Learning from Imbalanced Data Sets[N]. SIGKDD Explorations 6(1), 1-6 2004.
[12] Prati, R., Batista, G., Monard, M. Class Imbalances versus Class Overlapping: an Analysis of a Learning System Behavior[C]//Proc. MICAI(2004). Heidelberg: Springer, 2004: LNAI 2972, 312-321.
[13] Fan, W., Miller, M., Stolfo, S., Lee, W., Chan, P. Using Artificial Anomalies to Detect Unknown and Known Network Intrusions[C]//Proc. ICDM 2001, San Jose, CA, USA: 2001: 123-130.
[14] Kubat, M., Holte, R., Matwin, S. Machine Learning for the Detection of Oil Spills in Satellite Radar Images[J]. Machine Learning 30, 1998, 2-3: 195-215.
[16] Japkowicz, N. The Class Imbalance Problem: Significance and Strategies[C]//Proc. IC-AI 2000, Las Vegas, NV, USA: 2000 :111-117.
[17] Kubat, M., Matwin, S. Addressing the Curse of Imbalanced Training Sets: One-Sided Selection[C]//Proc. ICML 1997, Morgan Kaufmann, Nashville: 1997: 179-186.
[18] Lewis, D., Catlett, J. Uncertainty Sampling for Supervised Learning[C]//Proc. ICML 1994, Morgan Kaufmann, New Brunswick: 1994: 148-156.
[19] N.V.Chawla, K. W. Bowyer. L.O.Hall, and W.P.Kegelmeyer. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2002, 16: 321-357.
[20] G. M. Weiss and F. Provost. The effect of class distribution on classifier learning: An empirical study[R]. Computer Science Department, Rutgers University,. 2001.
[21] Domingos, P. Metacost: A General Method for Making Classifiers Cost-sensitive[C]//Proc. ACM SIGKDD 1999, San Diego: 1999: 155-164.
[22] Fan, W., Salvatore, S., Zhang, J., Chan, P. AdaCost: misclassification cost-sensitive boosting.[C]//Proc. ICML 1999, Bled, Slovenia: 1999: 97-105.
[23] Pazzani, M., Merz, C., Murphy, P., Ali, K., Hume, T., Brunk, C. Reducing Misclassification Costs.[C]//Proc. ICML 1994, Morgan Kaufmann, San Francisco: 1994: 217-225.
[24] Han, H., Wang, W., Mao, B. Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning.[C]//Proc. ICIC2005, LNCS 3644, Springer, Heidelberg: 2005: 878-887.
[25] Chumphol Bunkhumpornpat, Krung Sinapiromsaran and Chidchanok Lursinsap. Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over-Sampling Technique for Handling the Class Imbalanced Problem[C]//Proc., PAKDD 2009, Springer Berlin/Heidelber: 2009: 475-482.
[26] Hart, PE. The Condensed Nearest Neighbor Rule[J]. IEEE Transactions on Information Theory.1968, 14(3):515-516.
[27] Laurikkala, Jorma. Improving Identification of Difficult Small Classes by Balancing Class Distribution[R]. Department of Computer and Information Science, University of Tampere, Finland. 2001.
[28] Tomek, I. Two Modifications of CNN.[J].IEEE Transactions on Systems Man and Communications.1976,6(6): 769-772.
[29] Breiman, L, Bagging predictors[J]. Machine Learning, 2002, 26(2), 123-140.
[30] Dietterich TG. Machine Learning Research: Four current directions[J]. AI Magazine, 1997,18(4): 97-136.
[31] 潘湑,顧宏斌,孫嬋娟. 使用分類(lèi)方法的航空領(lǐng)域術(shù)語(yǔ)定義識(shí)別[C]//Proc. CCPR2009, Nanjing, China: 2009 : 663-669.
[32] Jingyang Li, Maosong Sun, Xian Zhang. A Comparison and Semi-Quantitative Analysis of Words and Character-Bigrams as Features in Chinese Text Categorization[C]//Proc. COLING-ACL06, Sydney, Australia: 2006: 545-552.