王曉麗 倪震東 王力華 劉 波
(中國(guó)科學(xué)院研究生院,北京,100049) (中國(guó)科學(xué)院沈陽(yáng)應(yīng)用生態(tài)研究所) (中國(guó)科學(xué)院東北地區(qū)植物與農(nóng)業(yè)生態(tài)研究所濕地環(huán)境與生態(tài)研究重點(diǎn)實(shí)驗(yàn)室)
分類學(xué)研究的信息量是無(wú)限的,如果分類學(xué)工作者大量的時(shí)間和精力都花在繁瑣的信息收集、整理、檢索等手工操作中,將阻礙整個(gè)分類學(xué)科的發(fā)展。所以,急需一種工具讓分類學(xué)家從傳統(tǒng)的手工操作中解放出來(lái)[1]。近年來(lái),計(jì)算機(jī)在植物分類與鑒定上的應(yīng)用已取得了長(zhǎng)足的發(fā)展[2]。
DELTA作為植物數(shù)據(jù)交換標(biāo)準(zhǔn)系統(tǒng)和交互式專家輔助鑒定系統(tǒng)在國(guó)際上享有盛譽(yù),它可以規(guī)范分類學(xué)描述,對(duì)研究中所有常用性狀進(jìn)行識(shí)別和處理,對(duì)研究對(duì)象進(jìn)行詳盡的相似性和差異性比較[3],但其研究對(duì)象局限于某一科或?qū)?,且其?fù)雜高深的檢索項(xiàng)也幾乎涵蓋了植物各方面的信息,使其只適用于植物分類學(xué)家。在國(guó)內(nèi),中國(guó)數(shù)字標(biāo)本(http://www.cvh.org.cn)由文香英翻譯的電子檢索表是一套綜合的交互式檢索系統(tǒng),但其只能檢索到某個(gè)科。另外,石紅[4]對(duì)新疆的高等植物,王樹(shù)森[5]等對(duì)內(nèi)蒙古大青山地區(qū)植物,王彥勛[6]等對(duì)河北地區(qū)植物,馬紅梅[7]對(duì)山東省植物,馬承慧[8]對(duì)哈爾濱主要木本植物和主要綠化栽培植物,都利用了計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)實(shí)現(xiàn)了植物電子檢索,但他們的檢索項(xiàng)大多是植物或其科屬名稱,很少或僅涉及幾個(gè)簡(jiǎn)單的性狀檢索。由此可見(jiàn),目前的研究多集中在電子檢索表的編制方面,對(duì)于檢索項(xiàng)的選取和檢索策略的優(yōu)化研究的較少。胡楊[9]根據(jù)每個(gè)植物特征出現(xiàn)的頻率,并結(jié)合野外觀測(cè)的特點(diǎn),選取了若干關(guān)鍵詞作為檢索項(xiàng)來(lái)實(shí)現(xiàn)內(nèi)蒙古自治區(qū)境內(nèi)46種唇形科植物的檢索,但是他的檢索范圍較窄,其檢索項(xiàng)也包含“莖毛”等較難分辨的特征。
本研究以東北的木本植物為例,探討了傳統(tǒng)植物分類書籍在描寫所有植物時(shí)普遍共同使用了植物哪些方面的特征,用這些特征是否可以完成對(duì)東北常見(jiàn)木本植物的檢索,檢索策略如何優(yōu)化等問(wèn)題,進(jìn)而找到一種東北常見(jiàn)木本植物簡(jiǎn)單、快速、實(shí)用且有效的信息檢索方法。
選取4本最新版的東北常用植物分類學(xué)著作《中國(guó)植物志》、《東北植物檢索表》、《遼寧植物志》和《黑龍江植物志》。將以上文本格式的植物描述內(nèi)容掃描并識(shí)別后變成計(jì)算機(jī)可以處理的字符格式(共100多萬(wàn)字)。
各本著作對(duì)植物的描述涉及植物的各個(gè)方面,這些方面不僅涉及植物的器官或組成器官的形態(tài)特征(如“花顏色”、“子房附屬物”等),也包含了植物的習(xí)性、生境、分布等方面的信息。從計(jì)算機(jī)信息檢索的角度,這些方面都可以作為“檢索項(xiàng)”來(lái)檢索植物,對(duì)于任一“檢索項(xiàng)”,任一著作中任一物種對(duì)其的一個(gè)描述稱為一個(gè)“檢索值”,如“灌木”是《中國(guó)植物志》中Exochorda racemosa(白鵑梅)“習(xí)性”這一檢索項(xiàng)的檢索值(表1),將物種的檢索項(xiàng)和檢索值分別提取出來(lái)組成一張二維矩陣表,每一植物的描述都來(lái)源于4本不同的著作,若檢索值相同則重復(fù)計(jì)入,若無(wú)描述則檢索值為0。
1.2.1 物種和檢索項(xiàng)選取原則
主要研究東北地區(qū)野生木本植物,對(duì)于在分類上有細(xì)小形態(tài)差異的變種和變型,如果不是分布較廣或有經(jīng)濟(jì)價(jià)值就不納入;另外,對(duì)于引進(jìn)種和栽培種,分布比較廣的納入,如果其分布只局限在很小的地區(qū)就不納入。
表1 植物信息表
統(tǒng)計(jì)4本著作中所選取植物每一個(gè)檢索項(xiàng)包含檢索值的個(gè)數(shù),將檢索項(xiàng)按包含檢索值個(gè)數(shù)的多少降序排列,并根據(jù)檢索值的多少分成若干個(gè)區(qū)間,統(tǒng)計(jì)各區(qū)間內(nèi)包含檢索項(xiàng)的個(gè)數(shù),計(jì)算各區(qū)間內(nèi)檢索項(xiàng)數(shù)占檢索項(xiàng)總數(shù)的比例,觀察各區(qū)間內(nèi)檢索項(xiàng)的特點(diǎn),并據(jù)此按以下原則選則檢索項(xiàng):
第一,檢索項(xiàng)應(yīng)該容易觀察和鑒別;第二,植物的生境、分布等檢索項(xiàng)唯一性和排他性較差,只作為參考;第三,選取的檢索項(xiàng)之間應(yīng)無(wú)相互性,并保證每一種植物至少有一本著作對(duì)其有描述;第四,各著作都有描述的某些科屬或某些類群所共同具有的特征也須考慮;第五,某一種或某幾種植物很特殊的特征,用“特殊特征”統(tǒng)一概括;第六,葉形有一定的變化幅度,可用“葉長(zhǎng)寬比”的變化區(qū)間輔助檢索。
1.2.2 檢索值歸納整理
以《中國(guó)高等植物圖鑒》[10]和《東北木本植物圖譜檢索表》[11]為依據(jù)對(duì)檢索值歸納整理,并將植物不同著作的4個(gè)檢索值合并為一個(gè),整理過(guò)程中還須遵循以下方法和原則:第一,植物性狀未達(dá)到穩(wěn)定狀態(tài)的特征暫不考慮;第二,某些變異性較大的檢索項(xiàng),各本著作對(duì)其描述有差異,從檢索的角度對(duì)其檢索值進(jìn)行簡(jiǎn)化。如葉形多是多個(gè)基本形狀的組合,組合后的形狀可達(dá)上百種,對(duì)于某一種植物,對(duì)其形狀的記載也可達(dá)幾種,表1中 Exochorda racemosa的葉形“長(zhǎng)圓狀倒卵形”,將其分解為“倒卵形、長(zhǎng)圓形”,在檢索時(shí)用“倒卵形”或“長(zhǎng)圓形”都可以檢索到 Exochorda racemosa,保證了查全率[12],同時(shí)簡(jiǎn)化的檢索值方便了使用者選擇和判斷;第三,植物的一些很細(xì)微的特征,用肉眼很難看出其具體形態(tài),為了降低鑒定的難度,將予以歸納合并,如植物的葉或枝上的硬毛、柔毛、伏毛等附屬物都?xì)w結(jié)為“有毛”。
因子分析是最常用的數(shù)據(jù)簡(jiǎn)化方法,用于考察多個(gè)變量間的內(nèi)在關(guān)系,提取數(shù)據(jù)的主要信息,對(duì)選取的檢索項(xiàng)做因子分析,研究各檢索項(xiàng)之間相關(guān)性是否顯著。用選取的檢索項(xiàng)對(duì)所有植物種進(jìn)行兩兩對(duì)比分析,查找相同項(xiàng),若無(wú)相同項(xiàng),則證明選取的檢索項(xiàng)可以完成對(duì)植物的檢索。檢索項(xiàng)單獨(dú)檢索時(shí),檢索出的物種數(shù)等于檢索項(xiàng)中不重復(fù)檢索值的個(gè)數(shù);檢索項(xiàng)組合檢索時(shí),檢索出的物種數(shù)為物種與選取的檢索項(xiàng)矩陣中不重復(fù)檢索值的行數(shù)。
(1)多樣性指數(shù)(D):多樣性指數(shù)是反映物種豐富度和均勻度的綜合指標(biāo)。選用辛普森多樣性指數(shù)(Simpson’s diversity index)[14]。
式中:Pi為檢索項(xiàng)中不重復(fù)唯一檢索值的個(gè)數(shù)與此檢索項(xiàng)單獨(dú)檢索出的物種數(shù)的比值;S為檢索項(xiàng)的個(gè)數(shù)。
(2)重要性指數(shù)(E):一般意義上,植物花和果的穩(wěn)定性是鑒定植物的主要依據(jù),其值賦予1,如“花序類型”“果實(shí)類型”等,其他的植物穩(wěn)定性狀(如“特殊特征”“習(xí)性”)賦予0.5,變異性較大的和數(shù)值型的檢索項(xiàng)(如“葉形”“葉長(zhǎng)度”),其值有一定的變化區(qū)間,賦予0。
(3)權(quán)重值(W):權(quán)重值W=(D+E)/2,式中:D為多樣性指數(shù);E為重要性指數(shù)。
東北地區(qū)有記載的木本植物有812種,選取399種作為研究對(duì)象,其中362個(gè)為野生種,這些植物種共涉及48個(gè)科、130個(gè)屬,基本涵蓋了東北地區(qū)木本植物所有的科屬。植物種選取后物種信息表是一個(gè)1596行、507列的二維矩陣,共有505個(gè)檢索項(xiàng)和43 911個(gè)檢索值。
檢索項(xiàng)包含檢索值個(gè)數(shù)在1 000~1 300之間的僅有4個(gè),87%的檢索項(xiàng)包含的檢索值個(gè)數(shù)都低于100(表2)。各著作中植物描述多集中在“國(guó)內(nèi)分布”“生境”“葉形”“葉邊緣”“花序類型”等植物所共有的檢索項(xiàng)上,“小苞片質(zhì)地”、“花蕾附屬物”等檢索項(xiàng)則只是在某些種的描述中有涉及。結(jié)合檢索項(xiàng)的選取原則共選取出了29個(gè)檢索項(xiàng),將其分為4組:第一組為一般特征組:習(xí)性、常綠性、高度、枝附屬物;第二組為葉特征組:葉類型、葉排列、葉先端、葉基、葉邊緣、葉形、葉表面附屬物、葉背面附屬物、葉長(zhǎng)度、葉寬度、葉長(zhǎng)寬比;第三組為花特征組:花序類型、花形狀、花顏色、花瓣數(shù)目、花直徑;第四組為果特征組:果實(shí)類型、果實(shí)形狀、果實(shí)成熟后顏色、果實(shí)長(zhǎng)度;第五組為特殊類群組:葉裂片數(shù)、復(fù)葉小葉數(shù)、復(fù)葉長(zhǎng)度、雙翅果夾角、特殊特征。
表2 檢索項(xiàng)在檢索值區(qū)間內(nèi)的個(gè)數(shù)統(tǒng)計(jì)
數(shù)據(jù)處理后物種信息表縮小為400行、30列,且數(shù)據(jù)格式規(guī)范,數(shù)據(jù)規(guī)整,可以用于計(jì)算機(jī)處理、計(jì)算并檢驗(yàn)。
2.3.1 因子分析
KMO統(tǒng)計(jì)量用于比較各變量間的簡(jiǎn)單相關(guān)和偏相關(guān)的大小,取值范圍在0~1之間,如果各變量間存在內(nèi)在聯(lián)系,則KMO值接近1,做因子分析的效果好。一般認(rèn)為當(dāng)KMO大于0.9時(shí)效果最佳,0.7 以上時(shí)效果尚可,0.6 時(shí)效果很差,0.5以下時(shí)不適宜做因子分析[13]。
對(duì)399個(gè)植物種的29個(gè)檢索項(xiàng)做因子分析,KMO統(tǒng)計(jì)量是0.638,說(shuō)明各檢索項(xiàng)之間的相關(guān)性不顯著,可以單獨(dú)作為獨(dú)立的檢索項(xiàng)。
2.3.2 唯一性檢驗(yàn)
用計(jì)算機(jī)對(duì)399個(gè)物種的29個(gè)檢索項(xiàng)的檢索值兩兩對(duì)比,沒(méi)有發(fā)現(xiàn)重復(fù)項(xiàng),由此可知,此29個(gè)檢索項(xiàng)可以完成所有植物種的檢索。檢索項(xiàng)各組的指數(shù)和權(quán)重均值見(jiàn)表3。
表3 檢索項(xiàng)各組的指數(shù)和權(quán)重均值
任一檢索項(xiàng)單獨(dú)檢索平均每個(gè)僅能檢索出34個(gè)植物種,僅占總植物種數(shù)的9%,檢索效率很低,其中“葉形”能檢索出151個(gè)植物種,而“雙翅果夾角”僅能檢索出2個(gè)植物種,檢索結(jié)果的變異系數(shù)很大[15],達(dá)到94%。
選取7種檢索項(xiàng)組合模式,分別計(jì)算特征項(xiàng)組合內(nèi)檢索項(xiàng)個(gè)數(shù),檢索項(xiàng)組合檢索出的物種數(shù),乘以權(quán)重均值得到實(shí)際的檢索效果(表4)。
表4 檢索項(xiàng)組合及其檢索結(jié)果
隨機(jī)選取5種植物,計(jì)算本系統(tǒng)檢索和《東北植物檢索表》傳統(tǒng)二歧式檢索使用的步驟數(shù)(表5)。
表5 檢索實(shí)例
本系統(tǒng)通過(guò)C#開(kāi)發(fā)的winForm程序?qū)崿F(xiàn),數(shù)據(jù)庫(kù)選用Access數(shù)據(jù)庫(kù)。軟件的主界面如圖1。界面的左上角是檢索項(xiàng)的選擇框,系統(tǒng)支持用植物的基本性狀檢索,如“習(xí)性”、“常綠性”、“葉形”、“葉先端”等,同時(shí)還支持用“科拉丁名”、“科中文名”、“屬拉丁名”、“屬中文名”、“種拉丁名”、“種中文名”等植物基本信息檢索,本系統(tǒng)共有35個(gè)檢索項(xiàng)。
圖1 系統(tǒng)主界面
界面的左下角是檢索用過(guò)的檢索項(xiàng)和檢索值,右擊可以刪除檢索值,以撤銷某次操作;界面的右半部分是檢索結(jié)果,顯示“符合條件的物種中文名和拉丁名”,并統(tǒng)計(jì)符合統(tǒng)計(jì)的物種個(gè)數(shù),點(diǎn)擊物種名稱可以打開(kāi)物種的圖片和文本描述信息界面。對(duì)于數(shù)據(jù)庫(kù)中不存在的物種是檢索不到的,檢索結(jié)果一欄為空。
本研究選取的399種木本植物涉及東北地區(qū)木本植物所有的科屬,是一個(gè)綜合的檢索系統(tǒng),這明顯不同于DELTA系統(tǒng)的科或?qū)俚燃?jí)的檢索,但是本文僅選取了東北地區(qū)較為常見(jiàn)的木本植物,可以滿足一般的檢索需求,對(duì)于稀有種和分布區(qū)很小的植物種,本系統(tǒng)沒(méi)有涉及,這將在以后的研究中進(jìn)一步討論。
本文的檢索系統(tǒng)和傳統(tǒng)植物分類的書籍和工具是不同的。傳統(tǒng)植物分類為了增加分類的客觀性,會(huì)選擇植物相對(duì)穩(wěn)定的性狀作為分類的依據(jù),這些性狀大多和植物的生殖器官有關(guān),且可觀察時(shí)間短,基于這些性狀編寫的檢索表在使用時(shí)有時(shí)間上的限制。DELTA系統(tǒng)和目前數(shù)量分類學(xué)[16]的研究也多選取這樣的性狀。本文的檢索項(xiàng)與DELTA系統(tǒng)和現(xiàn)有的檢索表的檢索項(xiàng)有明顯的不同,本文的檢索項(xiàng)沒(méi)有與植物生殖器官有關(guān)的復(fù)雜微小和難鑒別的特征,都是植物簡(jiǎn)單的基本信息,容易理解和把握,尤其適用于植物分類的初學(xué)者。另外,本系統(tǒng)較多地使用了植物葉的特征,由于其穩(wěn)定性較差,所以檢索結(jié)果會(huì)受到影響。因此,本系統(tǒng)可以作為檢索工具廣泛使用,但還不能完全替代傳統(tǒng)植物分類書籍。
本文從檢索的角度對(duì)檢索值進(jìn)行了歸納整理,將復(fù)雜的檢索值給予簡(jiǎn)化,這在DELTA等國(guó)內(nèi)外的軟件中是沒(méi)有的,整理后的檢索值數(shù)據(jù)格式統(tǒng)一、規(guī)整,為交互式電子檢索軟件的編寫提供了很好的數(shù)據(jù)基礎(chǔ)。使用者可以根據(jù)植物的生長(zhǎng)期和自身喜好隨機(jī)組合檢索項(xiàng)來(lái)檢索植物,但是從檢索的準(zhǔn)確性和速率來(lái)說(shuō),選用權(quán)重值高的檢索項(xiàng)可以更快地得到更準(zhǔn)確的檢索結(jié)果。雖然使用植物葉檢索項(xiàng)可以達(dá)到99%的檢索率,但由于其穩(wěn)定性較差,檢索結(jié)果會(huì)受到影響。在檢索時(shí)推薦用花和葉的檢索項(xiàng)組合或果和葉的檢索項(xiàng)組合來(lái)檢索植物,此種組合的檢索率接近90%,雖然其結(jié)果會(huì)受到葉檢索項(xiàng)的影響,但總體的檢索效果還不錯(cuò)。由此可見(jiàn),植物無(wú)論是在營(yíng)養(yǎng)期、花期還是果期,適當(dāng)?shù)臋z索項(xiàng)組合都可以達(dá)到很好的檢索效果。
經(jīng)與傳統(tǒng)的二歧式檢索表比較,發(fā)現(xiàn)本系統(tǒng)僅用4~5個(gè)檢索項(xiàng)就可以檢索到目標(biāo)種,有的植物種僅需輸入一個(gè)檢索項(xiàng),這大大簡(jiǎn)化了檢索的步驟;另外,本系統(tǒng)檢索項(xiàng)的輸入順序是隨意的,大大方便了使用者。由此可見(jiàn),本系統(tǒng)研究的東北木本植物檢索方法是一種簡(jiǎn)單、快捷、實(shí)用和有效的并行檢索方法,它尤其適用于植物分類的初學(xué)者,同時(shí)也為植物分類學(xué)家檢索植物提供了一種簡(jiǎn)單、快捷且有效的檢索方法和工具。
[1]宋延齡,楊親二,黃永青.植物種多樣性研究與保護(hù)[M].杭州:浙江科學(xué)技術(shù)出版社,1998:151-158.
[2]鐘揚(yáng).電子計(jì)算機(jī)在植物學(xué)中的應(yīng)用[J].武漢植物學(xué)研究,1986,4(3):311-320.
[3]陳翔,陳訓(xùn).新版DELTA系統(tǒng)在植物分類學(xué)中的應(yīng)用:以羊茅屬研究為例[J].廣西植物,2008,28(6):759-763.
[4]石紅.新疆高等植物檢索和資源查詢系統(tǒng)的研建[D].烏魯木齊:新疆大學(xué),2006.
[5]王樹(shù)森,張學(xué)軍,羅于洋.植物檢索與查詢技術(shù)的建立:以內(nèi)蒙古大青山地區(qū)植物鑒定與檢索系統(tǒng)為例[J].內(nèi)蒙古草業(yè),2002,14(4):26-28.
[6]王彥勛,孫宏凱,王利民,等.植物計(jì)算機(jī)檢索系統(tǒng)的研究與開(kāi)發(fā)[J].安徽農(nóng)業(yè)科學(xué),2008,30(22):9659-9660.
[7]馬紅梅,馬玉強(qiáng),楊衛(wèi)軍.UML在植物資源檢索系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(15):3645-3648,3652.
[8]馬承慧,王維芳,劉牧.木本植物分類檢索軟件的研制[J].東北林業(yè)大學(xué)學(xué)報(bào),2007,35(8):74-77.
[9]胡楊.植物數(shù)字化檢索系統(tǒng)初探:以內(nèi)蒙古地區(qū)唇形科植物為例[D].呼和浩特:內(nèi)蒙古農(nóng)業(yè)大學(xué),2010.
[10]中國(guó)科學(xué)院植物研究所.中國(guó)高等植物圖鑒:第1冊(cè)[M].北京:科學(xué)出版社,1972:1020-1039.
[11]董世林,白勝文,高恩柱,等.東北木本植物圖譜檢索表[M].哈爾濱:東北林業(yè)大學(xué)出版社,1993:4-37.
[12]邰曉英,北研二.信息檢索技術(shù)導(dǎo)論[M].北京:科學(xué)出版社,2006:18-19.
[13]張文彤.SPSS11統(tǒng)計(jì)分析教程:高級(jí)篇[M].北京:北京希望電子出版社,2002:192.
[14]尚玉昌.普通生態(tài)學(xué)[M].北京:北京大學(xué)出版社,2002:275-277.
[15]楊持.生物統(tǒng)計(jì)學(xué)[M].呼和浩特:內(nèi)蒙古大學(xué)出版社,1996:76.
[16]李曉東,咎艷燕,李建強(qiáng),等.地黃屬和崖白菜屬的數(shù)量分類[J].植物分類學(xué)報(bào),2008,46(5):730-737.