李華瑩,劉 麗,劉怡靜
(軍事科學(xué)院,北京 100091)
隨著大型復(fù)雜系統(tǒng)用戶群體與日俱增及個性化定制需求日漸凸顯,軟件企業(yè)為實(shí)現(xiàn)新業(yè)務(wù)快速創(chuàng)新和敏捷交付,將軟件產(chǎn)品以某種形式開放給外部開發(fā)者,允許其在遵循統(tǒng)一架構(gòu)、標(biāo)準(zhǔn)和開發(fā)環(huán)境基礎(chǔ)上,對企業(yè)產(chǎn)品進(jìn)行二次開發(fā),軟件公司不斷擴(kuò)大其產(chǎn)品線[1-13],從單一產(chǎn)品入手,而后延伸出相應(yīng)的平臺,最后在平臺的基礎(chǔ)上形成更具發(fā)展空間的軟件生態(tài)系統(tǒng)。軟件生態(tài)系統(tǒng)(Software Ecosystem,以下簡稱SECO)是軟件工程領(lǐng)域中一種新的、快速發(fā)展的方法,該方法的出現(xiàn)解決了軟件行業(yè)中,由于公司之間復(fù)雜關(guān)系而帶來的產(chǎn)品架構(gòu)不統(tǒng)一、產(chǎn)品標(biāo)準(zhǔn)不一致以及產(chǎn)品開發(fā)環(huán)境不兼容的問題。
自2005年以來,軟件生態(tài)系統(tǒng)作為軟件工程領(lǐng)域的一個新的概念一直倍受關(guān)注[14-20]。Bosch等[1-2]認(rèn)為軟件生態(tài)系統(tǒng)由一組軟件解決方案組成,這些軟件解決方案支持并自動化相關(guān)社會或業(yè)務(wù)生態(tài)系統(tǒng)的參與者以及提供這些解決方案的組織的活動和事務(wù)。軟件生態(tài)系統(tǒng)通過組織不同的開發(fā)平臺上的協(xié)作,實(shí)現(xiàn)構(gòu)建大型軟件系統(tǒng)的一種有效方式。Joshua等[9]認(rèn)為軟件生態(tài)系統(tǒng)是在共享軟件產(chǎn)品或服務(wù)市場時,由不同廠家及其相互間的關(guān)系構(gòu)建而成的。Campbell等[10]認(rèn)為軟件生態(tài)系統(tǒng)是多個開發(fā)團(tuán)體間通過相互協(xié)作形成的一個復(fù)雜系統(tǒng)。
軟件生態(tài)系統(tǒng)的出現(xiàn),將軟件工程過程由集中式向分散式轉(zhuǎn)變,這向軟件資源的定位提出了新的挑戰(zhàn)。相較傳統(tǒng)軟件工程,軟件生態(tài)系統(tǒng)內(nèi)軟件組件、不同團(tuán)隊數(shù)量及組件間、不同團(tuán)隊間依賴的復(fù)雜性急劇增加,不同軟件可能存儲在不同的軟件庫中,因此,如何從多源、異構(gòu)資源庫中有效準(zhǔn)確獲取軟件資源成為關(guān)鍵問題。
目前,巴西埃斯帕里托圣母聯(lián)邦大學(xué)的Villa?a等人[21]提出相似性搜索方法,該方法能夠進(jìn)行超大數(shù)據(jù)量的搜索,但只能運(yùn)用于互聯(lián)網(wǎng),無法進(jìn)行線下搜索;來自德國斯圖加特大學(xué)的Bach等人[22]提出了基于熵的質(zhì)量度量搜索方法,該方法只應(yīng)用于分布式系統(tǒng),且過程較為復(fù)雜;卡內(nèi)基梅隆大學(xué)的研究人員提出了基于Lemur的信息檢索系統(tǒng)[23],該系統(tǒng)能夠通過文本信息查找獲取所需信息,但該系統(tǒng)主要網(wǎng)頁信息的檢索和定位,無法滿足不同資源庫中軟件資源的精確定位需求;Mudiyanselage[24]采用基于縮寫索引和關(guān)鍵字搜索的定位方法,該方法是目前最為普遍的一種資源定位方法,通過TFIDF將對等網(wǎng)絡(luò)中的文本特征進(jìn)行提取以支持基于內(nèi)容的資源定位,并提出了一種TFIDF算法的改進(jìn)方案,提升了資源定位效果。
總體而言,現(xiàn)有研究主要解決面向互聯(lián)網(wǎng)領(lǐng)域的信息定位問題,當(dāng)上述方法應(yīng)用在軟件生態(tài)中的資源定位時,由于資源描述復(fù)雜、軟件位于不同資源庫中的現(xiàn)狀,導(dǎo)致軟件資源定位精度有限。針對軟件生態(tài)系統(tǒng)中軟件資源多、軟件資源差異大、管理復(fù)雜等問題,本文提出一種面向軟件生態(tài)的資源管理技術(shù)。該技術(shù)采用可擴(kuò)展的本體描述方法,對軟件資源進(jìn)行描述,從而通過本體信息精確定位軟件資源,并提出采用統(tǒng)一資源訪問框架屏蔽不同軟件之間的差異,從而保證能夠精確、快速地獲取軟件資源,最后,通過實(shí)驗(yàn)驗(yàn)證了研究成果有效性。
針對不同團(tuán)隊管理軟件方式不同、存儲位置不同的現(xiàn)狀,本文提出一種基于統(tǒng)一訪問引擎的軟件檢索總體框架。該框架以本體理論為基礎(chǔ),借鑒數(shù)據(jù)統(tǒng)一訪問中間件思想,對不同資源庫進(jìn)行統(tǒng)一封裝,向上層應(yīng)用提供統(tǒng)一訪問接口,在內(nèi)部則調(diào)用各軟件資源自己的訪問程序訪問不同數(shù)據(jù)源。
圖1為基于統(tǒng)一訪問引擎的軟件檢索總體框架,其主要包括的組件有:
1)軟件資源元數(shù)據(jù)庫:存儲各軟件庫的全局定位信息。例如各軟件資源庫的庫類型、軟件資源庫連接參數(shù)、軟件資源庫相關(guān)配置文件的存儲位置以及虛擬資源庫到軟件資源庫模式的映射信息,從而能夠根據(jù)虛擬資源庫名得出其要訪問的軟件資源庫服務(wù)器,并通過軟件資源庫連接參數(shù)實(shí)現(xiàn)對軟件資源庫的連接以及訪問服務(wù)。
圖1 基于統(tǒng)一訪問引擎的軟件資源訪問總體框架
2)軟件資源庫注冊客戶端:為實(shí)現(xiàn)新軟件資源庫的注冊,軟件資源庫提供者一方面向軟件資源元數(shù)據(jù)注冊服務(wù)發(fā)出注冊申請,將軟件資源庫元數(shù)據(jù)信息以及全局虛擬軟件資源庫到物理數(shù)據(jù)庫模式的映射信息保存到軟件資源元數(shù)據(jù)庫中;另一方面如果新軟件資源庫資源使用了新的軟件資源庫產(chǎn)品(在統(tǒng)一訪問引擎中尚未提供支持),則將該數(shù)據(jù)庫的驅(qū)動程序注冊到統(tǒng)一訪問引擎中,從而支持新類型軟件資源庫資源的可擴(kuò)展性的加入。
3)全局虛擬軟件資源庫訪問服務(wù):各異構(gòu)軟件資源庫資源通過統(tǒng)一訪問引擎向上層用戶呈現(xiàn)全局虛擬軟件資源庫視圖。借助于軟件資源庫統(tǒng)一訪問接口實(shí)現(xiàn)對全局虛擬軟件資源庫的統(tǒng)一訪問,客戶端應(yīng)用程序通過虛擬軟件資源庫訪問服務(wù)提交軟件資源庫訪問請求,并獲得訪問執(zhí)行狀態(tài)及訪問結(jié)果集。
4)軟件資源庫訪問請求分解器:對全局訪問請求進(jìn)行語法分析,分解出要操作的虛庫、虛表、虛擬字段以及約束條件。
5)全局訪問請求的生成:通過查詢軟件資源元數(shù)據(jù)庫,獲取要訪問的物理資源庫類型及資源庫訪問控制信息;結(jié)合訪問請求分解結(jié)果,生成符合統(tǒng)一訪問接口格式的全局訪問請求。
從圖1中可看出,該方案實(shí)現(xiàn)過程中主要包括2個方面的技術(shù):新軟件資源的注冊和異構(gòu)資源庫的統(tǒng)一訪問處理。本方案具備可擴(kuò)展性,對于新資源庫的加入,通過資源庫注冊客戶端發(fā)出軟件資源庫注冊申請,一方面將新類型資源庫的驅(qū)動注冊到統(tǒng)一訪問引擎中,使得訪問引擎能夠提供對該新資源庫的支持;另一方面通過注冊服務(wù)將該資源庫資源的元資源信息注冊到元資源庫中,從而完成新軟件資源庫的注冊。下面將給出基于統(tǒng)一訪問引擎的異構(gòu)軟件資源統(tǒng)一訪問技術(shù)的實(shí)現(xiàn)機(jī)制。
軟件資源本體模型建模過程是:首先通過建立統(tǒng)一元數(shù)據(jù)模型,實(shí)現(xiàn)對軟件描述元數(shù)據(jù)信息統(tǒng)一可擴(kuò)展的表達(dá);然后對語義映射中的相關(guān)概念建模,并給出形式化定義。下面分別描述元數(shù)據(jù)以及形式化定義。
通過對軟件信息的內(nèi)容抽象,將軟件描述的元數(shù)據(jù)劃分為以下幾類:
1)搜索/發(fā)現(xiàn)元數(shù)據(jù)。主要包括軟件資源的描述信息,如軟件資源所涉及的主題、軟件資源的擁有者、位置、所存儲的主要內(nèi)容(關(guān)鍵字、主體等)的描述等相關(guān)信息。
2)訪問控制元數(shù)據(jù)。主要包括對軟件資源訪問時的安全控制、用戶權(quán)限等相關(guān)元數(shù)據(jù)。
3)格式元數(shù)據(jù)。與領(lǐng)域相關(guān)的內(nèi)容描述性元數(shù)據(jù),例如軟件存儲信息,包括數(shù)據(jù)庫中表、列字段以及關(guān)系的定義等。
4)內(nèi)容元數(shù)據(jù)。主要包括軟件所屬領(lǐng)域的知識本體以及格式元數(shù)據(jù)到領(lǐng)域知識本體之間的映射。
圖2 統(tǒng)一可擴(kuò)展的元數(shù)據(jù)模型
基于上述元數(shù)據(jù)分類,本文提出一個統(tǒng)一、可擴(kuò)展的軟件描述元數(shù)據(jù)模型。如圖2所示,該元數(shù)據(jù)模型包括核心層、擴(kuò)展層。核心層主要包括軟件資源的訪問控制元數(shù)據(jù)、描述元數(shù)據(jù)、內(nèi)容元數(shù)據(jù)、格式元數(shù)據(jù)。擴(kuò)展層可根據(jù)用戶需要,擴(kuò)展自己需要的元數(shù)據(jù)。
圖3為統(tǒng)一元數(shù)據(jù)模型視圖,其以知識本體Ontology為總線,以軟件資源SoftwareResource相關(guān)元數(shù)據(jù)(包括描述元數(shù)據(jù)DescMetaData、訪問元數(shù)據(jù)AccessMetaData、格式元數(shù)據(jù)PatternMetaData以及語義內(nèi)容元數(shù)據(jù)SemMetaData)為最小單位,建立統(tǒng)一軟件描述元數(shù)據(jù)模型的視圖。從圖中可看出,通過建立軟件資源元數(shù)據(jù)與知識本體之間的映射獲得語義內(nèi)容元數(shù)據(jù),從而實(shí)現(xiàn)對資源語義信息的描述和表達(dá),用于屏蔽各軟件資源的異構(gòu)性。
圖3 統(tǒng)一元數(shù)據(jù)模型視圖
從軟件資源元數(shù)據(jù)模型的定義知,建立統(tǒng)一元數(shù)據(jù)模型的關(guān)鍵是內(nèi)容元數(shù)據(jù)的生成,即如何建立格式元數(shù)據(jù)到知識本體之間的映射關(guān)系。因此本文提出語義映射模型的概念。語義映射模型作為軟件資源元數(shù)據(jù)與知識本體的紐帶,在語義映射管理中處于核心地位,映射模型設(shè)計得好壞直接影響系統(tǒng)的處理及語義表示能力。
圖4 基于內(nèi)容的資源搜索流程
為實(shí)現(xiàn)基于內(nèi)容的軟件資源檢索,可以通過對語義映射結(jié)果的解析獲得知識本體概念、屬性到數(shù)據(jù)庫表、字段的映射關(guān)系,從而將用戶的基于知識本體的搜索請求轉(zhuǎn)化為數(shù)據(jù)庫的訪問請求?;趦?nèi)容的資源檢索流程如圖4所示。
基于內(nèi)容的資源搜索主要步驟如下:
1)根據(jù)用戶通過資源搜索界面提交的資源搜索請求構(gòu)造搜索請求表達(dá)式,并對其進(jìn)行語法分解,獲得基于知識本體的虛庫、虛表、虛字段等搜索條件;
2)查詢?nèi)衷獢?shù)據(jù)庫,根據(jù)用戶提交的基于本體概念的搜索請求,確定待訪問的數(shù)據(jù)源和知識本體,并獲取映射文件和本體文件的訪問位置;
3)通過映射文件的解析,獲取映射文件中的語義映射信息,包括數(shù)據(jù)庫訪問信息以及數(shù)據(jù)庫模式與知識本體之間的映射關(guān)系等;
4)根據(jù)映射關(guān)系,將基于內(nèi)容的資源搜索請求轉(zhuǎn)換為符合統(tǒng)一訪問接口格式的數(shù)據(jù)庫全局檢索請求;
5)最后利用統(tǒng)一訪問引擎,調(diào)用數(shù)據(jù)庫統(tǒng)一查詢接口,檢索出滿足條件的數(shù)據(jù)庫中的記錄。
為充分檢驗(yàn)本文提出的資源檢索技術(shù),本文以某軍事領(lǐng)域信息系統(tǒng)為背景,以目前最有代表性的Mudiyanselage方法,即采用基于縮寫索引和關(guān)鍵字搜索的定位方法[23]為對比對象,對本文提出的方法進(jìn)行檢驗(yàn)。本實(shí)驗(yàn)的目的是通過不同的實(shí)驗(yàn)條件,從資源定位精度和定位時間2個關(guān)鍵指標(biāo)角度分析本文提出的方法與現(xiàn)有基于關(guān)鍵字的資源定位技術(shù)之間的差距,從而驗(yàn)證本文提出的方法能夠精確、快速地實(shí)現(xiàn)異構(gòu)資源的定位。
為充分對比實(shí)驗(yàn)結(jié)果,本文設(shè)計10組對比實(shí)驗(yàn),每組需要檢索的軟件資源庫存儲軟件資源量不同,通過資源數(shù)量的差異,分析本文提出的算法能否滿足不同條件下的資源定位需求,實(shí)驗(yàn)設(shè)計如表1所示。本文使用的軟件資源來源于單位承擔(dān)某大型指揮控制系統(tǒng)(軟件資源量超過650個)。
表1 實(shí)驗(yàn)設(shè)計
實(shí)驗(yàn)號軟件資源數(shù)量11002150320042505300635074008450950010550
一般情況下,資源定位算法精度和效率受到資源數(shù)量影響,通過實(shí)驗(yàn)數(shù)據(jù)記錄,檢索精度和消耗時間變化如圖5和圖6所示。
圖5 檢索精度變化
圖6 定位消耗時間
從表1、圖5和圖6可知,隨著資源數(shù)量增加,檢索時間會不斷上升,檢索精度會有一定的下降,這是因?yàn)橘Y源變多之后,相似資源出現(xiàn)概率增大,導(dǎo)致檢索難度增加;另外,根據(jù)圖5和圖6可知,由于本文采用了基于本體的檢索定位方法,隨著軟件增多,能體現(xiàn)更大的技術(shù)優(yōu)勢,即資源越多,相比Mudiyanselage方法消耗資源更少,精度也更高。
本文提出了一種統(tǒng)一訪問引擎的資源訪問框架,并采用本體對資源進(jìn)行了描述,從而解決了傳統(tǒng)方法檢索精確度不高的問題。在后續(xù)的研究中,將進(jìn)一步將算法落實(shí)為工具,從而提升工程實(shí)用性。