文/高超
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的出現(xiàn),推動(dòng)了人類社會(huì)文明的快速發(fā)展,大數(shù)據(jù)時(shí)代以指數(shù)增長的速度創(chuàng)造著越來越多的數(shù)據(jù)。在以數(shù)據(jù)庫為核心的信息技術(shù)背景下,聚類分析在數(shù)據(jù)挖掘中的使用,能夠有效加快對(duì)信息的定位,并且,結(jié)合神經(jīng)網(wǎng)絡(luò)的發(fā)展需要,聚類分析法的應(yīng)用范圍更加廣闊。
所謂復(fù)雜網(wǎng)絡(luò),是指具有一定組織性、吸引子、小世界、無標(biāo)度中部分或全部性質(zhì)的網(wǎng)絡(luò),并在結(jié)構(gòu)與形式方面存在較高的自相似性。這一概念早在上個(gè)世紀(jì)90年代就已經(jīng)得到廣泛認(rèn)同,計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,驗(yàn)證了復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)度分布服從冪律分布的特點(diǎn),并在此基礎(chǔ)上建立了無標(biāo)度網(wǎng)絡(luò)模型。自此,關(guān)于復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的研究進(jìn)入到新的技術(shù)領(lǐng)域。
關(guān)于復(fù)雜網(wǎng)絡(luò)的研究,我國雖然起步較晚,但是,憑借眾多研究人員的努力,我國復(fù)雜網(wǎng)絡(luò)研究的進(jìn)展速度驚人,在相關(guān)領(lǐng)域的滲透速度令世界各國矚目。經(jīng)過長期的研究發(fā)現(xiàn),復(fù)雜網(wǎng)絡(luò)普遍具有的社團(tuán)結(jié)構(gòu)特征,以及與之相對(duì)應(yīng)的社團(tuán)結(jié)構(gòu)算法,為復(fù)雜網(wǎng)絡(luò)聚類分析法的提出奠定了基礎(chǔ)。
互聯(lián)網(wǎng)技術(shù)的出現(xiàn),重新定義了人類所了解的世界,與現(xiàn)實(shí)世界相似,互聯(lián)網(wǎng)創(chuàng)造了一個(gè)虛擬的世界,并且,在這一虛擬世界中,也要嚴(yán)格遵守相關(guān)“生存規(guī)則”。隨著互聯(lián)網(wǎng)技術(shù)在生物技術(shù)、人工智能等領(lǐng)域的不斷滲透,關(guān)于人工神經(jīng)網(wǎng)絡(luò)的研究逐漸浮出水面。
早期人工神經(jīng)網(wǎng)絡(luò)的發(fā)展受技術(shù)條件的限制,多停留在理論研究階段,直至1957年,ERosenblat所提出的感知器模型,為人工神經(jīng)網(wǎng)絡(luò)技術(shù)的工程化應(yīng)用創(chuàng)造了可能。在此之后,關(guān)于人工神經(jīng)網(wǎng)絡(luò)的研究進(jìn)入到了“黃金時(shí)期”,各種具有創(chuàng)新性的理論研究成果,為人工神經(jīng)網(wǎng)絡(luò)的實(shí)踐應(yīng)用提供了理論支撐,實(shí)驗(yàn)室中的相關(guān)研究結(jié)果,同樣證明了這一技術(shù)的可行性。
在神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)過程中,所使用到的復(fù)雜網(wǎng)絡(luò)聚類分析法主要包括K-Lin算法、傳統(tǒng)譜平分法、分裂算法。
基于對(duì)貪婪算法的研究,B.W.kernighan和S.Lin提出了一個(gè)新的聚類算法“K-Lin算法”,該算法將已知網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,利用增益函數(shù)表達(dá)兩個(gè)大小已知社團(tuán)內(nèi)部變數(shù)與連接兩個(gè)社團(tuán)變數(shù)的差值Q。通過對(duì)比Q值,其中Q值最大的劃分網(wǎng)絡(luò)就是最佳的社團(tuán)結(jié)構(gòu),在不斷的試探過程中,得到最佳算法。
然而,K-Lin算法也存在的一定的缺陷,這就是必須事先知道兩個(gè)社團(tuán)的大小,否則,計(jì)算結(jié)果將存在不確定性。正因?yàn)榇耍琄-Lin算法不能夠應(yīng)用于位置網(wǎng)絡(luò)大小的實(shí)際網(wǎng)絡(luò)之中。
在計(jì)算機(jī)圖形分割的實(shí)現(xiàn)過程中,基于Laplace矩陣特征值的譜平分法得到了較為廣泛的應(yīng)用,這是由于傳統(tǒng)譜平分法能夠嚴(yán)格執(zhí)行數(shù)學(xué)理論的各項(xiàng)要求?;贚aplace矩陣特征值的譜平分法根據(jù)無向量圖G對(duì)應(yīng)的對(duì)稱矩陣L的不同特征值與特征向量進(jìn)行網(wǎng)絡(luò)區(qū)分,其復(fù)雜程度較高,其中主要運(yùn)算內(nèi)容是對(duì)特征矩陣向量的求解。
由于傳統(tǒng)譜平分法在使用過程中需要將網(wǎng)絡(luò)進(jìn)行一定比例的劃分,因此,對(duì)復(fù)雜網(wǎng)絡(luò)的首次二分結(jié)果,將直接影響到今后網(wǎng)絡(luò)劃分的正確性,所以,采用傳統(tǒng)譜平分法存在一定的算法冗余情況,其效果也并不理想。
在實(shí)際使用過程中,分列算法則依據(jù)網(wǎng)絡(luò)節(jié)點(diǎn)對(duì)的相似程度對(duì)節(jié)點(diǎn)對(duì)的邊進(jìn)行刪除,在這一行為的不斷重復(fù)過程中,整個(gè)復(fù)雜網(wǎng)絡(luò)也就被劃分成了多個(gè)社團(tuán)。研究人員可以根據(jù)社團(tuán)劃分的情況,隨時(shí)終止算法進(jìn)程,以避免復(fù)雜網(wǎng)絡(luò)過度分割后的情況出現(xiàn)。如圖1所示,在水平虛線逐漸下移的過程中,復(fù)雜網(wǎng)絡(luò)中的社團(tuán)個(gè)數(shù)不斷增加,當(dāng)水平虛線移至最底端時(shí),也就達(dá)到了這一復(fù)雜網(wǎng)絡(luò)的最小社團(tuán)劃分單位。
圖1:基于樹狀圖記錄算法的復(fù)雜網(wǎng)絡(luò)社團(tuán)分割結(jié)果
圖2:CNM聚類優(yōu)化下的RBF神經(jīng)網(wǎng)絡(luò)算法思想流程示意圖
由于RBF網(wǎng)絡(luò)中隱含基層函數(shù)的中心選取會(huì)對(duì)整體網(wǎng)絡(luò)的收斂特性造成一定的影響,同時(shí)也會(huì)降低網(wǎng)絡(luò)精度,這導(dǎo)致了RBF神經(jīng)網(wǎng)絡(luò)所具有的優(yōu)勢(shì)得不到有效發(fā)揮。然而,研究人員發(fā)現(xiàn),在使用了CNM聚類算法的情況下,RBF神經(jīng)網(wǎng)絡(luò)原本存在的問題得到了明顯改善,網(wǎng)絡(luò)質(zhì)量、穩(wěn)定性、精度均得到了不同程度的提高。
基于CNM聚類優(yōu)化下的RBF神經(jīng)網(wǎng)絡(luò)算法思想如圖2所示。
在計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)快速發(fā)展的今天,大數(shù)據(jù)技術(shù)的應(yīng)用范圍不斷擴(kuò)大,為實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效管理和使用,則需要采用科學(xué)的復(fù)雜網(wǎng)絡(luò)聚類分析方法,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,使其在實(shí)際應(yīng)用中的范圍更加廣闊。