国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)中數(shù)據(jù)挖掘模型的模糊改進(jìn)聚類算法研究

2020-11-25 04:38張博
電子技術(shù)與軟件工程 2020年18期
關(guān)鍵詞:中心點增量度量

張博

(深圳博十強志科技有限公司 廣東省深圳市 518000)

模糊聚類算法在數(shù)據(jù)挖掘模型中的主要作用為通過對比不同集群的相似度,實現(xiàn)對數(shù)據(jù)的分析,為數(shù)據(jù)的深入挖掘提供依據(jù),因此,為了提高大數(shù)據(jù)分析的效率、準(zhǔn)確性,應(yīng)深入探討模糊聚類算法的改進(jìn)方法,并根據(jù)算法的形成構(gòu)建,找準(zhǔn)算法改進(jìn)切入點,以搭建出更加優(yōu)質(zhì)的模糊聚類算法體系,促進(jìn)數(shù)據(jù)發(fā)掘模型性能水平的優(yōu)化發(fā)展。

1 模糊聚類算法的常規(guī)運行步驟

模糊聚類算法是一種基于模數(shù)學(xué)理論體系,形成的數(shù)學(xué)方法。其從基礎(chǔ)理論上來看,與經(jīng)典集合論中所強調(diào)的非黑即白理念存在顯著的差異,同時,也能突破該理念,對具備不確定性特質(zhì)的數(shù)據(jù),進(jìn)行精準(zhǔn)的篩選與分析。但從本質(zhì)上來看,模糊聚類算法的作用原理是將差異較小的數(shù)據(jù)劃分為一類,并確保類與類之間具備明顯差異,以實現(xiàn)數(shù)據(jù)聚類分析的目的。在此過程中,人們需要基于模糊算法,建立模糊矩陣以描述對象的屬性,然后根據(jù)該屬性進(jìn)行聚類處理,再利用模糊數(shù)學(xué)理論、算法,總結(jié)出樣本之間的模糊關(guān)系,以達(dá)到精準(zhǔn)聚類的效果,因此,從整體來看,該算法的常規(guī)運行應(yīng)分為以下四個步驟:

(1)計算出數(shù)據(jù)樣本的距離矩陣;

(2)將矩陣中的元素縮到0 與1 中,使其成為一個模糊矩陣;

(3)構(gòu)建模糊矩陣的等價性,并使用褶積,基于之前得出的模糊矩陣,構(gòu)建一個模糊等價矩陣;

(4)使用樣本數(shù)據(jù),對矩陣進(jìn)行賦值,實現(xiàn)模糊聚類,落實基于模糊算法的數(shù)據(jù)分析。

2 模糊聚類算法數(shù)據(jù)中心點確立改進(jìn)

2.1 增量型結(jié)構(gòu)算法

增量型模糊聚類算法的最顯著特點是能夠支持相對龐大的數(shù)據(jù)聚類分析,因此,從大數(shù)據(jù)的視域下來看,數(shù)據(jù)挖掘模型所用的模糊聚類算法主要為增量型。在此過程中,該類型模糊聚類算法的運行原理為,先對大規(guī)模的數(shù)據(jù)進(jìn)行拆分,使其轉(zhuǎn)化為多個小數(shù)據(jù)塊,以便于將其順利地讀入內(nèi)存,此后,通過找出小數(shù)據(jù)塊的中心點,結(jié)合相應(yīng)的算法,確立原有大規(guī)模數(shù)據(jù)的中心點,為后續(xù)距離矩陣的構(gòu)建提供依據(jù)。而其中,中心點確立過程中應(yīng)用的算法有兩種,需要合理選擇算法,以優(yōu)化模糊聚類算法的落實效果,因此,可以以此為改進(jìn)切入點,通過對比兩種方法,來進(jìn)行科學(xué)的選擇,達(dá)到算法改進(jìn)的效果。在算法的選取應(yīng)用中,其中一種應(yīng)用方法是,先逐一找出小數(shù)據(jù)塊的中心點,再采用聚類算法,建立中心點的集合,以找出所求的中心點,而在模糊聚類算法中,這種中心點計算方法的應(yīng)用主要體現(xiàn)在OFCMD 這一增量型算法中。另一種中心點計算方法是,將迭代計算應(yīng)用在小數(shù)據(jù)塊的中心計算上,即基于某一小數(shù)據(jù)塊中心,采用迭代算法,計算出下一中心點,直至求出所需中心點為止,而該種應(yīng)用方法則通常應(yīng)用在SPFCM 這一增量型模糊聚類算法中。由此可以看出,以O(shè)FCMD 為代表的聚類算法相較于SPFCM 算法,所需的迭代計算步驟更少,適宜運行更加快捷,因此,可以通過選用OFCMD 算法,來達(dá)到模糊改進(jìn)聚類算法的效果。

2.2 OFCMD算法

在OFCMD 算法中,需先計算出小數(shù)據(jù)塊的中心點,然后用聚類算法,用這些中心點,構(gòu)建出一個新集群,繼續(xù)使用聚類算法,對該集群進(jìn)行計算,以得出最終的中心點。在此過程中,該算法所選取的小數(shù)據(jù)塊中心點數(shù)量,通常是用戶提前確定的,所以,而一般情況下,用戶往往難以明確小數(shù)塊,在整體數(shù)據(jù)中的分布情況,導(dǎo)致其無法準(zhǔn)確確定選取多少個中心點,才能保證最終的中心點確定結(jié)果正確,影響了OFCMD 算法優(yōu)勢的發(fā)揮。為此,在該算法的實際應(yīng)用中,需采取相應(yīng)的改進(jìn)措施,以優(yōu)化該算法的應(yīng)用效果,提升模糊聚類算法的運行水平。在改進(jìn)過程中,可以基于實際需求設(shè)置固定比例,并將整體數(shù)據(jù)中心點選取權(quán)重與整體數(shù)據(jù)權(quán)重之間的比值,與固定比例進(jìn)行對比,以選出具有代表性的中心點,進(jìn)而將對個數(shù)的要求,轉(zhuǎn)化為對權(quán)重的要求,來減少數(shù)據(jù)塊分布問題對中心點選取的影響,達(dá)到算法改進(jìn)的目的,提升模數(shù)聚類算法的運行效果。

3 模糊聚類算法矩陣改進(jìn)

3.1 距離矩陣的形成機(jī)理

在模糊聚類算法中,距離矩陣需要通過對數(shù)據(jù)的相似度,才能做出相應(yīng)的類別劃分,因此,距離矩陣的形成原理涉及到大量的相似度概念。從距離矩陣的形成機(jī)理來看,其主要是由一組點間兩兩相互距離所組成的矩陣,并能夠通過衡量點間相似度、相異度來描述距離。其中,相似度的區(qū)間為[0,1],數(shù)值越小相似度越小,相異度區(qū)間也為[0,1],數(shù)值越小相異度越小。基于此,采用距離計算度量方法,來描述數(shù)據(jù)間的相似、相異程度,即可形成距離矩陣。在此過程中,需要采用相應(yīng)的度量計算方法,構(gòu)建相似度、相異度矩陣,以代替算法運行所需的原始數(shù)據(jù),形成具有通用性的距離矩陣,因此,可以將相似度、相異度矩陣建設(shè),以及度量方法應(yīng)用作為模糊聚類算法的改進(jìn)切入點,并通過準(zhǔn)確地求取相似度、相異度矩陣、合理應(yīng)用距離度量方法,達(dá)到算法改進(jìn)的效果。

3.2 歐氏距離度量方法

在距離矩陣的建設(shè)中,為了提高距離矩陣建設(shè)的效果,可以選用歐氏距離度量法、余弦相似度度量法這兩種度量方法,來描述距離的類型,并用相似、相異度為兩點間的距離提供更加詳盡的描述,實現(xiàn)算法的改進(jìn)。其中,歐氏距離度量法,即歐幾里得度量,其是指對m 維空間中兩點實際距離的度量方法。在該度量法背景下,二維空間中的兩點間距離可以表示為,其中,兩點坐標(biāo)分別為(x1,x2),(y1,y2),三維空間兩點間距離可以表示為,其中,兩點坐標(biāo)分別為(x1,y1,z1),(x2,y2,z2),由此可以推斷出,m 維空間中,兩點間的距離可表達(dá)為,其中,兩點坐標(biāo)分別為(x1,x2,x3……,xn),(y1,y2,y3……,yn)。借助該種度量方法,人們可以基于上述兩點間距離表達(dá)式,推導(dǎo)出閔氏距離表達(dá)式,即當(dāng)P 為1 時兩點間呈曼哈頓距離、P 為2 時兩點間呈歐氏距離、當(dāng)p →∞時兩點間呈切比雪夫距離。

3.3 余弦相似度計算

在距離矩陣的改進(jìn)建設(shè)中,余弦相似度計算是指一種通過計算兩個向量間夾角余弦值,來度量數(shù)據(jù)間相似度的距離度量方法,其度量結(jié)果為以相似度作為描述工具的數(shù)據(jù)間距離情況,能夠較為全面、準(zhǔn)確地反映出數(shù)據(jù)間的距離狀態(tài),增強距離矩陣運行性能。在此過程中,可以基于歐里幾得點積公式,即其中,a、b 表示兩點向量,來進(jìn)行余弦值的計算。在計算過程中,需根據(jù)點積公式,推導(dǎo)出相似性計算公式,即:,其中,當(dāng)余弦值為1 時說明兩個數(shù)據(jù)之間的相似度達(dá)到最大,兩者距離最小,當(dāng)余弦值為0 時,則說明兩個數(shù)據(jù)之間不存在相似性,兩者的距離最大,且相互獨立。

4 模糊聚類算法問題改進(jìn)措施

4.1 增量型算法的局限性問題

根據(jù)上述描述,在增量型算法的改進(jìn)中,將對中心點個數(shù)選取的要求,轉(zhuǎn)變?yōu)閷?quán)重的要求,以達(dá)到優(yōu)化中心點確立準(zhǔn)確性的效果。但該措施在實際應(yīng)用中,雖然該措施在很大程度上,降低了數(shù)據(jù)對象分布狀態(tài)對中心點確立的影響,但當(dāng)數(shù)據(jù)對象均分布在集的邊緣位置,那么就會形成全部數(shù)據(jù)對象權(quán)重均較小的情況,因此,無法找出具有明顯代表性的數(shù)據(jù),導(dǎo)致該種算法依然缺乏普適性,影響了該改進(jìn)方法的落實效果,造成了增量型算法的局限性問題,需要采取相應(yīng)的措施,針對該問題,進(jìn)行深入優(yōu)化,以實現(xiàn)模糊改進(jìn)聚類算法的目的[1]。

4.2 增量型算法改進(jìn)措施

在改進(jìn)措施中,為了優(yōu)化增量型算法性能,可以采用最小權(quán)重閾值法,對中心的確立加以把控,并待小數(shù)據(jù)塊模糊聚類處理完畢后,按照此過程中,得出的中心點權(quán)重與整體數(shù)據(jù)權(quán)重比,確定中心點的最小權(quán)重閾值,然后基于此,得出中心點選取個數(shù),再按照這個個數(shù),組建中心點新集群。此后,再次進(jìn)行模糊聚類計算,得出權(quán)重矩陣,并從中選取權(quán)重最大者作為整體數(shù)據(jù)的中心,最后,圍繞該中心,按照距離度量結(jié)果,對數(shù)據(jù)進(jìn)行分類,實現(xiàn)模糊聚類計算。在此過程中,由于該最小權(quán)重閾值的形成是以所有小數(shù)據(jù)塊的模糊聚類結(jié)果為基礎(chǔ),因此,其能夠描述整體數(shù)據(jù)的中心點權(quán)重范圍,避免了數(shù)據(jù)對象集中分布在邊緣的情況,以確保中心點的選取具有足夠的代表性,改善了上述增量算法中存在的局限性問題,提升了模糊聚類算法的運行水平?;诖耍?jīng)過改進(jìn)后的增量算法步驟為:

(1)定義中心點集合,并將集合中的中心點定義為每個數(shù)據(jù)塊中權(quán)重最大的三個數(shù)據(jù);

(2)通過權(quán)重矩陣算法、隸屬度矩陣算法,處理數(shù)據(jù)塊,構(gòu)建權(quán)重、隸屬矩陣;

(3)借助上述矩陣得出最小權(quán)重閾值,再根據(jù)最小權(quán)重閾值,確定集合中中心點數(shù)量的最小值;

(4)從每個數(shù)據(jù)塊中選擇3 個中心點,組成新集合;

(5)得出該集合的距離矩陣,并基于此,實現(xiàn)增量型模糊聚類算法的改進(jìn)優(yōu)化,保證聚類結(jié)果的準(zhǔn)確性[2]。

5 模糊改進(jìn)聚類算法改進(jìn)驗證

5.1 驗證用算法確定

根據(jù)上述論述,最終確定的模糊改進(jìn)聚類算法思路為,首先,將整體數(shù)據(jù)劃分為小數(shù)據(jù)塊,并計算出其權(quán)重矩陣V、隸屬矩陣U,并將其作為最小權(quán)重閾值的基礎(chǔ)依據(jù)。其次,按照中心點權(quán)重與整體數(shù)據(jù)權(quán)重比,確定最小權(quán)重閾值,再根據(jù)與最小權(quán)重閾值的接近程度,從每個小數(shù)據(jù)塊中選取m 個數(shù)據(jù)的權(quán)重,構(gòu)建出一個新的集群。再次,從集群中選擇三個權(quán)重最大的數(shù)據(jù),作為中心點,再將該中心點與其他小數(shù)據(jù)塊的中心點組成一個新的數(shù)據(jù)塊。最后,再次采用最小權(quán)重閾值法,確定該數(shù)據(jù)塊的中心點,此時,該中心點即為整體數(shù)據(jù)的中心點,利用該中心點,結(jié)合距離矩陣,即可對整體數(shù)據(jù)進(jìn)行模糊聚類。在此過程中,需要注意,確立改進(jìn)算法之前,應(yīng)做好相應(yīng)的參數(shù)定義,并基于傳統(tǒng)方法,結(jié)合改進(jìn)措施,采用拉格朗日乘數(shù)法,針對權(quán)重矩陣、隸屬度矩陣的計算公式,進(jìn)行更新推導(dǎo),使其能夠適用于新的增量型模糊聚類算法的運算思路,以保證該算法的順利落實,增強數(shù)據(jù)挖掘模型的運行效果[3]。

5.2 驗證用算法應(yīng)用結(jié)果分析

待算法改進(jìn)思路明確后,還要將經(jīng)過改進(jìn)后的算法投入到實際應(yīng)用中,以驗證其在實踐上的可行性與正確性,以保證此次算法改進(jìn)的有效性。在實驗中,將經(jīng)過改進(jìn)后的算法與傳統(tǒng)的算法進(jìn)行了對比,以檢驗算法的改進(jìn)措施是否產(chǎn)生了顯著的效果,達(dá)到算法驗證的目的。在此過程中,實驗參數(shù)值為0.1、最小權(quán)重閾值為1.5、數(shù)據(jù)集聚類數(shù)為k、停止閾值為1*10-5、用戶模型數(shù)據(jù)聚類數(shù)為3,同時,計算遵循的規(guī)則為傳統(tǒng)增量型模糊聚類算法規(guī)則,且所劃分的數(shù)據(jù)塊依次占總體數(shù)據(jù)比例的10%、20%、40%、60%。實驗結(jié)果顯示,經(jīng)過改進(jìn)后的算法,其聚類準(zhǔn)確性相較于傳統(tǒng)算法,高出了10%左右,而且呈現(xiàn)出了更強的普適性,因此,經(jīng)過改進(jìn)后的算法對原數(shù)據(jù)的要求不高,可以適用于各類數(shù)據(jù)分析環(huán)境。將其用于數(shù)據(jù)挖掘模型的建設(shè),能夠增強模型的數(shù)據(jù)分析能力,深入優(yōu)化大數(shù)據(jù)的挖掘效果,有助于大數(shù)據(jù)技術(shù)水平的發(fā)展[4]。

6 結(jié)論

綜上所述,增強算法改進(jìn)策略的落實效果,能夠提高模糊聚類算法的數(shù)據(jù)分析能力。在數(shù)據(jù)挖掘模型中,改進(jìn)模糊聚類算法可以增強算法類型選用的準(zhǔn)確性、保證距離矩陣建設(shè)效果、改善傳統(tǒng)算法中的問題、明確改進(jìn)后算法的可行性,從而提升大數(shù)據(jù)技術(shù)的運行水平,為信息化時代的發(fā)展提供助力。

猜你喜歡
中心點增量度量
鮑文慧《度量空間之一》
提質(zhì)和增量之間的“辯證”
模糊度量空間的強嵌入
Scratch 3.9更新了什么?
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
如何設(shè)置造型中心點?
基于均衡增量近鄰查詢的位置隱私保護(hù)方法
地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點處筆畫應(yīng)緊奏
尋找視覺中心點
泉州市| 盐山县| 潮州市| 包头市| 基隆市| 柏乡县| 隆德县| 潍坊市| 临漳县| 台安县| 淄博市| 龙门县| 虞城县| 衡阳市| 茌平县| 瑞安市| 铁力市| 磐安县| 乌拉特中旗| 大田县| 娄烦县| 民和| 眉山市| 南溪县| 衡阳县| 宁城县| 岐山县| 于都县| 白水县| 牡丹江市| 类乌齐县| 塔河县| 开封县| 凤山县| 图木舒克市| 阿拉善左旗| 唐河县| 合山市| 繁昌县| 万全县| 海淀区|