国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云計算環(huán)境下的海量圖像查重算法設(shè)計

2021-09-01 14:18:34
綏化學(xué)院學(xué)報 2021年9期
關(guān)鍵詞:查重海量數(shù)量

高 興

(沈陽音樂學(xué)院公共基礎(chǔ)部 遼寧沈陽 110818)

云計算技術(shù)是借助于大規(guī)模低成本的服務(wù)器構(gòu)成的分布式計算系統(tǒng),將海量的數(shù)據(jù)通過網(wǎng)絡(luò)云進行分解或者分類,將結(jié)果傳送或者反饋給用戶。云計算能夠按照用戶需求提供云服務(wù),且具備運行成本低、可靠性高、擴展性好等優(yōu)勢[1]。云計算包括虛擬化技術(shù)、分布式海量數(shù)據(jù)存儲和分布式計算技術(shù),可以實現(xiàn)龐大、復(fù)雜的數(shù)據(jù)信息等資源處理,使海量的數(shù)據(jù)信息在較短時間內(nèi)完成處理,提高數(shù)據(jù)信息的處理效率[2]。圖像作為當(dāng)下主要的信息傳播方式,在眾多領(lǐng)域都廣泛應(yīng)用,如何在海量的圖像中判斷相同的圖像,已然成為當(dāng)下圖像查重領(lǐng)域的主要研究內(nèi)容。

一、云計算環(huán)境下的海量圖像查重算法

(一)云計算環(huán)境下的海量圖像識別技術(shù)。海量圖像分類是圖像查重的前提,為了更好地完成海量圖像分類,采用云計算技術(shù)完成[3]。在云平臺上利用云計算技術(shù)實現(xiàn)圖像分類處理的整體流程。圖像分類需先提取云平臺上圖像數(shù)據(jù)庫中的圖像特征,并將待分類圖像特征與圖像庫中圖像特征進行匹配,根據(jù)匹配結(jié)果完成圖像的類別劃分[4]。云計算技術(shù)圖像分類原理如圖1所示。其中,圖像預(yù)處理主要作用是完成圖像的色彩轉(zhuǎn)換,并將轉(zhuǎn)換后的圖像存儲。采用相關(guān)特征提取方法完成存儲圖像的數(shù)據(jù)計算,獲取圖像特征[5]。

圖1 云計算技術(shù)圖像分類原理

利用圖像分類器將圖像特征數(shù)據(jù)樣本進行訓(xùn)練,并將訓(xùn)練后的結(jié)果存儲于本地文件中,用于圖像分類。分類器主要運行步驟如下所述:

(1)通過云平臺上傳海量圖像數(shù)據(jù)信息,上傳完成提交后,從分布式文件系統(tǒng)中獲取數(shù)據(jù)源,通過數(shù)據(jù)集群配置劃分?jǐn)?shù)據(jù),并分類處理上傳的Reduce和Map,并輸入Reduce和Map過程中的節(jié)點信息。

(2)操作時,讀入儲存在分布式文件系統(tǒng)中圖像樣本的同時,使用遺傳算法優(yōu)化數(shù)據(jù)樣本參數(shù)類型轉(zhuǎn)換后的組合參數(shù),完成svm—train函數(shù)的調(diào)入。為獲取支持向量,需完成樣本數(shù)據(jù)的訓(xùn)練,并將處理結(jié)果輸入在Reduce中。

(3)實現(xiàn)Reduce的操作過程,采用數(shù)據(jù)形式key/value完成分類和排序Map函數(shù)的轉(zhuǎn)換,向?qū)崿F(xiàn)規(guī)定的路徑文件中輸入處理后的數(shù)據(jù),輸出圖像分類結(jié)果。

(二)基于Zernike矩陣的圖像比對。

1.比對算法流程。采用Zernike矩陣完成分類圖像比對,步驟為:

(1)由于圖像旋轉(zhuǎn)后可能存在偽邊塊,為將其去除,需要先完成兩幅對比圖像(圖像A和B)的偽邊塊檢測,確定兩幅圖像的區(qū)域和大小,將偽邊塊去除后,保存圖像區(qū)域的有效內(nèi)容[6],即為A1和B1。

(2)采用插值法對B1實行圖像歸一化處理,使B1和A1的大小相同,得出B2。

(3)將A1旋轉(zhuǎn),旋轉(zhuǎn)次數(shù)為s,每次旋轉(zhuǎn)角度為360/s,計算A1每次旋轉(zhuǎn)結(jié)束后的第T個Zernike矩,并且T≥2,根據(jù)計算得出的數(shù)值構(gòu)建S*T矩陣,其為:

(4)對矩陣KA的每一列進行均值和標(biāo)準(zhǔn)差的計算,獲取均值向量和標(biāo)準(zhǔn)差向量,分別為其中:

(5)無需對B2進行旋轉(zhuǎn),對A1相對應(yīng)的T個Zernike矩進行計算,得出矩值向量VB。

其具體流程如圖2所示。

圖2 算法比對流程

2.真實圖像區(qū)域大小的確定。由于圖像旋轉(zhuǎn)后四周會出現(xiàn)偽邊塊,通常情況下偽邊塊的區(qū)域呈現(xiàn)黑色、白色或者是其他的單一灰度區(qū)域[7]。為了解決偽邊塊對Zernike矩值造成的影響,需對所有偽邊塊實行區(qū)分。對圖像靠近四條邊沿位置的像素值進行掃描后,統(tǒng)計像素值的出現(xiàn)概率。如果某個像素值出現(xiàn)比例較大,判斷該像素值在旋轉(zhuǎn)后形成偽邊塊像素值,將該像素值的臨近四條邊沿的連通圖像區(qū)域判斷為偽邊塊。為確定真實圖像的實際大小,從而保障后續(xù)的圖像大小歸一化,則處理步驟如下:

(1)為將圖像轉(zhuǎn)化為黑白圖像,根據(jù)圖像像素值采取二值化方式完成圖像處理。偽邊塊區(qū)域作為單獨一類,其余區(qū)域歸為另一類,均判斷為真實圖像。

(2)對二值化后的黑白圖像實行邊緣檢測以及其中存在的直線進行檢測,將圖像中相交后可構(gòu)成矩形的四條直線看作真實圖像的邊界。

(3)確定由四條直線相交構(gòu)成的矩形,將其看作為真實圖像區(qū)域,并依據(jù)四個直線交點坐標(biāo),確定真實圖像大小。

3.歸一化相似度準(zhǔn)則。真實圖像之間的相似程度通過相似度準(zhǔn)則進行衡量,其取值范圍在[0,1]之間。當(dāng)Zernike矩的階數(shù)較高時,計算結(jié)果與較低階的矩值存在很大差別,甚至存在數(shù)個數(shù)量級的差別。為保證每一個Zernike矩陣作用的統(tǒng)一和均衡,對VB實行歸一化處理,獲取,其中:

如果獲取的相似度κ值大于設(shè)定的閾值,則表示兩幅圖像的內(nèi)容相同,反之,則不相同。根據(jù)相似結(jié)果判斷圖像重復(fù)情況,完成圖像查重。對和VB的相似度進行計算,如果已經(jīng)經(jīng)過歸一化處理,并且成為一個全1向量,則兩幅圖像相似度為:

二、仿真測試結(jié)果與分析

選取某圖像庫作為研究對象,展開相關(guān)測試分析。該圖像庫共有圖像數(shù)量82000張,重復(fù)圖像共10087張。其中主要分為風(fēng)景類圖像14600張,重復(fù)圖像4220張;建筑類圖像12800,人物類圖像3020張;文字文本類圖像18400張,重復(fù)圖像1120張;動物類圖像11200,重復(fù)圖像728張;玩具類圖像25000張,重復(fù)圖像999張。

(一)分類性能測試。測試本文算法的圖像分類性能,從節(jié)點數(shù)量對圖像識別時間的影響和圖像分類精度兩個方面完成測試,測試結(jié)果如表1、表2所示。分析表1可知:本文算法進行圖像識別過程中,如果云計算平臺上只有2個節(jié)點時,玩具類圖像數(shù)據(jù)交換所需時間較長,該現(xiàn)象表明針對圖像識別,兩臺計算機所需時間較大程度大于1臺計算機識別所需時間。當(dāng)節(jié)點數(shù)量為3個以上時,隨著節(jié)點數(shù)量的增加,處理相同數(shù)量圖像所需的時間逐漸減少。該測試結(jié)果表明,節(jié)點數(shù)量的增加,會增加圖像分類的速度,可根據(jù)需要分類的圖像數(shù)量,選擇適合的節(jié)點數(shù)量。

表1 不同節(jié)點數(shù)量下圖像識別時間/ms

表2 三種算法的分類精度對比

從表2可知:對于五類圖像,本文算法的分類精度最佳,分類精度均在99%以上對比算法的漏識和誤識數(shù)量高于本文算法,它的分類精度低,這主要是因為本文算法采用云計算技術(shù)從通過分布式文件系統(tǒng)中獲取海量圖像數(shù)據(jù)源,通過數(shù)據(jù)集群配置劃分處理數(shù)據(jù),保證圖像分類結(jié)果的精度。

(二)查重性能測試。為進一步測試本文算法查重性能,隨機抽取人物類圖像的一組圖像,如圖3所示。其中(a)圖為原始給定圖像,經(jīng)其縮放60%后,進行逆時針旋轉(zhuǎn),得出(b)圖,此時兩幅圖像內(nèi)容相同,但是數(shù)據(jù)本身存在較大差別。選取4階Zernike矩(共包含9個Zernike矩值),對(a)圖進行旋轉(zhuǎn),每次旋轉(zhuǎn)角度為20°,獲取(a)圖的Zernike矩值、標(biāo)準(zhǔn)差數(shù)值和(b)圖的Zernike矩值、歸一化后的數(shù)值,分別如表3、表4所示。分析表3可知:表中包含圖3(a)圖均值以及標(biāo)準(zhǔn)差的數(shù)值,相比較均值而言,可看出標(biāo)準(zhǔn)差相對很小,說明Zernike矩在進行圖像不同角度旋轉(zhuǎn)時,大小保持相對穩(wěn)定,表示本文算法具備較好的旋轉(zhuǎn)不變性。

圖3 實驗使用的圖像

表3 (a)圖的均值和標(biāo)準(zhǔn)

表4 (b)圖的矩值和歸一化值

分析表4可知:將獲取的矩值通過公式(5)進行計算,獲取相似度值。相似度值越高說明兩幅圖像內(nèi)容相同,表明兩幅圖像重復(fù)。說明本文方法具備圖像查重能力,可完成海量圖像的查重。差

圖像查重可理解為將重復(fù)圖像聚集到相同的簇,因此,查重效果的衡量公式為:

式中:A為圖片重復(fù)檢測的結(jié)果集合,其元素為檢測到的重復(fù)圖像,a中最大的真實重復(fù)圖像數(shù)量為max-dup函數(shù);如果a=[1,1,2,2,2,3,3],則max-dup(a)=3,表示2的個數(shù)為a中出現(xiàn)最多的元素數(shù)量,acc表示查重聚類純度。

以人物圖像數(shù)據(jù)集為例,采用三種算法對其進行相似度查詢,測試三種算法在相似度閾值變化的情況下,acc的變化結(jié)果如圖4所示。分析圖4可知:本文算法在相似度閾值變化的情況下,acc值高于兩種對比算法那,明本文算法進行圖像查重的圖像相似度查重效果最佳。兩種對比算法的acc值相對較低,由于閾值的變化導(dǎo)致大量圖像被錯誤地檢測為重復(fù)。本文方法具備較好的分類性能,可將相同類別的圖像劃分為一個集合,極大程度降低了圖像相似度檢測的錯誤數(shù)量,保證圖像相似度檢測的精度。并且根據(jù)圖中曲線變化,結(jié)合閾值的固定的范圍可以看出,本文算法在相似度閾值為0.8~0.9范圍內(nèi),acc精度最高。

圖4 不同算法acc變化結(jié)果

三、結(jié)論

為了實現(xiàn)海量圖像內(nèi)容查重,設(shè)計了云計算環(huán)境下的海量圖像查重算法,測試結(jié)果表明:云計算技術(shù)的節(jié)點數(shù)量對于海量圖像分類存在影響,可根據(jù)圖像數(shù)量適當(dāng)選擇合適的節(jié)點;針對五種類型圖像,本文算法的分類精度高,為后續(xù)圖像高精度查重奠定了可靠基礎(chǔ);本文算法具備較好的旋轉(zhuǎn)不變性,可有效完成圖像查重。

猜你喜歡
查重海量數(shù)量
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
學(xué)位論文查重亂象引關(guān)注
科教新報(2021年18期)2021-06-11 13:25:24
論文查重雜談
海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
統(tǒng)一數(shù)量再比較
學(xué)術(shù)論文該“查”什么?
雜文月刊(2018年20期)2018-11-14 21:28:46
學(xué)術(shù)論文該“查”什么?
一個圖形所蘊含的“海量”巧題
頭發(fā)的數(shù)量
我國博物館數(shù)量達4510家
灵璧县| 泗阳县| 射洪县| 凯里市| 三门县| 新竹县| 株洲市| 五家渠市| 沂南县| 师宗县| 东乌珠穆沁旗| 南涧| 利津县| 邛崃市| 班戈县| 南木林县| 泾阳县| 浪卡子县| 乌鲁木齐市| 甘孜| 旅游| 昭苏县| 云林县| 隆昌县| 诸城市| 彰化市| 奉新县| 略阳县| 东乡县| 巴林左旗| 信宜市| 宁蒗| 石家庄市| 九龙坡区| 侯马市| 江西省| 惠水县| 扶风县| 北海市| 东阿县| 福清市|