国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對比模式挖掘研究進展

2017-04-28 00:58:25
關鍵詞:數(shù)據(jù)挖掘集群約束

西安石油大學計算機學院,陜西 西安 710065

引言

數(shù)據(jù)挖掘又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn),指通過算法從大量的數(shù)據(jù)集中揭示隱含的、先前未知的信息的過程,這些信息往往具有潛在價值。作為一門交叉性學科,它的實現(xiàn)通常與計算機科學相關,并通過統(tǒng)計學、模式識別、專家系統(tǒng)、機器學習、在線分析處理和數(shù)據(jù)可視化等諸多方法實現(xiàn)挖掘目的[1]。對比模式挖掘作為數(shù)據(jù)挖掘領域中的一個的重要組成部分,憑借其特有的優(yōu)勢近年來受到廣泛關注,它的基本任務是區(qū)分和對比數(shù)據(jù)集間的顯著差異。這項技術可以有助于了解事物本質(zhì)特征,更好地處理所面臨的問題和了解未知知識。

一般的研究方法是通過對比給定的數(shù)據(jù)對象類,產(chǎn)生對比模式,以確定它們之間存在的差異。這些差異可以提供有價值的見解,比如能夠說明為什么這些對象會有不同以及造成的相應影響。對比模式挖掘相關概念的提出最早可以追溯到 1993 年,Agrawal 等人以關聯(lián)規(guī)則挖掘的形式進行了市場購物籃分析,通過頻繁模式對比確定商品購買的相關聯(lián)系[2]。自這項新興數(shù)據(jù)挖掘任務及其相關高效挖掘方法問世至今,在生產(chǎn)和生活的諸多方面已取得有效應用,相關數(shù)據(jù)挖掘算法層出不窮,更多的數(shù)據(jù)類型得以應用,引發(fā)了大量的研究和開發(fā)嘗試。

1 基本概念

對比模式挖掘面向的是具有差異特征的數(shù)據(jù)集,特指以類為對象并在約束條件下,發(fā)現(xiàn)數(shù)據(jù)集中存在的對比特性,用模式表示并進行比較分析[3]。對比模式的概念定義為屬性和值的組合,它們在數(shù)據(jù)集間的分布或數(shù)值表現(xiàn)存在不同,關注分析這些差異,往往能得到某些未被認知卻有價值的信息。

給定兩個或多個數(shù)據(jù)集,為了挖掘其中存在的隱含信息,首先需要找到能夠描述差異的模式。如果模式 p 相對于每個數(shù)據(jù)集的某一些統(tǒng)計值 (例如,支持度) 高度不同,則模式 p 能夠認為是兩個數(shù)據(jù)集存在差異的影響因子,或稱對比模式。早期的研究主要集中在對比模式在簡單條件下屬性的關聯(lián),現(xiàn)在的研究關注對比模式涉及的更強大的結構,包括分離模式,模糊模式,對比不等式等。對比數(shù)據(jù)挖掘在許多類型的數(shù)據(jù)中可以有效應用,例如教育研究者獲得學生相關數(shù)據(jù)后,可以利用對比模式進行針對性的規(guī)則挖掘發(fā)現(xiàn)男女學生學習習慣的差異[4]。

2 技術與算法

2.1 EP 模式挖掘技術

顯露模式 (Emerging Pattern,EP) 應用于對比模式挖掘研究已有很長時間,它的不俗表現(xiàn)一直受到廣泛關注。在 1999 年的 KDD 大會上,Dong 和 Li 提出了這一影響深遠的知識模式[5],顯露模式描述的項集能夠表現(xiàn)出數(shù)據(jù)集之間支持度發(fā)生顯著變化的特性,這種表示方法的優(yōu)勢明顯,能夠揭示目標類和非目標類上多組屬性之間存在的差異,發(fā)現(xiàn)不同類中數(shù)據(jù)關聯(lián)的固有特征,可以很好地實現(xiàn)分類效果。在對顯露模式 (EP) 的應用進行討論之前,先給出 EP 的相關概念。

定義 2.1:項集 X 在類 C 中的支持度,記為supc(X),supc(X)=countc(X)/|C|,其中countc(X)表示在類 C中包含 X 的樣本個數(shù),而 |C| 是類 C 中樣本的總數(shù)。

定義 2.2:給定兩個數(shù)據(jù)集 D' 和 D,項集 X 從D' 到 D 的增長率 GR (X,D',D) 定義如下。

定義 2.3:給定增長率閾值ρ> l,如果項集 X 從D' 到 D 的增長率 GR (X, D', D) ≥ρ,則稱 X 是從 D'到 D 的 EP,簡稱 X 是 D 的 EP。

自顯露模式的概念出現(xiàn)以來,基于顯露模式的挖掘算法可謂層出不窮。如 Dong 提出基于邊界的顯露模式發(fā)現(xiàn)方法[5],只需處理集合的邊界,能夠使用簡潔的邊框來描述大量的項目集;Bailey 提出基于超圖的顯露模式發(fā)現(xiàn)思想[6],指出最小超圖遍歷和挖掘顯露模式存在緊密聯(lián)系,利用基于超圖遍歷算法來挖掘 EP;Loekito 提出基于零壓縮決策圖 (ZBDD) 的顯露模式發(fā)現(xiàn)的方法[7],在稀疏矩陣中依然能有效挖掘EP。

顯露模式在有類別的數(shù)據(jù)集中表現(xiàn)出強大的區(qū)分能力,EP 的增長率為它的分類能力和預測能力提供了良好的理論基礎,它的支持度體現(xiàn)了所起作用的范圍。顯露模式技術是對比挖掘領域的一個有效應用,主要挖掘各個類別之間研究對象之間存在的差異,并以信息的變化揭示隱含的知識。

2.2 ConSGapMiner 算法

為了發(fā)現(xiàn)數(shù)據(jù)集合之間的對比模式,Ji 等人提出ConSGapMiner 算法[8],表示為根據(jù)間隙約束來挖掘所有的最小區(qū)分子序列。最小區(qū)分子序列 (MDS) 是一種新的對比模式,發(fā)生在一個類序列中,而在另一個類序列中很少出現(xiàn)。MDS 的一個關鍵特性是它的項不必連續(xù)出現(xiàn),它們之間可能存在間隙。

利用 ConSGapMiner 算法能夠使用相對較低的頻率閾值,從一些密集的數(shù)據(jù)庫中高效地挖掘具有間隙 g 約束的最小區(qū)分子序列 (簡稱為 g-MDS)。算法首先采用深度優(yōu)先遍歷集合枚舉樹的方式產(chǎn)生候選 c,然后對 pos 和 neg 的頻率支持度和間隙滿意度進行計算。如果滿足頻率條件和非頻率條件,則 c 保留。最后在第三階段去除所有非最小子序列,產(chǎn)生最終的g-MDS 集合。

ConSGapMiner 算法挖掘得到的模式可以被人們直觀理解并能夠產(chǎn)生強烈的對比效果,但間隔約束要綜合多方面先驗條件,不合適的約束值會造成有用的模式未被發(fā)現(xiàn),在此理論基礎上,免預設間隔約束的思想被提出。王等人設計了帶緊湊間隔約束的最小對比序列模式挖掘算法,可以對候選模式自動處理得到最適合的間隔約束,挖掘效率大幅度提高[9]。近期的研究表明,無特殊條件的間隙約束序列模式挖掘實現(xiàn),無重疊條件的間隙約束序列模式匹配問題已經(jīng)能夠找到完備解[10]。

2.3 gd-DSPMiner 算法

引入密度概念擴展了以往考慮間隙和支持約束的研究,進一步描述給定的序列類。Wang 等人提出 gd-DSPMiner 算法,將密度與滿足間隙約束的對比模式進行融合[11]。

從給定的順序數(shù)據(jù)庫中發(fā)現(xiàn)最小的間隙和密度約束的識別序列模式 (gd-DSP),gd-DSPMiner 算法以迭代的方式完成以下三個主要步驟:生成候選模式集、最低限度測試、以及 gd-support 檢查。在每次迭代中,算法找到一些長度為 L(L ≥ 1) 的所有 gd-DSP,通過候選模式的兩兩連接生成長度大于 L 的待挖掘項。對這些項進一步挖掘就能得到相應的的對比模式。

gd-DSPMiner 算法能夠有效的發(fā)現(xiàn)密度感知的具有間隙約束的序列模式,相比于先前的挖掘算法計算速度有明顯提高。但由于設置的參數(shù)數(shù)目相對偏多,可能要進行多次試驗以確定合適的密度、間隙約束以及支持度閾值,要避免由于設置不合理而影響挖掘效果。序列區(qū)分模式 (DSP) 的研究發(fā)展迅速,近期Yang 等人提出了 itemset-DSP 的簡潔的邊界式表示方法,它側重于從元素為項集的序列中挖掘模式,每個元素都視為一個 itemset,而不是單個項目[12]。

2.4 kDSP-Miner 算法

現(xiàn)有的大多數(shù)對比模式挖掘算法在運行時需要用戶事先設定正例支持度閾值和負例支持度閾值,然而現(xiàn)實條件下很多情況并不沒有足夠的先驗知識,用戶缺乏參考難以設置合適的閾值條件,某些對比顯著的模式可能無法有效挖掘。為此,楊等人提出了kDSP-Miner 算法,目的是挖掘帶間隔約束的 top-k對比模式[13]。該算法不需要人為設定支持度閾值,只需設定期望得到的對比最顯著的模式個數(shù)就能完成有效挖掘。

kDSP-Miner 算法首先對數(shù)據(jù)集進行掃描并生成字母表,同步建立集合枚舉樹。算法以深度優(yōu)先的方式層層遍歷整個集合枚舉樹,逐步得到對比序列模式的候選集。然后對候選模式通過停止條件進行剪枝,在間隔約束為 γ 的條件下計算相應對比度,如果候選模式對比度小于已有 top-k 的對比度最小的模式則進行剪枝,否則將其作為新的參照模式進行下一輪比較,以此不斷進行遍歷,最終得到對比模式的集合。

kDSP-Miner 算法應用廣泛,為了滿足大規(guī)模數(shù)據(jù)挖掘的需求,有必要利用并行計算技術,設計并行挖掘算法,在 Spark 框架下利用 top-k 對比模式挖掘技術目前受到廣泛關注[14]。

3 對比模式挖掘的應用

3.1 采用對比模式進行分類

分類是數(shù)據(jù)挖掘領域的一個重要分支,可以用來抽取能夠描述重要數(shù)據(jù)集合的模型。由于數(shù)據(jù)的對比度模式包含區(qū)分類的信號,使用對比度模式來構建精確分類器受到眾多研究者的密切關注。一般來說,為了構建一個基于分類模型的對比模式,需要解決三個問題:分類決策的挖掘、選擇和評分策略。使用對比模式構建分類器的算法研究成效顯著,其中最具代表性的是 CBA 和 CAEP。

CBA 算法全稱 Classification base of Association,即基于關聯(lián)規(guī)則進行分類的算法,由 Liu 等人率先提出[15]。CBA 算法利用 Apriori 算法挖掘出關聯(lián)規(guī)則,然后做分類判斷,在某種程度上講,CBA 算法是一種集成挖掘算法。

在應用 CBA 算法時,首先給定一些預先知道的屬性,然后算法進行判斷分類得到相應的決策屬性。判斷的依據(jù)是 Apriori 算法挖掘出的頻繁項,如果一個項集中包含預先知道的屬性,同時也包含分類屬性值,然后計算此頻繁項,導出已知屬性值推出決策屬性值的關聯(lián)規(guī)則,如果滿足規(guī)則的最小置信度要求,那么可以把頻繁項中的決策屬性值作為最后的分類結果。

CBA 算法進行分類預測是相當可靠的,具有很高的準確度,但它使用類似 Apriori 的算法需要不斷迭代來產(chǎn)生大量的分類關聯(lián)規(guī)則,數(shù)據(jù)集需要進行重復掃描,對時間和主存空間都是一種極大的挑戰(zhàn)。

CAEP 算法全稱 Classification by Aggre- gate Emerging Patterns,即基于集成顯露模式進行分類,是由 Dong 和 Li 等人提出基于 EP 的分類算法[16]。EP 的支持度在不同類之間有明顯差異,但一個 EP通常僅僅能區(qū)分所有樣本中的一小部分。我們需要在(1 ≤ i ≤ K) 目標類中找到滿足支持度閾值和增長率閾值的所有 EPs,把除 類之外的所有樣本定義為非目標類。通過增長率和在目標類上的支持度來判斷每個 EP 的區(qū)分能力,記為 strength (X),具體表示如下。

CAEP 算法把在測試樣本中的所有 EP 的區(qū)分能力進行聚合,然后計算實例在每一個類上的得分,最后根據(jù)所得分數(shù)進行判斷其所屬類別。給定一個實例 S,從訓練數(shù)據(jù)集中挖掘屬于類 C 的 EPs集合 E(C),S 屬于類 C 的得分 score (S, C) 表示如下:

通過公式計算每個測試實例對于每個類的得分,分值最大的即為實例的歸屬類,以此實現(xiàn)分類。

CAEP 表現(xiàn)出很好的分類效果,是基于 EP 算法的有效沿用。它所采用思想方法在后續(xù)的 EP 分類算法研究中得到進一步推廣,如基于顯露模式的決策分類、基于顯露模式的貝葉斯分類、跳躍顯露模式分類等等,由于篇幅限制,這里不予詳細敘述。

對比模式在分類上有著明顯優(yōu)勢,它同時也可以用來改進傳統(tǒng)的分類器。比如可以與加權支持向量機(SVM) 構建集成的顯露模式,或者將顯露模式作為權重決策樹結構的一部分,還可以采用顯露模式擴展訓練數(shù)據(jù),提高稀有類的分類。這些應用在具體的實現(xiàn)中都有不錯的表現(xiàn)。

3.2 采用對比模式進行聚類

聚類分析涉及根據(jù)內(nèi)在特征或相似性對對象進行分組。傳統(tǒng)的聚類方法通常以距離函數(shù)來定義對象之間的相似性,并評估聚類的質(zhì)量。一般的聚類算法通常存在不穩(wěn)定性,它們所獲得的聚類結果對諸如數(shù)據(jù)中的微小擾動,訪問實例的順序以及算法參數(shù)的輕微變化等因素非常敏感。在先驗領域知識稀缺,或在高維數(shù)據(jù)中,一般的聚類方法難以收到有效結果。Dong提出了一種新的基于對比模式的聚類算法,用于在不依賴數(shù)據(jù)集先驗知識的前提下,從分類數(shù)據(jù)中發(fā)現(xiàn)高質(zhì)量的聚類[17]。這種算法有兩個明顯優(yōu)點:聚類時不需要距離函數(shù);CPC (基于對比模式的聚類) 和 CPCQ(基于聚類的聚類質(zhì)量指數(shù)) 可以發(fā)現(xiàn)小的高質(zhì)量的對比模式,以表明集群的潛在主題。聚類的對比度模式(CP) 在其歸屬集群中出現(xiàn)頻率遠高于在其他類型中的頻率,頻率的差異使得 CP 成為高度區(qū)分性的模式來描述其歸屬集群,并將該集群與其他集群區(qū)分開來。

基于對比模式的聚類算法 (CPC) 使用 CP 質(zhì)量、豐富度和多樣性等概念構建集群,確保每個集群擁有大量高質(zhì)量和多樣化的 CPs,同時確保進行劃分集群的 CPs 總數(shù)。這里引入相互模式質(zhì)量 (MPQ) 的概念,MPQ 的值被定義為給予其相互模式的某些權重的歸一化總和。對于給定的兩個對比模式,高 MPQ值表示兩個模式應屬于同一個集群,而低值表示它們應屬于不同的集群。當兩個元組多樣模式成為同一個集群的 CP 時,MPQ 主要測量可能成為 CP 的其他模式的數(shù)量 (豐富度) 和質(zhì)量。

CPC 算法從需要集群的數(shù)據(jù)集中挖掘的頻繁模式,使用 CP 的特性構建一個具有高 CPCQ 值的集群。CPCQ 指數(shù)旨在識別數(shù)據(jù)集中的高質(zhì)量集群,而不需要距離函數(shù)。高 CPCQ 聚類是指每個集群中具有多樣和高質(zhì)量的 CP 集群。每個 CP 的質(zhì)量根據(jù)它們的長度、支持度和它們相關的閉模式的長度來定義。為了計算聚類的 CPCQ 值,Liu 等人提出 CPCQ 增量分組 (CPCQ_IncGroup) 算法[18],主要分為兩步。第一步從給定聚類的集群中挖掘所有 CP 及其等價類,通過使用高效的 DPMiner 算法完成。第二步構建 N 個最高質(zhì)量的 CP 組,然后基于這些組計算 CPCQ 值。

CPCQ 指數(shù)克服了其他流行的數(shù)據(jù)聚類質(zhì)量指標的缺點,如基于距離的,基于熵的和基于頻繁項目的指標,它對大量或少量的聚類沒有任何偏好,也不要求用戶定義距離函數(shù)或提供領域知識,同時 CPCQ 指數(shù)也可以處理高維分類數(shù)據(jù)集。這項工作有許多潛在的擴展,包括將 CPCQ 指數(shù)擴展到混合數(shù)據(jù)類型和處理領域知識,以及在一種新的聚類算法中使用該指數(shù)來發(fā)現(xiàn)最優(yōu)的集群解決方案。

3.3 其他對比模式的應用

以下我們關注對比模式挖掘的其他幾種應用:

(1) 診斷基因組的識別。通過進行一系列基因表達實驗可以檢測與疾病密切相關的基因組,進而思考疾病治療的更有效方案?;蚪M中的每個基因在大多數(shù)同類樣本中的基因表達值分布在特定范圍內(nèi),在一類細胞中具有大的頻率,但在另一類細胞的這些范圍中從未一致地發(fā)現(xiàn)。Murphy 等人對基因組進行了分析,利用比較基因組學對一種新型害蟲的鑒別方法進行分子診斷,可以用來檢測果蠅的特征進化[19]。將這些表現(xiàn)特殊的基因組稱為顯露模式,以強調(diào)兩類細胞之間的模式頻率變化,接著使用有效的算法從這些基因中提取模式來獲得最具歧視性的基因。

(2) 博客社區(qū)的分析。博客為個人和社會團體表達意見并在感興趣的事項上相互交流提供了易于獲取的渠道。Dong 在文獻中提出博客社區(qū)中一個關注熱點可以對應于一個對比模式 (CP),為此使用“集群”術語看作博客社區(qū)的同義詞[20]。聚類集群數(shù)對應于博客社區(qū)的數(shù)量,CP 是指在一個集群的博客中比在其他集群中更頻繁地出現(xiàn)的模式。CPCQ 和 CPC 可以自動發(fā)現(xiàn)最近發(fā)布的博客動態(tài)集合,非常適合博客社區(qū)的動態(tài)特性。晏提出基于固定時間區(qū)間的 top-k 對比挖掘算法,可以讓用戶自定義時間區(qū)間,并獲得在此區(qū)間內(nèi)模式顯著變化的關注熱點[21]。

(3) 文本分類。文本分類是指按照事先所給的主題類型,為文檔集合中的每一個文檔確定一個所屬類型,有著重要的應用價值。程等人將對比模式挖掘技術應用于文本自動分類,結合基本顯露模式 (eEP) 在分類上的良好區(qū)分特性和基于最小期望風險代價的決策粗糙集模型,首先采用 eEP 分類方法獲得對比模式,接著利用相似性公式和語義相關度,計算得出文本相似性得分[22]。

(4) 圖像分類。文獻 [23] 提出將跳躍顯露模式(JEP) 應用于圖像分類的思想。圖像以符號,顏色和紋理為基礎被分割為多個圖塊,以捕獲足夠的信息來推理其底層內(nèi)容。這樣表示能夠發(fā)現(xiàn)在圖像數(shù)據(jù)庫中提議的發(fā)生次數(shù)的跳躍顯露模式 (occJEP),并完成基于模式的分類。在文獻 [24] 中,結合 CEP 所給出的頻繁閉顯露模型,提出一種新的圖特征提取方法,解決了 CEP 算法由于支持度閾值設置過低而導致的無法計算現(xiàn)象,大大提高了圖像分類效率。

(5) 子群發(fā)現(xiàn)與分析。子群發(fā)現(xiàn)能夠根據(jù)用戶感興趣的屬性條件,在數(shù)據(jù)集中找到統(tǒng)計明顯的子群。文獻 [25] 對于顯露模式挖掘和子群發(fā)現(xiàn)進行了詳細研究。提出顯露模式挖掘中使用的啟發(fā)式方法可以轉化為子群發(fā)現(xiàn)中使用的挖掘算法,其目的是在覆蓋和分配差異之間進行折衷。

(6) 離群概念發(fā)現(xiàn)。離群點檢測的目的是尋找一組與數(shù)據(jù)集中其他對象不一致或明顯偏離的對象。文獻 [26] 將基于互信息的特征選擇方法和基于密度的分數(shù)搜索方法結合,提出了 OA Rank 的方法,可以在大數(shù)據(jù)集上有效進行離群點的挖掘。

4 對比模式挖掘的研究展望

基于研究現(xiàn)狀,對接下來對比模式挖掘研究可以進行如下展望:

(1) 設計更為高效的挖掘算法。算法的好壞直接影響研究結果,高效的算法應該能夠在滿足給定的約束條件下獲得更為緊湊和高質(zhì)量的模式集。

(2) 深入理解對比模式。為了提高對比模式的可解釋性和可用性,深入理解對比模式相關語義含義尤為重要,獲得含有豐富語義的對比模式同時對于那些冗余的數(shù)據(jù)進行及時篩選,這樣能夠利用現(xiàn)有數(shù)據(jù)獲得更為科學的結論。

(3) 基于非結構化數(shù)據(jù)的對比模式。已有的對比模式研究都集中在結構化的數(shù)據(jù)處理上,而現(xiàn)實生活中有大量如聲音和影視等非結構化數(shù)據(jù),我們應該設計出更有效的算法擴展對比模式的應用領域,實現(xiàn)對非結構化數(shù)據(jù)的處理。

(4) 利用對比模式處理一些不確定和流數(shù)據(jù)環(huán)境下的數(shù)據(jù)。近來新興的不確定數(shù)據(jù)管理引起廣泛關注,與模糊顯露模式相比,基于不確定性數(shù)據(jù)挖掘的對比模式更為復雜。對于流數(shù)據(jù)的數(shù)據(jù)挖掘處理,時間和空間效率要得到足夠關注。

5 結語

本文簡要介紹了基于對比模式挖掘的研究現(xiàn)狀和未來方向。對比模式挖掘注重不同類別之間對象存在的差異性,通過分析比較得到新的未知信息。作為數(shù)據(jù)挖掘中的一個重要的新興領域,對比模式挖掘的研究已經(jīng)取得了豐碩成果,雖然仍有一些關鍵問題需要深入研究,但相信在不久的將來,問題一定會得到有效解決,這項技術的影響必定日趨深遠。

[1] 劉洲洲. 面向不平衡數(shù)據(jù)集的對比模式挖掘算法研究[D]. 長沙: 湖南大學, 2016.

[2] Agrawal R., Imielinski T., Swami A. Mining associa- tion rules between sets of items in large databases[C].SIGMOD ICMD,1993:207-216.

[3] Elaheh Alipour Chavary,Sarah M.Erfani,Christopher Leckie. Summarizing significant changes in network traffic using contrast pattern mining[C].the 2017 ACM,2017:2015-2018.

[4] X Tian,J Kong,T Zhu,H Xia. Discovering learning patterns of male and female students by contrast targeted rule mining [C].International Conference on Enterprise Systems,2017:196-202.

[5] Guozhu Dong,LI JinYan.Efficient Mining of emerging patterns:discovering trends and differences[C].the 5th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,1999:43-52.

[6] Bailey J,Manoukian T,Ramamohanarao K.A fast algor- ithm for computing hypergraph transversals and its application in mining emerging patterns [C].the Third IEEE International Conference on Data Mining, 2003:485-488.

[7] Loekito E,Bailey J.Fast mining of high dimensional expressive contrast patterns using zero-suppressed binary decision diagrams[C].the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006:307-316.

[8] Ji Xiaonan,Bailey J,Guozhu Dong. Mining minimal distinguishing subsequence patterns with gap constraints[J]. Knowledge and Information Systems,2007,11(3):259-286.

[9] 王慧鋒,段磊,左劼等.免預設間隔約束的對比序列模式高效挖掘[J].計算機學報,2016,39(10):1979-1991.

[10] 苗學連.間隙約束序列模式挖掘的對比研究[J].網(wǎng)絡安全技術與應用,2017,2(2):66-67.

[11] Wang Xianming,Duan Lei,Guozhu Dong, et a1. Ef fi- cient mining of density-aware distinguishing sequential patterns with gap constraints[J]. Springer,2014,8421:372-387.

[12] H Yang,L Duan,G Dong, et a1.Mining itemset-based distinguishing sequential patterns with gap constraint[C].International Conference on Database Systems for Advanced Applications, 2015: 39-54.

[13] 楊皓,段磊,胡斌等.帶間隔約束的Top—k對比序列模式挖掘[J].軟件學報,2015,26(11):2994-3009.

[14] 張鵬,段磊,秦攀等.基于Spark的top-k對比序列模式挖掘[J].計算機研究與發(fā)展,2017,54(7):1452-1464.

[15] Bing Liu,Wynne Hsu,Yiming Ma. Integrating classification and association rule mining[C]. International Conference on Knowledge Discovery and Data Mining,1998:80-86.

[16] Guozhu Dong,Xiuzhen Zhang,Limsoon Wong,Jinyan Li. CAEP:classification by aggregating emerging patterns[C]. International Conference on Disco- very Science,1999:30-42.

[17] Neil Fore,Guozhu Dong.CPC:A contrast pattern based clustering algorithm requiring no distance function[R].Wright State University: Department of Computer Science and Engineering,2011.

[18] Qingbao Liu,Guozhu Dong.CPCQ: Contrast pattern based clustering quality index for categorical data[J]. Pattern Recognition, 2012,45(4):1739-1748.

[19] KA Murphy,TR Unruh,LM Zhou,et a1.Using comparative genomics to develop a molecular diagnostic for the identification of an emerging pest Drosophila suzukii[J].Bulletin of Entomological Research, 2015,105(3): 364-372.

[20] Guozhu Dong,Neil Fore.Discovering dynamic logical blog communities based on their distinct interest profiles[C].The First International Conference on Social Eco-Informatics(SOTICS 2011),2011.

[21] 晏力.基于時序數(shù)據(jù)的top-k時間區(qū)間對比序列模式挖掘算法[J].現(xiàn)代計算機,2017,6(9):28-30.

[22] 程玉勝,梁輝,王一賓,黎康.基于風險決策的文本語義分類算法[J].計算機應用,2016,36(11):2963-2968.

[23] Kobyli, ski, ukasz, K Walczak. Jumping emerging patterns with occurrence count in image classifi- cation[C].International Conference on Knowledge Discovery and Data Mining,2008:904-909.

[24] 尹婷婷,劉俊焱等.基于動態(tài)抽樣的圖分類算法[J].南京師大學報(自然科學版),2015,38(1):113-118.

[25] Zengyou He,FeiyangGu,et a1. Conditional discriminative pattern mining[J].Information Sciences, 2017,375(3): 1-15.

[26] NX Vinh, J Chan, J Bailey, et a1. Scalable outlyinginlying aspects discovery via feature ranking[C]. IEEE International Symposium on Biomedical Imaging, 2015:182-185.

猜你喜歡
數(shù)據(jù)挖掘集群約束
“碳中和”約束下的路徑選擇
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
約束離散KP方程族的完全Virasoro對稱
海上小型無人機集群的反制裝備需求與應對之策研究
一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設計
電子制作(2018年11期)2018-08-04 03:25:40
Python與Spark集群在收費數(shù)據(jù)分析中的應用
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
勤快又呆萌的集群機器人
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
適當放手能讓孩子更好地自我約束
人生十六七(2015年6期)2015-02-28 13:08:38
高淳县| 台南县| 昭觉县| 洱源县| 德化县| 麻阳| 宜黄县| 乌兰县| 神农架林区| 桃源县| 丰镇市| 许昌县| 志丹县| 阜城县| 义马市| 开远市| 武清区| 云和县| 渝中区| 清原| 道真| 库尔勒市| 丹凤县| 色达县| 宜阳县| 珲春市| 克拉玛依市| 容城县| 楚雄市| 黎川县| 达孜县| 方正县| 河池市| 涿州市| 郑州市| 田东县| 萨迦县| 正蓝旗| 鹰潭市| 淄博市| 宝丰县|