国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用詞嵌入模型實現(xiàn)基于網(wǎng)站訪問日志的專利聚類研究

2018-05-15 10:17文奕陳文杰張鑫楊寧趙爽
現(xiàn)代情報 2018年4期
關(guān)鍵詞:深度學(xué)習(xí)專利聚類

文奕 陳文杰 張鑫 楊寧 趙爽

〔摘 要〕[目的/意義]專利信息是人類科學(xué)技術(shù)進(jìn)步的結(jié)晶,隨著社會的發(fā)展,專利信息將為促進(jìn)科技創(chuàng)新發(fā)揮日益重要的作用。利用聚類技術(shù)可以將海量專利信息進(jìn)行自動分類,在實現(xiàn)信息有序歸并管理的同時,有助于用戶高效而全面的獲取相關(guān)技術(shù)領(lǐng)域中的集成專利信息,具有重要的現(xiàn)實意義,傳統(tǒng)聚類研究方法效率與準(zhǔn)確度存在不足。[方法/過程]本文通過對專利信息服務(wù)網(wǎng)站(中國科學(xué)院知識產(chǎn)權(quán)網(wǎng))訪問日志數(shù)據(jù)的清洗與分析,生成專利信息點擊序列,基于深度學(xué)習(xí)詞嵌入模型,設(shè)計了PatentFreq2Vec模型,計算得出專利關(guān)聯(lián)信息。[結(jié)果/結(jié)論]利用PatentFreq2Vec模型分析計算訪問日志數(shù)據(jù),能夠得到關(guān)聯(lián)專利信息,實現(xiàn)專利聚類,且聚類準(zhǔn)確度高于傳統(tǒng)方法。

〔關(guān)鍵詞〕專利;聚類;深度學(xué)習(xí);詞嵌入;訪問日志

DOI:10.3969/j.issn.1008-0821.2018.04.016

〔中圖分類號〕G202 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2018)04-0112-06

〔Abstract〕[Purpose/Significance]Patent information is the fruit of the progress of science and technology.With the development of society,patent information will play an increasingly important role in promoting scientific and technological innovation.Through patent clustering analysis,it is possible to aggregate isolated information according to different aggregation degree,so that they can be transformed from ordinary information to valuable Patent Competitive intelligence.The traditional clustering methods have some efficiency and accuracy problems.[Method/Process]Based on cleaning and analysis access log data of the patent information service website (Intellectual property network of the Chinese Academy of Sciences),the sequence data of patent clicking were generated and input into the PatentFreq2Vec model based on word embedding to obtaine patent related information with the learning algorithm.[Result/Conclusion]This could cluster the patents and improve accuracy of the patent clustering.

〔Key words〕patent;clustering;deep learning;Word Embedding;access log

以專利文獻(xiàn)為主的專利信息是人類科學(xué)技術(shù)進(jìn)步的結(jié)晶。隨著經(jīng)濟全球化快速發(fā)展,知識經(jīng)濟迅猛崛起,尤其是隨著我國“雙創(chuàng)”活動全面開展,專利信息將為促進(jìn)科技創(chuàng)新以及社會發(fā)展發(fā)揮重要作用,世界各國每年發(fā)布與出版大量專利文獻(xiàn)信息[1],近年來專利信息及其關(guān)聯(lián)資源更呈現(xiàn)爆炸式增長,如何有效的組織管理海量專利信息,幫助用戶精準(zhǔn)把握專利技術(shù)內(nèi)涵,提高專利技術(shù)信息的利用率,是文本信息處理領(lǐng)域的重要研究方向之一[2]。專利聚類是專利文獻(xiàn)信息分析的重要方法,但現(xiàn)有方法在準(zhǔn)確性與效率方面存在不足。近年來,隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,諸多算法與工具在專利文獻(xiàn)分析中發(fā)揮日益重要的作用。

1 專利聚類

1.1 專利聚類的重要性

專利信息分析的主要目的是通過對數(shù)據(jù)信息的有效整合管理,利用技術(shù)分析手段,將海量分散的信息按照一定的規(guī)則進(jìn)行有序組織、過濾與匯集,對其技術(shù)內(nèi)涵進(jìn)行挖掘與凸顯,將普通的專利文獻(xiàn)信息轉(zhuǎn)化為有價值的專利技術(shù)情報,根據(jù)這些情報可以從技術(shù)分布、交叉、演化等角度揭示機構(gòu)專利布局及所處地位、核心專利權(quán)人、合作網(wǎng)絡(luò)等綜合信息,從而研判分析企業(yè)、研究所、高校、地區(qū)或國家在產(chǎn)業(yè)技術(shù)領(lǐng)域的重點發(fā)展方向,洞察主要競爭對手的技術(shù)組合、研發(fā)、投資動向,避開專利技術(shù)壁壘,制定專利研發(fā)戰(zhàn)略[3],在專利技術(shù)競爭中取得先機。

利用聚類技術(shù)可以將海量專利信息進(jìn)行自動分類,在實現(xiàn)信息有序歸并管理的同時,處于同一類別中的專利往往在技術(shù)上存在高度關(guān)聯(lián),有助于用戶高效而全面的獲取相關(guān)技術(shù)領(lǐng)域中的集成專利信息。這不僅能適應(yīng)專利信息數(shù)據(jù)的快速增長,也能顯著提高專利分析的效率與準(zhǔn)確性,具有重要的現(xiàn)實意義[4]。

1.2 專利聚類常用方法及存在的不足

專利文本聚類的首要問題是文本數(shù)據(jù)的數(shù)學(xué)模型表示。常用的聚類方法包括K-Means、LDA等。

K-Means首先由MacQueent[5]提出,該算法認(rèn)為文本聚類是由向量空間上距離相近的文本對象組成的,完美的聚類應(yīng)該是得到高度接近且與其他類相分離的文本對象集。其優(yōu)點主要表現(xiàn)在算法快速而又簡單,計算復(fù)雜度較低,時間復(fù)雜度與文檔數(shù)量成線性關(guān)系,因此計算效率較高,適合挖掘大規(guī)模數(shù)據(jù)集。而且它伸縮性較強,隨著數(shù)據(jù)集的增長,它體現(xiàn)較強的適應(yīng)性,因此K-Means在大數(shù)據(jù)聚類中被廣泛使用,很多聚類研究都是以K-Means為基礎(chǔ)根據(jù)研究需要進(jìn)行相應(yīng)改進(jìn)而開展的。

LDA(Latent Dirichlet Allocation)主題模型由Blei等于2003年提出,它可以訓(xùn)練計算文檔集中每篇文檔的主題概率分布,當(dāng)給定一個文檔集時,它可以計算抽取文檔的主題,并可根據(jù)主題分布實現(xiàn)主題聚類或文本分類。LDA的基本原理是將文本信息從詞匯空間的分布變換到主題空間的分布,顯而易見主題數(shù)量遠(yuǎn)低于詞匯數(shù)量,從而達(dá)到文本信息在向量空間表示上降維的效果,解決維數(shù)災(zāi)難問題[6]。

總的來說,目前多數(shù)文本聚類算法的數(shù)學(xué)基礎(chǔ)都是向量空間模型,類似的文本表示方法較為簡單且容易理解,在文本信息降維方面效果較好,但高維稀疏的問題卻難以避免,同時由于文獻(xiàn)在向量空間表達(dá)時,文本特征的空間維數(shù)很高,導(dǎo)致聚類算法時間開銷大,文本聚類算法性能下降,效率和準(zhǔn)確性受到較大影響。

2 利用PatentFreq2Vec實現(xiàn)專利聚類

本文提出利用PatentFreq2Vec模型結(jié)合網(wǎng)站訪問日志數(shù)據(jù)進(jìn)行分析與處理,借鑒了Word2Vec詞嵌入式模型的思想,實現(xiàn)專利聚類,當(dāng)用戶訪問專利數(shù)據(jù)時,利用聚類信息即可向用戶精準(zhǔn)推送專利關(guān)聯(lián)信息,幫助用戶全面獲取其所關(guān)心的技術(shù)領(lǐng)域的專利信息。

2.1 Word2Vec

Word2Vec是Google在2013年發(fā)布的一個工具包,利用神經(jīng)網(wǎng)絡(luò)為單詞尋找一個連續(xù)向量空間中的表示。它是一種深度學(xué)習(xí)模型,基于人工神經(jīng)網(wǎng)絡(luò),利用遞歸處理模式,通過復(fù)合多層感知機將初始設(shè)定的底層特征組合為更抽象更準(zhǔn)確的高層特征,并將高層特征用于普通的機器學(xué)習(xí)方法以得到更好的效果[8]。Word2Vec的核心是矩陣分解,簡單地說,矩陣表達(dá)了每個詞和其上下文的詞的集合的相關(guān)關(guān)聯(lián)信息。對這個矩陣進(jìn)行分解,只取每個詞對應(yīng)在隱含空間的向量,通過對詞向量空間中的向量運算,向量空間上的相似度可以用來表示單詞語義上的相似度。Word2Vec主要采用連續(xù)詞袋模型[7](Continuous Bag-of-Words,CBOW)以及Skip-Gram[8]模型。從圖1可以看到CBOW模型的目的是通過上下文預(yù)測當(dāng)前詞匯出現(xiàn)的概率,而Skip-Gram是通過給定的當(dāng)前詞匯來預(yù)測上下文[9]。

利用Word2Vec對文本數(shù)據(jù)進(jìn)行訓(xùn)練,并結(jié)合訓(xùn)練集利用余弦向量值即可以對關(guān)鍵詞進(jìn)行近義詞計算,表1是利用Word2Vec進(jìn)行近義詞聚類的示例。

Word2Vec在近義詞聚類上有非常明顯的效果,國內(nèi)外論文中有很多對比實驗。如Mikolov在利用Word2Vec進(jìn)行的實驗結(jié)果表明,利用詞向量作為初始值替代隨機設(shè)定的初始值,實驗效果有較顯著的提升(識別命名實體的準(zhǔn)確率從81.47%提升到88.67%,標(biāo)注詞性的準(zhǔn)確率從96.37%提升到97.20%)。同時諸多試驗都表明測試效果與語料集的規(guī)模成正比,語料集數(shù)據(jù)規(guī)模越大,Word2Vec測試效果越好[10]。

由上可見,Word2Vec具有堅實的數(shù)學(xué)基礎(chǔ),是深度學(xué)習(xí)算法在文本處理上的典型應(yīng)用,在近義詞計算上也表現(xiàn)出優(yōu)異的性能。但Word2Vec并不是只能用于近義詞計算,作為一個算法模型,只要提供符合輸入格式的數(shù)據(jù),Word2Vec可計算出相應(yīng)的輸出結(jié)果,通過對計算結(jié)果進(jìn)行專業(yè)解讀,可以實現(xiàn)Word2Vec在不同領(lǐng)域的應(yīng)用。歸納來說,只要符合以下特征即可以利用Word2Vec進(jìn)行數(shù)據(jù)模型構(gòu)建計算:

特征1:數(shù)據(jù)量應(yīng)具備一定的規(guī)模,從理論上來說,數(shù)據(jù)量越大,Word2Vec的效果越好;

特征2:可以將數(shù)據(jù)表示成以行為單位的數(shù)據(jù)序列,單行數(shù)據(jù)由若干數(shù)據(jù)單元組成,數(shù)據(jù)單元間具有前后關(guān)聯(lián)規(guī)則約束;

特征3:數(shù)據(jù)單元會在數(shù)據(jù)集中頻繁復(fù)用,復(fù)用頻率越高,Word2Vec效果越好。

2.2 利用詞嵌入模型的訪問日志關(guān)聯(lián)分析

通過對Word2Vec的輸入文本數(shù)據(jù)接口進(jìn)行分析,可以發(fā)現(xiàn)其格式可表示為如表2所示。

每1行表示1篇文獻(xiàn)由若干個詞組成,若干篇文獻(xiàn)構(gòu)成一個輸入數(shù)據(jù),上下文單詞序列具有明顯的有方向的語義關(guān)聯(lián)性。如果有其他的應(yīng)用情景,能夠?qū)?shù)據(jù)輸入格式表示成類似的結(jié)構(gòu),那么也可以構(gòu)造相應(yīng)的詞嵌入模型來進(jìn)行訓(xùn)練與計算,得到相應(yīng)的輸入結(jié)果。Paragraph2vec、Sentence2vec,Doc2vec等模型是其中一些代表,在相應(yīng)的到文本分析任務(wù)中也取得了很好的效果。

網(wǎng)站的訪問日志適合利用類似Word2Vec的詞嵌入模型進(jìn)行計算分析,以中國科學(xué)院知識產(chǎn)權(quán)網(wǎng)為例:1)該網(wǎng)站集成了中國科學(xué)院眾多專利信息,用戶訪問量較大,中國科學(xué)院專利信息具有較高的社會關(guān)注度,每年生成海量的用戶訪問日志,如此規(guī)模的數(shù)據(jù)集更能夠避免樣本不足造成的Word2Vec計算結(jié)果不準(zhǔn)確,使得計算結(jié)果具備更高的準(zhǔn)確性與可信性;2)用戶對知識產(chǎn)權(quán)網(wǎng)進(jìn)行訪問時帶有較強的目的性,更可能對同一類型的專利具有較高的興趣,在某一時間段內(nèi)連續(xù)點擊的專利很可能具有相應(yīng)的關(guān)聯(lián),而且當(dāng)前點擊的專利很大程度上會影響用戶對下一條專利的選擇,這使得整個點擊過程具有時序性和關(guān)聯(lián)規(guī)則,可以將訪問日志表示為以單個專利為行為數(shù)據(jù)的序列;3)同一條專利會出現(xiàn)在不同用戶的訪問序列中,重復(fù)率較高。所有這些特征表明可以利用詞嵌入模型對網(wǎng)站訪問統(tǒng)計日志進(jìn)行計算分析,為每一條專利計算分析出相似度高的關(guān)聯(lián)專利,從而實現(xiàn)專利數(shù)據(jù)的聚類。

2.3 對專利關(guān)聯(lián)序列進(jìn)行處理挖掘

由于用戶對專利信息的點擊在具有目的性的同時,也帶有一定的隨意性,這會造成最終得到的關(guān)聯(lián)專利序列具有較多的噪音,為提高數(shù)據(jù)分析處理的準(zhǔn)確性,可利用頻繁序列模式挖掘算法對數(shù)據(jù)結(jié)果進(jìn)行進(jìn)一步處理,頻繁序列模式挖掘(Sequence Pattern Mining,SPM)是指從序列數(shù)據(jù)庫中尋找頻繁子序列作為模式的知識發(fā)現(xiàn)過程[11]。其基本思路是給予若干有順序的輸入序列,預(yù)設(shè)規(guī)定閾值,在輸入序列中尋找出現(xiàn)次數(shù)大于閾值的序列子串。序列模式挖掘最早由Agrawal等人提出,通過多年來不斷的完善與發(fā)展,其已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的重要研究課題之一,性能良好的序列模式挖掘算法不斷被研究者提出。

序列模式挖掘算法主要分為

1)基于Apriori特征的算法,如AprioriAll,GSP算法[12]等;

2)基于垂直格式的算法,如SPADE算法[13],SPAN算法[14]等

3)基于投影數(shù)據(jù)的算法,如FreeSpan算法[15]和PrefixSpan算法[16]等等。

4)基于內(nèi)存索引的算法和其他算法等。

基于投影數(shù)據(jù)的算法是將已經(jīng)發(fā)現(xiàn)的頻繁序列作為起始數(shù)據(jù)集,在更小的投影數(shù)據(jù)庫上將其遞歸投影,并在投影數(shù)據(jù)庫中繼續(xù)計算子序列,最后將得到的序列進(jìn)行拼接,從而獲取完整序列模式。由于一個頻繁子序列的前綴序列肯定是頻繁子序列,因此PrefixSpan算法可以根據(jù)頻繁前綴構(gòu)造投影數(shù)據(jù)庫。投影算法可以避免反復(fù)掃描整個數(shù)據(jù)集的次數(shù),極大減少了時間開銷,效率較高,故本文采用投影算法進(jìn)行頻繁序列挖掘。

3 實證研究

3.1 系統(tǒng)架構(gòu)

綜合詞嵌入模型與頻繁序列挖掘算法,我們設(shè)計PatentFreq2Vec模型用于基于網(wǎng)站訪問日志的專利聚類,PatentFreq2Vec模型的整體處理流程如圖2所示。

3.2 研究流程

3.2.1 數(shù)據(jù)清洗、處理

數(shù)據(jù)源選擇:我們選擇中國科學(xué)院知識產(chǎn)權(quán)網(wǎng)2011-2016年5年的網(wǎng)站訪問統(tǒng)計數(shù)據(jù)作為數(shù)據(jù)源,由于訪問統(tǒng)計數(shù)據(jù)會包含網(wǎng)站所有數(shù)據(jù)對象,而我們只關(guān)注專利的被點擊情況,因此需要對數(shù)據(jù)進(jìn)行清洗,經(jīng)過清洗后,得到500萬條具體專利的訪問點擊數(shù)據(jù)。

數(shù)據(jù)處理:數(shù)據(jù)清洗完成后,需要將數(shù)據(jù)處理為詞嵌入模型的輸入格式,我們的處理規(guī)范如下。

規(guī)范1:每一個IP在某一時間段內(nèi)對專利的點擊序列作為一條數(shù)據(jù);

規(guī)范2:點擊序列按照用戶的點擊次序順序排列;

規(guī)范3:一個點擊序列點擊次數(shù)至少為5次;

考慮到有很多爬蟲程序?qū)W(wǎng)站數(shù)據(jù)進(jìn)行自動抓取,而這部分非瀏覽器訪問數(shù)據(jù)對于試驗結(jié)果的影響較大,容易導(dǎo)致試驗結(jié)果失真,因此我們以頁面停留時間作為篩選條件,將頁面停留時間少于10秒的訪問數(shù)據(jù)剔除。

3.2.2 生成訓(xùn)練集

本文基于Spark的MLib工具包,基于Word2Vec實現(xiàn)了PatentFreq2Vec模型算法程序。模型提供多個參數(shù)選擇,具體如表4所示:

本文的技術(shù)模式是通過給定專利來預(yù)測關(guān)聯(lián)專利,因此選擇Skip-Gram算法來進(jìn)行訓(xùn)練與計算。

3.2.3 利用訓(xùn)練集為每條專利計算關(guān)聯(lián)專利序列

訓(xùn)練集生成后,即可計算出每一條專利的近似關(guān)聯(lián)專利,實現(xiàn)專利聚類,計算結(jié)果如表5所示,可以看出,計算結(jié)果中尤其是概率較高的關(guān)聯(lián)專利,都與目標(biāo)專利表現(xiàn)出較強的關(guān)聯(lián)性。

3.2.4 對關(guān)聯(lián)專利序列進(jìn)行進(jìn)一步分析處理

我們選取Spark的MLlib工具包中集成的PrefixSpan算法進(jìn)行進(jìn)一步處理,PrefixSpan算法包含3個參數(shù):

·minSupport:最小支持度,序列最小出現(xiàn)次數(shù)占輸入序列總數(shù)的比例

·maxPatternLength:最大序列長度。

·maxLocalProjDBSize:投影數(shù)據(jù)庫局部迭代開始之前,前綴投影數(shù)據(jù)庫最大容量。

由于輸入序列長度一致,且序列長度比較短,故實驗中取maxPatternLength為輸入序列長度為20.分別取最小支持度minSupport為0.001,0.0015,0.002,(即序列最小出現(xiàn)次數(shù)分別取50,75,100)得到高頻序列結(jié)果。

3.2.5 研究結(jié)果

實驗結(jié)果采用經(jīng)典的平均準(zhǔn)確率(AP)和(MAP)指標(biāo)來進(jìn)行評價。AP表示對每條專利進(jìn)行關(guān)聯(lián)查詢獲得首個結(jié)果中有關(guān)聯(lián)的專利的平均百分比,而MAP指標(biāo)則表示對每條專利進(jìn)行關(guān)聯(lián)查詢獲得前5個結(jié)果中有關(guān)聯(lián)的專利的平均百分比,測試值越高模型相對越準(zhǔn)確。實驗將K-MEANS、LDA的測試結(jié)果與本文方法進(jìn)行比較,每組實驗取10次計算平均值。結(jié)果如表6所示。

由表6可知,PatentFreq2Vec和其他的方法相比,AP和MAP均有一定的提高,這說明將用戶對專利的點擊序列模擬為PatentFreq2Vec的輸入數(shù)據(jù)集,通過PatentFreq2Vec進(jìn)行詞向量相關(guān)度計算后,可以挖掘出隱含的專利關(guān)聯(lián)信息,效果較好有三方面原因:一是因為詞嵌入模型具有堅實的數(shù)學(xué)基礎(chǔ),可以通過詞向量上下文關(guān)系進(jìn)行出現(xiàn)概率的迭代計算,從而分析出高相關(guān)度的關(guān)聯(lián)專利;二是因為訪問日志中用戶對于專利的點擊序列與詞嵌入模型的文本單詞序列高度相似,可以將同一用戶的訪問序列類比為文檔,以專利序列類比文檔中的單詞序列,采用基于Skip-Gram的詞嵌入模型進(jìn)行訓(xùn)練,加之頻繁序列發(fā)現(xiàn)算法進(jìn)行去噪聲,保證了計算結(jié)果的準(zhǔn)確性;三是中國科學(xué)院知識產(chǎn)權(quán)網(wǎng)用戶訪問量較大,可以得到較大規(guī)模的用戶對專利信息的點擊序列,保證算法的收斂性和有效性,這也是詞嵌入模型成功應(yīng)用的必要條件。

4 結(jié) 語

詞嵌入模型是深度學(xué)習(xí)算法在文本處理方面應(yīng)用的一個典范,利用Word2Vec對海量文本數(shù)據(jù)進(jìn)行處理,可以實現(xiàn)較高準(zhǔn)確率的關(guān)鍵詞聚類與關(guān)聯(lián)發(fā)現(xiàn),本文通過對詞嵌入模型原理及功能的深入學(xué)習(xí),將用戶對專利信息的點擊序列為樣本,設(shè)計了PatentFreq2Vec模型,再通過頻繁序列模式挖掘,取得了較好的專利聚類效果,拓展了詞嵌入模型的應(yīng)用范圍,具有較好的意義,未來將進(jìn)一步研究深度學(xué)習(xí)方法在用戶點擊序列與專利信息關(guān)鍵詞聚類上的綜合應(yīng)用。

參考文獻(xiàn)

[1]林偉峰,丁海暉.試論專利信息的作用[J].圖書情報導(dǎo)刊,2004,14(3):14-15

[2]徐曉明.專利文本聚類及關(guān)鍵短語抽取的研究[D].沈陽:東北大學(xué),2011.

[3]徐丹丹.專利文本聚類分析及可視化研究[D].南京:南京理工大學(xué),2009.

[4]羅璇.基于數(shù)據(jù)挖掘技術(shù)的專利信息分析及應(yīng)用研究[D].北京:首都經(jīng)濟貿(mào)易大學(xué),2011.

[5]MacQueen J.Some Methods for Classifi Cation and Analysisof Multivariate Observations[C].Proceedings of 5th Berkeley Symposium on Mathematics.Statistics and Science,1967:281-296.

[6]范宇,符紅光,文奕.基于LDA模型的專利信息聚類技術(shù)[J].計算機應(yīng)用,2013,33(S1):87-89,93.

[7]Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean.Efficient Estimation of Word Representations in Vector Space[C].In Proceedings of Workshop at ICLR,2013.

[8]Tomas Mikolov,Ilya Sutskever,Kai Chen,Greg Corrado,and Jeffrey Dean.Distributed Representations of Words and Phrases and their Compositionality[C].In Proceedings of NIPS,2013.

[9]寧建飛,劉降珍.融合Word2vec與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2016,(6):20-27.

[10]Mikolov,Tomas,Wen-tau Yih,and Geoffrey Zweig.Linguistic Regularities in Continuous Space Word Representations[C].Proceedings of NAACL-HLT,2013.

[11]王虎,丁世飛.序列模式挖掘研究與發(fā)展[J].計算機科學(xué),2009,(12):14-17.

[12]Agrawal R,Srikant R.Mining Sequential Pattern[C].Proc.of the 11th International Conference on Data Engineering,1995.

[13]Srikant R,Agrawal R.Miningsequential Patterns:Generaliza-Tions and Performance Improvements[C].Proceedings of the 5th In-Ternational Conference on Extending Database Technology,1996.

[14]Sui Yi,Shao Fengjing,Sun Rencheng,et al.Asequential Pattern Mining Algorithmbased on Improved FP-Tree[C].Proceedings of 9th ACIS Int.and SNPD 2008,2008.

[15]Hsieh Chia-Ying,Yang Don-Lin,Wu Jungpin.An Efficient Sequential Pattern Mining Algorithm Based on the 2-Sequence Matrix[C].Proceedings of IEEE International Conference on Data Mi-ning Workshops,ICDM Workshops 2008,2008.

[16]Xifeng Yan,Jiawei Han,Ramin Afshar.CloSpan:Mining Closed Sequential Pattens in Large Databases[C]. SIAM International Conference on Data Mining, 2003.

(責(zé)任編輯:孫國雷)

猜你喜歡
深度學(xué)習(xí)專利聚類
專利
發(fā)明與專利
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
專利
節(jié)能——環(huán)?!獙@?/a>
合川市| 青田县| 新干县| 大邑县| 上饶县| 敖汉旗| 永州市| 寿宁县| 密山市| 兴海县| 交口县| 亳州市| 红原县| 遂宁市| 定边县| 翁牛特旗| 黄石市| 咸丰县| 凤凰县| 定安县| 桂平市| 仙游县| 临猗县| 福泉市| 宁化县| 承德市| 隆林| 瓮安县| 拜泉县| 正定县| 蒙自县| 霍邱县| 平塘县| 五常市| 炎陵县| 武山县| 襄城县| 阆中市| 玉溪市| 永平县| 冕宁县|