国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隱馬爾科夫模型應(yīng)用領(lǐng)域、熱點及趨勢分析

2015-07-21 00:43:22張璇周峰
現(xiàn)代商貿(mào)工業(yè) 2015年15期
關(guān)鍵詞:可視化分析

張璇 周峰

摘 要:隨著隱馬爾科夫模型相關(guān)理論的進(jìn)步,在許多領(lǐng)域出現(xiàn)了大量的關(guān)于隱馬爾科夫模型應(yīng)用的文獻(xiàn)。為厘清國內(nèi)外對隱馬爾科夫模型的研究軌跡,以Web of Science(SCI)中收錄的2005-2014年間關(guān)于隱馬爾科夫模型的應(yīng)用文獻(xiàn)為數(shù)據(jù)源,利用CiteSpace II對所收集的2826篇研究文獻(xiàn)進(jìn)行可視化分析,使用圖譜的形式展示結(jié)果,客觀全面地分析隱馬爾科夫模型的應(yīng)用領(lǐng)域、研究熱點和發(fā)展趨勢。同時,探究其主要研究國家與研究機(jī)構(gòu)的分布情況,期望能對進(jìn)一步研究和發(fā)展隱馬爾科夫模型提供一定的借鑒作用。

關(guān)鍵詞:CiteSpace II;可視化分析;隱馬爾科夫模型;熱點應(yīng)用領(lǐng)域

中圖分類號:F27

文獻(xiàn)標(biāo)識碼:A

文章編號:1672-3198(2015)15-0063-03

1 引言

隱馬爾科夫模型是一種重要的統(tǒng)計分析模型。其具有雙重隨機(jī)過程,分別由一條隱藏狀態(tài)的馬爾科夫鏈和描述每個狀態(tài)對應(yīng)觀測值的隨機(jī)過程組成。近幾十年來,隱馬爾科夫模型被廣泛地應(yīng)用于各領(lǐng)域中,比如語音識別、生物學(xué)、控制、雷達(dá)故障檢測和計算機(jī)視覺等。隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)與金融相互融合,隱馬爾科夫模型在海量金融數(shù)據(jù)中的應(yīng)用也受到了人們的關(guān)注。因此,了解其演進(jìn)情況和發(fā)展趨勢,把握當(dāng)前的應(yīng)用熱點,對深入研究有著重要的意義。

美國Drexel大學(xué)華人學(xué)者陳超美教授基于JAVA平臺開發(fā)了信息可視化軟件CiteSpace II,通過對科學(xué)文獻(xiàn)題錄數(shù)據(jù)的分析與處理,繪制出知識圖譜能夠顯示一個學(xué)科或知識域在一定時期發(fā)展的趨勢和動向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。目前,關(guān)于隱馬爾科夫模型應(yīng)用進(jìn)展的文獻(xiàn)綜述較少。在這樣的背景下,本文整理和分析了相關(guān)的研究文獻(xiàn),厘清了國內(nèi)外對隱馬爾科夫模型應(yīng)用研究的演進(jìn)軌跡。并利用信息可視化分析軟件CiteSpace II對近十年的研究文獻(xiàn)進(jìn)行了詳細(xì)的分析和處理,用圖像展示了隱馬爾科夫模型的應(yīng)用領(lǐng)域,用圖譜的形式顯示了隱馬爾科夫模型的應(yīng)用熱點和演化趨勢。最后,探討了隱馬爾科夫模型的主要研究國家和研究機(jī)構(gòu)。

2 國內(nèi)外的研究進(jìn)展

Baum和Petrie(1966)提出隱馬爾科夫模型(Hidden Markov Model),他們介紹了該模型的一些統(tǒng)計性質(zhì),但并未稱其為隱馬爾科夫模型,而是馬爾科夫鏈的概率函數(shù)。隱馬爾科夫模型最早應(yīng)用于語言識別領(lǐng)域中,Raviv(1967)研究了相關(guān)問題,并給出馬氏依賴假設(shè)下的最優(yōu)決策規(guī)則。它主要使用馬爾科夫鏈的狀態(tài)表示語言的字符。接著,他進(jìn)行了一系列的實驗,并給出每次實驗識別系統(tǒng)的字符錯誤率。除了自然語言領(lǐng)域,隱馬爾科夫模型也可用來分析生命現(xiàn)象,Nielsen、Lundegaard和Worning(2003)等人將隱馬爾科夫模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合,預(yù)測丙型肝炎病毒的基因組中T細(xì)胞表位,以指導(dǎo)疫苗設(shè)計的過程。

接下來,總結(jié)一下近五年應(yīng)用隱馬爾科夫模型的情況,主要是介紹一些被引用較多的研究成果。Conn和Cooch(2009)應(yīng)用了隱馬爾科夫模型架構(gòu)下的捕獲-再捕獲模型在疾病研究當(dāng)中。使用馬爾科夫鏈表示未知的疾病狀態(tài),使得參數(shù)估計精度大大提高了。Reddy、Mun和Burke(2010)等人運(yùn)用隱馬爾科夫模型創(chuàng)造了一個交通方式識別系統(tǒng)。通過手機(jī)數(shù)據(jù)分析使用者所處的狀態(tài),并對16個手機(jī)使用者進(jìn)行實驗。Sikorsa、Hodkiewicz和Ma(2011)討論了多種模型在預(yù)測工業(yè)設(shè)備剩余使用壽命中的應(yīng)用,文中說明隱馬爾科夫模型能較好地運(yùn)用于設(shè)備的監(jiān)測和預(yù)測中,但是計算過程較復(fù)雜。

近幾十年,國內(nèi)學(xué)者在已有研究成果的基礎(chǔ)上,對模型進(jìn)行了改進(jìn)并具體說明了其在實際當(dāng)中的應(yīng)用。應(yīng)用領(lǐng)域與國外類似,主要是集中在語音和行為識別、分子生物、故障診斷、圖像處理和經(jīng)濟(jì)等領(lǐng)域。馬寶山和朱義勝(2008)將隱馬爾科夫模型與前向算法結(jié)合,提出一種新的參數(shù)優(yōu)化算法,大大降低了傳統(tǒng)EM算法的計算量。仿真結(jié)果表明新算法對外顯子位置的預(yù)測是準(zhǔn)確的,能更好地從DNA序列中識別蛋白質(zhì)編碼區(qū)。隱馬爾科夫模型也常用于入侵檢測的研究中,模型的雙重隨機(jī)過程剛好適合描述該網(wǎng)絡(luò)行為。劉宗禮和孔祥才(2007)使用一條馬爾科夫鏈來描述網(wǎng)絡(luò)中的正常行為和異常狀態(tài),建立了一個基于隱馬爾科夫模型的入侵檢測模型。但是現(xiàn)實系統(tǒng)并不能完全滿足馬爾科夫的條件,閆新娟、譚敏生和嚴(yán)亞周(2012)等人在此基礎(chǔ)上改進(jìn),把隱馬爾科夫模型的輸出作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出即為最終結(jié)果,使用混合的檢測方法,具有更低的誤報率和漏報率。

隱馬爾科夫模型在文字、圖像和行為識別方面的應(yīng)用,研究文獻(xiàn)已經(jīng)有許多。朱旭東和劉志鏡(2012)將模型運(yùn)用于通過監(jiān)控視頻識別人體異常行為,結(jié)合層次建模和時序建模,聚類運(yùn)動詞匯為簡單動作,聚類簡單動作為全局復(fù)雜行為,彌補(bǔ)過往方法精度和計算效率的不足。近年來,隱馬爾科夫模型在經(jīng)濟(jì)、金融等新興領(lǐng)域的應(yīng)用也越來越多。任曉濤、滕陽春和劉達(dá)(2010)使用該模型較好地分析居民消費價格指數(shù)的變動規(guī)律,對我國宏觀經(jīng)濟(jì)的預(yù)測有一定的指導(dǎo)意義。黃曉彬、王春峰和房振明(2012)等人對中國股市進(jìn)行信息探測,使用貝葉斯和馬爾科夫鏈蒙特卡洛的方法,驗證了該模型對市場信息的識別能力較強(qiáng)。

3 基于CiteSpace II的可視化分析

3.1 數(shù)據(jù)來源與處理

本文研究數(shù)據(jù)來源于Web of Science(SCI),時間跨度選擇所有年份,檢索關(guān)鍵詞為“the application of hidden markov model”,共計2826條記錄符合條件。數(shù)據(jù)導(dǎo)出方式選擇“全紀(jì)錄并包含所引用的參考文獻(xiàn)”,數(shù)據(jù)下載日期為2014年10月。

3.2 隱馬爾科夫模型應(yīng)用領(lǐng)域共被引分析

將數(shù)據(jù)導(dǎo)入CiteSpace II中后,設(shè)置時間范圍為2005-2014年,時間跨度為1年,設(shè)置N(每個分區(qū)中提取的被引次數(shù)最高的文獻(xiàn)數(shù))為30,c、cc和ccv(c為最低被引次數(shù),cc為本分區(qū)內(nèi)的共被引次數(shù),ccv為規(guī)范化以后的共被引次數(shù))閾值分別為(4,3,20)、(4,4,20)和(3,4,20),其余的由線性內(nèi)插值來決定。結(jié)果如表1所示。

該網(wǎng)絡(luò)由327個節(jié)點、962條連線組成。其中,被引頻次第三多的為Baum、Petrie、Soules和Weiss(1970)發(fā)表的文章,被引頻次為145次,中心度為0.05。他們?yōu)榱斯烙嬘^測值所在狀態(tài)的概率,建立了向前-向后迭代算法。而且建立了參數(shù)極大似然估計方法,即有效的數(shù)值迭代方法:Expectation—Maximum(簡稱EM)算法。被引頻次第二多的是Dempster、Laird和Rubin(1977)發(fā)表在Journal of the Royal Statistical Society上的文章,引用頻次為183次,中心度為0.06。他們將著名的EM算法應(yīng)用于隱馬爾科夫模型中。被引頻次最多的是Rabiner(1989)發(fā)表的文章,引用頻次為670次,中心度為0.07。文中詳細(xì)地介紹了隱馬爾科夫模型的理論和相應(yīng)的算法,并顯示了其是如何應(yīng)用于語音識別領(lǐng)域的。

3.3 隱馬爾科夫模型應(yīng)用研究熱點分析

對共被引網(wǎng)絡(luò)進(jìn)行聚類,以探測隱馬爾科夫模型應(yīng)用研究的熱點,得到16個聚類。其中,Modularity Q=0.8102,Modularity Q 取值范圍為0到1之間,越接近1,說明這個網(wǎng)絡(luò)越具有模塊性,可以較好地聚類。Mean Silhouette=0.6316,取值范圍為-1到1,越接近1,說明聚類的主題越明確,類內(nèi)的文章內(nèi)容越相近。本文聚類結(jié)果的Modularity Q 值和Mean Silhouette值說明了本次聚類是較好的。聚類標(biāo)題詞顯示了研究前沿主題,每一個不規(guī)則多邊形中的文獻(xiàn)為一類,各聚類主要指標(biāo)列表見表2所示。

從表2中可以看到近二十年隱馬爾科夫模型熱點應(yīng)用領(lǐng)域的演進(jìn)情況。1990年研究的熱點是詞性標(biāo)注,1992年研究的熱點則是分子生物中的蛋白質(zhì)結(jié)構(gòu),到了1995年研究的熱點表現(xiàn)為與神經(jīng)網(wǎng)絡(luò)的混合應(yīng)用,1998年則轉(zhuǎn)移到了手紋識別領(lǐng)域,2000年到2004年的研究熱點主要是關(guān)于隱馬爾科夫模型的算法以及模擬,近幾年并沒有出現(xiàn)關(guān)于隱馬爾科夫模型新的熱點應(yīng)用領(lǐng)域。繪制隱馬爾科夫模型應(yīng)用研究進(jìn)展時間圖,如圖1所示。該圖按年代顯示了研究前沿,讀者可以更加清晰地看到每一時間段內(nèi)的研究熱點以及熱點的演進(jìn)和趨勢情況。不同年份對應(yīng)著不同顏色,顏色線段越長證明被引用的時間跨度越大,由此可以查找到相應(yīng)年份的關(guān)鍵詞。

3.4 隱馬爾科夫模型應(yīng)用研究國家和研究機(jī)構(gòu)

為了了解從事隱馬爾科夫模型應(yīng)用研究的國家和研究機(jī)構(gòu),在運(yùn)行CiteSpace II前,將網(wǎng)絡(luò)節(jié)點設(shè)置為“Country”或“Institution”,就得到有關(guān)國家和研究機(jī)構(gòu)的分布情況,按照出現(xiàn)的頻次進(jìn)行排序,由于篇幅有限,只列出前10個國家和研究機(jī)構(gòu),如表3和表4所示。

從表3中,可以清楚地看到從事隱馬爾科夫模型應(yīng)用研究的國家分布情況。其中,被引頻次最高的是美國,為612次,說明美國的研究實力最強(qiáng),居于首位??梢钥吹轿覈谶@一領(lǐng)域的研究雖然起步較晚,但是也取得了一定的成果,被引頻次為278次,居于第二位,與美國還有一定的差距。法國和英國分別處于第三和第四位,被引頻次分別為146次和120次。接著處于第五位和第六位的是德國和加拿大,被引頻次分別為108次和107次,兩國之間的差距不大。

從表4中可以看出,被引頻次最高的研究機(jī)構(gòu)是美國的伊利諾伊大學(xué)(Univillinois),為24次。被引頻次第二的是佐治亞理工學(xué)院(Georgia InstTechnol),其是美國頂尖的理工學(xué)院,為19次。另外,美國著名的斯坦福大學(xué)(Stanford Univ)和南加州大學(xué)(Univ So Calif)并列第三,為18次,與第二相差不大。排名前四都是美國的大學(xué),說明美國在從事隱馬爾科夫模型應(yīng)用研究上實力較強(qiáng)。第五和第六位是我國的中科院和上海交通大學(xué),若想進(jìn)一步了解隱馬爾科夫模型在中國的研究進(jìn)展,可以多關(guān)注這兩個機(jī)構(gòu)所做的研究和發(fā)表的文獻(xiàn)。

4 結(jié)語

在Baum和Petrie提出隱馬爾科夫模型之后,部分國外學(xué)者開始對隱馬爾科夫模型的理論和算法進(jìn)行研究。國外較早地將其應(yīng)用于各個領(lǐng)域當(dāng)中,而國內(nèi)對其的研究起步較晚。近年來,還有學(xué)者將隱馬爾科夫模型用于經(jīng)濟(jì)、管理和金融等大數(shù)據(jù)的建模中,但這方面的文章仍然較少,如何從這些新興領(lǐng)域中尋找切入點并進(jìn)行深入地研究是值得我們繼續(xù)探索的。利用可視化軟件CiteSpace II,了解到該模型主要應(yīng)用領(lǐng)域是詞性標(biāo)注、蛋白質(zhì)結(jié)構(gòu)、手紋識別和人工智能等以及熱點演進(jìn)情況。目前,關(guān)于隱馬爾科夫模型的理論研究及應(yīng)用還在繼續(xù)深入,未來還需要繼續(xù)跟蹤研究熱點和前沿動態(tài),對最新進(jìn)展進(jìn)行綜述。相信隨著時代的發(fā)展,隱馬爾科夫模型必將有更廣泛的應(yīng)用。

參考文獻(xiàn)

[1]

Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state Markov chains[J]. The annals of mathematical statistics,1966:1554-1563.

[2]Raviv J.Decision making in Markov chains applied to the problem of pattern recognition[J]. IEEE Trans.Inform.Theory,1967,13(4):536-551.

[3]Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using neural networks with novel sequence representations[J].Protein Science,2003,12(5):1007-1017.

[4]Conn P B,Cooch E G.Multistate capture-recapture analysis under imperfect state observation: an application to disease models[J]. Journal of Applied Ecology,2009,46(2):486-492.

[5]Reddy S,Mun M,Burke J,et al.Using mobile phones to determine transportation modes[J].ACM Transactions on Sensor Networks(TOSN),2010,6(2):13.

[6]Sikorska J Z,Hodkiewicz M, Ma L. Prognostic modelling options for remaining useful life estimation by industry[J].Mechanical Systems and Signal Processing,2011,25(5):1803-1836.

[7]馬寶山,朱義勝.基于隱馬爾科夫模型的基因預(yù)測算法[J].大連海事大學(xué)學(xué)報:自然科學(xué)版,2009,34(4):41-44.

[8]劉宗禮,孔祥才.基于隱馬爾科夫模型的入侵檢測算法研究[J].甘肅科技,2007,(4):31.

[9]閆新娟,譚敏生,嚴(yán)亞周等.基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡(luò)的入侵檢測研究[J].計算機(jī)應(yīng)用與軟件,2012,29(2):294-297.

[10]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識別[J].計算機(jī)科學(xué),2012,39(3):251-255.

[11]任曉濤,滕陽春,劉達(dá).基于隱馬爾科夫的居民消費價格指數(shù)預(yù)測[J].現(xiàn)代商業(yè),2010(3):218-219.

[12]黃曉彬,王春峰,房振明等.基于隱馬爾科夫模型的中國股票信息探測[J].系統(tǒng)工程理論與實踐,2012,32(4):713-720.

[13]陳超美,陳悅,侯劍華等.CiteSpaceII:科學(xué)文獻(xiàn)中新趨勢與新動態(tài)的識別與可視化[J].情報學(xué)報,2009(3):401-421.

猜你喜歡
可視化分析
基于大數(shù)據(jù)的港口煤炭物流可視化分析平臺
航海(2017年2期)2017-04-10 05:20:38
近十五年國外大學(xué)生就業(yè)研究的進(jìn)展與趨勢
基于Citespace的商業(yè)生態(tài)系統(tǒng)研究可視化分析
高校學(xué)生管理法治化研究:基于CiteSpace的可視化分析
高校學(xué)生管理法治化研究:基于CiteSpace的可視化分析
我國職業(yè)教育師資研究熱點可視化分析
職教論壇(2016年26期)2017-01-06 19:04:59
聲波吹灰技術(shù)在SCR中的應(yīng)用研究
科技傳播(2016年19期)2016-12-27 16:18:28
可視化分析技術(shù)在網(wǎng)絡(luò)輿情研究中的應(yīng)用
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
我國教育技術(shù)領(lǐng)域眼動研究的現(xiàn)狀與趨勢分析
景德镇市| 黄浦区| 岐山县| 大埔县| 高要市| 建瓯市| 朝阳县| 确山县| 英吉沙县| 崇信县| 莆田市| 灵璧县| 武鸣县| 天等县| 无极县| 清原| 霸州市| 平泉县| 邮箱| 巴里| 泾川县| 壶关县| 鄱阳县| 利辛县| 连山| 沙洋县| 河间市| 马尔康县| 日照市| 商都县| 新龙县| 柘荣县| 洪江市| 腾冲县| 安新县| 嵊州市| 寿光市| 都匀市| 华宁县| 永昌县| 汨罗市|