楊新華 付萍萍
摘 要:本文對大數(shù)據(jù)時(shí)代基于統(tǒng)計(jì)特征的情報(bào)關(guān)鍵詞提取方法展開了相關(guān)的探究工作,首先就大數(shù)據(jù)的概念與特征進(jìn)行了簡要介紹,進(jìn)而具體分析了目前情報(bào)關(guān)鍵詞提取領(lǐng)域的發(fā)展現(xiàn)狀與存在的主要問題,并最終提出了基于語義方法、基于統(tǒng)計(jì)方法、基于機(jī)器學(xué)習(xí)方法、基于復(fù)雜網(wǎng)絡(luò)方法等關(guān)鍵詞提取方法,旨在為有關(guān)研究人員提供一些新的研究思路與方法。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)特征;情報(bào)關(guān)鍵詞;提取方法
引言
隨著當(dāng)前相關(guān)科學(xué)技術(shù)的快速化發(fā)展,以互聯(lián)網(wǎng)技術(shù)為代表的信息技術(shù)已經(jīng)廣泛滲透到了人們?nèi)粘I畹姆椒矫婷妫髷?shù)據(jù)時(shí)代已經(jīng)悄然來臨。由此也使得網(wǎng)絡(luò)情報(bào)研究工作面臨著前所未有的挑戰(zhàn)與機(jī)遇,針對目前的現(xiàn)狀情況,相關(guān)科研人員怎樣能夠在極度復(fù)雜的網(wǎng)絡(luò)信息當(dāng)中高效獲取具有研究價(jià)值的重要議題將異常關(guān)鍵,對此,本文將就大數(shù)據(jù)時(shí)代基于統(tǒng)計(jì)特征的情報(bào)關(guān)鍵詞提取方法展開相關(guān)的研究工作。
1概述
大數(shù)據(jù)也被稱之為巨量數(shù)據(jù)集合,是指無法在一定的時(shí)間范圍當(dāng)中采用一般性的軟件工具所獲取、管理及處置的數(shù)據(jù)集合,必須要借助于新型處理模式方可達(dá)到更加強(qiáng)大的決策能力、洞察發(fā)現(xiàn)能力以及對流程優(yōu)化改造能力的海量、高增長率以及多樣化的信息資產(chǎn)。大數(shù)據(jù)的主要特征可概括為6V特征:
⑴Volume:數(shù)據(jù)容量大,大數(shù)據(jù)所具備的大容量是其與傳統(tǒng)數(shù)據(jù)最為明顯的一項(xiàng)特征差異。傳統(tǒng)的一般關(guān)系型數(shù)據(jù)庫處理其數(shù)據(jù)量級往往在TB級左右,而反觀大數(shù)據(jù)所數(shù)據(jù)的數(shù)據(jù)量級經(jīng)??蛇_(dá)到PB級別以上。
⑵Variety:數(shù)據(jù)類型多,大數(shù)據(jù)所進(jìn)行處理的計(jì)算機(jī)數(shù)據(jù)類型已經(jīng)不僅再局限于一般性的文本形式亦或是結(jié)構(gòu)化的數(shù)據(jù)庫表格,其同時(shí)還含括了音頻、視頻、文字、BLOG、微博等多種復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。
⑶Velocity:數(shù)據(jù)流動(dòng)快,與傳統(tǒng)的數(shù)據(jù)相比高速化同樣也是大數(shù)據(jù)的一項(xiàng)重要特征,在面對接近于無窮盡的海量數(shù)據(jù)時(shí),針對所獲取到的數(shù)據(jù)信息分析處理效率越快越好,數(shù)據(jù)的處理效率將直接決定著組織命運(yùn)。
⑷Value:數(shù)據(jù)潛在價(jià)值大,利用強(qiáng)大的智能學(xué)習(xí)機(jī)制與高級分析可更加高效的完成對數(shù)據(jù)價(jià)值的“精煉萃取”,將大數(shù)據(jù)的潛在價(jià)值盡可能多的挖掘出來,科學(xué)應(yīng)用大數(shù)據(jù),以低成本來創(chuàng)造出高價(jià)值。
⑸Veracity:數(shù)據(jù)真實(shí)性高,由于大數(shù)據(jù)所包含的數(shù)據(jù)容量十分龐大,其可通過多個(gè)不同的維度來實(shí)現(xiàn)對數(shù)據(jù)的分析與處理,因此最終所提煉出的目標(biāo)數(shù)據(jù)具有較高的真實(shí)性。
2現(xiàn)狀及問題
一般情況下,關(guān)鍵詞是在所表述文章當(dāng)中對其核心內(nèi)容具有實(shí)質(zhì)性價(jià)值的一類詞匯,是為了實(shí)現(xiàn)對文章更加便捷的標(biāo)引與檢索而從文章的題目、摘要,以及正文當(dāng)中所精選出的詞匯或詞組。在本次研究中將關(guān)鍵詞的概念界定為可反映出互聯(lián)網(wǎng)網(wǎng)頁核心內(nèi)容的有關(guān)詞匯。對于關(guān)鍵詞的提取則主要是利用對核心詞匯的統(tǒng)計(jì)以及其語義內(nèi)涵的分析,進(jìn)而由各個(gè)獨(dú)立的網(wǎng)頁亦或是網(wǎng)頁集當(dāng)中挑選出合理的,可以將文章主旨思想精確表述的特征集選取過程。關(guān)鍵詞是表述網(wǎng)頁主旨內(nèi)涵最為基礎(chǔ)的一個(gè)單位,因此就通常在信息檢索、自主問答、內(nèi)容追蹤等相關(guān)信息處理領(lǐng)域內(nèi)均需進(jìn)行關(guān)鍵詞的提取,并且對于關(guān)鍵詞的提取也將會(huì)對情報(bào)監(jiān)測與跟蹤產(chǎn)生出極其關(guān)鍵的線索價(jià)值,并使得情報(bào)工作的方向逐步變得確定。
受到大數(shù)據(jù)本身特點(diǎn)的影響,采取傳統(tǒng)情報(bào)關(guān)鍵詞提取方法難免會(huì)出現(xiàn)一些問題情況,其中主要就包括了:(1)進(jìn)行關(guān)鍵詞的提取往往都會(huì)帶有一定的目的性,因此數(shù)據(jù)本身的代表性便至關(guān)重要,若所提取的關(guān)鍵詞代表性不強(qiáng),則很有可能導(dǎo)致最終的結(jié)論不夠客觀;(2)在關(guān)鍵詞提取時(shí)還必須充分考量到大數(shù)據(jù)相關(guān)性有可能會(huì)產(chǎn)生的誤差,切忌僅關(guān)注于表面,如某地區(qū)的網(wǎng)頁數(shù)據(jù)量十分龐大,這是否就代表了該地區(qū)的網(wǎng)絡(luò)形象較好?很顯然并不一定,也很有可能會(huì)存在著大量的負(fù)面信息,因此在進(jìn)行關(guān)鍵詞的提取時(shí)還應(yīng)當(dāng)就信息相關(guān)性予以充分考量;(3)在提取關(guān)鍵詞時(shí)還必須將信息當(dāng)中所含括的個(gè)人隱私予以充分考量,在大數(shù)據(jù)當(dāng)中所涵括的內(nèi)容十分復(fù)雜而且來源途徑眾多,其中必然會(huì)涉及到大量的個(gè)人隱私,因此在實(shí)施大數(shù)據(jù)關(guān)鍵詞提取時(shí)應(yīng)盡可能回避這一問題。
3大數(shù)據(jù)時(shí)代情報(bào)關(guān)鍵詞提取方法及構(gòu)造
3.1關(guān)鍵詞提取方法
3.1.1基于語義方法
基于詞典的輔助,利用句法和詞法來實(shí)施自動(dòng)分詞與詞性標(biāo)注,可促使計(jì)算機(jī)能夠更加全面的掌握各類信息片段、詞匯間的語義相關(guān)性,并進(jìn)一步可借助于復(fù)雜計(jì)算來提取相應(yīng)關(guān)鍵詞。
3.1.2基于統(tǒng)計(jì)方法
利用詞語統(tǒng)計(jì)信息來進(jìn)行關(guān)鍵詞的提取,其中應(yīng)用最普遍的方法是詞頻—逆向文本頻率指標(biāo)以及N-gram方法,這一種類型的方法僅需對有關(guān)詞匯的應(yīng)用頻率及過濾技巧加以統(tǒng)計(jì)即可,但其缺點(diǎn)也較為明顯,即精度性相對較差。有研究人員就提出了一種經(jīng)改進(jìn)處理的TFIDF網(wǎng)頁關(guān)鍵詞提取方法,其可實(shí)現(xiàn)與網(wǎng)頁內(nèi)容結(jié)構(gòu)與詞匯特征的綜合權(quán)衡,可建立起一個(gè)候選特征詞匯綜合評價(jià)公式來進(jìn)行對關(guān)鍵詞的提取。
3.1.3基于機(jī)器學(xué)習(xí)方法
借助于針對大規(guī)模訓(xùn)練語句資料庫的訓(xùn)練,便可得到相關(guān)的系統(tǒng)參數(shù)與模型,而后再借助于模型來運(yùn)用到測試語言資料庫當(dāng)中并對關(guān)鍵詞的提取結(jié)果予以驗(yàn)證。在訓(xùn)練集當(dāng)中,可將關(guān)鍵詞的提取視作為是具備監(jiān)督作用的一種分類問題。一般可經(jīng)常應(yīng)用到的就包括了支持向量機(jī)、最大熵、決策樹等模型。
3.1.4基于復(fù)雜網(wǎng)絡(luò)方法
依據(jù)預(yù)備選取特征詞間的相關(guān)性,依據(jù)現(xiàn)有規(guī)則建立起一個(gè)復(fù)雜網(wǎng)絡(luò)亦或是加權(quán)復(fù)雜網(wǎng)絡(luò)模型,采用計(jì)算節(jié)點(diǎn)權(quán)重系統(tǒng)與介數(shù)來代表節(jié)點(diǎn)的綜合性價(jià)值,選取其中價(jià)值較大的即可確定為關(guān)鍵詞。這一方法通常所需要的計(jì)算量十分龐大,在應(yīng)對大規(guī)模的文檔信息或是網(wǎng)頁內(nèi)容時(shí),此方法的缺陷便會(huì)暴露無遺。
3.2關(guān)鍵詞提取方法構(gòu)造
3.2.1中文詞語特征和自動(dòng)分詞
中文語句的構(gòu)成包括了單字與詞語,其語句的主干通常是由動(dòng)詞、名詞、代詞、量詞、形容詞等具有實(shí)際意義的詞匯所組合而成,其中介詞、連詞與助詞等虛詞由于不具備實(shí)際意義,因此通常無法在語句中擔(dān)當(dāng)主要構(gòu)成部分。因此在開展中文關(guān)鍵詞的提取工作時(shí)應(yīng)盡可能的把虛詞與單字排除在外。
在英文語言體系下其各個(gè)詞匯間有著天然的分隔符,單字便可充當(dāng)一項(xiàng)關(guān)鍵詞。而反觀中文詞匯的構(gòu)成基本不會(huì)少于兩個(gè)單字,而且語句是連續(xù)書寫,由此也就需要在進(jìn)行文本自動(dòng)分析前,首先把一整句語句分割為若干個(gè)小的詞匯單元,也就是中文分詞。這同時(shí)也是在進(jìn)行自然語言處理時(shí)較為困難的一項(xiàng)內(nèi)容,當(dāng)前相對較為成熟的分詞系統(tǒng)就包括了CRF中文分詞系統(tǒng)、ICTCLAS系統(tǒng)等。
3.2.2詞語過濾
在將虛詞完全過濾后,文本集內(nèi)仍然會(huì)存在有不少的噪聲詞。這一種類型的詞匯大都適合文本主題沒有密切相關(guān)性的詞匯,例如“人民”、“國家”、“西部網(wǎng)”等。通常情況下這一種類型的詞匯在文本當(dāng)中會(huì)有較高的出現(xiàn)頻率,并且在文本集內(nèi)出現(xiàn)較高頻率的詞匯亦為噪聲詞。對此可采用詞頻與文本頻率乘積的離散系數(shù)方式來進(jìn)行噪聲詞過濾。
3.2.3詞共現(xiàn)概率分布及偏度
伴隨著信息技術(shù)的快速化發(fā)展,詞共現(xiàn)分析的重要性也愈發(fā)突出,其含義為在某學(xué)科領(lǐng)域當(dāng)中某兩個(gè)關(guān)鍵詞在同篇文獻(xiàn)當(dāng)中所出現(xiàn)的頻率越高,即代表此兩個(gè)關(guān)鍵詞存在有特殊的內(nèi)在相關(guān)性。因而,便可利用建構(gòu)關(guān)鍵詞共現(xiàn)矩陣的以及應(yīng)用多元統(tǒng)計(jì)方法來實(shí)施期刊評價(jià)與學(xué)科結(jié)構(gòu)分析。
在單一文本當(dāng)中往往包括了多個(gè)語句,各語句間往往是利用句號(hào)、問號(hào)、感嘆號(hào)等加以區(qū)分。若兩詞匯在單個(gè)語句內(nèi)同時(shí)出現(xiàn),即認(rèn)定其共現(xiàn)一次。應(yīng)用于對候選關(guān)鍵詞進(jìn)行表示的集合,可表示出候選關(guān)鍵詞的數(shù)量,相應(yīng)的候選關(guān)鍵詞共現(xiàn)矩陣便可利用任意兩項(xiàng)候選關(guān)鍵詞于單個(gè)文本亦或是集合內(nèi)出現(xiàn)的頻次來充當(dāng)元素構(gòu)成。
4結(jié)語
總而言之,隨著大數(shù)據(jù)時(shí)代的來臨,一方面大數(shù)據(jù)的出現(xiàn)與應(yīng)用可促使情報(bào)研究工作延伸至更為廣闊的范圍領(lǐng)域,應(yīng)用新的技術(shù)與方法,實(shí)現(xiàn)了對情報(bào)研究工作價(jià)值的重新定義;另一方面,大數(shù)據(jù)也促使社會(huì)各個(gè)行業(yè)都更加關(guān)注于情報(bào)研究工作。對此,本文就通過對大數(shù)據(jù)時(shí)代情報(bào)關(guān)鍵詞提取的現(xiàn)狀與問題分析,提出了一些大數(shù)據(jù)時(shí)代情報(bào)關(guān)鍵詞提取的方法與構(gòu)造,希望能夠?yàn)橄嚓P(guān)的研究人員提供一些參考。
參考文獻(xiàn):
[1]劉志輝,鄭彥寧.基于作者關(guān)鍵詞耦合分析的研究專業(yè)識(shí)別方法研究[J].情報(bào)學(xué)報(bào),2013,32(8).
[2]劉自強(qiáng),王效岳,白如江等.語義分類的學(xué)科主題演化分析方法研究——以我國圖書情報(bào)領(lǐng)域大數(shù)據(jù)研究為例[J].圖書情報(bào)工作,2016,(15).
[3]李樹青,孫穎.基于加權(quán)關(guān)鍵詞共現(xiàn)時(shí)間元的個(gè)性化學(xué)術(shù)研究時(shí)序路徑發(fā)現(xiàn)及其可視化呈現(xiàn)方法[J].情報(bào)學(xué)報(bào),2014,33(1).
[4]翁勝斌.CNKI數(shù)據(jù)源的關(guān)鍵詞共現(xiàn)分析與多維尺度分析的現(xiàn)實(shí)方法[J].現(xiàn)代情報(bào),2013,33(4).
[5]陳衛(wèi)靜,鄭穎.基于作者關(guān)鍵詞耦合的潛在合作關(guān)系挖掘[J].情報(bào)雜志,2013,32(5).
[6]楊建林.關(guān)鍵詞選擇策略及其對共詞分析的影響[J].情報(bào)學(xué)報(bào),2014,(10).