王英哲
(石家莊職業(yè)技術(shù)學(xué)院 圖書(shū)館,河北 石家莊 050081)
大數(shù)據(jù)是需要使用新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[1].它利用各種知識(shí)發(fā)現(xiàn)技術(shù)管理數(shù)據(jù),快速提取有價(jià)值的信息,為提高各行業(yè)的核心競(jìng)爭(zhēng)力提供關(guān)鍵數(shù)據(jù).大數(shù)據(jù)時(shí)代為文獻(xiàn)的分析與利用提供了新的途徑,過(guò)去無(wú)法收集與分析的數(shù)據(jù)都被新的技術(shù)手段賦予了可能性.
大數(shù)據(jù)可以用數(shù)據(jù)海嘯來(lái)形容.據(jù)統(tǒng)計(jì),F(xiàn)acebook每天處理27億次Like按鈕點(diǎn)擊,每天上傳3億張圖片.國(guó)際數(shù)據(jù)公司(IDC)的研究表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年高達(dá)1.82ZB,2012年達(dá)到2.8ZB,它相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù).全球的數(shù)據(jù)資料存儲(chǔ)量在2020年將達(dá)到40ZB(1024GB=1TB,1024TB=1PB,1024PB=1EB,1024EB=1ZB)[2].
大數(shù)據(jù)的數(shù)據(jù)包括:網(wǎng)絡(luò)日志、音視頻、圖片、地理位置信息等,數(shù)據(jù)類型豐富.
基因組數(shù)據(jù)、地理空間數(shù)據(jù)、人口數(shù)據(jù)、經(jīng)濟(jì)運(yùn)行數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)等均要求數(shù)據(jù)的準(zhǔn)確性,而以大數(shù)據(jù)為基礎(chǔ)便能為科學(xué)決策提供精準(zhǔn)的數(shù)據(jù).
處理速度快是大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)最顯著的不同.氣象數(shù)據(jù)、航天遙測(cè)遙控?cái)?shù)據(jù)、交通流量、地震監(jiān)測(cè)數(shù)據(jù)等都要求數(shù)據(jù)的速度及時(shí)效性.而人們可從大數(shù)據(jù)中快速獲得滿足要求的信息.
大數(shù)據(jù)的處理流程可以概括為四步,即采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析、挖掘.采集端利用多個(gè)數(shù)據(jù)庫(kù)接收客戶端數(shù)據(jù),通過(guò)數(shù)據(jù)清理,導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)或者分布式存儲(chǔ)集群,形成數(shù)據(jù)倉(cāng)庫(kù).利用存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中的海量數(shù)據(jù)進(jìn)行分析和分類匯總,形成任務(wù)相關(guān)數(shù)據(jù).再利用知識(shí)挖掘技術(shù),從任務(wù)相關(guān)數(shù)據(jù)中挖掘需要的知識(shí).利用知識(shí)的過(guò)程中,也會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)又被采集端數(shù)據(jù)庫(kù)采集,存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中.流程如圖1.
圖1 大數(shù)據(jù)處理流程
知識(shí)發(fā)現(xiàn)就是從各種數(shù)據(jù)中,發(fā)現(xiàn)知識(shí)片段間顯性及隱含的聯(lián)系,發(fā)現(xiàn)某學(xué)科發(fā)展的軌跡,或者是引起科研人員的某種猜想,從而進(jìn)行知識(shí)挖掘,開(kāi)展科學(xué)實(shí)驗(yàn),促進(jìn)知識(shí)創(chuàng)新.
2.2.1 基于相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)
相關(guān)文獻(xiàn)存在彼此引用、共引用、同被引用的關(guān)系,利用文獻(xiàn)計(jì)量、內(nèi)容分析、聚類分析、專利技術(shù)分析等方法,運(yùn)用共詞、共引理論,從文獻(xiàn)內(nèi)容入手提取重要的深層次信息.
2.2.2 基于非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)
非相關(guān)文獻(xiàn)之間,由于文獻(xiàn)在表面上沒(méi)有任何聯(lián)系,基于此進(jìn)行知識(shí)發(fā)現(xiàn)很困難,但這是進(jìn)行知識(shí)創(chuàng)新及科學(xué)發(fā)現(xiàn)非常重要的途徑.可以先利用各種知識(shí)挖掘技術(shù)找到知識(shí)點(diǎn)間隱含的關(guān)系,然后再發(fā)現(xiàn)隱含的知識(shí).目前主要利用Swanson理論中知識(shí)元間的共引關(guān)系來(lái)揭示隱含的語(yǔ)義關(guān)聯(lián),再借用Arrowsmith輔助系統(tǒng)進(jìn)行知識(shí)挖掘.如,1986年Swanson基于非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)技術(shù)進(jìn)行知識(shí)挖掘,發(fā)現(xiàn)了雷諾氏病與魚(yú)油的關(guān)系,1998年他又發(fā)現(xiàn)了鎂與偏頭痛的關(guān)系[3].
2.2.3 基于全文獻(xiàn)的知識(shí)發(fā)現(xiàn)
運(yùn)用文本挖掘理論,從全文本中找出所需單字、詞語(yǔ)和特定字串,從而挖掘文獻(xiàn)關(guān)聯(lián)和發(fā)現(xiàn)知識(shí).
海量權(quán)威的元數(shù)據(jù)匯集到一起,蘊(yùn)藏了大量的知識(shí),對(duì)基于數(shù)據(jù)的知識(shí)服務(wù)帶來(lái)重大影響.以中國(guó)知網(wǎng)為檢索平臺(tái),以“石家莊職業(yè)技術(shù)學(xué)院”為檢索詞進(jìn)行檢索,截止到2013年10月,共檢索到作者單位包含“石家莊職業(yè)技術(shù)學(xué)院”的論文3995篇.通過(guò)對(duì)這些數(shù)據(jù)集合進(jìn)行知識(shí)挖掘,即從元數(shù)據(jù)倉(cāng)儲(chǔ)中提取關(guān)鍵詞等信息,可建立多種知識(shí)的關(guān)聯(lián)網(wǎng)絡(luò).以此為基礎(chǔ)綜合分析的石家莊職業(yè)技術(shù)學(xué)院1999年到2013年的科研成果情況,見(jiàn)表1和圖2.
表1 論文涉及到的排名前10的學(xué)科
圖2 年度發(fā)表論文趨勢(shì)圖
從這些關(guān)聯(lián)網(wǎng)絡(luò)中,可以看出石家莊職業(yè)技術(shù)學(xué)院科研成果的發(fā)展脈絡(luò).
從元數(shù)據(jù)倉(cāng)儲(chǔ)中提取數(shù)據(jù),分析作者與合作者的關(guān)系,建立以人為中心的知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),可以開(kāi)展相關(guān)性追蹤研究.如石家莊職業(yè)技術(shù)學(xué)院1999年到2013年的論文數(shù)據(jù)研究結(jié)果見(jiàn)圖3、圖4,圖中的數(shù)字代表基金項(xiàng)目數(shù)量或合作單位的數(shù)量.
圖3 發(fā)表文章中涉及到的排名前五的基金項(xiàng)目
圖4 發(fā)表文章中涉及到的排名前五的合作機(jī)構(gòu)
研究某學(xué)科領(lǐng)域在一個(gè)時(shí)間段的發(fā)展趨勢(shì)對(duì)于了解該學(xué)科的發(fā)展脈絡(luò)、預(yù)測(cè)未來(lái)的發(fā)展方向至關(guān)重要.清華大學(xué)圖書(shū)館采用提取文章關(guān)鍵詞并分析關(guān)鍵詞在時(shí)間軸上的分布情況的方法來(lái)給出該領(lǐng)域的發(fā)展趨勢(shì),該服務(wù)的初步嘗試已得到讀者的青睞[4].通過(guò)它可以開(kāi)展針對(duì)特定研究者研究重點(diǎn)與方向的追蹤.如以石家莊職業(yè)技術(shù)學(xué)院王麗君作者為例,1999年到2013年其共發(fā)表文章55篇,此學(xué)者的研究方向、研究熱點(diǎn)的情況如圖5、表2所示.
圖5 王麗君的年度發(fā)文情況
表2 王麗君研究的主要學(xué)科
由此可見(jiàn),以CNKI數(shù)據(jù)為基礎(chǔ),通過(guò)分析海量文獻(xiàn)數(shù)據(jù)的特點(diǎn),不僅可以自動(dòng)甄別出石家莊職業(yè)技術(shù)學(xué)院的目標(biāo)學(xué)者,獲取目標(biāo)學(xué)者的學(xué)術(shù)出版物、與其緊密關(guān)聯(lián)的合作者、期刊會(huì)議等信息,而且可以應(yīng)用開(kāi)放鏈接技術(shù)準(zhǔn)確定位石家莊職業(yè)技術(shù)學(xué)院學(xué)者學(xué)術(shù)出版物的全文,并采用可視化視圖的方式直觀展示學(xué)者的學(xué)術(shù)歷程以及以學(xué)者為中心的科研網(wǎng)絡(luò),還可以開(kāi)展特定文獻(xiàn)的分析,如最新成果、早期研究、影響力最大的圖書(shū)、期刊論文、學(xué)位論文、標(biāo)準(zhǔn)、專利等.
大數(shù)據(jù)時(shí)代是信息社會(huì)運(yùn)作的必然結(jié)果,大數(shù)據(jù)時(shí)代的來(lái)臨將促使用戶產(chǎn)生更高、更現(xiàn)實(shí)的知識(shí)服務(wù)需求.誰(shuí)掌握數(shù)據(jù)及數(shù)據(jù)分析的方法,誰(shuí)就將在這個(gè)大數(shù)據(jù)時(shí)代勝出.
[1]佚名.大數(shù)據(jù)處理:技術(shù)與流程 [EB/OL].(2013-05-22)[2013-11-22].http://www.caecp.cn/News/News-872.html.
[2]佚名.大數(shù)據(jù)時(shí)代 [EB/OL].(2013-11-05)[2013-11-22].http://network.pconline.com.cn/news/1212/3109670.html.
[3]程趁娜,浮肖肖.非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法的研究及應(yīng)用進(jìn)展[J].科技視界,2013(9):7.
[4]鄧景康.大數(shù)據(jù)環(huán)境下清華大學(xué)圖書(shū)館的實(shí)踐 [EB/OL].(2013-09-03)[2013-11-22].http://www.print.npicp.com/info-detail/14-526-49756307.html.