涂婕 羅震鈞 龐璋帆
摘 要:隨著各種計(jì)算機(jī)技術(shù)的廣泛應(yīng)用推動(dòng)了大數(shù)據(jù)時(shí)代的到來。大數(shù)據(jù)時(shí)代對(duì)很多行業(yè)來說既是機(jī)遇也是挑戰(zhàn),在藥檢信息化發(fā)展過程中,同樣存在著大量的藥檢數(shù)據(jù)信息被閑置和數(shù)據(jù)利用率比較低的問題。如何合理利用這些數(shù)據(jù),并把這些閑散的數(shù)據(jù)統(tǒng)一起來,將“死”數(shù)據(jù)變“活”等等都是藥檢信息化管理需要考慮和解決的問題。文章基于科學(xué)檢驗(yàn)精神中的嚴(yán)謹(jǐn)和創(chuàng)新方針來研究如何科學(xué)合理地應(yīng)用藥檢系統(tǒng)的大數(shù)據(jù),探討了藥檢系統(tǒng)大數(shù)據(jù)挖掘的重要意義,并展望了未來藥檢大數(shù)據(jù)挖掘的下一步研究方向。
關(guān)鍵詞:藥檢系統(tǒng);大數(shù)據(jù);云計(jì)算;數(shù)據(jù)挖掘
1 科學(xué)檢驗(yàn)精神的提出
2011年12月中國食品藥品檢定研究院李云龍?jiān)洪L在全國藥品醫(yī)療器械檢驗(yàn)檢測(cè)電視電話工作會(huì)議上提出了科學(xué)檢驗(yàn)精神的實(shí)質(zhì)與內(nèi)涵為“為民、求是、嚴(yán)謹(jǐn)、創(chuàng)新”,其中創(chuàng)新就是用現(xiàn)代信息技術(shù)改造和提升檢驗(yàn)工作。實(shí)際上就是用新的計(jì)算機(jī)技術(shù)與“三品一械”的檢驗(yàn)檢測(cè)管理系統(tǒng)相結(jié)合,為高效、可靠、準(zhǔn)確、標(biāo)準(zhǔn)化的管理打下基礎(chǔ),并建設(shè)中國藥檢數(shù)字化新時(shí)代。據(jù)此,本文根據(jù)藥檢系統(tǒng)的實(shí)際使用需要,以科學(xué)檢驗(yàn)精神為指導(dǎo)方向,引入計(jì)算機(jī)的最新技術(shù),規(guī)劃一個(gè)藥檢云計(jì)算平臺(tái),并在此基礎(chǔ)上研究藥檢大數(shù)據(jù)挖掘策略。
2 大數(shù)據(jù)與藥檢系統(tǒng)
2.1 大數(shù)據(jù)的概念
大數(shù)據(jù)是一種巨量數(shù)據(jù),是為了更經(jīng)濟(jì)更有效地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù),用之來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。面對(duì)如此海量的數(shù)據(jù),如果對(duì)其進(jìn)行充分挖掘則可能得到的價(jià)值就會(huì)更大,創(chuàng)造出的效益將會(huì)更驚人。大數(shù)據(jù)具有4V特點(diǎn),即:數(shù)量巨大,種類繁多,價(jià)值高,處理速度快。
在藥檢系統(tǒng)中,數(shù)據(jù)量也隨著藥檢業(yè)務(wù)范圍的擴(kuò)大、項(xiàng)目也不斷地?cái)U(kuò)展。以湖北省藥檢院為例:該院在2011年以后年檢品量都突破1萬批,檢品信息還附加的有采購原材料信息、生產(chǎn)信息、企業(yè)資料信息、藥品流通信息、銷量信息、市場(chǎng)反應(yīng)信息及其它的關(guān)聯(lián)信息等,還有累積三十多年的檢驗(yàn)檢測(cè)數(shù)據(jù),這樣的海量數(shù)據(jù)信息進(jìn)行挖掘的意義是很大的。
2.2 基于藥檢云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)
大量的藥檢數(shù)據(jù)信息需要一個(gè)存儲(chǔ)平臺(tái),這個(gè)平臺(tái)就是藥檢云計(jì)算平臺(tái),只有設(shè)計(jì)好一個(gè)平臺(tái)才能對(duì)采集到的藥檢大數(shù)據(jù)進(jìn)行合理的利用。藥檢云計(jì)算平臺(tái)是藥檢大數(shù)據(jù)的載體,該平臺(tái)存儲(chǔ)了所有的藥檢所(院)的數(shù)據(jù)信息。它的功能 是獲取和存儲(chǔ)數(shù)據(jù),獲取數(shù)據(jù):一方面是從藥檢實(shí)驗(yàn)室不斷獲得檢驗(yàn)檢測(cè)數(shù)據(jù);另一方面從互聯(lián)網(wǎng)獲得與藥品食品等的相關(guān)數(shù)據(jù)或與生產(chǎn)、流通企業(yè)等的數(shù)據(jù)信息。存儲(chǔ)數(shù)據(jù)是依據(jù)統(tǒng)一的格式對(duì)采集的這些數(shù)據(jù)進(jìn)行整理并存儲(chǔ)。有了藥檢云計(jì)算的平臺(tái),就可以使用可靠的方法對(duì)平臺(tái)存儲(chǔ)的數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)挖掘又是一個(gè)比較繁瑣、復(fù)雜的工程,需要應(yīng)用多種智能算法進(jìn)行運(yùn)算,還要對(duì)挖掘出來的數(shù)據(jù)進(jìn)行評(píng)價(jià),反復(fù)迭代才能得到最優(yōu)的數(shù)據(jù),才會(huì)得到獲得最大的效益。
構(gòu)建的藥檢云計(jì)算應(yīng)該為兩部分:一部分是私有云,該部分的功能是從藥檢所(院)內(nèi)網(wǎng)實(shí)驗(yàn)室系統(tǒng)中獲取各式各樣的檢驗(yàn)檢測(cè)數(shù)據(jù)信息和以前服務(wù)器上累積的數(shù)據(jù)信息,通過內(nèi)網(wǎng)高速通道傳輸?shù)剿接性粕?,私有云是?duì)內(nèi)的非藥檢人員不能訪問;另一部分是公有云,該部分的功能則是從Internet上獲取與食品藥品等各種相關(guān)的信息。通過整合工具處理這兩部分?jǐn)?shù)據(jù),構(gòu)成藥檢云計(jì)算數(shù)據(jù)中心。
3 藥檢大數(shù)據(jù)挖掘策略
藥檢云計(jì)算平臺(tái)將會(huì)隨著時(shí)間的推移存儲(chǔ)越來越多的數(shù)據(jù),這些數(shù)據(jù)需要進(jìn)行深入地挖掘才能創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)效益。對(duì)于藥檢系統(tǒng)來說,大數(shù)據(jù)的挖掘順序應(yīng)該是:首先,確定藥檢挖掘主題,如:挖掘的方向是涉及食品方面、還是藥品方面或者是其它;確定挖掘的范圍是醫(yī)療的、不良反應(yīng)的、還是面向社會(huì)的或者是僅局限于藥檢所(院)內(nèi)部的;確定其挖掘目的是評(píng)價(jià)性的、預(yù)測(cè)性的、還是關(guān)聯(lián)性的等。其次是對(duì)采集到的藥檢數(shù)據(jù)進(jìn)行處理分析,該過程一般要借助挖掘工具處理,例如:IBM的Intelligent Miner、MS的Clementine、SAS的Enterprise Miner、Oracle的Darwin等。接著是藥檢數(shù)據(jù)挖掘模型的建立,在該過程中,先通過數(shù)據(jù)抽樣對(duì)部分?jǐn)?shù)據(jù)進(jìn)行選??;然后數(shù)據(jù)探索對(duì)數(shù)據(jù)趨勢(shì)、分布質(zhì)量等進(jìn)行分析、統(tǒng)計(jì)、判斷,甚至還對(duì)一些數(shù)據(jù)進(jìn)行修改,例如:適當(dāng)加入新數(shù)據(jù)、修改變量參數(shù)等;最后通過經(jīng)典數(shù)據(jù)挖掘算法建立相應(yīng)的藥檢數(shù)據(jù)挖掘模型,這些算法主要有:C4.5、決策樹、最大期望、K-means、海量網(wǎng)頁爬蟲等。最后是對(duì)建立的藥檢模型評(píng)價(jià),當(dāng)一個(gè)模型建立后,則要通過實(shí)踐的使用對(duì)模型進(jìn)行評(píng)價(jià),當(dāng)模型與實(shí)際結(jié)果有出入時(shí)則需要回到藥檢模型建立的過程中對(duì)相關(guān)的模型修改,在此過程中需要通過合適智能算法可以對(duì)模型進(jìn)行評(píng)價(jià),如:蟻群算法、文化算法、免疫算法、遺傳算法、神經(jīng)網(wǎng)絡(luò)等,這些算法都有智能學(xué)習(xí)的功能,當(dāng)發(fā)現(xiàn)問題時(shí)可以自我調(diào)節(jié)并重新找到最優(yōu)解。通過這樣的挖掘過程可以提取到藥檢大數(shù)據(jù)的重要信息,這對(duì)藥檢系統(tǒng)的檢驗(yàn)檢測(cè)有重要意義,如:食藥安全預(yù)警機(jī)制、食藥安全問題模型預(yù)測(cè)、藥品安全信息模型等等。
4 結(jié)束語
文章以科學(xué)檢驗(yàn)精神為指導(dǎo)方向,結(jié)合計(jì)算機(jī)最新技術(shù)用以推進(jìn)藥檢信息化未來發(fā)展的思路與理念,并在此基礎(chǔ)上介紹了大數(shù)據(jù)的概念,同時(shí)規(guī)劃了基于藥檢云計(jì)算的大數(shù)據(jù)挖掘平臺(tái),并在此基礎(chǔ)上提出了大數(shù)據(jù)挖掘的策略。在未來的挖掘中需要對(duì)藥檢大數(shù)據(jù)采集的準(zhǔn)確性、安全性、價(jià)值性進(jìn)行分析,用以保證采集到的數(shù)據(jù)信息是可靠的。
作者簡介:涂婕(1983-),女,湖北武漢人,圖書管理員,湖北省食品藥品監(jiān)督檢驗(yàn)研究院情報(bào)信息中心科員。
羅震鈞(1985-),男,河南漯河人,助理工程師,武漢理工大學(xué)計(jì)算機(jī)學(xué)院在職博士研究生。
龐璋帆(1982-),男,湖北武漢人,湖北省食品藥品監(jiān)督檢驗(yàn)研究院湖北藥品所科員。endprint