文 / Florian Hauer,Und Martin Koch
大數(shù)據(jù)的連接應(yīng)用將成為未來實驗室管理的主要任務(wù) // 幾乎每個行業(yè)都會產(chǎn)生大量的數(shù)據(jù),且隨著時間呈快速增長趨勢。實驗室數(shù)據(jù)也不例外,近年來,高通量分析成為實驗室分析方法的大趨勢,從而產(chǎn)生了相較于以前幾倍甚至幾十倍的數(shù)據(jù),但大量的數(shù)據(jù)并非就是所謂的大數(shù)據(jù)。
圖1 所有成本較低的移動設(shè)備研發(fā),如平板電腦和智能手機等,都有利于數(shù)字化系統(tǒng)的應(yīng)用和推廣。
成熟的高通量分析與互聯(lián)網(wǎng)技術(shù)的融合,已經(jīng)成為實驗室數(shù)字化的趨勢。研究機構(gòu)、藥品生產(chǎn)企業(yè)以及小型實驗室之間越來越多的合作都使數(shù)據(jù)量大幅增加。不斷增長的數(shù)據(jù)量不僅對實驗室的IT系統(tǒng)提出了挑戰(zhàn),也給數(shù)據(jù)的處理分析提供了更多新的可能性,同時與此有關(guān)的價值增值過程,都可以歸到大數(shù)據(jù)這一概念中去。
大量的數(shù)據(jù)本身并非就是大數(shù)據(jù),只有當(dāng)這些數(shù)據(jù)能夠按照一定的格式保存,能被有效的查詢,進行綜合分析后,可以獲取某種新的相互關(guān)系,并從中得到更有用的信息時,這樣的“大量數(shù)據(jù)”才能被稱之為大數(shù)據(jù)。能夠使人易于理解的大數(shù)據(jù)實際上都是從猶如亂麻般的數(shù)據(jù)中整理出來的。過去,雖然已經(jīng)進行了測試,但得到的這些所謂的源數(shù)據(jù)卻不能被有效的利用起來?,F(xiàn)在,非常簡單的大數(shù)據(jù)應(yīng)用就能幫你節(jié)約大量的時間、金錢和資源。
把積累的大量數(shù)據(jù)變成大數(shù)據(jù)還有很多工作要做。許多實驗室數(shù)據(jù)和信息都被存儲在本地的數(shù)據(jù)庫中,更多的是記錄在紙張報告、記錄表中,被分散在一個個文件夾中而很難用于大數(shù)據(jù)分析。
大數(shù)據(jù)的應(yīng)用條件首先是要把實驗室中所有的數(shù)據(jù)都保存在統(tǒng)一的數(shù)字化平臺。這種平臺允許對所有數(shù)據(jù)進行分類,而且有統(tǒng)一、結(jié)構(gòu)化的數(shù)據(jù)采集過程,從而能夠在過程層面對數(shù)據(jù)進行比較。為了能夠處理越來越大的數(shù)據(jù)量,從長期發(fā)展來看,把用于分析和生產(chǎn)的儀器設(shè)備與IT系統(tǒng)直接連接起來是必不可少的,這樣可以確保在任何時間都能連續(xù)跟蹤數(shù)據(jù),根據(jù)這些數(shù)據(jù)可以看出很多被隱藏的影響因素,對這些影響因素進行仔細分析后,可以搞清楚它們對過程的影響從而做出調(diào)整。
多年來,實驗室數(shù)據(jù)的數(shù)字化是實驗室日常工作中一個嚴峻挑戰(zhàn)。目前已經(jīng)有許多不同類型的電子實驗室記錄(ELNs)和實驗室信息管理系統(tǒng)(LIMS)可供使用,但不是所有的實驗室都使用統(tǒng)一的系統(tǒng)管理數(shù)字化文件。某些移動輸入設(shè)備,例如,平板電腦和智能手機的發(fā)展都有利于數(shù)字化系統(tǒng)的應(yīng)用和推廣。許多實驗室都會使用數(shù)據(jù)格式完全不同的數(shù)據(jù),例如,Word、Excel、PDF和圖像格式的通用數(shù)據(jù)格式,也常常要用到一些特殊格式的數(shù)據(jù)。
為了能夠在更大范圍內(nèi)使用這些數(shù)據(jù),根據(jù)數(shù)據(jù)產(chǎn)生的過程來管理組織數(shù)據(jù)很有必要。圖像數(shù)據(jù)和其他格式的數(shù)據(jù)相互比較,無需把所有的圖譜并排進行對比,只把具有可比性的譜圖文件相互比較就可以了,要利用大數(shù)據(jù)首先要解決小數(shù)據(jù)的問題,但大多數(shù)實驗室都存在的難題是小數(shù)據(jù)太多卻難以關(guān)聯(lián)。
在利用大數(shù)據(jù)的過程中,首先要制定標(biāo)準(zhǔn),利用制定的標(biāo)準(zhǔn)可以把實驗過程中的數(shù)據(jù)輕松的匯總到一起,進行整理分類,實現(xiàn)相互比較。但迄今為止還沒有能夠?qū)⒖鐚W(xué)科實驗室數(shù)據(jù)進行格式的統(tǒng)一。
實驗設(shè)備和檢測儀器都算是實驗室的數(shù)據(jù)采集設(shè)備,它們可以記錄、生成大量數(shù)據(jù)。這些數(shù)據(jù)常常都被保存在聯(lián)網(wǎng)的計算機中,沒有聯(lián)網(wǎng)接口的話,可以保存在網(wǎng)絡(luò)驅(qū)動器中。因不同工作組之間面臨分散式的設(shè)備配置帶來的問題,因此限制了數(shù)據(jù)暢通無阻的傳輸,即使使用U盤也很難自動把儀器的結(jié)果數(shù)據(jù)與實驗室報告文檔數(shù)據(jù)建立起一一對應(yīng)的聯(lián)系。
圖2 許多實驗室都有使用不同格式數(shù)據(jù)的需求。
為了填補實驗室儀器設(shè)備與IT系統(tǒng)間的空白,儀器設(shè)備制造商、實驗室用品生產(chǎn)廠、科研機構(gòu)和制藥企業(yè)合作成立了一個名為“SiLA快速集成”的國際性組織,制定了實驗室儀器設(shè)備控制的統(tǒng)一標(biāo)準(zhǔn)。這一標(biāo)準(zhǔn)的目的是不同生產(chǎn)廠家生產(chǎn)的設(shè)備有著統(tǒng)一的接口,即所謂的PMS過程管理系統(tǒng)接口。這一PMS過程管理系統(tǒng)接口可以通過網(wǎng)絡(luò)服務(wù)器或者經(jīng)互聯(lián)網(wǎng)的安全連接來登錄、訪問。
這樣以來,同一實驗室的工作者就可以在不同的計算機上通過登錄訪問網(wǎng)絡(luò),登錄的計算機可以是在同一大樓內(nèi)的不同計算機,也可以是另一個地區(qū)的任一計算機,登錄后可以任意訪問一臺儀器設(shè)備,進行過程參數(shù)的輸入,同時接收設(shè)備數(shù)據(jù)。在自動化控制環(huán)境中,還可以對整個檢測過程或文件錄入過程進行遠程遙控或監(jiān)控。
SiLA實驗室的自動化標(biāo)準(zhǔn)中有用以集成各儀器設(shè)備的不同途徑。例如,通過與SiLA實驗室自動化兼容的驅(qū)動器,它能把不符合標(biāo)準(zhǔn)規(guī)定的設(shè)備通訊納入到網(wǎng)絡(luò)服務(wù)器的管理之中。SiLA接口轉(zhuǎn)換器能夠為儀器操作提供一個兼容的平臺,經(jīng)網(wǎng)絡(luò)服務(wù)器與過程管理系統(tǒng)建立通訊。在方案里,SILA兼容平臺通過網(wǎng)絡(luò)服務(wù)器把第三方與過程管理系統(tǒng)連接起來,有助于各種設(shè)備的兼容,并能把實驗室中已經(jīng)安裝的儀器設(shè)備與實驗室中的IT網(wǎng)系統(tǒng)連接起來。
圖3 弗勞恩霍夫制造工程和自動化研究所與Labfolder公司合作開發(fā)的解決方案。
很多成功的案例都表明可以實現(xiàn)實驗室各儀器設(shè)備間的連接,然而,數(shù)字化試驗記錄、實驗室管理系統(tǒng)LIMS之間的連接,但這種連接常常是復(fù)雜的,且成本高。在未來,或許實驗室儀器設(shè)備可以實現(xiàn)即開即用的連接。把數(shù)字化實驗記錄集成到與實驗室自動化標(biāo)準(zhǔn)SiLA兼容的過程管理系統(tǒng)中,正如弗勞恩霍夫研究所協(xié)會與Labfolder公司合作開發(fā)的方案那樣,可以極大地簡化大量實驗室儀器設(shè)備的常規(guī)連接。
下一個必要的方案就是制定統(tǒng)一的連接協(xié)議標(biāo)準(zhǔn),有了標(biāo)準(zhǔn)才能將在儀器設(shè)備上檢測的數(shù)據(jù)和填寫的數(shù)字化實驗記錄之間建立起相互關(guān)聯(lián)。這一標(biāo)準(zhǔn)的目的是建立一個基礎(chǔ)平臺,并能夠最大限度地看清基礎(chǔ)平臺中保存的數(shù)據(jù)。當(dāng)過去的數(shù)據(jù)自動地應(yīng)用在新過程優(yōu)化中時,集成、靈活的實驗室在使用過程中變得易如反掌了,這才可以說是真正實現(xiàn)了大數(shù)據(jù)應(yīng)用。 ■