Clint+Boulton+沈建苗
首席數(shù)據(jù)官(CDO)Mark Ramsey在幫助這家制藥巨頭將數(shù)十年積累下來的數(shù)據(jù)轉(zhuǎn)化為藥物發(fā)現(xiàn)資產(chǎn)。
葛蘭素史克(GSK)在大數(shù)據(jù)方面懷有遠(yuǎn)大夢想。通過利用數(shù)十年積累下來的臨床試驗數(shù)據(jù),這家制藥巨頭旨在更迅速地將藥物投放市場。如果成功的話,它有望在這個因步伐緩慢而常常飽受詬病的行業(yè)占據(jù)優(yōu)勢。
這是葛蘭素史克首席數(shù)據(jù)官(CDO)Mark Ramsey的主要目標(biāo)和挑戰(zhàn);他承認(rèn),GSK在利用數(shù)據(jù)方面動作遲緩的行業(yè)是個落后者。2015年GSK聘請Ramsey,便是希望扭轉(zhuǎn)這個頹勢。Ramsey說:“與金融服務(wù)、電信或零售等行業(yè)相比,制藥業(yè)在使用數(shù)據(jù)作為戰(zhàn)略資產(chǎn)方面沒有取得多大進(jìn)展?!彼诩用薌SK之前,在三星移動擔(dān)任過CDO,并在IBM效力18年期間擔(dān)任過幾個數(shù)據(jù)分析崗位。“我們的首要目標(biāo)是如何更高效地開展臨床試驗,以加快藥物發(fā)現(xiàn)?!?/p>
并非只有各大制藥公司任由可能很豐富的數(shù)據(jù)閑置在龐大的孤島中。Gartner的一項調(diào)查顯示,許多公司在物色領(lǐng)導(dǎo)人,幫助從這些數(shù)據(jù)寶藏中發(fā)掘優(yōu)勢和運(yùn)營效率,預(yù)計到2019年底,90%的大公司會設(shè)有CDO。Gartner分析師Doug Laney認(rèn)為,到2020年,50%的領(lǐng)先企業(yè)會設(shè)有戰(zhàn)略影響力和權(quán)威性與首席信息官(CIO)不相上下的CDO。CDO可以將其個人的優(yōu)先事項與企業(yè)的優(yōu)先事項結(jié)合起來,以此確立領(lǐng)導(dǎo)地位。這正是Ramsey所努力的方向。
以下是Ramsey如何致力于全面改變GSK的數(shù)據(jù)戰(zhàn)略。
奠定數(shù)據(jù)基礎(chǔ)
制藥公司(許多公司有數(shù)十年、甚至數(shù)百年的歷史)經(jīng)常從臨床試驗收集和存儲海量數(shù)據(jù)。然而,大多數(shù)只是將這些數(shù)據(jù)用不同的數(shù)據(jù)庫存儲起來,每次臨床試驗后,積累的信息越來越多。Ramsey表示,GSK有300多年的歷史,它在2100多個孤島中存放著數(shù)PB級的此類數(shù)據(jù),這些孤島有待制藥公司挖掘,以獲得寶貴的洞察力。
Ramsey來到GSK后評估了該公司的數(shù)據(jù)概況,迅速了解到數(shù)據(jù)分析技術(shù)并沒有在整個公司得到全面使用。相反,這項技術(shù)只是用于旨在將新藥投向市場的一次性臨床試驗。他從中看到了共享眾多試驗的數(shù)據(jù)的大好機(jī)會,但要是沒有一種全面的數(shù)據(jù)平臺:GSK大數(shù)據(jù)信息平臺,這就無從談起。
該平臺的基礎(chǔ)是一個Cloudera Hadoop數(shù)據(jù)湖,StreamSets公司的自動化機(jī)器人技術(shù)從成千上萬個作業(yè)系統(tǒng)中獲取數(shù)據(jù)后放入到該數(shù)據(jù)湖。隨后,GSK使用Trifacta軟件清理雜亂、復(fù)雜的數(shù)據(jù)集,并做成業(yè)務(wù)用戶有興趣分析的視圖。GSK還利用Tamr公司的機(jī)器學(xué)習(xí)軟件,將數(shù)據(jù)轉(zhuǎn)移到行業(yè)本體(Ontology),并利用AtScale軟件對數(shù)據(jù)進(jìn)行虛擬化處理。業(yè)務(wù)用戶通過Zoomdata可視化軟件查看數(shù)據(jù)。該平臺中的其他工具還包括谷歌的TensorFlow、Tibco Spotfire和Anaconda等。Ramsey表示,各種技術(shù)整合起來,那樣它們可以共享數(shù)據(jù),而這使臨床試驗更容易。
作為這個項目的一部分,該公司已在11個月內(nèi)將大約12TB的結(jié)構(gòu)化數(shù)據(jù)和近8PB的非結(jié)構(gòu)化信息轉(zhuǎn)移到該平臺――這個速度對任何一家企業(yè)來說都很快,更不用說是制藥公司了。 Ramsey解釋:“盡管GSK已有300多年的歷史,但我們正盡量像一家初創(chuàng)公司那樣來運(yùn)作。”
縮小數(shù)據(jù)發(fā)現(xiàn)窗口
GSK大數(shù)據(jù)信息平臺已經(jīng)獲得了成效,縮短了為臨床試驗篩選數(shù)據(jù)的時間。過去研究人員要花一年的時間來分析臨床試驗,從而找出血液類型與呼吸藥物療效之間的關(guān)系,現(xiàn)在卻只需要短短30分鐘。Ramsey說:“這給研究人員的工作效率帶來了巨大的影響?!?/p>
Ramsey表示,GSK最近還與英國生物樣本庫(UK Biobank)簽署了一項合作協(xié)議,利用其平臺為500000名患者開展外顯子組測序(Exome Sequencing),幫助研究人員分析與這些特點有關(guān)的DNA特性。Ramsey說:“這與研發(fā)過程有關(guān),所以帶來了巨大的價值。”GSK希望用其平臺開展的計算機(jī)模擬將幫助該公司將藥物發(fā)現(xiàn)周期從五年或七年縮短至兩年。
Ramsey為力求做好數(shù)據(jù)分析工作的公司提供建議。
進(jìn)行整體評估:你先要了解數(shù)據(jù)在哪里、是什么樣的數(shù)據(jù)、如何使用數(shù)據(jù)。Ramsey加入GSK后,發(fā)現(xiàn)IT部門對數(shù)據(jù)毫無頭緒。于是他讓IT團(tuán)隊構(gòu)建了一項數(shù)據(jù)搜索技術(shù),找到研發(fā)部門的每個數(shù)據(jù)源。一旦你對數(shù)據(jù)環(huán)境進(jìn)行了評估,就可以設(shè)立一個支持那些任務(wù)的數(shù)據(jù)分析團(tuán)隊,并開始考慮建立獲取、處理和分析數(shù)據(jù)的平臺。
先對數(shù)據(jù)運(yùn)用分析技術(shù):許多公司常常忽略仔細(xì)呈現(xiàn)用于分析的數(shù)據(jù),就是由于它們一門心思想解決業(yè)務(wù)問題。Ramsey鼓勵同行專注于數(shù)據(jù)篩選,并利用市面上的機(jī)器學(xué)習(xí)工具了解你擁有的數(shù)據(jù)。他說:“確保將大數(shù)據(jù)工具運(yùn)用于數(shù)據(jù)本身,讓這成為現(xiàn)實。只有篩選數(shù)據(jù),并將篩選過的數(shù)據(jù)提供給業(yè)務(wù)用戶,才可以開始創(chuàng)造價值?!?/p>
獲得業(yè)務(wù)部門的支持:Ramsey表示,獲得公司高層的認(rèn)可至關(guān)重要,他的直屬上司是GSK的研發(fā)部門總裁。他說:“擁有一種出色的平臺只完成了一半;你要有挑戰(zhàn)極限,而且想要改變決策方式,從而為公司提升價值的高層?!眅ndprint