李昊原
在電腦上點(diǎn)一下,就能對大量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)問題或者驗(yàn)證猜想,
這大概是無數(shù)苦于發(fā)論文而不能的臨床醫(yī)生的夢想了。這個(gè)場景正在逐漸變?yōu)楝F(xiàn)實(shí)。
“很多時(shí)候,他們并不是寫不出論文,而是缺乏數(shù)據(jù)或者整理數(shù)據(jù)的時(shí)間。在國外,一線專家會(huì)有專門的科研助理團(tuán)隊(duì)負(fù)責(zé)整理數(shù)據(jù)和完成患者隨訪,在中國,基本只有最頂尖的專家才會(huì)有這樣的助理;而且中國的醫(yī)生工作負(fù)荷大,大多數(shù)時(shí)間都在手術(shù)室、病房或門診,沒時(shí)間去整理數(shù)據(jù)。”
零氪科技(LinkDoc)的CTO羅立剛告訴記者,由于結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng),將醫(yī)療行業(yè)的數(shù)據(jù)大規(guī)模轉(zhuǎn)化為機(jī)器可識(shí)別分析的數(shù)據(jù),即結(jié)構(gòu)化,一直是行業(yè)的難題。據(jù)美國臨床腫瘤學(xué)會(huì)(ASCO)統(tǒng)計(jì),美國也僅有不到3%腫瘤患者的數(shù)據(jù)被結(jié)構(gòu)化用于研究,剩下97%的數(shù)據(jù)都閑置在醫(yī)院信息系統(tǒng)(HIS)里或者病歷病案室中。作為一家專注于腫瘤大數(shù)據(jù)分析與應(yīng)用的科技公司,通過承諾提供高質(zhì)量的數(shù)據(jù)報(bào)告和產(chǎn)品,零氪和諸多醫(yī)院、科室合作,幫助他們處理脫敏后的病歷數(shù)據(jù),使電子病歷信息轉(zhuǎn)化為科研級數(shù)據(jù),并研發(fā)人工智能工具,實(shí)現(xiàn)了腫瘤大數(shù)據(jù)一站式解決方案的搭建。
從“人工”到人工智能
將HIS系統(tǒng)中的患者數(shù)據(jù),人工錄入整理到數(shù)據(jù)庫軟件的標(biāo)準(zhǔn)化模板里,生成標(biāo)準(zhǔn)數(shù)據(jù)文件,再用SPSS、SAS等分析軟件對數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,這是臨床醫(yī)生做科研的傳統(tǒng)套路。其中生成標(biāo)準(zhǔn)數(shù)據(jù)文件的過程(也就是數(shù)據(jù)“人工結(jié)構(gòu)化”),羅立剛算了筆賬:在美國,一位腫瘤患者,治療全過程數(shù)據(jù)的平均結(jié)構(gòu)化成本是5000美元;在中國,差不多也要5000元人民幣。
“結(jié)構(gòu)化是最關(guān)鍵的,也是很困難的一件事。” 羅立剛說。一開始,零氪用傳統(tǒng)方式收集數(shù)據(jù),但很快就發(fā)現(xiàn)難以為繼。“人工錄入一份電子病歷平均要花2個(gè)小時(shí)來整理,正確率還只有40%左右?!倍屼浫肴藛T看懂平均50多頁的患者病歷,也需要投入大量的培訓(xùn)成本。
之后,零氪對錄入的流程進(jìn)行了“流水線式”的改進(jìn)?!氨热缯f一份病歷中有五六頁是手術(shù)記錄的信息,那就分成一個(gè)獨(dú)立的部分,讓一個(gè)錄入員專門做手術(shù)記錄的數(shù)據(jù)結(jié)構(gòu)化。這樣培訓(xùn)的成本低,工作效率也高?!蓖ㄟ^分工,并引入了錄入規(guī)范智能提示、參考病歷自動(dòng)推送、自動(dòng)化質(zhì)檢系統(tǒng)等輔助技術(shù),病歷的錄入時(shí)間從2小時(shí)降到了17分鐘。
但人工錄入終歸“人力有時(shí)盡”,零氪又開始探索新的方式。 “第二代其實(shí)沒有用到很復(fù)雜的技術(shù),主要是一個(gè)系統(tǒng)工程,但這為第三代系統(tǒng)積累了經(jīng)驗(yàn)?!?/p>
在數(shù)據(jù)采集上,零氪的大數(shù)據(jù)平臺(tái)開始直接接入醫(yī)院的HIS系統(tǒng),減少中間環(huán)節(jié)。中國醫(yī)療機(jī)構(gòu)的HIS系統(tǒng)廠家眾多,沒有統(tǒng)一標(biāo)準(zhǔn),零氪的IT團(tuán)隊(duì)就只能一個(gè)個(gè)機(jī)構(gòu)去實(shí)施解決方案,但這是“磨刀不誤砍柴工”的事情?!拔覀儸F(xiàn)在70%的情況下都是這樣的,30%的在逐步實(shí)施。雖然過程中還會(huì)有一些問題,但我相信將來肯定都會(huì)打通?!?/p>
數(shù)據(jù)進(jìn)入系統(tǒng)后,繼續(xù)分工的思路,從簡單的部分開始,數(shù)據(jù)結(jié)構(gòu)化的工作逐漸由“機(jī)器輔助人工”變成了“機(jī)器取代人工”。我國醫(yī)療術(shù)語缺乏標(biāo)準(zhǔn)化和醫(yī)療信息的復(fù)雜性,是機(jī)器取代人工的障礙。但前期大量人工錄入的經(jīng)驗(yàn)積累,讓零氪的團(tuán)隊(duì)熟悉了臨床醫(yī)生習(xí)慣的表述,明確了結(jié)構(gòu)化點(diǎn)位基于的標(biāo)準(zhǔn),形成了標(biāo)準(zhǔn)化的術(shù)語集,并開發(fā)了Fellow-X智能結(jié)構(gòu)化系統(tǒng)。
“人工智能,有一大部分是通過機(jī)器學(xué)習(xí)完成了,給醫(yī)療數(shù)據(jù)處理帶來了很大的幫助?!绷_立剛介紹,數(shù)據(jù)被導(dǎo)入系統(tǒng)后,電子信息會(huì)自動(dòng)解析、標(biāo)準(zhǔn)化錄入并進(jìn)行質(zhì)量校驗(yàn);紙本信息會(huì)被掃描成圖片格式然后由圖片識(shí)別技術(shù)(OCR)識(shí)別成文本信息。在引入了深度學(xué)習(xí)技術(shù)后,計(jì)算機(jī)在復(fù)雜場景下也能快速適配?!氨热缯f化療藥紫杉醇,醇字識(shí)別錯(cuò)了,系統(tǒng)就會(huì)自動(dòng)更正。目前我們95%的數(shù)據(jù)都能自動(dòng)結(jié)構(gòu)化,只剩下5%比較難的還需要人工?!比肆趧?dòng)被解放,讓數(shù)據(jù)處理能力大幅提升,一份病歷的錄入時(shí)間縮短到只需要5分鐘?,F(xiàn)在,零氪的腫瘤大數(shù)據(jù)平臺(tái)已有超過100萬的患者數(shù)據(jù)。
“IT的人做傳統(tǒng)行業(yè),要對行業(yè)有敬畏感,不要總說要顛覆什么,而要多去走訪,多交流。” 零氪的大數(shù)據(jù)技術(shù)平臺(tái)是完全基于阿里云的SaaS云服務(wù),合作醫(yī)療機(jī)構(gòu)的原始數(shù)據(jù)保存在內(nèi)網(wǎng)中,清洗、脫敏、結(jié)構(gòu)化后傳輸?shù)皆粕希t(yī)生可以通過PC端或App進(jìn)行訪問。一開始,零氪在三家合作的醫(yī)院試用新的系統(tǒng),在不斷交流反饋后,羅立剛發(fā)現(xiàn),IT概念上的數(shù)據(jù)庫和醫(yī)療行業(yè)的數(shù)據(jù)庫有很大的區(qū)別?!拔覀僆T的人說數(shù)據(jù)庫,是說Oracle、mysql,而醫(yī)療行業(yè)的人說的數(shù)據(jù)庫,是指從后臺(tái)的存儲(chǔ)到前臺(tái)的可視化分析的整個(gè)解決方案。”
現(xiàn)實(shí)的需求促進(jìn)了許多系統(tǒng)新功能的產(chǎn)生。臨床醫(yī)生不擅長統(tǒng)計(jì)分析,平臺(tái)上便提供了描述性統(tǒng)計(jì)、組間比較、生存分析等可視化且便捷易用的適合腫瘤醫(yī)生的功能,并可以用App隨訪自己的病人,統(tǒng)計(jì)分析結(jié)果均使用開源的R實(shí)現(xiàn),“讓大約80%的科研工作能在平臺(tái)上實(shí)現(xiàn)?!?/p>
羅立剛感慨: “人工智能和處理后的醫(yī)療大數(shù)據(jù)結(jié)合,會(huì)產(chǎn)生許多新的幫助。”可以為醫(yī)院和科室的管理決策提供數(shù)據(jù),也可以輔助醫(yī)生的臨床治療?!盎颊邅砹?,了解情況后,系統(tǒng)可以將過往類似患者的情況做一個(gè)歸納呈現(xiàn)給醫(yī)生,輔助醫(yī)生做診斷?!?/p>
目前,零氪與阿里云、英特爾正在聯(lián)合舉辦天池醫(yī)療AI大賽,挑戰(zhàn)早期肺癌的智能化診斷,零氪提供經(jīng)脫敏并由專家標(biāo)注的高清胸部CT掃描影像數(shù)據(jù)。“人工智能技術(shù)近幾年在圖像形態(tài)學(xué)方面突破很大,比如人臉識(shí)別,在醫(yī)學(xué)上的前景也是很好的。中國一直存在影像科、病理科醫(yī)生缺乏的現(xiàn)象,這是一個(gè)福音?!钡_立剛也強(qiáng)調(diào),醫(yī)療是“人命關(guān)天”的行業(yè),影像診斷技術(shù)應(yīng)用的過程應(yīng)該謹(jǐn)慎,從復(fù)核開始,逐漸到初篩,不斷提升準(zhǔn)確率,距離技術(shù)落地還有一段距離。
目前零氪已有超過500家醫(yī)院和600家科室的合作伙伴,但出于信息安全和隱私保護(hù)的考慮,醫(yī)生只能使用自己醫(yī)院的數(shù)據(jù),跨醫(yī)院的數(shù)據(jù)使用,還需要醫(yī)院間進(jìn)行協(xié)議和簽字授權(quán)。醫(yī)療數(shù)據(jù)有了,要如何去打通屏障充分應(yīng)用,這可能是未來醫(yī)療行業(yè)的重要問題。