◎中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任 鄔賀銓
習(xí)總書記指出,要運用大數(shù)據(jù)等手段加強疫情的溯源和監(jiān)測,這是對大數(shù)據(jù)作用的肯定,也是對互聯(lián)網(wǎng)界的一個要求。
現(xiàn)在手機已經(jīng)成為我們個人的另一張身份證。我們在2018年移動通信普及率是112%,而全球是106%,獨立移動通信用戶的普及率,也就是說扣除了一人多號,我們是82%,接近發(fā)達國家的水平,移動互聯(lián)網(wǎng)的普及率高于全球的平均水平??梢哉f,我們國家有獨立活動能力的人群幾乎都有手機,而且中國實行手機用戶的實名制,從手機用戶就可以識別持有人的身份。
中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任 鄔賀銓
一般手機在待機的時候,用戶從一個小區(qū)移動到另一個小區(qū),這個時候手機要不斷接收基站發(fā)出的測量信號。讀取基站下發(fā)的重選小區(qū)參數(shù),選擇最優(yōu)小區(qū),在非待機的時候?qū)嶋H上就是切換了。因為用戶可能是在移動的,而蜂窩半徑又比較密,因此,更新的時間要比較快。目前的更新是秒級,可以說具有實時性。
手機是根據(jù)什么定位呢?主要是利用基站,有幾種方法,可以改進基站定位。如果說用比較好的方法,定位精度可以數(shù)十米,一般目前可能是一兩百米,5G基站更密,定位精度就更高。
當(dāng)然,除了基站定位以外,我們用全球?qū)Ш叫l(wèi)星和數(shù)字地圖都可以定位?,F(xiàn)在的智能手機比例已經(jīng)很高了,占手機用戶的比例能夠達到百分之八九十,而智能手機都裝了全球?qū)Ш叫l(wèi)星接收的能力。定位的精度一般數(shù)十米,更好的可以做到米級,但是無法定位室內(nèi)用戶。另外,數(shù)字地圖公司有它的一些方法來掃描這個街道,因此它的定位甚至可以到每一棟樓。
一般來講,手機用戶如果下載了這種數(shù)字地圖的APP,而且開機并啟用了定位功能,它就會隨著變化新的位置,發(fā)送信息給GPS。所以,能知道你所在的位置。當(dāng)然,它的定位精度比基站的方法要好得多。但是,只限于裝有數(shù)字地圖APP的用戶。我們有個比較知名的數(shù)字地圖公司,目前它現(xiàn)有用戶數(shù)是7個億(下載),占全國移動用戶還不到一半,只有43%,所以說覆蓋面是有限的。但是,盡管電信的運營商覆蓋定位用戶更多、更全面,但是精度并不一定比數(shù)字地圖公司更好。
這里給出的是一個數(shù)字地圖公司的大數(shù)據(jù)地圖,它可以溯源,武漢春節(jié)前將近500萬人流到什么地方去,這里可以給出一個很好的走勢。
有了這些數(shù)據(jù),怎么來決定疫情的傳播?國際上通常用一種叫SEIR的模型。它把人群分成什么呢?I就是已經(jīng)感染病的人群,E是密切接觸者,S目前是健康的,R是最后運算結(jié)果是康復(fù)人群的,它有一套規(guī)律。中國的學(xué)者提出了一種改進C-SEIR,增加了P和Q,P是疑似人群,Q是確診人群?,F(xiàn)在我們國家也是分四類,從中可以計算出疫情傳播的模型。
我們可以看到,這是從1月份到2月9日,全國的疫情傳播模型。可以看到傳播的狀況,目前,中國的修正模型,考慮了政府采取措施和大眾的對于防疫的意識,但所有上面的模型,還是基于城市里頭感染者和沒感染者,包括所有的加起來是一個常數(shù),也就是說不考慮城市里面有流入的和流出的。實際上利用電信大數(shù)據(jù),可以把流入流出的一部分人考慮進去,可以使得這個模型更精確。
當(dāng)然,有了模型,很多大數(shù)據(jù)還需要有一種可視化的表現(xiàn)。這里給出一種可視化的方式,每個方框表示每個省。比如說右下角的方框——湖北,它的背景顏色就比其他的深,也就是感染人群更多。其中綠色是治愈率,黑色是死亡率,可以看到治愈的比例也比其他省要少,死亡的比例反而還比較高??梢钥吹?,這是一種直觀的看法。
我們有了這種行為的大數(shù)據(jù),可以精確到每一個小區(qū)。左圖是百度,以上海為例,右圖是騰訊,以深圳為例,它都可以以一種APP的方式來發(fā)布,老百姓可以用,下載可以查詢,甚至可以查到哪個小區(qū)的具體位置,距離你所在地方有多遠,里面有多少個是確診病例。實際上,其中一家公司說,已經(jīng)覆蓋了200多個城市了。
現(xiàn)在開始復(fù)工了,這是2月10日,節(jié)后第一個復(fù)工日,人流的增加也為疫情的防控帶來了一些新的壓力。這里面給出了疫情期間城市的熱力圖,我們可以細化到每個縣,可以讓我們知道什么地方人最多,盡量避免人口的密集。
這里面是一個確診患者的行程追蹤。從底下看是1月21日他離開武漢,乘坐了高鐵,到達一個地方,21日又換了一個高鐵,到另外一個地方,一直到24日,他發(fā)現(xiàn)有癥狀了,當(dāng)然他行程還得繼續(xù),27日又到了一個地方,30日又到了下一個地方,31日確診了。根據(jù)這種確診患者的行程追溯,我們可以很好地知道他到過哪里。現(xiàn)在有些地方是依靠流行病學(xué)的調(diào)查,去問這個患者,你什么時間到什么地方,一個是他記不準(zhǔn),另一個說不準(zhǔn),利用手機的大數(shù)據(jù),可以很好的知道。同時,通過計費數(shù)據(jù),也可以知道他平時比較密切的聯(lián)系人,也可以知道有沒有可能是密切接觸者。
我們把衛(wèi)健委的數(shù)據(jù)、交通系統(tǒng)的數(shù)據(jù)、工信部門的數(shù)據(jù)組合起來,可以找出密切接觸者。比如說,衛(wèi)健委可以知道確診患者的姓名、身份證號,然后通過交通部,可以給出這個患者半個多月來乘坐過的航班車次,衛(wèi)健委讓工信部提出,這些人的手機號是什么?根據(jù)手機號,地方政府可以找到密切接觸者,當(dāng)然這是從官方的查找。實際上平臺也可以開放,同行者可以在同行查詢平臺查出我所坐的航班和車次及車廂,車上有沒有確診患者,可以很好地發(fā)現(xiàn)密切接觸者。
2月18日,中國工程院院士、中國互聯(lián)網(wǎng)協(xié)會咨詢委員會主任鄔賀銓,圍繞“大數(shù)據(jù)助力疫情防控”主題在中國互聯(lián)網(wǎng)協(xié)會網(wǎng)來學(xué)院舉辦的“新一代信息技術(shù)助力疫情防控”公開課授課。
目前是返程復(fù)工,還有節(jié)后回家的時間,有些人隱瞞了自己來自疫區(qū)、到過疫區(qū)的經(jīng)歷,回到家、回到村子里頭還到處走,雖然看上去沒有癥狀,但是可能已經(jīng)感染了,并且是有很強的傳染性,導(dǎo)致了疫情擴散,導(dǎo)致幾十人甚至上百人被隔離,或者已經(jīng)被感染。通過手機定位,是可以知道這個用戶是不是來自疫區(qū),還是到過疫區(qū),但是這種數(shù)據(jù)不能直接提供給街道、小區(qū)和鄉(xiāng)鎮(zhèn),因為隱私的保護原因,如果我們開放給他們,很可能不一定是查患者,說不定用作其他,所以不能這樣做。
現(xiàn)在怎么辦呢?我們知道,從《個人信息保護法》得知,本人是可以查詢自己信息的。所以,工信部現(xiàn)在統(tǒng)籌三個運營商,提供了用戶行程的服務(wù)。用戶提出來,你可以查詢你本人,在14天前到過什么地方,當(dāng)時工信部提出是按停留4個小時以上,這個時候,你有清單,就可以上當(dāng)?shù)氐挠霉挝弧⒔值?、小區(qū)來證明你自己沒有到過疫區(qū),這就是自證。目前,這件事情已經(jīng)開放查詢上千萬人次了。
當(dāng)然現(xiàn)在面臨返程復(fù)工,有些地方甚至擴大化,對一些疫情確診人數(shù)比較多的省,要求全部都不許人家回來。這實際上嚴(yán)控不能失控,硬核但不能亂來,所以實際上,返程的一些檢查是必要的,當(dāng)然就會對旅途帶來一些影響,這里比如說以高德地圖為例,他給出一個人從濟南要到上海,沿途經(jīng)過城市的疫情情況列出來了,上海市對進上海的人有什么管理及要求也列出來了,包括高速路入口、出口的車流量,以及大概這個過程中間有很多檢查站,路程需要多長時間也列出,“返程直通車”平臺也方便大家,如果返程的人知道,我路上大概要多長時間,要做好什么準(zhǔn)備。
除了電信和互聯(lián)網(wǎng)公司的大數(shù)據(jù)以外,事實上還有其他大數(shù)據(jù)。我這里講的是電力大數(shù)據(jù),一個家里邊是否有人在家,是否有人回來,根據(jù)用電的情況是能區(qū)別出來。所以,國網(wǎng)電力杭州公司,做了1000多萬條數(shù)據(jù)收集,開發(fā)出大數(shù)據(jù)分析的算法,能夠很好的知道,這里邊有沒有居家隔離的人,有沒有獨居的人,社區(qū)可以根據(jù)這個來判斷是不是做針對性地服務(wù)。利用電力的用電狀況,我們也可以知道復(fù)工狀況,根據(jù)用電量,廣東在2月14日已經(jīng)是正常時候用電量的60%,也就是復(fù)工率差不多60%。浙江2月14日的復(fù)工率不到1/3,尤其是溫州,屬于疫情比較嚴(yán)重的地方,復(fù)工率只有12%。這些是可以比較宏觀地掌握了復(fù)工的趨勢。
大數(shù)據(jù)不僅用于追蹤人群等等,還可以幫助智能診斷。從現(xiàn)在統(tǒng)計看,新冠肺炎患者的核酸檢測,目前只有30%是陽性,盡管它是患病的人,確診了,但是只有30%。原因是什么?取樣是從口腔部來取樣的,實際上這里邊感染不算嚴(yán)重,肺部才嚴(yán)重。因此,判斷還要根據(jù)CT,一個肺掃描出幾百張這樣CT照片,一張張看是比較難的,利用大數(shù)據(jù),我們可以用人工智能的技術(shù),可以把它還原回一個3D三維的肺,比較容易看有沒有纖維化,有沒有肺變?yōu)槊A?。同時,現(xiàn)在還可以根據(jù)醫(yī)療的經(jīng)驗,開發(fā)出感染肺炎患者的CT影像大數(shù)據(jù)分析評價系統(tǒng),不一定要醫(yī)生看了,這些CT照片可以放系統(tǒng)上,進行分析,能幫助醫(yī)生進行病灶分析。過去醫(yī)生可能要看5個多小時,現(xiàn)在幾分鐘就可以,因為它把幾百張變成一張了。
大數(shù)據(jù)本身在新冠肺炎新藥研制和疫苗研制里,也會發(fā)揮作用。新藥研制總體上過程是比較長的,新藥的篩選、活性的評價、藥理的分析、安全評價等等,到臨床還要做很多工作。目前是沒有特效藥的,所以,另外一種途徑是老藥新用,把一些過去抗艾滋病、流感的藥物重新檢驗一下,看它有沒有可能對新冠肺炎有效。我們知道,已經(jīng)上市的和臨床實驗的藥有近萬種,一種一種來篩選時間是很長的,而且現(xiàn)在去積累數(shù)據(jù),已經(jīng)不容易了,如果原來有積累更多的數(shù)據(jù)更好。這里舉一個例子,清華的藥學(xué)院,它的人工智能藥物研發(fā)大數(shù)據(jù)平臺,收集了以前冠狀病毒研究里邊涉及的900多個小分子的實驗信息,利用這個就有可能加快藥物的篩選。
大數(shù)據(jù)也在優(yōu)化醫(yī)療緊缺物資的生產(chǎn)組織和調(diào)度上有很好的用處。海爾開發(fā)了疫情醫(yī)療物資信息共享資源匯聚平臺,一方面連接醫(yī)院,780多家醫(yī)院;另一方面聯(lián)系需求的社區(qū),以及能生產(chǎn)這些醫(yī)療物資的企業(yè)500多家,它發(fā)布了這個需求5000多萬件,另外,它的采購不限于中國,還到全球,所以實現(xiàn)了抗疫資源的精準(zhǔn)對接。湖北有一個醫(yī)療物資需求平臺,是由志愿者開發(fā)的,它爬取網(wǎng)上的數(shù)據(jù),按城市醫(yī)院類別分類,登出需求、運輸和聯(lián)系方式。四川也開發(fā)了防控應(yīng)急物資的管理系統(tǒng),把物資的入庫、調(diào)度、審批、庫存、日常消耗需求匯總在一起,提高了應(yīng)急物資配置的調(diào)度效率,當(dāng)然這些都是從網(wǎng)上獲取數(shù)據(jù)。
現(xiàn)在難題是什么?我們的衛(wèi)健委,并沒有得到所有醫(yī)院的床位數(shù)據(jù),因為過去是不聯(lián)網(wǎng)的,這樣導(dǎo)致我們不能實時地知道什么床位是有富余的,什么可以調(diào)度出來。所以這也說明,我們過去這方面的工作都不足。
另外,數(shù)據(jù)需要融合,現(xiàn)在不少小區(qū)實行了封閉管理,現(xiàn)在已經(jīng)有上線的專項排查APP,不用手登記,用手機一掃身份證,報上體溫,數(shù)據(jù)自動聯(lián)網(wǎng)。還可以記錄下來現(xiàn)在到藥店購買發(fā)燒藥、咳嗽藥的人的實名數(shù)據(jù),因為有些人已經(jīng)有病了,沒到醫(yī)院自己買藥,實際上是有很大風(fēng)險的。我們還可以將公交卡、網(wǎng)約車的數(shù)據(jù)結(jié)合起來,這次疫情也是考驗我們,聯(lián)防聯(lián)控協(xié)調(diào)調(diào)度的機制,包括跨部門大數(shù)據(jù)的協(xié)調(diào)能力。
現(xiàn)在復(fù)工了,很多企業(yè)需要工人,但是人員流動密集又有風(fēng)險,因此企業(yè)面臨兩難。杭州采用一種綠紅黃三色的健康碼的管理方式,區(qū)別用戶是不是接觸過確診患者、疑似患者,是不是來自重點疫區(qū),以及隔離長短,可以分別對待。但是,你會擔(dān)心填報是不是真實?這里邊健康碼是要聯(lián)系到云端的,跟網(wǎng)上掌握的數(shù)據(jù)匹配,大數(shù)據(jù)能查出不實的信息。
大數(shù)據(jù)是雙刃劍,怎么做到隱私保護。實際上,電信的大數(shù)據(jù)只考慮了信令和計費,不含通信的內(nèi)容,但是盡管這樣,患者的行為數(shù)據(jù)也是敏感的。電信大數(shù)據(jù)目前只限于疫情的管控,疫情結(jié)束以后,不會再保留有關(guān)的原始數(shù)據(jù)?,F(xiàn)在特別要注意的是,除了國務(wù)院衛(wèi)生健康部門依法授權(quán)的機構(gòu)以外,其他任何單位和個人,不得以疫情防控,治病防治為由,未經(jīng)被收集者同意收集用戶的個人信息。這里就難了,又要保護個人信息,又要利用大數(shù)據(jù)聯(lián)防聯(lián)控,怎么辦呢?有一種方法,就是原始數(shù)據(jù)可用不可見。什么叫可用不可見?有關(guān)部委,衛(wèi)健委、交通部、公安部、工信部等可以上報數(shù)據(jù)的樣本,幫助疫情大數(shù)據(jù)分析調(diào)試平臺來調(diào)試我們的算法和程序,一旦調(diào)試好程序,再下發(fā)到相關(guān)部委,在相關(guān)部委的各自范圍里頭運行并產(chǎn)生結(jié)果。最后匯報給上面的結(jié)果已經(jīng)不是原始數(shù)據(jù)了。通過這樣,不改變數(shù)據(jù)的歸屬所有權(quán)和存儲位置,只帶走了不含敏感數(shù)據(jù)的分析結(jié)果。
疫情大數(shù)據(jù)也是需要特別進行安全防護的,從右上角的圖可以看出綠色是健康數(shù)據(jù),健康數(shù)據(jù)是黑客所重點關(guān)注的,甚至2014年,我們國家的網(wǎng)站受攻擊最多的是醫(yī)療衛(wèi)生的網(wǎng)站。美國也統(tǒng)計過,遭遇黑客醫(yī)療數(shù)據(jù)的泄露損失很高,而且疫情大數(shù)據(jù)不但是商業(yè)利益問題,還關(guān)聯(lián)國家政治社會問題,我們以為疫情大數(shù)據(jù)系統(tǒng)是內(nèi)網(wǎng)就沒問題,但實際上內(nèi)網(wǎng)也會遭遇攻擊。我們在疫情大數(shù)據(jù)的系統(tǒng)上,要明確接入權(quán)限與過程審計,用各種各樣的安全措施來確保安全。
為什么這次新冠疫情大數(shù)據(jù)來得晚呢?這上面是谷歌有一年某個地方發(fā)生流感,谷歌的報告流感比美國疾控中心還提前一個星期,相似度97%。它能提前預(yù)警,而中國的這次疫情大數(shù)據(jù),基本上沒有起到預(yù)警作用,為什么?網(wǎng)上人說,你們說得那么好,為什么你們沒有早說出來?原因是網(wǎng)上信息很多,傳染病根本沒有被列到互聯(lián)網(wǎng)界關(guān)注的優(yōu)先點,另外在發(fā)現(xiàn)不明肺炎之初,醫(yī)療機構(gòu)的信息中心也沒有能夠根據(jù)十多例的病情分析出人傳人,掌握不了病毒控制的主動權(quán),應(yīng)該說,可惜我們信息技術(shù)人員敏感性不夠。
另外一個更重要原因,是數(shù)據(jù)的披露開放不及時。在發(fā)現(xiàn)最初動物作為傳染源的時候,案例是比較少的,很難觸發(fā)疫情大數(shù)據(jù)的分析。發(fā)展到人傳人的時候,電信以及互聯(lián)網(wǎng)公司的人行為軌跡的大數(shù)據(jù)才有作用,我們知道,武漢的重癥病例從發(fā)病到住院平均等待了將近10天,有些還沒等到住院就不行了。整個獲得信息延誤了10天,再加上14天左右的潛伏期,病毒已經(jīng)蔓延了一個多月,而且一些錯誤的信息,“不會人傳人”“可防可控”在官方媒體發(fā)布。而真實的信息被當(dāng)做謠言,疫情的數(shù)據(jù)沒有對外公布,當(dāng)公眾知道病毒可以人傳人的時候,已經(jīng)錯過了防控的黃金時間,造成了武漢疫情爆發(fā)長時間失控,這種公布數(shù)據(jù),不僅僅是為了大數(shù)據(jù)分析。華盛頓大學(xué)有一個研究,“當(dāng)媒體的報道量增加10倍,疾病的感染數(shù)會減少33.5%”,所以應(yīng)該是更有用的。
另外,大數(shù)據(jù)的應(yīng)用需要法律保證。《傳染病防治法》規(guī)定,有關(guān)部門要報告疫情和監(jiān)測,但是沒有明確哪一級地方政府有權(quán)收集當(dāng)?shù)剡\營商跟疫情有關(guān)的數(shù)據(jù),也沒有明確政府應(yīng)該開放什么數(shù)據(jù),應(yīng)該公布什么信息。所以,我們建議,要出臺《傳染病防治法》的實施細則,要明確省市政府對疫情防控數(shù)據(jù)的收集權(quán)限和政府各個部門,以及相關(guān)企業(yè)提供疫情防控有關(guān)數(shù)據(jù)的責(zé)任。
電信大數(shù)據(jù)對疫情防控有用,但不夠。因為用戶的信令數(shù)據(jù)面很廣,而且實時性很好。實際上,每個用戶平均每天有200條左右的信令數(shù)據(jù),應(yīng)該是很好的,很詳盡?;镜亩ㄎ痪戎挥邪倜椎牧考墸瑢嶋H上100米的半徑里,根據(jù)這個來確定密切接觸者是不準(zhǔn)確的,因為有很多人隔100米和隔10米的情況是不同的。衛(wèi)星導(dǎo)航+數(shù)字地圖的定位精度是比電信基站的定位精度要優(yōu),但是它的用戶數(shù)覆蓋不夠,所以兩者的結(jié)合可能比較好。電信大數(shù)據(jù)對疫情防控是有很好作用的,但是還是有限的,所以僅有電信大數(shù)據(jù)不夠,需要跟有關(guān)部委融合。
大數(shù)據(jù)本身是一種方法,整個醫(yī)療不僅僅是在院中,還涉及到院前、院后和醫(yī)院管理,涉及到很多環(huán)節(jié)。大數(shù)據(jù)也不是智慧醫(yī)療的唯一方法,也是要跟其他信息技術(shù)結(jié)合,同時也要跟醫(yī)學(xué)專業(yè)知識結(jié)合,需要信息技術(shù)和醫(yī)學(xué)界的緊密合作。
最后,跟17年前的非典疫情相比,本次疫情是更嚴(yán)峻的大考。但現(xiàn)在用上了先進的醫(yī)療技術(shù)和大數(shù)據(jù)等新一代信息技術(shù),科學(xué)防治、精準(zhǔn)施策。在黨中央的堅強領(lǐng)導(dǎo)下,在疫情防控的人民戰(zhàn)爭中,大數(shù)據(jù)的應(yīng)用環(huán)境將進一步優(yōu)化,在聯(lián)防聯(lián)控精準(zhǔn)施策中將發(fā)揮更大的作用。我們一定能夠打贏疫情防控的人民戰(zhàn)爭、總體戰(zhàn)、阻擊戰(zhàn)。
祝疫情防控早日取得決戰(zhàn)的勝利,謝謝大家。