Problems and Countermeasures of Developing Data Mining in Large Hospitals
蘇韶生,程敏婷,張淑娟
中山大學(xué)附屬中山醫(yī)院 信息科,廣東 中山 528403
大型醫(yī)院開展數(shù)據(jù)挖掘項目存在的問題及對策
Problems and Countermeasures of Developing Data Mining in Large Hospitals
蘇韶生,程敏婷,張淑娟
中山大學(xué)附屬中山醫(yī)院 信息科,廣東 中山 528403
SU Shao-sheng,CHENG Min-ting,ZHANG Shu-juan
Information Department,Zhongshan Hospital Affiliated to Sun Yat-Sen University,Zhongshan Guangdong 528403, China
結(jié)合我院開發(fā)、實施數(shù)據(jù)挖掘項目的情況,分析當(dāng)前在大型醫(yī)院開展數(shù)據(jù)挖掘項目中存在的需求分析、數(shù)據(jù)來源、數(shù)據(jù)質(zhì)量、技術(shù)人員管理等問題,并對解決問題的對策進行了探討。
數(shù)據(jù)挖掘;數(shù)據(jù)質(zhì)量;需求分析;HIS
大型綜合性醫(yī)院業(yè)務(wù)流程紛繁多變,信息系統(tǒng)較多,數(shù)據(jù)庫中數(shù)據(jù)量非常龐大,如一個1000張床規(guī)模的醫(yī)院,EMR日產(chǎn)生文字記錄約150萬條之多,PACS日產(chǎn)生圖片數(shù)據(jù)量8G。“數(shù)據(jù)海量,信息缺乏”成為目前醫(yī)院信息化建設(shè)的一個瓶頸問題,2007年衛(wèi)生部統(tǒng)計信息中心對全國3765家醫(yī)院進行信息化現(xiàn)狀調(diào)查顯示,82%的醫(yī)院應(yīng)用最常用、最基本的系統(tǒng),6.29%的醫(yī)院應(yīng)用決策支持系統(tǒng)[1],并且都是應(yīng)用在個別模塊的決策支持。數(shù)據(jù)的深層次利用、為醫(yī)院管理和科學(xué)決策提供依據(jù)是醫(yī)院信息化建設(shè)的核心目標(biāo)[2]。
我院是一家綜合性三甲醫(yī)院,現(xiàn)有病床1250張、39個臨床科室、74個專科門診,現(xiàn)有EMR、PACS、LIS 等臨床業(yè)務(wù)系統(tǒng)50余套,功能覆蓋各臨床業(yè)務(wù)、辦公、后勤管理等流程,2008年8月開始啟動數(shù)據(jù)挖掘項目,目前已完成基于挖掘病案首頁數(shù)據(jù)的功能模塊,針對目前項目開發(fā)、實施中出現(xiàn)的問題進行總結(jié)分析,并提出解決對策。
1.1 需求不明確
數(shù)據(jù)挖掘技術(shù)出現(xiàn)于20世紀(jì)80年代末,中國在21世紀(jì)初開始出現(xiàn)對數(shù)據(jù)挖掘的研究,并且在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用不具有廣泛性。在這種背景下,對于醫(yī)院管理層、技術(shù)層、用戶層來說,在本行業(yè)內(nèi)無可借鑒的應(yīng)用項目,尚不能清晰地掌握數(shù)據(jù)挖掘在醫(yī)療衛(wèi)生行業(yè)的具體應(yīng)用信息,應(yīng)用需求不明確。主要體現(xiàn)在:在項目實施之初,管理者說不清應(yīng)用需求,如統(tǒng)計指標(biāo)、技術(shù)指標(biāo)等,軟件開發(fā)人員也不理解用戶的需求,導(dǎo)致設(shè)計目標(biāo)難明確,同時,醫(yī)院也會在溝通中浪費大量的人力成本、辦公成本等;在項目實施中,用戶的需求不斷被激發(fā),不斷地被進一步明確,或者用戶需求隨項目進展而變化,從而導(dǎo)致項目進度不斷被更改;項目開發(fā)完后,為了適應(yīng)不斷變化的需求狀況,修改、完善周期拖得很長。
1.2 數(shù)據(jù)來源不清
大型醫(yī)院系統(tǒng)繁多,每套系統(tǒng)都有相對獨立的數(shù)據(jù)庫存儲數(shù)據(jù),數(shù)據(jù)來源較多,數(shù)據(jù)類型也各不相同,數(shù)據(jù)挖掘通過數(shù)據(jù)異構(gòu)技術(shù),實現(xiàn)系統(tǒng)間數(shù)據(jù)關(guān)聯(lián)、建模及數(shù)據(jù)展示應(yīng)用,準(zhǔn)確的數(shù)據(jù)源選擇與數(shù)據(jù)分析結(jié)果真實性、客觀性息息相關(guān)。由于目前絕大多數(shù)醫(yī)院信息系統(tǒng)開發(fā)工作由外包公司完成,系統(tǒng)的數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)對醫(yī)院用戶來說往往是不透明的,為此,在數(shù)據(jù)挖掘的開發(fā)過程中都會遇到一個難題:開發(fā)人員和醫(yī)院用戶都對數(shù)據(jù)來源不清楚,采集不到數(shù)據(jù)分析所需要的準(zhǔn)確數(shù)據(jù),比如,在分析病人來源構(gòu)成中,涉及病人的籍貫、地址信息的系統(tǒng)有出入院管理系統(tǒng)、醫(yī)生工作站、電子病歷系統(tǒng)、病案首頁管理系統(tǒng),根據(jù)對以上數(shù)據(jù)來源的比較分析,我們發(fā)現(xiàn)病案首頁數(shù)據(jù)質(zhì)量較高。
1.3 數(shù)據(jù)質(zhì)量不高
“‘減’不斷,理更亂!”是當(dāng)前數(shù)據(jù)質(zhì)量的真實寫照,截至2007年,由于忽略數(shù)據(jù)質(zhì)量問題,有50%以上的數(shù)據(jù)倉庫項目無法得到客戶的認(rèn)同,甚至完全失敗[3]。目前,由于醫(yī)院信息化建設(shè)的時間跨度較長,軟件提供商比較分散,且建設(shè)初期缺乏行業(yè)標(biāo)準(zhǔn),多年的數(shù)據(jù)維護、遷移時缺乏必要的數(shù)據(jù)校驗,再加上軟件功能模塊是逐步上線,也導(dǎo)致了數(shù)據(jù)的缺失和不完整,普遍存在數(shù)據(jù)質(zhì)量不高問題,主要體現(xiàn)在:① 數(shù)據(jù)錯;② 遺漏、丟失數(shù)據(jù);③ 缺乏數(shù)據(jù)標(biāo)準(zhǔn),格式不統(tǒng)一;④ 數(shù)據(jù)不及時,缺乏時效性。
1.4 軟件開發(fā)人員對醫(yī)院業(yè)務(wù)流程不熟,無法為醫(yī)院提供完整的解決方案
根據(jù)KDnuggets公司做的調(diào)查統(tǒng)計顯示,2007年數(shù)據(jù)挖掘應(yīng)用領(lǐng)域比重首位是客戶關(guān)系管理(Customer Relationship Management,CRM)(占26.10%),第二位是銀行業(yè)(占23.90%),第三位為直銷/募款(占20.30%),這三個領(lǐng)域的應(yīng)用占了全部的70.30%[4,5],數(shù)據(jù)挖掘技術(shù)在醫(yī)療行業(yè)的應(yīng)用范圍不廣且時間較遲,目前多數(shù)的醫(yī)療行業(yè)數(shù)據(jù)挖掘開發(fā)人員是從其他行業(yè)轉(zhuǎn)行過來,他們的行業(yè)經(jīng)驗不足,對醫(yī)療、醫(yī)院營運管理的流程和需求不理解,與院方的需求溝通、獲取存在困難,無法理解數(shù)據(jù)分析中的各類指標(biāo)含義,無法為醫(yī)院數(shù)據(jù)挖掘提供完整的解決方案。
1.5 院方技術(shù)人員技術(shù)參與不夠深入
在軟件開發(fā)項目外包過程中,容易出現(xiàn)一個誤區(qū):認(rèn)為軟件的開發(fā)由外包公司負(fù)責(zé),院方對軟件的開發(fā)和技術(shù)參與不夠深入,過分地依賴公司。這種誤區(qū)易導(dǎo)致幾個困難:① 在軟件開發(fā)階段,由于開發(fā)人員不熟悉醫(yī)院業(yè)務(wù)系統(tǒng)數(shù)據(jù)結(jié)構(gòu),不能采集到數(shù)據(jù);② 在應(yīng)用階段,院方技術(shù)人員不能熟練地使用軟件、發(fā)揮軟件功能,不利于軟件推廣;③ 在維護階段,對軟件出現(xiàn)的異常情況沒有維護能力,影響軟件的正常使用,不利于軟件的健壯性和可維護性。
2.1 重視需求分析
據(jù)統(tǒng)計,目前軟件的失敗率約為75%,在這75%中,約有50%以上的軟件是由于需求的原因造成的。另有資料表明,軟件開發(fā)項目中返工開銷幾乎占開發(fā)總費用的一半,而導(dǎo)致返工的主要原因是需求分析錯誤或不明確,成功的軟件需求分析不僅能提高軟件的成功率,而且能節(jié)省大量的資源,因此需求分析是軟件開發(fā)的關(guān)鍵階段[6-8]。
在需求分析階段,需要做好以下工作:
⑴ 確定軟件的綜合需求 ① 功能需求:確定軟件應(yīng)具有的基本功能,如分析主題、數(shù)據(jù)集建模思路、數(shù)據(jù)展現(xiàn)形式、數(shù)據(jù)鉆取深度等;② 數(shù)據(jù)接口需求:確定軟件內(nèi)部及與外部軟件進行數(shù)據(jù)抽取的方法、格式約定;③ 性能需求:確定軟件必須滿足的性能指標(biāo),如響應(yīng)時間、容錯性、安全性等方面的需求。
⑵ 成立需求評審小組審核需求 需求評審小組主要由醫(yī)務(wù)科、護理部、統(tǒng)計室、計算機中心、醫(yī)保部等部門成員組成,需求評審一方面協(xié)助完善需求,另一方面阻止低劣的需求進入開發(fā)階段,是需求過程主要關(guān)卡,應(yīng)該充分重視。評審應(yīng)該從醫(yī)療管理、流程、服務(wù)、業(yè)務(wù)、技術(shù)、運營等多個角度進行綜合判斷,找問題、找缺陷。
2.2 分析軟件的數(shù)據(jù)要求
徹底地了解需求,明確分析主題和應(yīng)用后,接下來就是確定實現(xiàn)分析主題和應(yīng)用所需要的數(shù)據(jù)模型,分析實現(xiàn)數(shù)據(jù)模型所需要的數(shù)據(jù),形成數(shù)據(jù)接口文件,接口文件包括:數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)來源、數(shù)據(jù)交換形式、數(shù)據(jù)共享模式、存取機制等。
2.3 重視數(shù)據(jù)質(zhì)量,制定數(shù)據(jù)質(zhì)量策略
目前的策略類型有兩種:
⑴“上游”方法 在向業(yè)務(wù)系統(tǒng)輸入數(shù)據(jù)時提高數(shù)據(jù)質(zhì)量的方法稱為“上游”方法,“上游”方法主要包括:① 通過在業(yè)務(wù)系統(tǒng)中設(shè)立“關(guān)卡”進行輸入驗證控制,防止輸入錯誤,同時,要盡量減少手工錄入數(shù)據(jù),對于必須要用手工錄入的數(shù)據(jù)則盡可能采用規(guī)范化的編碼字典,即把錄入的數(shù)據(jù)做成標(biāo)準(zhǔn)化錄入,如在疾病診斷錄入中采用ICD編碼,拒絕自由文本式診斷錄入,能夠規(guī)范診斷的統(tǒng)計標(biāo)準(zhǔn)。② 設(shè)計數(shù)據(jù)邏輯核查機制,根據(jù)邏輯條件在數(shù)據(jù)庫內(nèi)進行內(nèi)部核查,如在病案首頁中“5歲及以下患者出現(xiàn)子宮頸惡性腫瘤”、“搶救成功次數(shù)大于搶救次數(shù)”、“男病人中出現(xiàn)卵巢惡性腫瘤”等都是不符合邏輯的,數(shù)據(jù)庫中應(yīng)做好核查判斷。
⑵“下游”方法 從業(yè)務(wù)系統(tǒng)提取數(shù)據(jù)的應(yīng)用程序(如數(shù)據(jù)倉庫)中改善數(shù)據(jù)質(zhì)量的方法是“下游”方法, “下游”方法主要是通過應(yīng)用數(shù)據(jù)挖掘技術(shù)的ETL工具,進行數(shù)據(jù)清理、除燥、過濾等預(yù)處理。
2.4 優(yōu)勢互補,建立互補型團隊
軟件項目組的管理過程,幾乎是圍繞“人”來進行的管理,協(xié)調(diào)管理好外部軟件開發(fā)人員與醫(yī)院技術(shù)人員是項目成果的關(guān)鍵,外部軟件開發(fā)人員掌握著先進的數(shù)據(jù)挖掘技術(shù),特別有些公司開發(fā)人員掌握著其公司具有自主研發(fā)的專利產(chǎn)品核心技術(shù)及項目開發(fā)經(jīng)驗,具有較強的技術(shù)優(yōu)勢,而醫(yī)院技術(shù)人員長期工作在醫(yī)院,對醫(yī)院業(yè)務(wù)流程、信息資源狀況、醫(yī)院運營模式均有一定的優(yōu)勢。雙方優(yōu)勢互補,建立互補型團隊有助于推動項目順利開展,具體方法:① 選拔或培養(yǎng)適合角色職責(zé)的人才,特別是必須有一個稱職的項目經(jīng)理直接對項目的各種事項負(fù)責(zé),能及時、妥善地處理項目實施過程中出現(xiàn)的各種問題。② 目標(biāo)明確、分工合理,運用項目管理中WBS方法,將項目范圍內(nèi)的各組成部分、復(fù)雜的工作逐步分解成要素工作,使得項目成員明確具體工作,容易操作和控制。③ 建立信息互通制度,雙方定時召開會議,交換項目過程中進度情況、難點問題,對重要事件進行備案記錄。④ 規(guī)范技術(shù)操作標(biāo)準(zhǔn),把技術(shù)操作手冊化、標(biāo)準(zhǔn)化。⑤ 注重技術(shù)更新學(xué)習(xí),醫(yī)院技術(shù)人員按計劃參加軟件公司的技術(shù)培訓(xùn),外部軟件開發(fā)人員參加醫(yī)院的業(yè)務(wù)學(xué)習(xí)培訓(xùn),盡量多了解醫(yī)院業(yè)務(wù)流程、醫(yī)學(xué)理論。
數(shù)據(jù)挖掘作為新興的信息技術(shù)在醫(yī)療行業(yè),特別是在大型醫(yī)院的應(yīng)用具有廣闊的前景,國內(nèi)醫(yī)院對數(shù)據(jù)挖掘的研究和應(yīng)用處于起步階段,由于數(shù)據(jù)挖掘是醫(yī)院信息化建設(shè)的“上層結(jié)構(gòu)”,對于 “下層結(jié)構(gòu)”的醫(yī)院信息系統(tǒng)數(shù)據(jù)質(zhì)量要求較高,在應(yīng)用過程中會出現(xiàn)很多問題,本文針對目前存在的問題進行闡述、分析,對解決問題對策進行了探討,希望為后繼的研究和應(yīng)用能起到一定的幫助作用。
[1] 中國醫(yī)院協(xié)會信息管理專業(yè)委員會.中國醫(yī)院信息化發(fā)展研究報告[R].北京:衛(wèi)生部統(tǒng)計信息中心,2007.
[2] 楊海清.數(shù)據(jù)挖掘技術(shù)在醫(yī)院管理中的應(yīng)用[J].中華醫(yī)院管理雜志,2005(7):497-499.
[3] 林楊.數(shù)據(jù):“減”不斷,理更亂?[J].軟件世界,2008(1):77-78.
[4] 王立偉.數(shù)據(jù)挖掘研究現(xiàn)狀綜述[J].圖書與情報,2008(5):41-46.
[5] 李敬社,等.數(shù)據(jù)挖掘技術(shù)的方法和最新進展[J].現(xiàn)代電子技術(shù),2004(6):54-56.
[6] 方圓.怎樣做需求分析[EB/OL].(2005-04-20)[2008-07-23].http://www.sachina.cn/index.php?type=column&area=1&p=ar ticles& id=175.
[7] 王莉,吳潔明.軟件項目中的需求變更管理的研究[J].計算機技術(shù)與發(fā)展,2007(1):119-120.
[8] 姜婷,周偉良,朱方洲.信息系統(tǒng)需求分析質(zhì)量控制方法研究[J].電腦知識與技術(shù),2009(23):64-65.
TP311.52;TP274
C
10.3969/j.issn.1674-1633.2010.08.020
1674-1633(2010)08-0059-02
2009-12-03
作者郵箱:8823566@163.com
Abstract: Combining with the implementation condition of data-mining of our hospital,this paper introduces the requirement analysis,data resource,data quality and tech staff management issues existing in datamining projects among big comprehensive hospitals, and accordingly discusses the solutions.
Key words: data-mining;data quality;requirement analysis;HIS