艷 紅 特木其樂 萬 福 薩如拉
(內蒙古國際蒙醫(yī)醫(yī)院,內蒙古 呼和浩特 010065)
自從書面語言誕生以來,拼寫校對就一直伴隨著人類。傳統的校對工作采用人工進行,費時又費力?;诂F代信息技術的校對方法為提高校對工作效率創(chuàng)造了良好的條件。相比之下,基于現代信息技術的校對方法具有極大優(yōu)勢,不僅能節(jié)約人力資本,提升校對效率,而且校對準確性也有明顯的提高。目前許多領域中已經應用信息化校對技術,而蒙醫(yī)藥領域中的應用較少,本文對信息化校對技術應用于蒙醫(yī)藥領域進行了研究。
蒙古文的書寫方式與漢文和西文有著很大的不同,它被公認為是最難信息化的文字之一[1]。由于蒙古文有同形異音字母和一些字母的變體相同的情況的存在,在用計算機輸入蒙古文時很容易混淆這些形狀,也存在一些人為了更快捷的輸入而有意的用形狀相同的變體代替原字母變體的情況。這些輸入方式都違反了蒙古文正字法和控制符使用規(guī)則[2]。蒙古文正字法是正確書寫蒙古文的基本規(guī)則,是蒙古文語法的重要組成部分。蒙古文正字法自蒙古文誕生之日起不斷的發(fā)展、完善,今天已成為一個非常完整、嚴格的規(guī)則體系[3]。
病歷是患者在醫(yī)院診斷治病全程的原始記錄,病歷作為患者信息的載體,集中反映了患者的診斷治療過程。醫(yī)院信息系統的發(fā)展程度直接反映在對病歷內容的覆蓋范圍上,可以說病歷是醫(yī)院信息系統之本。近年來,隨著信息技術的發(fā)展和計算機的廣泛應用, 特別是醫(yī)院管理信息系統的建立, 應用計算機技術,全程管理患者信息的電子病歷得以飛速的發(fā)展。電子病歷及藥品信息管理是醫(yī)院信息管理系統的重要基礎,而如何保證記錄的電子病歷及藥品信息文字正確也是非常重要的。目前很多蒙醫(yī)醫(yī)院都在使用蒙古文電子病歷及蒙藥管理系統,但是由于使用者的蒙古語言水平不一樣,避免不了出現各類違規(guī)了正字法的錯誤。因此,研究設計一種蒙醫(yī)藥校對系統是非常必要的,從而能夠減少蒙古文電子病歷及蒙醫(yī)藥信息中出現的不必要的錯誤,提高蒙古文電子病歷及蒙醫(yī)藥信息管理的質量。
基于規(guī)則的處理方法是最初的自然語言處理中最普遍使用的方法。基于規(guī)則的處理方法通過將成詞、成短語和成句的各種情況抽象成規(guī)則,然后對照規(guī)則庫對輸入文本進行各種處理[4-5]?;谝?guī)則的方法優(yōu)點是無需大量的語料,只需要制定一系列規(guī)則,根據這些規(guī)則判斷是否相匹配。本文將基于規(guī)則的校對方法應用到蒙古文中,設計出校對系統,再將這些技術與醫(yī)院蒙醫(yī)藥相關信息結合,實現了蒙醫(yī)藥校對系統,見圖1所示。
3.1 系統技術實現 本系統是基于PHP語言開發(fā),使用HTML5作為系統頁面展現。PHP將程序嵌入到HTML文檔中執(zhí)行,與完全生成HTML標記的CGI相比其執(zhí)行的效率高很多,而且可以執(zhí)行編譯后代碼,編譯可以達到加密和優(yōu)化代碼運行,使代碼運行速度更快。同時本系統結合AJAX技術即綜合性的瀏覽器端網頁開發(fā)技術組合開發(fā),使用AJAX技術后使得瀏覽器與 web 服務器之間的數據異步傳輸,減少請求服務器數量,提高程序運行及響應速度。本系統數據庫采用MySQL數據庫,它是一種開放源代碼的關系型數據庫管理系統,使用結構化查詢語言即SQL進行數據庫管理。系統采用ThinkPHP框架,分層架構采用3層架構模式,即包括表現層、業(yè)務邏輯層和數據訪問層。服務器是以模塊化的Apache作為應用服務器。
3.2 功能模塊的實現 系統功能模塊由系統管理和文本校對兩大模塊組成。
3.2.1 系統管理模塊
3.2.1.1 蒙醫(yī)藥校對系統登錄模塊:校對系統登錄模塊中可以通過輸入賬號和密碼登陸系統,該賬號必須通過系統管理員分配相應權限建立賬號,見圖-2所示。
3.2.1.2 用戶管理模塊 用戶管理模塊具有添加用戶、修改用戶信息、刪除用戶信息和審核賬號啟用狀態(tài)等功能,見圖-3所示。
3.2.1.3 權限管理模塊 權限管理模塊中主要分配用戶權限。用戶分為超級管理員、系統管理員和普通用戶等三種,可根據用戶角色不同,分配不同的權限,即登陸后看到的菜單不同。超級管理員具有使用所有菜單的權限,見圖-4所示。
3.2.1.4 字典管理模塊 字典管理模塊具有維護常用數據的功能。
3.2.2 文本校對模塊 文本校對模塊共分5步進行處理。
第一步 文本預處理:通過程序界面錄入或導入文本,讀取原始文本,將文本存入數據庫C_BEFORE字段中,在系統界面“校正前蒙古文”文本編輯器中顯示。
第二步 編碼轉換:將C_BEFORE字段中的文字轉換成對應的unicode編碼,存入U_BEFORE字段中,待校對。
第三步 文本查錯:根據已經建立好的規(guī)則庫,查找U_BEFORE字段中的錯誤。
第四步 文本糾錯:將通過文本查錯功能查出的錯誤結合建立好的規(guī)則庫進行糾錯,并將糾正好的文本存儲到數據庫U_AFTER字段中。
第五步 編碼轉換:將U_AFTER字段中的unicode編碼轉換成對應文字并存入C_AFTER字段中,最終在系統界面“校正后蒙古文”文本編輯器中顯示,見圖-5所示。
本文利用自然語言信息處理技術的同時結合軟件工程相關理論,設計并實現了蒙醫(yī)藥校對系統,通過系統的應用可以校對蒙醫(yī)藥信息化系統中文本錯誤,從而提高蒙醫(yī)藥信息化管理的質量。