国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模糊理論的醫(yī)院人事檔案信息推薦系統

2018-06-22 02:59:30徐競
微型電腦應用 2018年6期
關鍵詞:權重

徐競

(赤峰市醫(yī)院, 內蒙古 赤峰 024000)

0 引言

隨著移動互聯網的普及與應用,許多三甲醫(yī)院均推出了智能手機APP與PC端的自助掛號系統[1]。病患用戶通過檢索醫(yī)院的醫(yī)療資源與專家醫(yī)生的人事檔案選擇合適的醫(yī)療服務,準確、快速地檢索出專家醫(yī)生的檔案是其中最基礎、最關鍵的部分[2-3]。

醫(yī)院人才的專業(yè)性強、人才流動性大、人事信息檢索頻率高,隨著醫(yī)院信息化建設與移動互聯網的接入,使得當前的人事檔案信息已經無法滿足應用需求[4]。把人事檔案信息化管理與醫(yī)院行政檔案、醫(yī)護人員績效考評管理有效地對接,能夠為醫(yī)護人員績效考評提供依據,能夠促進醫(yī)護人員的工作效率與積極性,并且能夠為患者用戶帶來有效的判斷依據[5]。

目前的醫(yī)院人事信息搜索系統主要基于關鍵字搜索[6],并未有效地利用搜索內容的信息[7],如果患者用戶搜索某個專家醫(yī)生或者某個病癥,則系統直接返回與關鍵字匹配的醫(yī)生文檔信息,如果該醫(yī)生掛號滿員或者無法滿足用戶的時間要求,則會降低用戶的滿意度。因此,為醫(yī)院人事信息搜索系統增加關聯性信息[8]與自動推薦功能[9]是醫(yī)院信息化建設的發(fā)展方向。

本文提出了一種基于模糊理論[10]的醫(yī)院人事檔案信息推薦系統,該系統利用了相關反饋技術[11],提取用戶的操作特征并且預測用戶的興趣,此外,為文檔、用戶、檢索任務建立基于關鍵詞頻率的配置文件,從而提高檢索的效率。最終,基于公開的文檔數據集進行了仿真實驗,結果證明本算法獲得了較好的檢索結果,并且產生了相關性較高的推薦列表。

1 總體架構

本算法基于相關反饋與模糊理論。將相關反饋作為用戶的查詢任務、用戶、文檔配置文件的主要數據源。用戶配置文件將用戶的興趣建模,文檔配置文件包含了不同用戶檢索某個文檔所使用的不同關鍵字,任務配置文件包含了不同用戶完成同一個任務所使用的不同關鍵字。將每個任務、用戶、文檔建模為配置文件中關鍵字的加權組合,然后與用戶查詢的關鍵字比較,通過計算各個配置文件的關鍵字權重來搜索與用戶查詢最相關的信息。

用戶的檢索目標具有不一致性,所以醫(yī)院人事檔案檢索系統的相關反饋具有較高的不確定性,而處理好相關反饋的不確定性是提高推薦效果的關鍵。本文采用模糊理論處理相關反饋的不確定性。本算法的總體結構,如圖1所示。

圖1 本算法的總體結構

共包含6個階段。階段1:收集相關反饋;階段2:預測文檔的相關性;階段3:模糊化任務、用戶與文檔配置文件;階段4:計算關鍵詞權重;階段5:產生加權的推薦列表。

1.1 收集相關反饋

在檢索系統的上層設計了一個模塊來捕獲用戶的相關反饋信息,如圖2所示。

圖2 收集相關反饋的過程

相關反饋信息包含隱式參數、顯式參數、用戶查詢與互動特征。隱式參數包括:訪問時間戳、頁面訪問時長、鼠標點擊數量、手機屏幕滑動、鼠標滾動等,顯式參數則是用戶對檢索結果的滿意度評價,查詢信息包括:查詢內容、查詢時間戳等?;犹卣鲃t主要是某個文檔是否被用戶打開閱讀。

1.2 預測文檔的相關性

使用線性預測模型與線性回歸分析,根據隱式反饋參數計算訪問文檔的相關性,如表1所示。使用R2評估驗證模型的準確率。具體步驟如下:

步驟①:將隱式參數與顯式參數分類。

步驟②:對隱式參數與顯式參數進行相關分析,識別出對用戶反饋具有明顯意義的隱式參數,通過排除與顯式相關性沒有關系的隱式參數,由此可降低參數的數據維度。本文使用IBM-SPSS-Statistics Version 22軟件[12]自動地實現相關性分析。IBM-SPSS-Statistics Version 22軟件[12]的相關性分析結果,如表1所示。

表1 IBM-SPSS-Statistics Version 22軟件的相關性分析結果

對于顯式相關性有明顯意義的隱式參數包括:頁面停留時間、鼠標點擊數量、手機屏幕點擊數量。將這些隱式參數用于步驟③的分析處理中。

步驟③:根據隱式參數預測訪問文檔的相關性級別,使用線性回歸模型分析、計算預測值,線性回歸的回歸模型包括三個參數:系數β(未知參數),預測器X(獨立變量),目標Y(依賴變量),一個線性回歸模型可定義,為式(1)[13]:

Y≈f(X,β)

(1)

估計值可定義為E(Y|X)=f(X,β),一般多線性回歸模型具有N個獨立變量與一個依賴變量[13],為式(2)。

(2)

式中Y′為依賴變量的預測值,β0為截距,βi為變量系數,Xi為自變量,N為獨立變量數量。

步驟②的候選隱式參數作為回歸分析的預測器,搜索隱式參數與顯式參數的線性相關性關系。分析的結果,如表2所示。

將顯著度≥0.05的變量作為預測模型的預測器。將表2中的結果代入式(2),顯式相關性級別的線性預測模型變?yōu)槭?3)。

Y′=0.395+X1×0.069+X2×0.013+X3×0.113 (3)

然后,對式(3)進行歸一化處理,為式(4)。

(4)

1.3 任務、用戶與文檔的模糊化配置文件

采用一個自適應模糊方案創(chuàng)建任務、用戶、文檔的配置文件,構建3個配置文件的方法分別在2.1、2.2、2.3小節(jié)詳細描述。

1.4 計算關鍵詞權重

將任務、用戶與文檔3個配置文件總結為統一的關鍵字權重指標。對于檢索任務Sy,如果用戶Uk使用關鍵字ti檢索文檔Dg,那么對于ti的統一化權重為Wiykg,統一權重考慮了關鍵字與3個配置文件的總體相關性。該階段共有4步:

步驟①:提取模糊規(guī)則。

使用Mendel Wang方法[14]為輸入變量與輸出變量建立模糊邏輯的關系,如圖3所示,本文采用三角隸屬函數。三個參數{a,b,c}即可確定三角隸屬函數的形狀,三角隸屬函數定義,為式(5)。

(5)

式中參數{a,b,c}決定了三角形隸屬函數3個角點的x坐標。

最終建立“IF…THEN…”的模糊規(guī)則。假設B是模糊邏輯標記{L,M,H}(低、中、高),則模糊規(guī)則定義為:

B(WX1),B(WX2),B(WX3)→B(Rh)

(6)

該式表示將X1,X2,X33個參數的權重輸出為統一的三角模糊值。

圖3 輸入變量與輸出變量建立模糊邏輯的關系(x軸為三角模糊函數的輸入值,y軸為三角模數函數的輸出值)

步驟②:壓縮模糊規(guī)則。

本方案使用模糊支持度與規(guī)則的可靠性來評估規(guī)則的置信度,規(guī)則的模糊支持度計算為規(guī)則的支持度與觸發(fā)強度的乘積,規(guī)則的支持度則計算為數據模式的覆蓋率,規(guī)則的觸發(fā)強度評估了該規(guī)則與輸入模式匹配的概率。

規(guī)則的模糊支持度可識別出與最頻繁數據模式共生的唯一規(guī)則,模糊支持度是可擴展的。本方案采用模糊支持度將模糊規(guī)則庫壓縮為唯一的規(guī)則集,采用文獻[15]的方法計算模糊支持度:

(7)

規(guī)則的置信度度量了該規(guī)則與數據模式的緊密性,置信度在0~1之間,置信度為1說明該規(guī)則是輸出集的唯一模式?;谖墨I[16]計算規(guī)則的置信度:

(8)

步驟③:規(guī)則權重的計算。

計算模糊支持度與規(guī)則置信度的乘積來度量規(guī)則的模糊權重:

scWi=scFuzzSup×scConf

(9)

為M個規(guī)則分配模糊權重:

B(WX1),B(WX2),B(WX3)→B(Rh)[scWi]

(10)

模糊權重度量了建模數據中每個規(guī)則的質量,可用來對輸出集進行排列。使用模糊權重來提取最相關的規(guī)則模式,選擇scWi值最高的模式建立模糊系統。

步驟④:計算統一的關鍵詞權重

模糊規(guī)則包含3個輸入變量{Wsytez,Wuktez,Wdgtez},將三個權重總結為統一的權重Wiykg,然后將Wiykg值傳遞至下一階段處理。

1.5 產生加權的推薦列表(人事文檔/專家醫(yī)生)

根據新的用戶查詢與參數集(Vh,ti,Sy,Uk,Dg,Wiykg)創(chuàng)建一個推薦的人事文檔與專家醫(yī)生列表。采用第一階段的方法對新用戶進行處理,提取關鍵字。然后,搜索查詢關鍵字的參數集,獲得匹配的文檔與專家醫(yī)生。

如果查詢的關鍵字在參數集中出現,那么則認為該查詢與對應文檔匹配,然后,計算匹配關鍵字的平均權重,按照權重的高低將結果降序排列,最終,將推薦結果返回給用戶。

2 三個配置文件的構建方法

2.1 用戶配置文件

使用相關反饋創(chuàng)建用戶的配置文件,配置文件中每個用戶表示為一個加權關鍵詞的集合,表示用戶的興趣。具體步驟如下:

步驟①:選擇用戶查詢的文檔集合Q。

步驟②:選擇所有的用戶集U。

步驟③:通過用戶Uk創(chuàng)建的查詢選擇查詢Q的子集ΩUk。

步驟④:對集合ΩUk的查詢進行預處理,然后通過文獻[16]算法變換為一個候選的關鍵詞集合。

步驟⑤:計算每個關鍵詞的頻率度量、分布式關鍵詞頻率(DTF)、文檔頻率(DF)與反向文檔頻率(IDF),然后將每個集合ΩUk的各個指標歸一化處理。

使用這些頻率度量來計算一個文檔集合中的關鍵詞頻率,DTF反應了用戶查詢集中關鍵詞的頻率域分布狀態(tài),DF表示了集合Q中包含該關鍵詞的查詢頻率。最終,歸一化的關鍵詞分布頻率(NDTF)定義:

NDTFi=(TFi/DFi)/(Maxj(TFj/DFj))

式中TFi為查詢集ΩUk中關鍵詞ti的頻率,DFi為ΩUk中包含關鍵詞ti的查詢數量(i,j=1~M),其中M為集合ΩUk中關鍵詞的數量。

歸一化文檔頻率(NDF)的計算方法為:

NDFi=DFi/MaxjDFj

式中DFi為查詢集合ΩUk中包含關鍵詞ti的查詢數量。

IDF表示查詢集合Q中關鍵詞的頻率,歸一化反向文檔頻率(NIDF)定義為下式):

NIDFi=IDFi/MaxjIDFj,IDFi=Log(N/ni)

式中N是Q中查詢的總數量,ni是Q中包含關鍵詞ti的查詢數量。

步驟⑥:將3個輸入變量的明確值作模糊化處理,全部映射為模糊集,NDF與NIDF有3個邏輯標簽,NTDF有兩個邏輯標簽,輸出變量TW共有6個模糊集。

步驟⑦:采用文獻[18]的18個“IF…THEN…”模糊規(guī)則,建立關鍵詞ti的模糊權重,搜索具有高NDF、高NIDF值、低NDTF值的關鍵詞。

步驟⑧:采用加權平均法(重心法)對步驟⑦的輸出TW做解模糊化處理,獲得每個關鍵詞的明確權重值TWUkti。

步驟⑨:將關鍵詞ti與權重TWUkti加入配置文件中。

2.2 任務配置文件

任務配置文件中將每個任務表示為一個加權關鍵詞的集合,權重反應了每個關鍵詞與搜索任務之間的相關性。具體步驟如下:

步驟①:選擇用戶查詢的文檔集合Q。

步驟②:選擇所有任務S的集合。

步驟③:通過用戶查詢創(chuàng)建查詢集合Q的一個子集ΩSy。

步驟④:對集合ΩSy的查詢進行預處理,然后通過文獻[16]算法變換為一個候選的關鍵詞集合。

步驟⑤:計算每個關鍵詞的頻率度量、分布式關鍵詞頻率(DTF)、文檔頻率(DF)與反向文檔頻率(IDF),然后將每個集合ΩSy的各個指標歸一化處理。

步驟⑥:將3個輸入變量的明確值作模糊化處理,全部映射為模糊集,與2.1小節(jié)的步驟⑥相同。

步驟⑦~⑨:與2.1小節(jié)的步驟⑦~⑨相同。

2.3 文檔配置文件

在文檔配置文件中,每個文檔表示為一個加權術語的集合有被用戶使用來檢索文檔相關性與他們的任務。權重反映了每個術語與文檔的相關性。以下是具體步驟:

步驟①:選擇用戶查詢的文檔集合Q。

步驟②:選擇訪問的文檔集合D。

步驟③:通過用戶查詢創(chuàng)建文檔集合Q的一個子集ΩDg。

步驟④:對集合ΩDg的查詢進行預處理,然后通過文獻[16]算法變換為一個候選的關鍵詞集合。

步驟⑤:計算每個關鍵詞的頻率度量、分布式關鍵詞頻率(DTF)、文檔頻率(DF)與反向文檔頻率(IDF),然后將每個集合ΩDg的各個指標歸一化處理。

步驟⑥:將三個輸入變量的明確值作模糊化處理,全部映射為模糊集,與2.1小節(jié)的步驟⑥相同。

步驟⑦~⑨:與2.1小節(jié)的步驟⑦~⑨相同。

3 實驗結果與分析

3.1 實驗環(huán)境與配置

采用公開的文檔檢索數據集TREC Enterprise Track-2007[19]進行實驗,該數據集共包含370 715個文檔,數據集大小為4.2 GB,包含了不同的文檔類型,例如:html文件、text文件、pdf文件等。本系統基于開源軟件搭建,由以下幾個部分組成:Apache Solr[20]、Apache Tika[21]、Hadoop[22],Hadoop是分布式計算的開源框架,Tika是分析與采集不同類型文檔的開源軟件,Solr是企業(yè)級ISR服務器的開源軟件。本實驗系統的總體架構,如圖4所示。

圖4 實驗的推薦系統總體架構

隨機地邀請了35個用戶參與實驗,每個用戶根據自己的需求檢索。

3.2 實驗結果與分析

3.2.1 線性預測模型驗證

使用R2指標驗證模型的準確率,R2指標是一個廣泛使用的統計模型準確率度量指標,R2的計算方法為式(11)。

(11)

線性預測模型的R2指標結果,如圖5所示。

預測的R2指標為92.3%,可通過提高相關反饋的相關性提高模型的R2指標值。

圖5 本系統預測值與實際值的擬合圖

3.2.2 檢索算法的性能比較分析

為了評估總的推薦性能,將本算法與其他兩個檢索算法進行比較,兩個算法分別為標準Solr搜索系統[20]與基于語義的企業(yè)檢索系統Lucid。兩個系統都是基于Solr的搜索平臺,區(qū)別在于第一個算法使用標準變化索引,第二個算法則使用語義索引。

精度與召回率是評估信息檢索性能的兩個重要標準,精度與召回率可評估系統檢索相關文檔的能力,檢索系統的精度定義,為式(12)。

P=|Ra|/|A|

(12)

式中Ra是檢索的相關文檔數量,A是檢索文檔的總數量,包含檢索出的所有文檔。

召回率評估了系統代表所有相關文檔的能力,R定義,為式(13)。

R=|Ra|/|Rm|

(13)

式中Ra是檢索相關文檔的數量,Rm是文檔集中相關文檔的總數量。

3個檢索算法獲得的結果,如表3所示。

表3 三個檢索算法獲得的精度與召回率結果

標準Solr系統的平均P值為0.004 28,說明該系統檢索了大量不相關的文檔?;谡Z義搜索的Lucid算法P值是0.029 8,明顯地高于標準Solr系統,本算法的平均P值為0.071,明顯地改進了檢索準確率。換句話說,本算法有效地減少了搜索結果中不相關文檔的數量,說明本算法加強了相關文檔的檢索準確率。

根據式(12),增加相關文檔的數量或者減少非相關文檔的數量均可能導致P值增加,本算法設計了基于模糊規(guī)則的配置文件,提高了對相關文檔的過濾效果。

4 總結

為了提高醫(yī)院人事文檔信息檢索系統的檢索模糊性與多樣性,設計了一種基于模糊理論與相關反饋的醫(yī)療信息推薦系統。本算法收集用戶的隱式相關反饋與顯式相關反饋,使用線性預測模型與線性回歸分析基于隱式反饋參數分析文檔的相關性,根據隱式參數預測訪問文檔的相關性級別,使用線性回歸模型分析、計算相關性的預測值,采用一個自適應模糊方案創(chuàng)建任務、用戶、文檔的配置文件,根據新的用戶查詢與相關性參數集創(chuàng)建一個推薦的人事文檔與專家醫(yī)生列表。將本算法與其他近期的檢索算法進行比較,本算法設計了基于模糊規(guī)則的配置文件,提高了對相關文檔的過濾效果。

[1] 黃健,王玨,卞壽峰,等. 上海市部分醫(yī)院一站式服務系統使用現狀的調查與分析[J]. 中國衛(wèi)生資源, 2015(3):185-187.

[2] 歐石燕,唐振貴,蘇翡斐. 面向信息檢索的術語服務構建與應用研究[J]. 中國圖書館學報, 2016, 42(2):32-51.

[3] 王元卓,賈巖濤,劉大偉,等. 基于開放網絡知識的信息檢索與數據挖掘[J]. 計算機研究與發(fā)展, 2015, 52(2):456-474.

[4] 李蕤. 新形勢下中醫(yī)醫(yī)院人才培養(yǎng)的重點[J]. 山西財經大學學報, 2015(s1):167-168.

[5] 宋兵,盧建華,丁強,等. 醫(yī)院近10年人才流失現狀分析與思考[J]. 海南醫(yī)學, 2015, 26(19):2941-2944.

[6] 劉喜平,萬常選,劉德喜,等. 空間關鍵詞搜索研究綜述[J]. 軟件學報, 2016, 27(2):329-347.

[7] 韓軍,范舉,周立柱. 一種語義增強的空間關鍵詞搜索方法[J]. 計算機研究與發(fā)展, 2015, 52(9):1954-1964.

[8] Geng Runian, Dong Xiangjun, Zhang Ping,等. Mining weighted frequent patterns using local graph linking information利用局部圖關聯信息挖掘加權頻繁模式*[J]. 計算機應用研究, 2008, 25(9):2687-2691.

[9] 聶曉,翟小兵. 改進ART算法在數據庫自動知識推薦中的應用[J]. 科技通報, 2015(4):215-217.

[10] 徐軍,鐘元生,朱文強. 一種基于直覺模糊理論的多維信任傳遞模型[J]. 小型微型計算機系統, 2015, 36(12):2714-2718.

[11] 曹斌,彭宏杰,侯晨煜,等. 基于用戶隱性反饋與協同過濾相結合的電子書籍推薦服務[J]. 小型微型計算機系統, 2017, 38(2):334-339.

[12] Kirkpatrick L A, Feeney B C. A Simple Guide to IBM SPSS Statistics for Version 20.0[J]. 2012.

[13] 蘇變萍,曹艷平.基于灰色系統理論的多元線性回歸分析[J]. 數學的實踐與認識, 2006, 36(8):219-222.

[14] Wang L X, Mendel J M. Generating fuzzy rules by learning from examples. IEEE Trans Syst Man Cybern[J]. IEEE Transactions on Systems Man & Cybernetics, 1992, 22(6):1414-1427.

[15] Wu D, Mendel J M, Joo J. Linguistic summarization using IF-THEN rules[C]// IEEE International Conference on Fuzzy Systems. IEEE, 2010:1-8.

[16] Ishibuchi H, Yamamoto T. Rule Weight Specification in Fuzzy Rule-Based Classification Systems[J]. IEEE Transactions on Fuzzy Systems, 2005, 13(4):428-435.

[17] Porter M F. An algoritm for suffix stripping[J]. Program Electronic Library & Information Systems, 2006, 14(3):130-137.

[18] Schiaffino S, Amandi A. Intelligent User Profiling[M]// Artificial Intelligence An International Perspective. Springer Berlin Heidelberg, 2009:193-216.

[19] Bailey P, Vries A P D, Craswell N, et al. Overview of the TREC 2007 Enterprise Track.[C]// Sixteenth Text Retrieval Conference, Trec 2007, Gaithersburg, Maryland, Usa, November. 2007:947-954.

[20] Serafini A. Apache Solr Beginner's Guide[J]. Packt Publishing, 2013.

[21] Burgess A B, Mattmann C A. Automatically classifying and interpreting polar datasets with Apache Tika[C]// IEEE International Conference on Information Reuse and Integration. IEEE Computer Society, 2014:863-867.

[22] 朱珊,艾麗華. 基于Hadoop的大規(guī)模圖像存儲與檢索[J]. 計算機與現代化, 2017(6):61-66.

猜你喜歡
權重
支持CNN與LSTM的二值權重神經網絡芯片
高技術通訊(2021年2期)2021-04-13 01:09:46
權重常思“浮名輕”
當代陜西(2020年17期)2020-10-28 08:18:18
為黨督政勤履職 代民行權重擔當
人大建設(2018年5期)2018-08-16 07:09:00
Subdivision of Uniform ωB-Spline Curves and Two Proofs of Its Ck?2-Continuity
基于公約式權重的截短線性分組碼盲識別方法
電信科學(2017年6期)2017-07-01 15:44:57
Plasticity in Metamorphic Traits of Rice Field Frog (Rana limnocharis) Tadpoles: The Interactive Effects of Rearing Temperature and Food Level
基于局部權重k-近質心近鄰算法
應用科技(2015年5期)2015-12-09 07:09:51
基于權重學習的圖像最大權對集匹配模型
計算機工程(2014年6期)2014-02-28 01:27:24
層次分析法權重的計算:基于Lingo的數學模型
河南科技(2014年15期)2014-02-27 14:12:51
降低高考英語權重是一種文化自信
文昌市| 曲周县| 同江市| 青田县| 若羌县| 开阳县| 上虞市| 陆良县| 疏附县| 潞城市| 顺昌县| 大竹县| 佛学| 常熟市| 迁安市| 中西区| 若羌县| 西林县| 淄博市| 阳高县| 楚雄市| 孟州市| 永清县| 泸西县| 淮南市| 棋牌| 虞城县| 永靖县| 枣庄市| 昌图县| 威信县| 河北区| 南皮县| 苍南县| 惠安县| 浦城县| 如皋市| 铁力市| 南投市| 个旧市| 滁州市|