国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

乳腺癌病理文本的結(jié)構(gòu)化信息提取

2020-10-27 06:31王逸飛胡華宇徐洪麗鄭一瓊
關(guān)鍵詞:皮膚

吳 歡,應(yīng) 俊,王逸飛,胡華宇,徐洪麗,鄭一瓊

1 解放軍總醫(yī)院 醫(yī)學(xué)大數(shù)據(jù)研究中心,北京 100853 ;2 南開大學(xué)醫(yī)學(xué)院,天津 300071 ;3 解放軍總醫(yī)院第一醫(yī)學(xué)中心 普外科,北京 100853

組織病理學(xué)診斷是乳腺癌確診的金標(biāo)準(zhǔn),能夠向臨床醫(yī)師提供包括癌癥類型、分化程度、免疫組化信息在內(nèi)的完整臨床病理學(xué)報(bào)告,標(biāo)準(zhǔn)規(guī)范的病理學(xué)報(bào)告,對臨床醫(yī)生進(jìn)行疾病診斷、分析和治療等具有重要參考意義[1]。自2007 年起,中國抗癌協(xié)會(huì)開始頒布《乳腺癌診治指南與規(guī)范》,公布了乳腺癌病理學(xué)診斷技術(shù)標(biāo)準(zhǔn)與規(guī)范[2]。但病理報(bào)告依然是非結(jié)構(gòu)化的文本描述,在開展臨床科研統(tǒng)計(jì)分析時(shí),需要根據(jù)研究主題由臨床研究人員從報(bào)告文本中人工整理出相應(yīng)的研究指標(biāo)及其對應(yīng)值。這種方法不僅效率低、耗時(shí),而且準(zhǔn)確率難以得到保證。隨著醫(yī)學(xué)大數(shù)據(jù)分析和數(shù)據(jù)挖掘的不斷發(fā)展,對非結(jié)構(gòu)化文本的結(jié)構(gòu)化處理需求日益增長[3]。模式匹配是數(shù)據(jù)結(jié)構(gòu)中字符串的一種基本運(yùn)算,其功能是根據(jù)給定的子串,找出某個(gè)字符串中包含的所有該子串,主要包括基于規(guī)則的模式匹配和基于統(tǒng)計(jì)的模式匹配兩種方法[4-6]。基于規(guī)則的模式匹配采用正則表達(dá)式表示需要匹配的字符串模式,對于自然語言文本具有較好的靈活性,在抽取過程中簡單易操作,但抽取效果高度依賴制訂的規(guī)則( 字符串模式),適用于表達(dá)規(guī)范的文本。在該方法中,正則表達(dá)式指用于描述正則集的代數(shù)表達(dá)式,是由普通字符和通配符等特殊字符組成的文字模式,常用于文本內(nèi)容的搜索,可根據(jù)一定的算法匹配文本,實(shí)現(xiàn)從字符串中提取子字符串的功能,是基于規(guī)則的模式匹配文本信息提取方法的基礎(chǔ)[7-9]?;诮y(tǒng)計(jì)的抽取模型,依靠實(shí)際文本訓(xùn)練學(xué)習(xí)以建立識(shí)別模型,雖然可以得到較高的精確度,但訓(xùn)練過程復(fù)雜、耗時(shí)較長[10-11]。由于解放軍總醫(yī)院第一醫(yī)學(xué)中心的乳腺癌病理報(bào)告為單病種報(bào)告且具有一定的規(guī)范性,可快速整理得到其文本結(jié)構(gòu)和數(shù)據(jù)特點(diǎn),適宜采用基于規(guī)則的模式匹配方法對乳腺病理文本進(jìn)行結(jié)構(gòu)化處理,實(shí)現(xiàn)對非結(jié)構(gòu)化文本的結(jié)構(gòu)化信息提取,以輔助臨床科研人員進(jìn)行下一步醫(yī)學(xué)研究。

資料和方法

1 資料來源 本文處理的病理文本來自解放軍總醫(yī)院第一醫(yī)學(xué)中心2005 - 2017 年共計(jì)10 590 份去隱私的乳腺癌病理報(bào)告,由病理科醫(yī)生采用自然語言描述書寫。乳腺病理報(bào)告內(nèi)容主要包括病理號(hào)、申請科室、報(bào)告日期、報(bào)告類型、檢查所見、病理診斷等內(nèi)容。其中,檢查所見為醫(yī)生根據(jù)送檢標(biāo)本肉眼所見,主要包括標(biāo)本類型、標(biāo)本大小、質(zhì)地、邊界等。病理診斷為醫(yī)生根據(jù)鏡下所見對患者病理給予的診斷,主要包括腫瘤類型、SBR 分級(jí)、腫瘤大小、腫瘤累及范圍、淋巴結(jié)狀態(tài)和免疫組化檢測內(nèi)容(ER、PR、Ki-67、HER-2、FISH 結(jié)果) 等。病理報(bào)告部分內(nèi)容如表1 所示。

2 病理診斷報(bào)告結(jié)構(gòu) 從表1 可知,病理診斷可以提取出 “側(cè)別”、“腫瘤類型”、“分化分級(jí)”、“大小”、“侵犯部位”、“淋巴結(jié)轉(zhuǎn)移數(shù)”、“免疫組化指標(biāo)” 等分別以描述和數(shù)值表達(dá)的結(jié)構(gòu)化字段。其中,側(cè)別和腫瘤類型常一起描述;浸潤性癌常用SBR 分級(jí)或分化程度描述腫瘤的成熟程度;原位癌以高、中、低等級(jí)別描述腫瘤細(xì)胞核分級(jí);腫瘤大小以三徑表示或只記錄最大徑;侵犯部位主要以部位是否累及或是否侵犯部位的形式描述;淋巴結(jié)轉(zhuǎn)移以部位及轉(zhuǎn)移情況表示,轉(zhuǎn)移情況以分?jǐn)?shù)形式表現(xiàn),分子為淋巴結(jié)轉(zhuǎn)移數(shù),分母為淋巴結(jié)檢出數(shù);免疫組化信息以指標(biāo)名稱和結(jié)果的形式出現(xiàn),結(jié)果常用括號(hào)括起來,指標(biāo)結(jié)果包括染色程度和陽性細(xì)胞所占的百分比。

3 結(jié)構(gòu)化方法 根據(jù)基于規(guī)則的模式匹配方法,病理文本結(jié)構(gòu)化步驟主要包括:1) 輸入語料:病理診斷描述。2) 按算法提?。孩俑鶕?jù)研究目標(biāo)構(gòu)建字段詞典和規(guī)則集;②根據(jù)指標(biāo)關(guān)鍵詞定位目標(biāo)語句;③對目標(biāo)語句利用正則表達(dá)式匹配提取指標(biāo)對應(yīng)的結(jié)果描述部分。3)輸出標(biāo)準(zhǔn)化結(jié)果[12-13]。結(jié)構(gòu)化流程見圖1,具體包括字段配置、拆分?jǐn)嗑?、定位候選句、字段值抽取、反饋修改五個(gè)部分。

圖 1 病理文本結(jié)構(gòu)化流程

3.1 字段配置 病理提取字段信息由臨床醫(yī)生根據(jù)研究所需和病理文本內(nèi)容進(jìn)行總結(jié),同時(shí)結(jié)合病理科提供的表達(dá)習(xí)慣對提取字段及其可能的描述進(jìn)行整理得到字段描述詞典,并對字段值可能出現(xiàn)的描述進(jìn)行整理歸納,同時(shí)設(shè)置其輸出格式及歸一化值。

3.2 拆分?jǐn)嗑?因乳腺包含左右兩側(cè),首先根據(jù)側(cè)別將病理文本進(jìn)行拆分重組,如遇“左乳”、“右乳”、“左側(cè)”、“右側(cè)” 等信息時(shí),根據(jù)關(guān)鍵詞將病理診斷描述文本進(jìn)行拆分,確保拆分后的內(nèi)容為同一側(cè)別的病理信息。其次,根據(jù)主謂賓關(guān)系和標(biāo)點(diǎn)符號(hào)提示,對拆分后的病理信息進(jìn)行更細(xì)致的斷句。

表1 病理報(bào)告示例

3.3 定位候選句 根據(jù)字段詞典設(shè)置關(guān)鍵詞,利用正則匹配從語料中定位候選句,同時(shí)可設(shè)置限制條件對包含關(guān)鍵詞但非候選的語句進(jìn)行排除。如關(guān)鍵詞所在語句中包含如除外、懷疑、疑似、建議明確診斷等非肯定用語的情況時(shí),則將該候選語句排除。

3.4 字段值抽取 把字段值可能的描述轉(zhuǎn)換為以正則表達(dá)式書寫的候選項(xiàng),在定位的候選語句中進(jìn)行字符串匹配,并根據(jù)設(shè)置的歸一化值輸出結(jié)果信息。

3.5 反饋修改 評(píng)估抽取結(jié)果,根據(jù)存在的問題反饋修改字段配置,直到提取結(jié)果的評(píng)價(jià)指標(biāo)達(dá)到研究預(yù)設(shè)要求。

4 評(píng)價(jià)指標(biāo) 本研究采用的評(píng)價(jià)指標(biāo)包括召回率和準(zhǔn)確率。其中,召回率指所有正確提取字段值的數(shù)量與所有待抽取信息數(shù)量之比;準(zhǔn)確率指所有正確提取字段值的數(shù)量與所有提取到信息的字段值數(shù)量之比。

結(jié) 果

1 字段配置和字段描述詞 根據(jù)臨床醫(yī)生整理得到的字段描述詞典如表2 所示,第一列為待抽取字段名稱,第二列為病理報(bào)告中可能出現(xiàn)的描述。如皮膚侵犯在病理報(bào)告中可能以 “癌組織累及皮膚”、“皮膚未見癌”、“癌組織侵犯皮膚” 等形式出現(xiàn),另因書寫錯(cuò)誤可能會(huì)出現(xiàn)錯(cuò)別字的情況,如將“浸潤” 寫成“侵潤”。因此,在整理字段描述詞典時(shí),同時(shí)考慮了錯(cuò)別字可能出現(xiàn)的情況。此外,為解決同一醫(yī)學(xué)概念不同術(shù)語表述的問題,需要進(jìn)行歸一化設(shè)置。根據(jù)構(gòu)建的字段詞典和字段值可能出現(xiàn)的描述,對字段值格式和歸一化值進(jìn)行設(shè)定,見表3。如將累及皮膚、侵犯皮膚、浸潤皮膚、皮膚見癌等歸一化為累及皮膚;將未累及皮膚、未侵犯皮膚、未浸潤皮膚、皮膚未見癌等歸一化為未累及皮膚。

2 拆分?jǐn)嗑?以表1 中的病理診斷為例,由于本條病理診斷只涉及一個(gè)側(cè)別信息,可直接根據(jù)主謂賓關(guān)系和標(biāo)點(diǎn)符號(hào),將病理診斷進(jìn)行斷句為“左側(cè)乳腺浸潤性導(dǎo)管癌,SBR 分級(jí)為Ⅱ級(jí),腫瘤大小為2 cm×2 cm×1 cm, 基底切緣未見癌累及, 乳頭及皮膚未見癌, 腋窩及前哨淋巴結(jié)未見轉(zhuǎn)移癌( 分別為0/19、0/3)。 免疫組化染色 顯 示 腫 瘤 細(xì) 胞 :ER(-),PR(-),Ki-67(+35%),P53(+ >75%),CK5( 部 分+),Her-1(+++),Her-2(++~+++)。 ”,其中 表示換行符為斷句點(diǎn)。

表2 字段描述詞典

表3 字段值格式及歸一化值

3 定位候選句 以提取字段“皮膚侵犯” 為例,設(shè)置關(guān)鍵詞為“皮膚”,同時(shí)設(shè)置限制條件對包含“Paget's 病/ 派杰氏病” 的語句進(jìn)行排除,以排除病理診斷中描述皮膚派杰氏病或皮膚呈派杰氏病改變的語句。以表1 中的病理診斷為例,利用正則表達(dá)式匹配定位到關(guān)鍵詞“皮膚” 對應(yīng)的候選語句為 “乳頭及皮膚未見癌”。

4 字段值抽取 同樣地,以提取 “皮膚侵犯” 為例,基于JavaScript 語言利用正則表達(dá)式表示字段值可能的描述如圖2 中options 所示,字段的歸一化值放在每個(gè)可能結(jié)果的第一位,包括“未累及皮膚” 和 “累及皮膚” 兩種。根據(jù)關(guān)鍵詞“皮膚”定位的目標(biāo)候選語句為“乳頭及皮膚未見癌,”,與圖2 中黑色框內(nèi)的候選項(xiàng)匹配,因此得到“皮膚侵犯” 的抽取結(jié)果為 “未累及皮膚”。

5 結(jié)果展示 根據(jù)表3 設(shè)置的格式及歸一化要求得到病理診斷的文本結(jié)構(gòu)化結(jié)果如表4 所示,字段名稱及其結(jié)果一一對應(yīng),若根據(jù)關(guān)鍵詞對應(yīng)的候選句為空或根據(jù)關(guān)鍵詞對應(yīng)的候選句中沒有與候選項(xiàng)相匹配的結(jié)果,則以NA 表示。

6 結(jié)果評(píng)價(jià) 為便于對方法效果進(jìn)行評(píng)價(jià),從10 590 條病理診斷中隨機(jī)抽取200 條病理診斷,其中有2 條病理診斷因無側(cè)別信息未能提取到信息,實(shí)際提取到結(jié)構(gòu)化信息的病理診斷共計(jì)198條。根據(jù)評(píng)價(jià)指標(biāo)得到:1) 基于隨機(jī)抽樣進(jìn)行效果評(píng)估得到的結(jié)構(gòu)化字段的召回率和準(zhǔn)確率均高于90% ;2) 對文本結(jié)構(gòu)及特點(diǎn)分析越詳細(xì),提取信息的召回率和準(zhǔn)確率越高;3) 字段及其值在文本中的表現(xiàn)方式越簡單,則其召回率和準(zhǔn)確率越高,如皮膚、切緣侵犯情況和免疫組化信息等字段的召回率和準(zhǔn)確率均高于浸潤癌大小。見表5。

表4 病理提取結(jié)果樣例

表5 部分字段的評(píng)價(jià)指標(biāo)

討 論

圖 2 字段值抽取代碼

目前,自然語言處理技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用主要體現(xiàn)在病歷文本數(shù)據(jù)挖掘、醫(yī)療知識(shí)圖譜構(gòu)建等方面,使得非結(jié)構(gòu)化的文本數(shù)據(jù)成為可分析的結(jié)構(gòu)化數(shù)據(jù),便于臨床知識(shí)發(fā)現(xiàn)與應(yīng)用研究。醫(yī)學(xué)自然語言處理過程主要包括分詞、詞性標(biāo)注、實(shí)體識(shí)別、實(shí)體關(guān)系抽取等任務(wù)[15]。針對以上任務(wù)分別提出基于詞典、基于規(guī)則、基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的文本信息處理技術(shù)[16-19]。

通過本研究得到如下一些思考:1) 針對乳腺癌病理報(bào)告這樣的單病種且書寫規(guī)范程度較高的文本信息,不存在較難理解的語義分析,基于詞典和規(guī)則方法可實(shí)現(xiàn)分詞和實(shí)體識(shí)別,同時(shí)結(jié)合正則表達(dá)式匹配即可提取實(shí)體間的修飾或關(guān)系信息,因此基于規(guī)則的模式匹配信息提取方法具有一定適用性。2) 與基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的處理方法相比較,針對語義簡單、結(jié)構(gòu)規(guī)范的文本,雖然基于規(guī)則的模式匹配方法的信息提取技術(shù)更簡單、快速、易實(shí)現(xiàn),但前期需要根據(jù)臨床經(jīng)驗(yàn)或?qū)嶋H數(shù)據(jù)情況進(jìn)行大量的歸納總結(jié)以完成字段配置,字段配置的情況直接影響抽取結(jié)果。3) 此方法是針對特定語料制訂的抽取規(guī)則,因此也限制了該成果在其他領(lǐng)域或者語料中的通用性。4) 雖然我國已經(jīng)對不同疾病的病理書寫規(guī)范進(jìn)行了規(guī)定,但不同的醫(yī)生具有不同的依從性和書寫習(xí)慣,通過文本的結(jié)構(gòu)化處理和結(jié)果評(píng)估,可反向推動(dòng)病理報(bào)告描述用語的規(guī)范化,最終進(jìn)一步提高病理報(bào)告的結(jié)構(gòu)化能力。

綜上,本文根據(jù)乳腺病理文本的數(shù)據(jù)結(jié)構(gòu)及特點(diǎn),采取了一種簡單易操作的基于規(guī)則的模式匹配文本結(jié)構(gòu)化處理方法,實(shí)現(xiàn)病理文本快速、準(zhǔn)確的結(jié)構(gòu)化處理,對其他單病種病理文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)提供了一定的參考。同時(shí),本項(xiàng)研究在一定程度上對解放軍總醫(yī)院第一醫(yī)學(xué)中心病理報(bào)告書寫規(guī)范起到了推動(dòng)作用。

猜你喜歡
皮膚
第二層皮膚
皮膚“出油”或許就能減肥
春夏之季,請保護(hù)好您的皮膚
高頻超聲在皮膚惡性腫瘤中的應(yīng)用
水的皮膚
皮膚再生之迷
皮膚擦破時(shí)怎么處理
我愛洗澡,皮膚好好
復(fù)合皮移植與皮膚軟組織擴(kuò)張術(shù)在燒傷整形中的應(yīng)用對比
VSD在皮膚撕脫傷的應(yīng)用