国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)表示的醫(yī)學(xué)主題語義相似度計算研究*

2022-08-01 02:49黃承寧李雙梅
計算機與數(shù)字工程 2022年6期
關(guān)鍵詞:向量語義神經(jīng)網(wǎng)絡(luò)

黃承寧 李雙梅 景 波

(1.南京工業(yè)大學(xué)浦江學(xué)院 南京 211222)(2.南京審計大學(xué) 南京 211812)

1 引言

當(dāng)前搜索引擎已成獲取信息之快捷工具,然即便是最受歡迎的搜索引擎返回的搜索結(jié)果也不令人滿意。用戶確實輸入了正確的關(guān)鍵字,而搜索引擎卻返回了涉及這些關(guān)鍵字的文本頁面,大多數(shù)結(jié)果是不貼切的。搜索機制的性能好壞取決于解決兩個重要問題:一是如何提取相關(guān)的文本的主題,二是給出了一組潛在相關(guān)的頁面如何對它們根據(jù)相關(guān)性進(jìn)行排名[1]。評估搜索機制在查找和查找中的有效性和排名結(jié)果,需要語義相似性的度量。在傳統(tǒng)方法中,用戶提供相關(guān)性或語義相似性的手動評估[2],而這非常耗費成本。詞之間句之間的語義相似性研究[3],這是信息檢索的重難點部分。語義相似性是一個概念,其中衡量語義單詞之間的相似性是網(wǎng)絡(luò)上各種任務(wù)中的重要組成部分提?。?]。在信息檢索中,主要問題之一便是要檢索一組文檔數(shù)據(jù)集,計算給定的用戶查詢在語義上的相關(guān)度。高效估計之間的語義相似度單詞對于諸如詞意之類的各種自然語言處理任務(wù)至關(guān)重要。在基于字典的方法中,詞之間的語義相似性是可查詢的,但是當(dāng)涉及到網(wǎng)絡(luò)文本時,它已成為現(xiàn)今極具挑戰(zhàn)性的任務(wù)。

基于深度神經(jīng)概率語言模型的特征提取器可以提取與大量文本數(shù)據(jù)來計算任務(wù)相關(guān)的特征,這些方法亦被稱為自然語言理解(NLU)模塊。它們功能也可以用于計算文本樣本之間的相似度,這對于基于實例的機器學(xué)習(xí)最近鄰算法很有用。文本的相似度可以通過深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型將語言轉(zhuǎn)化為對語義建模的向量空間,而通過測算語義向量空間中文本向量的相近度,可以更好比對文本的語義特征。為了說明這一點,本文將使用谷歌2019 年最新的基于神經(jīng)網(wǎng)絡(luò)的語言概率模型搜索算法(后文簡稱其首字母縮寫B(tài)ERT)[5],執(zhí)行文本特征提取構(gòu)建向量化語義數(shù)據(jù),并為文本實現(xiàn)搜索的算法優(yōu)化。

2 基于深度學(xué)習(xí)的搜索算法

基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型有利于統(tǒng)計文本數(shù)據(jù)中語言的出現(xiàn)概率,更好地對大體量地文本數(shù)據(jù)進(jìn)行建模,下面將介紹神經(jīng)網(wǎng)絡(luò)地基本結(jié)構(gòu)、基于深度神經(jīng)概率語言模型以及基于語義相似度地向量空間模型。

2.1 神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

深度神經(jīng)網(wǎng)絡(luò)(DNN)是一種新型的基于數(shù)據(jù)概率的機器學(xué)習(xí)方法。DNN可以表示為函數(shù)F(X)=Y,其中X 表示輸入空間,Y 表示輸出空間。連接的層數(shù)和層之間的鏈接由一組權(quán)重矩陣加權(quán)[6~7]。訓(xùn)練階段DNN 的作用是識別權(quán)重矩陣的數(shù)值。訓(xùn)練程序利用了已知的輸入輸出對,并定義了表示預(yù)測與真實標(biāo)簽之間的差異。訓(xùn)練階段,則使用反向傳播技術(shù)通過最小化損失函數(shù)來更新參數(shù)。

在如圖1 的典型前向神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)中,術(shù)語layer 特指一層人工神經(jīng)元,術(shù)語input layer 特指創(chuàng)建出的接受輸入的第一層神經(jīng)元定義函數(shù),輸出張量進(jìn)入第二層以及緊接著的hidden layer 函數(shù)群(圖示含有三層),最后由output layer函數(shù)生成輸出。

圖1 典型前向神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)

2.2 深度神經(jīng)概率語言模型

雙向編碼器語言模型的注意力機制表示法(后文稱Transformer)[8]是由谷歌人工智能團隊最新開發(fā)的語言表示模型于2018 年對深度雙向表示進(jìn)行預(yù)訓(xùn)練,通過共同限制左右文本環(huán)境所有層。神經(jīng)網(wǎng)絡(luò)語言模型允許深層雙向表示屏蔽某些百分比的輸入數(shù)值的方法然后僅隨機預(yù)測那些被屏蔽的數(shù)值。這個應(yīng)用在預(yù)測許多重要的下游任務(wù),諸如機器閱讀和自然語言問答推論基于對在兩個文字句子之間關(guān)系的理解。

2.3 預(yù)訓(xùn)練語言模型

2018 年,學(xué)術(shù)界引入并發(fā)布了基于神經(jīng)網(wǎng)絡(luò)的自然語言處理(NLP)預(yù)訓(xùn)練技術(shù),該技術(shù)被稱為Transformer 的雙向編碼器表示模型[9~10],是組成BERT模型的基本單元。這項突破是谷歌研究的結(jié)果:該模型可處理與句子中所有其他單詞相關(guān)的單詞,而不是一個接一個地處理單詞。BERT的突破,在于其基于查詢中的段落及句子集來訓(xùn)練語言模型,而不是以往的有序序列訓(xùn)練方法。BERT 允許語言模型基于周圍的單詞學(xué)習(xí)單詞上下文,而不只是限于其后接著的語句。

2.4 與傳統(tǒng)查詢方法的比較

區(qū)別于傳統(tǒng)方法RankBrain[11~12],新的方法可以立足于上下文語境構(gòu)建更復(fù)雜的共現(xiàn)統(tǒng)計。關(guān)于RankBrain,其實是搜索排名算法并行運行,用于對檢索結(jié)果進(jìn)行調(diào)整。RankBrain通過上一步查詢從而查找接近的已有查詢來優(yōu)化結(jié)果。

傳統(tǒng)算法雖然查到頁面上的內(nèi)容,以了解其相關(guān)性。但是,傳統(tǒng)文字檢索算法一般只關(guān)注詞之前或之后的內(nèi)容以獲取其全文語境,以更好地計算該關(guān)鍵詞的語義。BERT[13]的雙向組成部分使其與眾不同,它在查看關(guān)鍵詞所在全文的內(nèi)容以了解詞的含義和相關(guān)性,是自然語言處理中的一次巨大突破。

3 算法實現(xiàn)與開發(fā)

該項目采用Python 3 編程語言開發(fā),使用TensorFlow 框架以及相關(guān)內(nèi)置API 和相關(guān)調(diào)用庫。為了更快速地加載大量文本數(shù)據(jù),使用其NLTK[14]調(diào)用庫,該庫可以把大規(guī)模文本數(shù)據(jù)集作為二進(jìn)制字節(jié)流保存在硬盤中[15~17],存儲大小不超100M,且可以使用代碼快速重復(fù)調(diào)用,更有利于深度模型將其數(shù)據(jù)作為向量化輸入。

3.1 加載預(yù)訓(xùn)練語言模型優(yōu)化計算圖

實驗將從加載預(yù)先訓(xùn)練的BERT 保存節(jié)點開始。 出于方便實驗?zāi)康?,將使用Google 開源預(yù)先訓(xùn)練的無固定大小寫英語模型。為了配置和優(yōu)化推理圖,將調(diào)用bert-as-a-service 存儲庫。在實驗部分中,將重點放在創(chuàng)建本地過程中的特征提取器。

從表1、表2可見,語言概率模型的大小若果存儲在本地磁盤會造成一定計算負(fù)擔(dān),為了保障模型的穩(wěn)定性及整體搜索的迅速性,要修改模型圖,借助bert-as-a-service,使用CLI 命令行界面配置信息,并對張量處理器(TPU)和圖形處理器(GPU)訓(xùn)練實施計算優(yōu)化。

表1 模型大小對比各項特征數(shù)值表

表2 基本型模型不同類型對比表

3.2 初始化特征提取器

將通過序列化圖使用tf.Estimator API 構(gòu)建特征提取器。將需要定義組件:input_fn 和model_fn。組件input_fn負(fù)責(zé)把數(shù)據(jù)傳入模型。過程顯示如圖2所示。

圖2 加載過程

3.3 使用Projector組件搜索向量空間

使用矢量化器,將為Reuters-21578 基準(zhǔn)語料庫的文章生成嵌入。為了探索3D中的嵌入矢量空間,將使用一種稱為T-SNE 的降維技術(shù),在其子類EmbeddingProjector上可以獲得生成的嵌入向量。

設(shè)p和q分別代表輸入文本向量和存儲數(shù)據(jù)集中各文本向量,則計算各文本間相似度可用歐幾里得距離來衡量,如式(1)所示。

在圖3 不加算法的文本空間中可以看到,不同顏色的文本混亂地粘合在一起,難以區(qū)分不同的主題。使用基于神經(jīng)網(wǎng)絡(luò)的概率語言模型將文本型量化后,在向量空間中不同語義的文本距離更大了而語義相近的文本距離變小了。

圖3 搜索算法分類文本空間可視化

3.4 創(chuàng)建搜索引擎

實驗中將要解決的搜索問題定義如下:給定向量空間M 中的一組點S 和一個查詢點Q∈M,在S 中找到最接近S 的點。有多種方法可以定義向量空間中的“最近數(shù)據(jù)點”,將使用歐幾里得距離。

因此,要構(gòu)建文本搜索引擎,將按照以下流程操作:向量化知識庫中的所有樣本,從而得到S;向量化查詢-給出Q;計算Q 和S 之間的歐式距離D;按升序?qū) 排序-提供最相似樣本的索引;從知識庫中檢索所述樣品的標(biāo)簽。

3.5 實驗數(shù)據(jù)及結(jié)果分析

實驗中,使用《中國癌癥雜志》、《中國癌癥雜志》等醫(yī)學(xué)期刊作為樣本數(shù)據(jù)來源數(shù)據(jù)集。使用Retriever 模塊,將建立一個信息推薦器,為具有相似主題數(shù)據(jù)特征的文本提供建議。

實驗過程中,使用三組關(guān)鍵字進(jìn)行搜索測試,分別為“乳腺癌”、“宮頸癌”、“肺炎”主題文本返回了語義相關(guān)醫(yī)學(xué)文檔的標(biāo)題,顯示出有效的語義相似度搜索能力;第三組的肺炎標(biāo)簽,顯示所搜不存在,也從側(cè)面顯示語義相似度的有效性。

根據(jù)實驗測試數(shù)據(jù),通過計算新模型的精確率、召回率和F1 數(shù)值,衡量本文方法和目前已有方法的表現(xiàn)。

從表3 可見,采用預(yù)訓(xùn)練模型的搜索算法精度可達(dá)80%以上,對照組的基準(zhǔn)線精度如表4所示。

表3 新方法表現(xiàn)

表4 對照組基準(zhǔn)線方法表現(xiàn)

從表4 可見,不采用預(yù)訓(xùn)練模型的搜索算法精度可達(dá)60%以上。由此可得,計算搜索算法的提高效率如表5所示。

表5 兩項對比數(shù)值提高情況

從表3、表4、表5可知,新算法的準(zhǔn)確性平均可達(dá)80%以上,對比原有方法存在20%的提高。這是因為預(yù)訓(xùn)練語言模型,可以通過對詞語及關(guān)鍵語句的上下文或鄰接語段進(jìn)行遮蓋編碼輸入深度模型,更精確地計算文本語義相似度。

4 結(jié)語

尋找兩個句子的語義相似性總是自然語言處理與信息摘取領(lǐng)域的一個大挑戰(zhàn)。在本實驗中,構(gòu)建了基于預(yù)訓(xùn)練語言模型特征提取器,并使用BERT 構(gòu)建文本檢索功能,在分類和檢索任務(wù)上充分發(fā)揮作用,充分證明了預(yù)訓(xùn)練語言模型在基于語義相似度的搜索算法優(yōu)化中有顯著的提升作用。通過對預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)進(jìn)行微調(diào),語義搜索方法可以進(jìn)一步提高其性能。實驗中顯示使用更大長度的查詢結(jié)果比短的查詢具有更高的精確度和召回率。

猜你喜歡
向量語義神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測
向量的分解
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
漢語依憑介詞的語義范疇
甘肃省| 丘北县| 吉木乃县| 龙游县| 涿州市| 巴中市| 绥化市| 遵义市| 东源县| 聂荣县| 合肥市| 普宁市| 黄大仙区| 深圳市| 英吉沙县| 河津市| 淮南市| 固镇县| 利津县| 崇阳县| 来凤县| 改则县| 团风县| 漠河县| 彩票| 建水县| 浦北县| 宜城市| 宿松县| 家居| 昭通市| 青冈县| 延长县| 山西省| 贺州市| 格尔木市| 金坛市| 于都县| 江永县| 威远县| 同德县|