深度學習方法在計算機視覺領域顯示出了巨大的潛力.相比于傳統的圖像處理或機器學習算法,深度模型在圖像分類、語義分割和實例分割上都具有更加優(yōu)秀的表現.傳統的深度模型只針對單一任務進行構建,易于訓練擬合.然而,實際場景中的大部分問題都由多個任務組成,如實例分割問題融合了語義分割以及圖像分類任務,而目標檢測問題融合了圖像分類與位置坐標回歸任務.若使用獨立模型進行訓練,多個模型之間訓練過程復雜,各個任務之間的相關性也并未納入考量使得模型的性能與效率較差,而多任務形式的模型構建能夠很好地解決這些問題.多任務模型是一種單輸入多輸出的網絡結構,旨在對多個任務進行聯合參數學習,進而充分挖掘任務之間的相關性信息.同樣的,模型也需要對各個任務的差異性特征具有較好的適應能力.
針對結節(jié)的計算機斷層掃描 (CT) 影像特征抽取,需要采用多任務結構進行模型構建.作為肺癌的早期表現形式,肺結節(jié)的良惡性判定是應對肺癌威脅的關鍵.在CT影像特征上,結節(jié)病灶的形狀、邊緣和內部特征對結節(jié)良惡性具有很高的相關性,一些細微的差別便會導致結節(jié)病理上截然不同的診斷,這對影像科醫(yī)生來說是一個巨大的挑戰(zhàn).本文根據北美放射協會 (RSNA)所提出的結構化報告標準將結節(jié)形態(tài)特征分為3大類別,分別為形狀特征、邊緣特征和內部特征,準確地對這些結節(jié)特征進行分類需要構建高泛化性與魯棒性的多任務模型結構.為了解決這些問題,本文在多任務模型中引入了基于注意力機制的特征抽取結構與基于長短期記憶(LSTM)網絡的時序分類器結構.
作為我國歷史上在南方地區(qū)定都的唯一一個漢族王朝政權,宋代時期,因內憂外患局勢,矛盾問題突出,采取多方面措施保證社會環(huán)境安定,如與外族政權簽訂和議,這些均要求國內有較大的財富。同時,在靖康之變影響下,宋朝王室南渡,于江南定都,原因在于當時江南環(huán)境較為安逸。也正因這種政治中心南移變化,引起經濟上的變動,王朝將所有精力致力于江南一帶的經濟發(fā)展中。另外,由當時宋朝政治環(huán)境看,并不主張著力北伐,許多史料中均有記載,宋朝對其統治區(qū)域內的經濟發(fā)展高度重視,自宋高宗趙構開始便有這種表現。由此可見,政治中心的遷移以及政治環(huán)境變化,是導致經濟中心南移的重要原因。
傳統的多任務結構將卷積神經網絡 (CNN) 作為其圖像特征編碼器,通過軟/硬參數共享的形式進行分類器的訓練.本文在傳統多任務模型中引入了基于注意力機制的中間結構.該結構能夠融合各時刻的特征信息,并通過非線性激活函數提取當前時刻的圖像注意力特征.在分類器的設計上,本文使用基于長短時記憶網絡的時序結構進行構建,LSTM結構能夠有效地傳遞各時刻的特征參數,并解決長、短時間依賴問題.為了進一步提升模型的分類效果,使用雙通道輸入結構,即結節(jié)CT影像輸入與結節(jié)掩模影像輸入,輪廓信息的引入顯著提升了模型對相關特征的分類效果.由CNN編碼器、注意力機制以及LSTM時序分類器所組成的多任務模型能夠有效地解決結節(jié)多特征分類問題.
綜上所述,本文的貢獻主要為以下幾點:
(1) 提出一種新的多任務特征抽取結構,不同于傳統的參數共享或多模型結構,該結構通過基于注意力機制的中間結構進行特征融合,融合產生的注意力向量能夠有效地提高當前任務特征的提取效果.
(2) 將基于LSTM結構的時序模型引入多任務分類中,時序分類器在各個時刻都能夠較好地進行特征篩選,并提升任務間共享特征的傳遞效率.
《國家中長期教育改革與發(fā)展規(guī)劃綱要(2010—2020年)》指出要大力推進高等學校創(chuàng)業(yè)教育工作。國務院辦公廳2015年出臺的《關于深化高等學校創(chuàng)新創(chuàng)業(yè)教育改革的實施意見》中也明確要求:“把深化高校創(chuàng)新創(chuàng)業(yè)教育改革作為推進高等教育綜合改革的突破口,樹立先進的創(chuàng)新創(chuàng)業(yè)教育理念?!泵鎸医逃l(fā)展戰(zhàn)略部署和經濟社會發(fā)展的新需求,創(chuàng)新創(chuàng)業(yè)教育已經成為高等教育發(fā)展的新趨勢和新潮流,如何培養(yǎng)創(chuàng)新型人才,已成為高等院校的重要任務[1]。
(3) 將結節(jié)CT圖像與掩模圖像作為多模型任務的輸入,雙通道輸入結構能有效提升部分結節(jié)特征的分類效果.
多任務分類模型試圖取得優(yōu)秀的多特征抽取效果,這對模型結構的設計要求較高.在以往的多任務分類研究中,采用的模型結構大致分為3種:共享底層的模型結構、正則化約束結構和多專家混合結構.
=tanh()⊙
通常的多專家混合(MoE)結構由門控結構與多個專家子模型構成.文獻[18]將單專家多門控混和(OMoE)模型結構嵌入到深層神經網絡 (DNN) 中.該方法能夠用來構建巨大的DNN模型,在語言建模與機器翻譯等多任務工作中取得了優(yōu)異效果.文獻[19]將單一門控結構進一步升級,提出多門控的混合專家(MMoE)模型,該模型在OMoE模型的基礎上增加了門控單元的數量,增加的門控單元能夠對各個任務之間的關系進行建模.在計算機視覺領域,文獻[20]使用3類不同的模型結構進行多任務特征學習,分別為堆疊式的去噪自動編碼器 (SDAE),CNN結構以及手動設置的圖像特征,如Haar角點特征、HoG特征等.融合后的圖像特征通過隨機森林分類實現多任務輸出.該算法表明,不同結構的特征提取模型能夠提高算法魯棒性,但是由于模型較為復雜,所以存在訓練難度較大的問題.不同于自然語言處理問題,視覺領域中的圖像編碼模型往往更為重要,加之模型的任務數量相對較少,因此如何構建高效、泛化能力強的特征提取方法是多專家混合結構研究的重點.
本文提出的基于注意力機制與LSTM結構的多任務模型能夠對結節(jié)的各項特征進行有效分類.卷積神經網絡作為高效的圖像特征提取手段被用作圖像編碼器.不同深度、不同結構的CNN模型可以通過其強大的特征理解能力對圖像進行初步編碼.在傳統的圖像多任務分類中,由于任務數量一般不超過5個,所以使用共享圖像編碼器的方式能夠獲取較好的效果.但是,結構化報告所需的圖像特征信息往往超過5個,由簡單的多層感知器 (MLP) 構成的分類器易造成模型退化問題,模型的編碼輸出需要通過特征變化來獲取分類所需的解碼特征.對于單輸入多輸出的多任務模型,在每一個分類任務中自適應地進行特征抽取能夠在提高分類性能的同時降低模型的過擬合風險.在分類輸出階段,使用更加有效的輸出方式能夠更好地保護各階段共享特征.因此,本文在多任務模型中引入了基于注意力機制的中間結構與基于LSTM結構的分類器,其算法結構如圖1所示.其中:AVG為平均操作;,分別為不同時刻下LSTM結構的隱層信息與細胞信息;ATT為基于注意力機制的中間結構.由于結節(jié)的邊緣特征與形狀特征易受其周邊結構的影響,本文將分割后的結節(jié)掩模圖像作為模型輸入之一.掩模為像素值為0或1的二值化圖像,本文中將結節(jié)區(qū)域標記為1而背景區(qū)域標記為0.
(118)南亞異萼苔Heteroscyphus zollingeri(Gottsche.) Schiffn.余夏君等(2018)
(1)
(2)
(3)
圖3展示了3種不同的多任務結構,其中:模型為時刻編碼器與中間注意力結構的模型狀態(tài).圖3(a)為傳統的共享權值多任務結構;圖3(b) 為OMoE結構,由此發(fā)展而來的MMoE模型加入了多門控結構,即鍵-值融合結構;圖3(c) 結構為本文所提出的單模型時序結構,此結構將鍵-值融合結構從控制各模型連接強度轉變?yōu)榭刂泼恳粋€中間結構的特征輸出,僅使用單一結構便能夠達到類似MMoE模型的效果,降低了模型復雜程度,也使模型更容易擬合.
為了傳遞不同時刻之間的共享特征,構建了LSTM形式的分類器.LSTM結構能夠很好地進行各分類特征之間的耦合,最大程度地保留特征之間的相關性聯系.其計算方式如下:
(4)
(5)
先用低ⅰ擋試割,如果工作正常再適當提高一個擋位,收割一段距離后,應停車檢查收獲質量,觀察各部位調整是否適當,無異常現象方可進入正常作業(yè)。
但出了件怪事。當科恩回到哈佛大學的實驗室,他發(fā)現所有實驗中的記錄都呈現出一種奇怪的趨勢。最初,蛋白修飾的神經元都在電沖動一閃而過時發(fā)出閃光。但接著,細胞就持續(xù)發(fā)光,形成了明亮的斑點?!懊看斡涗浀揭话霑r,信號就像發(fā)了狂一樣。”科恩說。
(6)
(7)
(8)
(9)
(10)
(11)
共享底層的結構適用于分類任務較少的情況.由于共享底層結構具有高效、易于訓練的特點,成為了大多數多任務模型的基本結構.文獻[9]使用參數共享的層次語義卷積神經網絡 (HSCNN) 進行CT影像特征提取與多任務特征分類.在進行多任務分類時,HSCNN使用結節(jié)的形態(tài)學特性作為基礎屬性,結節(jié)的良惡性風險作為高階屬性,從而提高模型對結節(jié)良惡性風險的預測效果.層次化結構能夠一定程度上提高模型對重要屬性的分類效果,但是如果模型中的基礎任務屬性過多會造成模型擬合困難、預測效果下降等問題.文獻[10]使用端到端的多任務模型對COVID-19患者的胸部CT影像進行病灶分割、病情風險預估與肺部影像重建,3個任務共享模型的編碼器.該多任務模型的分割、分類與重建效果相較于單任務的U-Net結構更加優(yōu)秀,這反映了多任務模型在進行不同模式的相關任務學習時能夠相互促進、提高性能.但由于底層參數的共享,在模型優(yōu)化時,各個類型任務輸出有可能會相互影響,甚至相互沖突.為了解決這一問題,一些研究者在不同類型任務損失中加入權值以防止模型的退化.
(12)
由于輸出特征中存在著一些類別間不平衡問題,所以使用了焦點損失函數作為模型的代價函數,各個任務之間樣本分布的不均衡十分容易造成模型過擬合的問題.本文在焦點損失函數的基礎上進行了權值修正,可以表示為
由于各個任務的分類空間不同,各類別之間樣本平衡性不同,所以本文將結節(jié)形狀特征作為模型初始階段的分類輸出、邊緣特征、內部特征和惡性風險依次作為中段、后段和末段分類輸出,按照從底層特征到高維特征的準則進行輸出順序的排列.由于任務中存在從次要任務到主要任務的漸進關系,確保模型的良惡性分類效果最優(yōu),所以本文將分類器的模型設置為單向LSTM.不同于自由文本生成模型,在使用LSTM結構進行多任務模型構建時并不會遇到長時期依賴問題.
(13)
(14)
(15)
本文使用3類不同的多任務模型,在公開數據集LIDC-IDRI上進行結節(jié)屬性分類.3種類型分別為共享底層結構的多任務分類模型、OMoE、本文所提出的基于注意力機制與LSTM結構的時序結構模型.實驗基于Python 3.6 與Pytorch實驗框架,訓練與測試使用了深度學習服務器,其主要配置為英特爾10核處理器i9-7900X,3張NVIDIA GTX 1080顯卡與64 GB GDDR4內存.在設計實驗時,將公開數據集 1 561 個結節(jié)樣本按照5∶1∶4劃分為訓練集、驗證集與測試集.本實驗中,設置LSTM解碼器的隱藏層大小為512,圖像編碼輸出的通道數為 2 048,對每一個全連接層設置了Dropout,置空比例設置為0.5,以防止模型出現過擬合現象.所有的模型使用Adam算法作為其優(yōu)化器,各分類模型統一設置了學習率和訓練策略,初始學習率為0.001.為了確保模型不發(fā)生過擬合問題,本實驗使用了早停學習策略,當驗證集損失連續(xù)15輪不出現明顯下降時,停止模型的訓練.將輸入圖像尺寸設定為48像素×48像素×48像素,為了使模型更容易收斂,各輸入圖像通過其像素均值 avg() 與標準差 std() 進行歸一化操作,歸一化計算方法如下:
(16)
式中:為未經過預處理的原始圖像.
在實驗中,選取ResNet結構作為圖像編碼器,本文提出的基于注意力機制與LSTM時序結構的多任務分類模型被標記為“Res50+ATT+LSTM”,ResNet50被用于構建共享底層的多任務模型,ResNet50與ResNet101組成的雙模型結構被用于構建OMoE.為了驗證基于注意力結構的中間層對多任務分類性能的影響,本文將ResNet50直接連接一個LSTM結構分類器作為另一個基準模型 (Res50+LSTM);為了對比單向LSTM結構分類器與雙向LSTM結構分類器的差異,在第2個實驗中添加了雙向LSTM結構分類器模型(Res50+ATT+Bi-LSTM) 作為對照組.
1.綜合治療措施。沙門氏菌對土霉素、新霉素、氟苯尼考、磺胺嘧啶、新諾明比較敏感,大腸桿菌對土霉素、新霉素、氟苯尼考、卡那霉素、呋喃唑酮、喹諾酮類藥物敏感,魏氏梭菌可使用氟苯尼考治療。
本文使用公開數據集LIDC-IDRI作為實驗數據.該數據集中CT影像采集時的峰值電壓為 120~140 kV,峰值電流為40~624 mA.該數據集由4位經驗豐富的影像科醫(yī)生進行標注,每個結節(jié)都擁有其主要特征的小組評估意見.其主要特征分別為鈣化、內部結構、分葉、邊緣、形狀、毛刺、紋理和惡性概率,如表1所示, 其中:括號中的數字為量化后的標簽.表1反映了各個特征的描述與分級情況.由于一些特征中的各分級數量很不平均,如鈣化特征中的爆米花型和半層型;內部結構特征中的空氣類型等都較為罕見,所以使用原分級標簽進行多任務分類會造成較大的訓練偏差,本文通過閾值化處理來平衡各標簽樣本數量,并將各特征劃歸至其后括號內的數字標簽 (0/1/2) 下.同時,該數據集還給出了每個結節(jié)的真實體素輪廓情況,由于每位醫(yī)生所標注的結果之間存在差異,本文使用了50%的一致性標準來生成模型訓練所需的掩模數據.在實際應用中,為了實現有效的結節(jié)掩模提取,可以通過兩階段通用分割算法nnU-Net、3D U2-Net等快捷準確地獲取結節(jié)掩模圖像.
基于正則化約束的模型希望通過先驗的目標函數來約束模型間的參數,構建任務間的相關性.文獻[14]提出“臟模型”的概念來約束任務間的模型參數.他們將每一個任務模型參數分解為兩部分,共享特征參數與獨立特征參數.在訓練階段對共享特征參數與獨立特征參數分別設定不同的超參數權重進行優(yōu)化,但是該方法僅能優(yōu)化淺層特征,并不能很好地挖掘深層的共享特征.文獻[15]通過特征投影將不同任務間的共享特征進行優(yōu)化表示,這種提取共享特征的方法被稱為交替結構優(yōu)化(ASO) 法.而文獻[16] 則通過特征稀疏表示 (差異特征表示) 與共享特征低秩表示來進行特征建模,并使用不同的約束方法對這兩種不同類型的特征進行篩選與訓練.然而,正則化約束結構需要通過人為的約束條件進行參數優(yōu)化,且并未明確提出分類器的構建方式.
在所構建的多任務分類任務中,使用各分類項的準確率、值以及絕對距離誤差 (ADE) 作為評價指標,其中值是分類召回率與精確率的調和平均.由于在分類任務中,模型的召回率與精確率存在此消彼長的矛盾,綜合這兩種指標的評價方法能夠總體上反映出模型的分類性能.而絕對距離誤差是指模型輸出向量與標簽向量之間的距離誤差,能夠直觀反映出模型之間的分類效果差異.在這些評價標準中,分類準確率與值越大表示模型的分類效果越好,而絕對距離誤差越小,表示分類效果越好.其計算方式如下:
(17)
(18)
(19)
4.編輯“抓手”下力。各位編輯以對歷史負責、對油田負責、對職工群眾負責的態(tài)度,熱心修志事業(yè),盡快熟悉情況,發(fā)揮文字功底厚實優(yōu)勢,善學習,肯動腦,能吃苦,坐得住,踏踏實實做好分篇編纂工作。編輯人員通過干中學、學中干,加強學習交流,反復學習領會省史志辦制訂的省志編纂通則、行文規(guī)定等規(guī)范性文件,積極參加省里組織的培訓、交流,牢牢把握編纂原則,實事求是地記述以勝利油田為主的山東石油工業(yè)發(fā)展歷程與現狀,立足當代、詳近略遠。經常帶著問題研討,切磋交流體會,“碰撞產生火花”,提高修志業(yè)務能力。修志人員素質的提高,為編纂高質量志書打下基礎。
3)初餾塔煮塔1次,常壓塔煮塔2次,減壓塔煮塔2次,在煮塔結束后要確認塔底及側線集油箱含油污水排放干凈,再進行下一次煮塔??偨Y煮塔過程,其實沒有特別的技巧,就是要嚴格落實各項措施,確認執(zhí)行到位。從本次塔器打開情況來看,煮塔效果較好,更重要的一點是煮塔產生的含油污水量控制較小。
本文僅使用結節(jié)CT圖像作為模型輸入進行實驗比較,如表2所示,表中各加粗項為各分類特征下的最優(yōu)結果.從表2中可以看出,ResNet50結構與OMoE結構模型在性能上總體相近.盡管OMoE結構模型在ResNet50的基礎上增加了另一個ResNet101組成了雙模型結構,但是在某些特征上,如鈣化、惡性概率等,OMoE結構性能相比ResNet50結構出現了下降.在使用LSTM結構作為模型分類器之后,特征的總體分類性能出現了提升,在分類的準確率和值上相較前兩種模型分別提升了1.89%與1.23%,而ADE相差不大.在使用注意力結構作為模型中間層后,分類效果有了進一步提升,相較于不帶注意力中間模塊的網絡,在分類準確率、值與ADE上性能分別提升了0.76%、0.62%與0.04.值得注意的是,在“實性程度”“惡性概率”上,Res50+ATT+LSTM模型相較于前幾種結構提升較大.相較于模型簡單的共享底層機構,使用分步特征提取的注意力結構能夠更好地分階段提取圖像特征、提高分類效果.
此外,江西還是客家人聚居的中心之一,是客家文化的大本營,客家文學和民俗文化也是江西獨特的文學和文化資源。江西還是中國工農紅軍、中華蘇維埃政權的大本營,是中央蘇區(qū)所在地。因此,江西又是蘇區(qū)文學生存發(fā)展的“紅土地”,孕育了無數光輝燦爛、極具時代特色的蘇區(qū)文學作品。
圖4反映了各模型在形狀 (球形/橢球形/索條形) 特征、邊緣 (邊界模糊/清晰) 、紋理 (實性/半實性/磨玻璃) 與惡性概率這4個指標上的結果箱線圖.從圖4中可以看出,在使用共享底層或OMoE模型對圖像進行多任務分類時,ADE結果會出現較大的波動.而本文所提出的Res50+ATT+LSTM方法結果波動性較小,中位數也是各模型中最小的.
表3展示了各模型加入結節(jié)掩模圖像作為輸入的結果.由表3可知,由于圖像的掩模反映結節(jié)的毛刺、分葉和形狀等特征,在這些分類項上,雙分支輸入結構性能有所提升.使用結節(jié)CT影像與掩模的Res50+ATT+LSTM取得了最好的分類效果,相較于前3種模型在分類準確率、值以及ADE上分別提升了1.65%、1.68% 以及0.08.圖5對比了各模型在加入結節(jié)掩模圖像后的多任務分類結果,其中:為僅使用結節(jié)影像進行多任務分類;+為使用結節(jié)影像與掩模圖像進行多任務分類.從圖5可以看出,加入結節(jié)輪廓信息后,各模型在形狀、邊緣等分類任務的ADE中位數以及波動范圍均有一定程度降低,這說明了在加入結節(jié)掩模后,模型在相關特征上泛化能力更強,不易出現較大偏差.相較于單向結構,雙向LSTM分類器將模型的整體參數量提高了1倍,但是各分類任務的結果相差并不明顯.
表4展示了所提方法與其他已有方法的結果比較,其中文獻[9]所提出的深度層次模型是共享底層結構的多任務分類模型,從結節(jié)的低級屬性 (形狀、邊緣等) 到高級屬性,層次化構建整個模型.文獻[20]使用了3不同的模型結構進行多任務特征學習.多任務模型預測結果如圖6所示.由圖6可知,所提方法在實現更多特征分類的同時,在邊界、鈣化、良惡性分類上均取得了更好的結果.
援助來自于斯圖加特的Sicos BW有限公司,卡爾斯魯厄理工學院和斯圖加特大學于2011年夏天共同創(chuàng)立了這家公司,旨在為企業(yè),尤其是中小型企業(yè)提供模擬仿真、高性能計算、大數據和智能數據方面的咨詢。由于得到了合作雙方以及巴登符騰堡州科學、研究和藝術部(MWK)的大力支持,該公司持中立立場并免費提供服務。來自德國各地、對高性能計算感興趣的模擬用戶可從Sicos BW公司獲得有關應用和工具的所有必要信息,模擬仿真專家?guī)椭麄兘⒁粋€可行的工作方案,其中包括訪問高性能計算機。目標是:企業(yè)最終能夠獨立或通過Sicos BW公司合作網絡中的相應合作伙伴將高性能計算機上的模擬仿真集成到產品開發(fā)過程中去。
由上述實驗結果可以看出,基于注意力機制與LSTM時序結構的多任務分類模型在性能上優(yōu)于共享底層模型與多專家混合模型.多專家混合模型中的門控單元被替換為基于注意力機制的中間結構,將“加權求和”操作轉變?yōu)閷φ麄€特征圖進行增強或抑制,特征被更為充分地利用.通過表3與圖5可知,由于雙向LSTM結構需要重復計算編碼器與注意力中間結構,易造成一些分類任務的過擬合現象,而單向LSTM結構并不存在這個問題,模型也更加容易訓練.另外,時序模型能夠提高各時刻間參數的傳遞效率,使得模型自適應地選擇是否保留先前時刻的特征參數,以提升各分類任務之間的聯結效果.該結構使得互相關聯的分類任務之間相互促進,互不相關的任務之間相互獨立.由于LSTM結構對信號依賴的自主選擇,本文所提出的結構能夠勝任更多數量的分類任務,且模型易于訓練,具有較強的泛化性能.圖6(c)展示了多任務分類模型對不同類型結節(jié)的預測結果,結果以概率的形式給出,能夠輔助影像科醫(yī)生更好地完成診斷工作.
雖然,基于注意力機制與LSTM時序結構的多任務分類模型取得了較好的分類效果,但是對于模型的細節(jié)需要進一步優(yōu)化.如在分類任務先后順序的選擇上,由于LSTM結構不同于多層感知器結構,在不同特征順序下,各時刻模型間的參數傳遞效果不同,導致某些任務結果出現差異.在本實驗中,通過不斷變換各任務的順序進行多次訓練測試,各個任務的結果隨著位置的不同而出現差異,但總體上的平均性能相差不大.另外,對于模型損失函數的選擇上,本文使用了改進后的焦點損失函數,在一些特定的場景中,各任務的數據量有可能極不平衡,重要性也都各不相同,因此需要對任務屬性的重要性以及不確定性,即各任務之間相關置信度進行建模.在今后的工作中,將繼續(xù)在這些方向上對本文工作進行優(yōu)化.
本文提出一種基于LSTM時序結構的多任務模型,并在模型中加入基于注意力機制的特征抽取結構.注意力結構能夠充分融合不同時刻間圖像特征,提高模型的特征提取能力.基于LSTM結構的時序輸出模型能夠很好地傳遞任務間共享參數,并保留當前任務獨立參數,使分類模型更加穩(wěn)定.該模型在肺結節(jié)的多任務特征抽取上取得較好的效果,能夠輔助醫(yī)生更好地完成影像報告撰寫工作.所提出的模型能夠推廣到其他多標簽問題中,通過不斷優(yōu)化其結構與損失函數,解決更多場景下的圖像理解任務.