国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向用戶需求主題的在線問答社區(qū)信息多層級分類研究

2022-08-31 15:36:06張燕剛
情報學報 2022年8期
關鍵詞:細粒度層級標簽

成 全,張燕剛

(福州大學經(jīng)濟與管理學院,福州 350116)

1 引 言

隨著泛在網(wǎng)絡去中心化特征的不斷凸顯,基于用戶生成內容(user generated content,UGC)的在線問答社區(qū)已然成為網(wǎng)絡用戶快速獲取個性化需求的重要渠道[1]。然而,在線問答社區(qū)內資源內容的包羅萬象與魚龍混雜,導致社區(qū)內信息資源的組織與序化問題成為困擾其高效響應、個性化滿足用戶信息需求的瓶頸。當前,多數(shù)在線問答社區(qū)將用戶生成信息按其發(fā)布時間或簡單主題進行堆疊與劃分,這不僅不利于提升平臺信息資源聚合的目標,也不利于實現(xiàn)為用戶量身定制個性化精準推送服務的要求,最終將導致用戶使用在線問答社區(qū)的滿意度不斷降低,逐漸弱化平臺的黏性。為了不斷提升網(wǎng)絡問答社區(qū)內信息資源的細粒度揭示、語義化表達與網(wǎng)絡化關聯(lián),從而適應當前智能化知識精準推薦服務的目標,亟須構建一套結構完善的多層級主題分類架構體系,以及滿足面向需求主題的多層級、細粒度信息資源分類模型,以期實現(xiàn)對用戶需求信息的自動化分類與推薦[2-3]。為了達到上述目標,本研究以在線母嬰問答社區(qū)妊娠期孕婦信息需求為例,從提升在線問答社區(qū)信息資源的多層級、細粒度組織效果為基礎,以滿足用戶個性化需求主題高效響應為目標,綜合運用內容分析、人工標注、交叉驗證、機器學習等研究方法,圍繞如何構建用戶在問答社區(qū)中的多層級、細粒度信息需求主題體系架構,如何引入機器學習機制實現(xiàn)在線問答社區(qū)多層級信息分類以滿足用戶的個性化需求兩大核心問題展開深入研究。

本研究的主要貢獻在于:①以跨平臺的妊娠期孕婦信息需求為例,構建覆蓋內容全面、邏輯結構清晰、需求主題個性的多層級、細粒度信息資源主題架構體系,為UGC 模式下特定需求主題識別及多層級信息分類服務研究領域提供理論參考和應用借鑒;②構建基于機器學習的面向用戶需求主題的信息多層級分類模型,實現(xiàn)信息多層級、細粒度的自動化分類,為優(yōu)化在線問答社區(qū)信息資源生態(tài),實現(xiàn)信息資源的高效序化與語義化表征提供新的思路和研究視角。

本文后續(xù)章節(jié)安排如下:第2 節(jié)將對用戶信息需求與信息層級分類的概念及其相關研究現(xiàn)狀進行梳理和闡述;第3 節(jié)將從層級分類策略選擇、模型網(wǎng)絡基本結構、數(shù)據(jù)層級標簽處理、需求主題特征表示、多層級分類器選擇、模型評估方法等方面,對面向用戶需求主題的信息多層級分類模型構建技術與方法進行詳細介紹;第4 節(jié)將從用戶多層級需求主題分類體系架構構建、實驗樣本數(shù)據(jù)的選擇與處理、模型參數(shù)選擇與設置、實驗結果可視化呈現(xiàn)等方面進行實驗研究;第5 節(jié)將對本研究所構建多層級分類模型(users' needs topics - hierarchical clas‐sification,UNT-HC)對特定數(shù)據(jù)集的分類性能進行評價;最后將總結研究工作,并對后續(xù)研究工作的可能路徑指明方向。

2 研究現(xiàn)狀

2.1 用戶信息需求研究現(xiàn)狀

用戶信息需求的概念,目前學術界尚未形成明確的定義,但初步形成了一個共識性的認知概念與理論體系雛形,即刺激(情境)-認知模型(信息需求)-反應(信息行為)研究框架[4]。通常,信息需求包括信息需要、信息要求、信息利用三種不同的情況,但在某些情況下,信息要求與信息需求被視為同義詞,一般不使用信息要求這一術語,而用表達的信息需求代替,同時,信息利用也被作為信息行為的同屬概念[5]。

從用戶認知角度出發(fā),現(xiàn)有用戶信息需求研究主 要 以Taylor、Belkin、Ingwersen、Kochen、Wil‐son、Cole 等學者的信息需求理論為基礎,尤其Taylor 根據(jù)用戶需求認知或意識水平劃分的內在的、有意識的、形式化的和折中的信息需求,已成為信息管理科學領域許多模型與研究的基礎,同時也是信息檢索與信息交互系統(tǒng)設計等研究的動力[6]。Belkin[7]也以用戶認知為導向提出了知識非常態(tài)理論,并從認知深度垂直解讀了Taylor 4 個層次的信息需求。計算機科學領域學者也常把Taylor 折中的信息需求作為默認觀點,并從用戶信息需求搜索角度出發(fā),將其過程劃分為預聚焦、聚焦、后聚焦三個階段[8]。當然,從社會學角度來看,信息需求是用戶信息尋求行為的決定性因素,并且信息需求也并非用戶最原始的需求,它主要源于用戶生理、情感、認知等更為基本的需求[9]。

用戶信息需求是動態(tài)的,并且高度依賴于用戶情境。近年來,用戶健康信息需求研究引起了廣大學者的高度關注,其研究成果頗豐。該領域的相關研究不僅與健康意識、健康態(tài)度有關,而且適用于特定的社會環(huán)境和認知狀況[10]。由此,在線上用戶信息需求主題研究方面,大量研究主要圍繞不同情境下的用戶群體展開,尤其是特定用戶群體的信息需求研究。其中,癌癥[11]、糖尿病[12]等慢性病患者群體是當前較為關注的群體之一。當然,處于特定群體中較為弱勢的身份轉換期的女性[13]、初為人母的年輕媽媽[14-15]及更為特殊的并發(fā)癥孕婦[16],更有尚未完全認同且極具獨特性的初為人父的年輕父親[17]的信息需求主題同樣受到關注。

從研究方法來看,目前線下用戶的信息需求主題研究主要采用訪談、調查等方式,而UGC 模式下的在線問答社區(qū)用戶則以人工內容分析與編碼[14-15]、自動文本需求主題挖掘[13]等人機互動的相關方法進行。當然,每種方法均有優(yōu)劣,訪談可通過不斷交談來理解用戶表述的含義與情境,但涉及私密、敏感話題用戶則不愿回答或敷衍,數(shù)據(jù)易失真或缺失,數(shù)據(jù)轉換也存在挑戰(zhàn);而調查則與之相反,雖更易實施和量化,概念清晰度高,但難獲取用戶情境與詳細資料[18]。與基于小樣本的訪談與調查不同,UGC 模式下的用戶信息需求更易獲取且更能反映用戶的真實情況,但無法讓參與者闡明其內容含義及后續(xù)跟進研究[15]。

2.2 信息多層級分類研究現(xiàn)狀

信息多層級分類可看作一種特殊的類別標簽之間具備層級結構的信息多分類問題[19]。多層級分類在現(xiàn)實世界中有著重要的作用,廣泛應用于文本分類、生物信息學等諸多領域,如圖書分類法、物種綱目分類等。當前大多數(shù)分類方法局限于單層級二分類、多分類、多標簽等問題,往往忽略了類別標簽之間因層級結構或關聯(lián)性所反映出的重要信息。當然,部分學者也在各領域圍繞不同信息載體與層級結構處理策略展開了一系列相關理論與實證研究。

從信息載體來看,當前主要聚焦于長文本與圖像信息載體的多層級分類研究,根據(jù)標簽類型又可分為層級單標簽和層級多標簽分類問題。針對文本信息載體中的層級單標簽問題,Stein 等[20]通過組合不同的詞嵌入模型與機器學習算法對比發(fā)現(xiàn),F(xiàn)ast‐Text 無論作為分類算法還是詞嵌入生成器均提供了出色的結果。通過fine-tuning 微調方式將上層信息傳遞至下層標簽學習中,Shimura 等[21]提出了HFTCNN (hierarchical fine-tuning conventional neural net‐work)模型。利用標簽的層級結構,HCCNN(hi‐erarchical classification conventional neural network)模型通過融合各層級標簽學習結果以指導完成最終層級多標簽的學習[22]。對于更為復雜的極端多標簽分類問題,Gargiulo 等[23]利用適用于數(shù)據(jù)標簽正則化的層級標簽擴展方法進行層級多標簽分類。針對圖像信息載體,Chen 等[24]通過層級語義嵌入框架,自頂向下逐層將上一層級的預測得分向量作為下一層級的先驗信息,并采用使其與上一層級結果相符層級結構關聯(lián)規(guī)則進行圖片信息的細粒度分類。

從處理策略來看,常見的層級結構類型有樹(tree) 結構和有向無環(huán)圖結構(directed acyclic graph,DAG)兩種,當前絕大多數(shù)研究主要針對樹結構,其層級結構處理策略有自頂向下型的局部分類策略、大爆炸(big-bang)型的全局分類策略、收縮型的扁平化分類策略三種,而采用最多的是自頂向下的局部處理策略[19]。

從效果評估方法來看,許多研究人員使用傳統(tǒng)的精確率、召回率等方法進行評估,但實際上這不適合層級分類,因為其忽略了類別間的關系。對此有學者建議采用等級精度、召回率等進行度量,不僅考慮實際與預測節(jié)點,還可擴展考慮中的對象,但又過度懲罰了具有較多祖先的節(jié)點,為此有學者使用最低共同祖先(lowest common ancestor,LCA)度量評估[19,23,25]。還有部分學者采用宏觀平均值[26]、微觀平均值[27]、平均與整體準確率[28]等進行層級分類效果評估。

綜上所述,現(xiàn)有的用戶信息需求研究逐漸傾向于面向特定用戶群體,但在研究方法上大部分仍采用調查與訪談的方式,UGC 模式下的內容分析與編碼方法應用相對較少。與此同時,信息多層級分類問題主要聚焦于長文本與圖像信息的層級多標簽分類研究,針對短文本多層級單標簽分類問題的研究相對缺乏。而短文本的特征稀疏,并且線上用戶需求主題細而龐雜,致使專指性信息資源分類聚合充滿挑戰(zhàn)。為此,本研究將以在線問答社區(qū)特定群體中處于弱勢的妊娠期孕婦為對象,應用內容分析與編碼的方法構建其多層級、細粒度的需求主題體系架構,依托此架構,通過引入機器學習機制構建并實現(xiàn)在線問答社區(qū)信息資源的專指性、多層級、細粒度自動化分類模型與應用路徑。

3 技術路線與評估方法設計

3.1 信息多層級分類策略選擇

本研究所構建的信息多層級分類采用自頂向下的局部分類策略。該策略從類別層級的頂層(根節(jié)點)開始,逐層向下直至分到某個類別,即先劃分至大類,再到該大類的某一小類,以及該小類的某一超小類。在整個分類過程中均使用類別的層級結構信息,其分類過程符合人們信息多維導航與檢索的思維習慣,適應性較強。本研究所采用的樹型結構多層級需求主題體系架構與多層級信息分類問題適合選擇這種自頂向下的層級結構處理策略,從頂層類別開始逐層向下進行多層級、細粒度的需求主題類別劃分。

3.2 信息多層級分類模型網(wǎng)絡基本結構

根據(jù)構建的用戶需求主題體系架構可知,其層級標簽從粗粒度向超細粒度延伸,每條樣本數(shù)據(jù)的層級類別標簽僅對應層級結構中的唯一一條路徑(即一對一關系),因而本研究屬于層級單標簽分類問題。對于層級單標簽問題而言,其核心是要求模型能夠利用層級結構關系等全局和局部信息作為先驗知識規(guī)范約束和有效引導深度網(wǎng)絡的學習,以此更精準地識別底層細粒度信息的類別特征。在本研究面向用戶需求主題的信息多層級分類模型(UNT-HC)中,自頂向下逐層學習和識別各層級類別標簽,在學習訓練過程中將上一層學習與識別結果作為先驗知識集成并嵌入下一層網(wǎng)絡中,以此指導和學習下一層更細粒度的特征與類別。其中,UNT-HC 模型的網(wǎng)絡基本結構如圖1 所示。

圖1 UNT-HC模型網(wǎng)絡基本結構

依托UNT-HC 模型的樣本學習訓練基本流程如下:

(1)輸入是一段經(jīng)預處理,并保留最大特征字符、長度為200 的用戶中文提問短文本,同時進行詞嵌入轉化(圖1 中主要利用FastText 實現(xiàn))。

(2)訓練樣本數(shù)據(jù)的頂層標簽(即信息支持和情感支持),即在詞嵌入基礎上通過一個雙向LSTM(long short-term memory)循環(huán)神經(jīng)網(wǎng)絡獲取各隱藏層信息,并對隱藏層信息進行注意力(atten‐tion)機制處理,得到一個注意力概率向量,將各隱藏層信息與注意力概率向量相結合進行連接(concate)操作實現(xiàn)全連接,最后利用分類交叉熵(categorical_crossentropy)進行頂層標簽預測。這個過程符合TextAttBiRNN (text attention bi-directional recurrent neural network)文本分類框架。

(3)進行下層級標簽預測,此時依然采用Tex‐tAttBiRNN 文本分類框架,但不再重新生成詞嵌入。利用下層雙向LSTM 循環(huán)神經(jīng)網(wǎng)絡得到各隱藏層信息后,通過連接操作融合上一層雙向LSTM 的循環(huán)神經(jīng)網(wǎng)絡的學習結果并實施本層注意力概率提取,進而融合上一層分類預測結果對該層標簽進行學習和預測。

(4)按照上述步驟,逐層遍歷整個層級標簽,進而完成對整個層級結構中的各層級標簽及最底層節(jié)點細粒度類別標簽的學習與預測。

3.3 數(shù)據(jù)層級標簽處理

本研究屬于層級單標簽分類問題,其層級標簽為一對一關系的樹型結構。此時,通過樣本最底層細粒度節(jié)點的類別標簽,能夠形成一條追溯至根節(jié)點的唯一路徑,從而得到該底層節(jié)點其上的各層級節(jié)點標簽。本研究的最終目標是利用標簽間的層級結構信息,更準確地識別出最底層細粒度節(jié)點的最終類別標簽。在學習訓練過程中,可提取或拆分出各層級類別標簽,并將其進行規(guī)格化處理,然后轉化為獨熱編碼(one-hot),以便在各層級標簽學習與識別過程中使用。

3.4 需求主題特征表示

當嘗試引入機器學習機制實現(xiàn)文本分類應用時,需要解決的首要問題是如何對用戶需求文本信息進行文本特征揭示與表達,即如何將自然語言轉化為機器能夠理解并學習的結構化形態(tài)。在機器學習中,特征屬性的選擇通常直接關系到后續(xù)訓練結果的可靠性,一個好的特征屬性往往能夠得到令人滿意的分類效果。本研究在結合現(xiàn)有研究的基礎上,嘗試分別采用word2vec、LDA2vec 及其已預訓練好的中文FastText 與騰訊DSG (directional skipgram)詞向量模型對用戶提問文本數(shù)據(jù)的需求主題特征進行表示,并根據(jù)UNT-HC 模型分類效果,選擇其中相對較優(yōu)的詞嵌入模型進行后續(xù)模型效果對比驗證實驗。

3.5 多層級分類器選擇

從圖1 可知,模型各層級的基礎分類器均選擇TextAttBiRNN 分類算法。TextAttBiRNN 分類算法是在雙向LSTM 文本分類算法的基礎上改進的,主要引入了注意力機制,能夠有效應對與分類任務不相關的數(shù)據(jù)點,注意力被表示為整個集合中所有點的softmax 加權平均值,權重則被計算成一些非線性的向量和上下文信息,在上下文中,部分文字被賦予更高的權值來突出,從而使雙向LSTM 編碼得到的表征向量能夠通過attention 機制去更加關注那些與決策需求最相關的信息,進而提高文本分類的效果。

3.6 模型評估方法

由于本研究為多層級單標簽問題,除頂層標簽類別為兩類外,其余層級標簽均屬采用獨熱編碼的多類別單標簽,且最底層類別標簽被視為最終類別標簽,因而可采用傳統(tǒng)單層級多分類評估方法對模型效果進行評估。categorical_crossentropy 損失函數(shù)就是針對這類情況的多分類交叉熵損失函數(shù),要求類別標簽為獨熱編碼,一般配合柔性最大值(soft‐max)進行單標簽分類。鑒于此,本研究采用分類交叉熵函數(shù)來評估UNT-HC 模型的分類效果。其中,分類交叉熵損失函數(shù)定義為

其中,n代表樣本數(shù);m代表分類數(shù)。因為該函數(shù)是一個多輸出損失函數(shù),因此函數(shù)的計算過程分多步實現(xiàn)。當時,loss=0,否則,loss>0,而且概率相差越大,loss 值也越大。

UNT-HC 模型自頂向下?lián)碛腥龑硬煌莫殶針撕灒斠粭l文本輸入模型后,整個模型會相應地輸出與三個層級一一對應的預測向量,各層級輸出的損失值也將會對應一個損失權重,并且三個層級的分類損失值會根據(jù)各自的損失權重合并構成一個最終模型的分類損失值。

與多分類交叉熵損失函數(shù)相對應,分類精確度函數(shù)(categorical_accuracy)檢查實際標簽(y_ture)中最大值對應的索引(index) 與預測標簽(y_pred)中最大值對應的索引是否相等,因僅比較一個值,即最大的那個值的索引,所以比較適用于多分類單標簽任務,但不適用于多標簽任務,并且與損失值一樣,整個模型會相應地輸出各層級的分類準確率。

4 實驗研究

4.1 實驗內容設計

面向用戶需求主題的信息多層級分類模型(UNT-HC)實驗內容主要涉及以下三個部分:

(1)在線問答社區(qū)用戶信息需求主題層級分類體系構建,利用在線母嬰問答社區(qū)妊娠期孕婦提問文本數(shù)據(jù)構建用戶信息需求主題層級分類體系,并以此作為UNT-HC 模型構建及其數(shù)據(jù)樣本標簽編碼評估的標準;

(2) 通過實驗對比多組不同的參數(shù)值取值對UNT-HC 模型多層級分類效果的影響,并且選取其中相對最優(yōu)的一組參數(shù)取值作為最終模型的參數(shù)設置;

(3)通過實驗對比不同詞表征模型對UNT-HC模型多層級分類效果的影響,并從中選擇一種相對較優(yōu)的詞表征模型進行后續(xù)模型分類效果對比驗證實驗。

4.2 用戶信息需求主題體系構建

4.2.1 用戶需求數(shù)據(jù)選擇與預處理

信息需求激發(fā)用戶信息行為,但用戶若未使用言語或詞語表達出來,旁人將難以知曉其真實的信息需求。在線問答社區(qū)中的提問作為用戶折中的信息需求,是其對自身信息需求的自由描述與主動表達,實質上更趨近于用戶意識到的“最真實的需求”,由此成為信息需求觀察與研究最優(yōu)質的素材[29]。然而,國內在線母嬰問答社區(qū)眾多,研究中難以實現(xiàn)全覆蓋,故通過以下方式篩選了三個具有代表性的平臺作為本研究數(shù)據(jù)來源:①根據(jù)中國品牌大數(shù)據(jù)研究院公布的母嬰網(wǎng)十大品牌排行榜[30],篩選出擁有問答模塊的6 個網(wǎng)站;②結合艾媒咨詢發(fā)布的《2019 中國綜合母嬰平臺監(jiān)測報告》[31]中的用戶體驗滿意度調查結果,保留了已篩選的品牌和滿意度排名均穩(wěn)居前三的網(wǎng)站;③利用中國網(wǎng)站排行查詢保留的3 個網(wǎng)站的母嬰網(wǎng)站綜合排行榜和Al‐exa 排名,進一步驗證其代表性;④為便于數(shù)據(jù)采集和保障數(shù)據(jù)質量,再次確認其提問數(shù)據(jù)是否按照備孕、懷孕等階段劃分。

按照上述方法與篩選標準,為了保障用戶需求主題的全面性以及減弱因平臺差異而導致研究結果受影響,本研究最終選擇了寶寶樹、媽媽網(wǎng)、育兒網(wǎng)三大在線問答社區(qū)作為最終數(shù)據(jù)來源。與此同時,在各平臺懷孕期(即妊娠期)問答資源模塊中采集了不同時間段的共16188 條用戶提問文本,其中,寶寶樹7624 條,媽媽網(wǎng)5571 條,育兒網(wǎng)2993 條。

因數(shù)據(jù)來源于不同平臺,且為用戶自定義生成文本,其質量參差不齊,為了提高數(shù)據(jù)質量,本研究初步篩選并刪除了原始數(shù)據(jù)集中以下7 類數(shù)據(jù):①純表情、符號、數(shù)字等非文本或超短無效文本(44 條);②提問式產(chǎn)品廣告(144 條);③非母嬰主題提問(68 條);④非妊娠期階段用戶需求提問(1286 條);⑤特定對象間交流文本(25 條);⑥難以判斷其需求主題的提問(91 條);⑦需求主題較偏且數(shù)量極少的提問(5 條)。經(jīng)篩選、清洗后,最終獲得有效用戶提問數(shù)據(jù)14525 條。

4.2.2 用戶需求主題編碼與測試

本研究利用內容分析法與迭代編碼的方式從用戶提問文本中提取用戶需求主題,進而構建用戶信息需求主題體系架構,其內容主要分為兩大部分:第一,初始需求主題體系架構編碼方案的制定與迭代編碼修正;第二,編碼方案全面性、適用性及編碼間可靠性測試。具體的構建流程如圖2 所示。

圖2 用戶信息需求主題體系架構構建流程

1)初始編碼方案制定

因用戶龐雜的信息需求主題涉及健康、醫(yī)藥、生活等諸多細微領域,現(xiàn)階段極少有如同疾病分類體系那樣相對完整且層次結構分明的分類體系架構可供參考,因此本研究僅能夠依托現(xiàn)有線上線下零散且不成體系的需求主題研究和用戶提問文本數(shù)據(jù),通過扎根理論的方法,從中提取和凝練出具有層級結構的需求主題體系架構。有研究表明,用戶除在線尋求信息支持外,同樣也尋求情感支持[16]。鑒于此,本研究將信息支持和情感支持作為在線問答社區(qū)中妊娠期孕婦需求主題初始體系架構中的頂層需求主題目錄。與此同時,參考現(xiàn)有的線下妊娠期孕婦需求主題,尤其是在Liu 等學者設計的中國孕產(chǎn)婦健康需求量表(maternal health needs scale,MHNS)[32]和Almalik 等學者的孕婦妊娠期間33 項學習需求量表[33]的基礎上,結合頂層主題目錄,按照粗粒度-細粒度-超細粒度層級結構,通過概念整合與歸納制定了層級深度為3 層的初始需求主題體系架構編碼方案:第1 層包含2 項,第2 層涉及11項,第3 層涵蓋47 項需求主題目錄。

2)迭代編碼與方案修正

根據(jù)已制定的初始編碼方案,采用迭代編碼的方式,對“媽媽網(wǎng)”和“寶寶樹”兩組數(shù)據(jù)集中的每條用戶提問文本所反映的需求主題進行編碼,并在迭代編碼過程中根據(jù)反饋出來的新問題不斷調整和修正編碼方案。

3)編碼方案全面性測試

經(jīng)過不斷地迭代編碼與方案修正后,需求主題編碼方案基本趨于穩(wěn)定,為了驗證最新編碼方案的全面性與適用性,使用該編碼方案對另一組未進行迭代編碼的“育兒網(wǎng)”數(shù)據(jù)集進行用戶多層級需求主題編碼,并觀察其是否出現(xiàn)新需求主題。最終結果顯示,“育兒網(wǎng)”數(shù)據(jù)集并未出現(xiàn)新需求主題,并且與“寶寶樹”和“媽媽網(wǎng)”數(shù)據(jù)集相比,“胎兒取名”“妊娠期工作”“妊娠期產(chǎn)假”“臨產(chǎn)前物品準備”等8 類需求主題并未在該數(shù)據(jù)集中出現(xiàn)。由此說明,該編碼方案具有較強的全面性和適用性。由于育兒網(wǎng)數(shù)據(jù)集的需求主題均包含在前兩個數(shù)據(jù)集中,因此將三個數(shù)據(jù)集合成一個更大的數(shù)據(jù)集,并用最新的編碼方案對數(shù)據(jù)集進行重新編碼。

4)編碼間可靠性測試

為驗證本次編碼間的可靠性與一致性,以及編碼方案的有效性與可重復性,本研究邀請了未參與編碼的一組成員,在給予其編碼方案和闡明了編碼說明與判定規(guī)則的前提下,從數(shù)據(jù)集中隨機抽取了10%的樣本數(shù)據(jù)進行編碼,并采用Cohen's kappa系數(shù)對編碼的一致性和可靠性進行檢驗。結果顯示,三個層級的需求主題編碼間的kappa 系數(shù)均大于0.8(P<0.01),說明本次需求主題編碼間的一致性與可靠性程度很強,同時也反映了本研究編碼方案具有很強的有效性和可重復性。

至此,可將當前多層級信息需求主題編碼方案認定為最終的在線問答社區(qū)妊娠期孕婦多層級信息需求主題分類體系架構,同時也可將其編碼數(shù)據(jù)集作為后續(xù)信息多層級分類研究的實驗數(shù)據(jù)樣本。最終的在線問答社區(qū)妊娠期孕婦多層級信息需求主題體系架構如圖3 所示。

圖3 在線問答社區(qū)妊娠期孕婦多層級信息需求主題體系架構

該需求主題體系架構共包括三個層級,第1 層級包含2 類需求主題,第2 層級涵蓋12 類需求主題,第3 層級覆蓋51 類需求主題。圖3 中,各二級和三級主題之后的中括號內的三組數(shù)值分別表示該主題下的數(shù)據(jù)條數(shù)、總需求主題數(shù)據(jù)條數(shù)的占比和上一層級父節(jié)點需求主題數(shù)據(jù)條數(shù)的占比。

4.3 層級分類實驗數(shù)據(jù)劃分與預處理

4.3.1 數(shù)據(jù)選擇與劃分

UNT-HC 模型是面向在線問答社區(qū)用戶信息需求主題體系架構構建的,因而本次實驗樣本數(shù)據(jù)選擇上述已編碼和測試驗證通過的、具備層級結構標簽的在線問答社區(qū)妊娠期孕婦信息需求主題數(shù)據(jù)集(以下簡稱mother_data)。因為數(shù)據(jù)集中超細粒度標簽類別較多,而數(shù)據(jù)集總體數(shù)據(jù)量又相對偏少,為保證實驗所使用訓練集與測試集對所有需求主題標簽的覆蓋面,本研究將數(shù)據(jù)集中的14525 條數(shù)據(jù)根據(jù)第3 層級的51 類需求主題標簽分別按照各類別主題標簽9∶1 隨機劃分為訓練集與測試集,然后將各類別主題標簽的訓練集與測試集對應合并,最終將整個數(shù)據(jù)集按照9∶1 隨機劃分出訓練集與測試集。最終,訓練集包含13076 條樣本數(shù)據(jù),測試集包含1449 條樣本數(shù)據(jù)。

4.3.2 文本數(shù)據(jù)預處理

文本預處理過程就是從文本中提取關鍵詞表示文本的過程,對于中文文本而言,預處理主要包括中文文本分詞和去停用詞兩個階段。中文文本沒有天然的空格進行間隔,因而本研究利用Jieba 分詞工具對數(shù)據(jù)集進行分詞操作。但mother_data 數(shù)據(jù)集涉及醫(yī)學專業(yè)領域,并且是用戶自定義生成文本,其文本包含了大量如“妊娠糖尿病”“前置胎盤”等專業(yè)性詞匯,又摻雜了大量如“有木有”“集美們”“BB”“小月子”等網(wǎng)絡或民間用語,致使原有詞表難以滿足需求,故通過搜狗詞庫等向原有詞表中添加了30多萬個自定義詞匯,從而提升文本分詞效果。與此同時,因實驗數(shù)據(jù)文本為短文本,文本特征詞較少,而部分關鍵詞在類別劃分過程中可能為關鍵特征詞卻被劃為停用詞。鑒于此,本研究未進行停用詞處理,從而保證文本最大特征,進而提升類別識別度。

4.4 多層級分類模型參數(shù)設置

由于本實驗數(shù)據(jù)樣本為短文本,且長短不一,故保留最大特征數(shù)字長度的MaxLen 參數(shù)值設置為200,若文本特征數(shù)字長度小于參數(shù)值,則會自動填充為0,使之與參數(shù)值保持一致。與此同時,因LSTM 模型在訓練或預測過程中極易產(chǎn)生過擬合現(xiàn)象,為防止和改善過擬合現(xiàn)象,一方面,在各層級的雙向LSTM 層中增加dropout 參數(shù)與recurrent_drop‐out 參數(shù);另一方面,加入早停機制(EarlyStop‐ping),隨著epoch 的增加,若最終標簽識別的損失值連續(xù)兩次上升,則提早終止訓練。但是,因dropout 參數(shù)和recurrent_dropout 參數(shù)的最佳參數(shù)值難以主觀確定,對此,本研究選擇了幾組現(xiàn)有研究中常見的參數(shù)值組,利用mother_data 數(shù)據(jù)集和Fast‐Text 詞嵌入模型,將各組參數(shù)分別代入UNT-HC 模型中,在其余參數(shù)保持不變的情況下,通過最終標簽預測準確率的大小,從中選擇準確率相對最佳的一組參數(shù)值作為dropout 參數(shù)和recurrent_dropout 參數(shù)的最終參數(shù)值。其中,各組參數(shù)值與之對應的最終標簽識別準確率變化趨勢如圖4 所示。由圖4 可知,當dropout 與recurrent_dropout 參數(shù)值均設置為0.5 時,其準確率相對最佳。

圖4 各組參數(shù)值的最終標簽識別準確率變化趨勢

4.5 多層級分類實驗結果分析

利用上述已劃分且經(jīng)過預處理的訓練集與測試集,將通過對比實驗選擇的最佳模型參數(shù)代入UNTHC 模型中進行多層級分類實驗研究。但為了選擇一種相對較優(yōu)的詞表征模型進行后續(xù)模型分類效果對比驗證實驗,在本實驗過程中分別使用word2vec、FastText、DSG、LDA2vec 四種詞表征模型對moth‐er_data 數(shù)據(jù)集中的用戶提問文本進行表征,并且分別將層級分類實驗結果的準確度輸出。其中,不同詞表征模型層級分類準確度實驗結果如表1 所示。

表1 不同詞表征模型層級分類實驗結果

由表1 可知,四種詞表征模型的各層級分類最佳準確率差距均較小,其原因主要是FastText 和DSG 等已預訓練的詞向量來源于新聞、小說等語料,而本研究文本是極具醫(yī)學背景的母嬰主題,其匹配度與適用性較差。同時,由于文本語料均為短文本,文本特征稀疏,總體來說并不適用于LDA模型。當然,僅從最底層分類效果看,由FastText進行詞表征的層級分類模型效果最佳,其準確率為68.12%,相比于其余三種模型分別提升了1.45、2.63 和6.08 個百分點。由此,在后續(xù)兩組實驗中,將選擇本實驗中的FastText 詞表征模型及其對應的層級分類結果完成對比驗證。

在測試集的識別預測過程中,由FastText 進行表征的層級分類模型的損失值和準確率變化曲線如圖5 所示。由圖5 可知,測試集第1 層級的損失值與準確率一直趨于平穩(wěn)。當?shù)? 次時(即epoch=3),測試集第2 層級的損失值與準確率也逐漸趨于平穩(wěn),但后期損失值略有上升趨勢,出現(xiàn)輕微的過擬合現(xiàn)象。當?shù)降? 次時,第3 層級損失值與準確率趨于平穩(wěn),此時模型達到最優(yōu)。

圖5 模型損失值與準確率變化曲線

5 多層級分類模型效果對比驗證

5.1 對比驗證內容設計

(1)通過實驗對比驗證本研究UNT-HC 模型分類效果是否能夠明顯優(yōu)于單層級多分類模型的分類效果。本研究最終目標是期望能夠通過引入機器學習機制,識別出用戶超細粒度信息需求主題,并以此實現(xiàn)細粒度專指性信息資源聚合,從而更好地滿足用戶個性化需求,其實質是對用戶細粒度需求主題進行分類,以期通過利用“粗粒度-細粒度-超細粒度”層級結構關系來提升用戶超細粒度信息學需求主題分類效果。為了驗證UNT-HC 模型相較于直接進行最底層超細粒度需求主題的單層級多分類效果有顯著提升,此項實驗將利用兩種模型在同樣的數(shù)據(jù)集、詞表征方法、參數(shù)配置等情況下,對數(shù)據(jù)集最底層標簽進行分類并對比驗證。

(2)通過實驗對比驗證在針對層級單標簽分類問題時,UNT-HC 模型能否更優(yōu)于現(xiàn)有的多層級分類模型。本研究將選擇同樣可針對層級單標簽問題的HCCNN 模型和HFT-CNN 模型,經(jīng)轉換后,在使用相同訓練集與測試集及評估指標的基礎上,對樣本數(shù)據(jù)集進行層級分類,并對比驗證三種模型分類效果優(yōu)劣。

5.2 單層與多層模型效果對比驗證

為驗證本研究模型UNT-HC 相較于單層級分類模型的分類效果是否有顯著提升,本研究利用相同數(shù)據(jù)集對比驗證了單層TextAttBiRNN 文本分類算法與UNT-HC 分類模型,其對比實驗結果如表2 所示。

表2 單層與多層模型分類結果

由表2 可知,相比于直接對最底層標簽預測的單層級分類算法TextAttBiRNN 而言,本研究模型UNT-HC 的分類效果有明顯提升,其準確率提升了10.56 個百分點。如圖6 所示,從單層與多層模型測試集最終標簽預測的損失值與準確率變化曲線來看,單層模型在迭代至第6 次時強制提前結束,第4 次迭代之后,其損失值隨著準確率的上升而上升,出現(xiàn)過擬合現(xiàn)象。

圖6 單層與多層模型損失值與準確率變化曲線

5.3 多層級分類模型效果對比驗證

為驗證相較于現(xiàn)有的多層級分類模型HFT-CNN與HCCNN,本研究模型UNT-HC 的分類性能,在采用同一數(shù)據(jù)集的情況下,分別利用兩種層級分類模型對其進行多層級分類訓練與測試。經(jīng)實驗,HFT-CNN 模型和HCCNN 模型的最終標簽分類結果如表3 所示。

表3 各層級分類模型分類結果

根據(jù)各層級分類模型最終標簽分類預測準確率結果可知,本研究模型UNT-HC 相比于HFT-CNN 和HCCNN 模型的多層級單標簽分類效果更優(yōu),其準確率分別提升了24.78 和15.95 個百分點。圖7 為三種層級分類模型最終標簽預測的損失值與準確率變化曲線,從圖7 可以看出,HFT-CNN 模型在迭代至第5 次時被強制停止,第3 次迭代時模型達到最優(yōu),但其準確率與UNT-HC 模型相差較多,并且模型在第3 次迭代后,損失值逐漸上升,準確率逐漸下降。與此同時,HCCNN 模型在迭代至第8 次時被強制停止,當epoch=6 時模型達到最優(yōu),但其準確率與本研究UNT-HC 模型仍存在一定差距。

圖7 三種層級分類模型損失值與準確率變化曲線

6 結 語

本研究圍繞如何構建面向用戶需求主題的在線問答社區(qū)信息多層級分類模型的核心目標,通過收集三大母嬰問答社區(qū)妊娠期孕婦提問數(shù)據(jù),采用內容分析與迭代編碼的方法,構建了面向在線問答社區(qū)妊娠期孕婦的多層級、細粒度信息需求主題體系架構,并且利用已編碼且驗證通過的用戶需求主題數(shù)據(jù),對構建的信息多層級分類模型進行分類實驗與模型效果對比驗證研究,證實了本研究信息多層級分類模型在處理在線問答社區(qū)中多層級、細粒度、單標簽分類問題方面具備相對較強的適用性和優(yōu)越性。本研究主要工作與貢獻體現(xiàn)在以下兩個方面:①以在線母嬰問答社區(qū)妊娠期孕婦信息需求數(shù)據(jù)為研究對象,構建了具備3 層結構,最底層覆蓋51 類用戶信息需求主題的在線母嬰問答社區(qū)妊娠期孕婦多層級、細粒度需求主題體系架構,相較于現(xiàn)有母嬰需求主題分類體系而言,本研究所構建的多層級、細粒度需求主題體系專指性更高,覆蓋面更全,需求主題粒度更細,結構更清晰,構建過程及方法擴展性更強,能夠推廣應用至其他階段或群體需求主題體系架構的構建過程中,構建的需求主題體系架構也能為UGC 模式下妊娠期孕婦健康信息需求領域研究,以及多層級信息分類服務導航、信息資源細粒度組織與管理等提供一定的理論參考與應用借鑒;②構建了面向用戶需求主題的信息多層級分類模型,并且對比驗證了該模型在多層級單標簽分類問題方面的相對適用性與優(yōu)越性,其模型或方法能夠為在線信息服務平臺優(yōu)化資源聚合、提升用戶體驗、系統(tǒng)設計以及其他領域信息資源多層級分類任務提供一定的解決思路與方法支持。

然而,因時間成本、可操作性及自身理論水平等因素限制,本研究仍有一些需完善和改進之處:①本研究僅針對妊娠期孕婦構建了其需求主題體系架構,未進一步細化至孕早、孕中、孕晚期等階段,也沒有擴展至女性備孕期、產(chǎn)褥期等整個孕育過程;②在編碼方案制定及需求主題命名環(huán)節(jié),受可操作性等因素影響,最終未能夠尋求或獲取到母嬰專業(yè)領域專家們的建議及意見,可能導致體系架構的結構、命名等缺乏一定科學性或權威性支撐;③本研究暫未采用最新的如圖神經(jīng)網(wǎng)絡、動態(tài)詞嵌入等模型參與模型構建與實驗,后續(xù)將進一步利用最新的詞嵌入及其基礎分類模型完善實驗,進一步優(yōu)化本研究的效果;④在現(xiàn)實情況下,一條用戶提問文本往往層級越低其需求主題概念標簽越多,因而多層級分類問題的實質是一個更為復雜的層級多標簽分類問題,而如何有效解決更為復雜且更契合實際的信息層級多標簽分類問題無疑是本領域極具挑戰(zhàn)性的前沿性問題。

猜你喜歡
細粒度層級標簽
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
紅外技術(2022年11期)2022-11-25 03:20:40
細粒度的流計算執(zhí)行效率優(yōu)化方法
高技術通訊(2021年1期)2021-03-29 02:29:24
軍工企業(yè)不同層級知識管理研究實踐
基于軍事力量層級劃分的軍力對比評估
無懼標簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于雙線性卷積網(wǎng)絡的細粒度圖像定位
支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
標簽化傷害了誰
任務期內多層級不完全修復件的可用度評估
咸阳市| 六盘水市| 乃东县| 尼玛县| 女性| 千阳县| 防城港市| 西畴县| 新竹市| 宾川县| 仙居县| 庆元县| 屏南县| 临桂县| 关岭| 十堰市| 桐梓县| 云龙县| 景泰县| 望奎县| 岑溪市| 农安县| 庆阳市| 民县| 万年县| 永春县| 临夏县| 如皋市| 晴隆县| 乌兰浩特市| 吉林省| 沙坪坝区| 开封市| 富蕴县| 阳山县| 河北区| 灌云县| 南康市| 弋阳县| 靖安县| 县级市|