国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于協(xié)同訓練的電商領域短語挖掘

2020-04-20 13:14:58劉井平肖仰華朱慕華
計算機工程 2020年4期
關鍵詞:分類器短語語義

許 勇,劉井平,肖仰華,朱慕華

(1.復旦大學 計算機科學技術學院,上海 200433; 2.阿里巴巴網(wǎng)絡技術有限公司,杭州 311121)

0 概述

短語是指文本中可以構成一個完整語義單元的連續(xù)詞序列,這些語義單元通常為概念、實體、地址、組織、事件等。短語挖掘是從給定語料中自動識別高質量短語的過程[1-2],其將文本信息抽取從單詞粒度提升到了短語粒度。

在電商領域,抽取出的短語在查詢建議[3]、查詢改寫[4]、術語識別[5]和搜索關鍵詞識別[6]等任務中均具有廣泛應用。例如,給定一個查詢語句“瑯琊榜同款斗篷”,短語挖掘可以抽取出“瑯琊榜同款”這個短語。在用戶輸入“瑯琊榜”時,搜索引擎系統(tǒng)可以給出查詢建議“瑯琊榜同款”。傳統(tǒng)的短語挖掘方法主要分為基于句法特征的方法和基于統(tǒng)計特征的方法兩類?;诰浞ㄌ卣鞯姆椒ㄊ褂迷~性標注[7-8]、組塊分析[9]、依存關系[10]等句法層面的信息識別短語?;诮y(tǒng)計特征的方法[11]使用基于頻率的統(tǒng)計信息來檢測短語,這類方法從海量的語料庫中挖掘k元詞序列作為候選,得到諸如侯選短語的頻率、左右詞的信息熵、短語的信息量等統(tǒng)計特征,然后構建有監(jiān)督的短語分類模型以識別短語。

上述短語挖掘方法都以通用領域文本作為研究對象,如DBLP、維基百科和Yelp等文本語料。通用領域文本一般是文章、新聞、評論和論文等,這些文本具有書寫規(guī)范、句法結構完整等特點。電商查詢語句一般由屬性詞和品類詞(產(chǎn)品名稱)組成,通常沒有完整的句法結構,并且存在大量反序和省略的表達,比如“冬季外套女韓版”“大碼休閑鞋防滑”等。這使得傳統(tǒng)方法在處理電商領域的文本時都存在一定的局限性。句法結構的缺失使得基于句法特征的方法無法有效檢測出短語邊界,反序表達的存在使得基于統(tǒng)計特征的方法容易將高頻反序短語誤認為高質量短語。電商領域語料的特殊性也使得傳統(tǒng)基于遠程監(jiān)督的數(shù)據(jù)標注方法效果較差。

實體標記序列能夠反映詞之間的修飾關系,可以有效檢測出電商領域文本中的反序表達。本文針對電商領域文本中多數(shù)詞是屬性值且每個屬性值都有指定類型的特點,提出一種基于實體標記序列[12-13]的雙向LSTM[14]短語分類模型。通過構建協(xié)同訓練[15]的短語挖掘框架,整合已有的基于統(tǒng)計特征的短語挖掘方法,以降低電商領域語料中標注訓練數(shù)據(jù)的成本。在此基礎上,利用Stacking方法[16-17]集成統(tǒng)計模型和語義模型的優(yōu)點,以提升本文模型的整體性能。

1 相關研究

基于句法特征的短語挖掘方法最早根據(jù)基于詞性標記的規(guī)則來識別短語。文獻[7-8]定義了多個基于詞性標記的規(guī)則來識別句子中的名詞短語。文獻[9,18]構建有監(jiān)督的組塊分析模型從文檔中抽取出名詞短語。文獻[10]利用更加精細的依存句法分析進一步提高短語挖掘的精確率。但是,基于規(guī)則的方法依賴領域相關的語言規(guī)則,適用范圍有限。此外,基于有監(jiān)督學習的方法依賴大規(guī)模的標注數(shù)據(jù)才能保證模型效果,基于依存分析的方法盡管效果有所提升,但是其依賴計算量很大的句法分析器。

基于統(tǒng)計特征的分類方法主要根據(jù)基于頻率的統(tǒng)計特征來識別短語。ConExtr[19]著重分析一個短語及其子短語間的關系,使用迭代過濾策略來篩選出高質量的短語。文獻[11]采用基于ZipFian排名的啟發(fā)式短語質量排序算法。TopMine[20]采取了一種自底向上的方式來挖掘短語,先挖掘高頻候選短語,再根據(jù)重要性指標將它們?nèi)诤铣筛L的短語。SegPhrase[1]提出了融合統(tǒng)計特征與短語切分模型的方法,其基于切分后的句子進行短語頻率統(tǒng)計,在一定程度上解決了統(tǒng)計特征中短語頻率計數(shù)不準的問題,同時短語的質量優(yōu)化可以反過來優(yōu)化切分模型,兩者迭代優(yōu)化以提升最終的短語挖掘效果。AutoPhrase[21]進一步使用正例和無標注樣本學習[22]的方法降低標記成本,同時通過引入詞性標記來優(yōu)化短語切分模型。由于電商領域文本中存在大量反序表達,上述方法過于依賴基于頻率的統(tǒng)計特征,導致在電商領域文本上易出現(xiàn)錯誤。同時,AutoPhrase使用通用知識圖譜的實體名稱做正樣本標注,該方法在電商領域文本中很難標注到正樣本。

本文使用實體標記和詞性標記序列來構建短語分類模型,以降低對領域規(guī)則以及復雜句法分析器的依賴,通過協(xié)同訓練的方式減小標注的成本,使用Stacking方法集成語義模型和統(tǒng)計模型,最終提升短語挖掘模型的整體性能。

2 方法設計

2.1 問題分析

電商領域的文本與傳統(tǒng)文本存在較大差異,這使得傳統(tǒng)短語挖掘方法處理電商領域文本時存在一定的局限性。電商領域的文本一般沒有完整的句法結構,存在反序和省略的表達,表1所示為淘寶電商平臺上的一些典型查詢語句示例,其中,2列查詢語句的順序不同。

表1 淘寶平臺查詢語句示例

由于電商文本與通用領域文本的差異性,在應用傳統(tǒng)方法處理電商查詢語句時會遇到以下3個問題:

1)電商查詢文本存在反序表達。例如,在查詢語句“方巾成人”時,表示適用對象的“成人”這個修飾詞出現(xiàn)在品類詞“方巾”之后,基于詞性標記的方法會錯誤地匹配到這類反序表達,將“方巾/NN 成人/NN”識別為名詞組合?;诮y(tǒng)計特征的方法傾向于將高頻的短語識別為侯選短語,而在電商語料中,部分反序表達比正常表達更為常見,如淘寶查詢語句“足球鞋 長釘”的出現(xiàn)次數(shù)是“長釘 足球鞋”的4倍。因此,上述方法會將這類反序表達誤認為是一個高質量短語。針對上述問題,本文在基于詞性標記方法的基礎上,融合命名實體識別(NER)[12]標記,提出了語義增強的短語識別方法。在電商領域,大部分詞都是屬性詞或品類詞,這些屬性詞和品類詞被定義為實體,有對應的實體標記。比如“冬季羽絨服”中“冬季”的標記是“季節(jié)”,“羽絨服”的標記是“品類”。在反序表達中,用于修飾的屬性詞通常出現(xiàn)在品類詞之后,因此,可以通過實體標記的序列來識別反序表達。同時,實體標記特定的序列也能反映短語的質量,比如,對于實體標記序列“<品牌><品類>”,“品牌”詞修飾“品類”詞,能夠表達完整的語義,因此,符合該標記序列的短語可能是一個高質量短語,例如“小米手機”。同時,詞性標記序列也能在一定程度上反映短語的質量,比如,符合“DT JJ NN”的短語。本文構建一種基于實體標記和詞性標記序列的雙向LSTM短語分類模型,該模型融合實體標記序列特征,相比于詞性標記序列特征,實體特征能更有效地檢測出反序表達,而相比人工預定義規(guī)則,使用雙向LSTM模型能夠更好地利用序列特征的信息。

2)電商領域文本很難獲取帶標訓練樣本。通用領域文本由于有大量高質量的短語(來源于通用知識圖譜的實體名),可以通過遠程監(jiān)督的方法得到大量的標注數(shù)據(jù),而電商領域中缺乏這種規(guī)模的短語集合,導致需要人為標注大量訓練數(shù)據(jù)。針對該問題,考慮到短語挖掘方法可利用多類特征的特點,本文采用協(xié)同訓練框架。協(xié)同訓練能夠依據(jù)特征的多視圖來有效利用未標注數(shù)據(jù)。協(xié)同訓練的基本思路為:一個數(shù)據(jù)對象有多個屬性集,每個屬性集構成一個視圖,基于不同視圖可以構建不同的分類器,分別生成偽標注樣本用于另一個分類器的訓練更新,使得不同視圖的分類器能夠基于少量標注樣本相互迭代優(yōu)化。文獻[23]證明只要2個分類器具有較大的差異性,就可通過協(xié)同訓練利用未標注數(shù)據(jù)來提升學習性能。在短語挖掘問題中,本文提出的語義增強特征(實體+詞性)與傳統(tǒng)的統(tǒng)計特征就是2個具有較大差異的視圖。因此,可以構建2個分類模型,通過協(xié)同訓練的方式充分利用未標注數(shù)據(jù),從而降低人工標注樣本的代價。

3)電商領域文本缺乏完整的句法結構。 電商查詢語句省略了大量助詞、介詞等功能詞,而基于句法和語義的模型依賴于助詞、介詞等功能詞來檢測短語邊界,這類詞在電商領域中很少見,使得此類方法無法有效檢測出短語邊界。而基于統(tǒng)計特征的模型能夠通過如短語左右鄰接詞的熵這類統(tǒng)計特征來有效識別短語邊界。因此,在利用協(xié)同訓練得到基于語義增強和基于傳統(tǒng)統(tǒng)計特征的2個分類器之后,本文采用Stacking方法對2個分類器進行系統(tǒng)融合。Stacking方法能夠較好地集成多個分類器各自的優(yōu)勢,使得模型既能準確檢測短語邊界,也能判斷短語序列本身的質量。

2.2 短語挖掘系統(tǒng)框架Co-Phrase

定義1(k元詞序列(k-gram)) 給定一個經(jīng)過分詞的中文句子s=w1w2…wn(n表示以詞數(shù)為單位的句子長度),k-gram是由s中連續(xù)k個詞組成的任意子串,即u=wiwi+1…wi+k-1。

例1一個詞序列為“大碼 休閑鞋 防滑”,其2-gram有“大碼 休閑鞋”“休閑鞋 防滑”,3-gram有“大碼 休閑鞋 防滑”。

例2一個詞序列為“大碼 休閑鞋 防滑”,其實體標記序列為“大小 品類 功效”,詞性標記序列為“JJ NN JJ”。

本文短語挖掘系統(tǒng)的整體框架Co-Phrase如圖1所示,具體步驟為:1)根據(jù)語料抽取出的候選短語,得到基于實體標記、詞性標記的語義特征和基于頻率計算得到的統(tǒng)計特征,其中,詞性標記和實體標記通過預先訓練的模型對語料進行處理得到;2)基于2類特征分別構建分類器,基于實體標記和詞性標記序列特征構造語義增強的短語分類器以及基于統(tǒng)計特征構造短語分類器;3)使用協(xié)同訓練的方法將上述2個分類器以減少標注樣本為目的進行迭代訓練優(yōu)化;4)采用Stacking方法集成訓練完畢的語義增強模型和基于統(tǒng)計特征的模型。

圖1 基于協(xié)同訓練的短語挖掘系統(tǒng)框架

2.3 基于語義增強的短語挖掘

一個k-gram是否為高質量短語,可以結合句法和語義特征進行判斷。一方面,k-gram本身的詞性標記序列和實體標記序列信息可以用來識別短語。比如,符合“JJ NN”這個序列的k-gram可能是一個高質量的名詞短語,如“紅色連衣裙”;符合“季節(jié) 品類”這個實體標記序列的k-gram也可能是一個高質量短語,其表達了特定季節(jié)的商品這樣一個完整的概念,如“秋季棉襖”。另一方面,雖然電商領域文本中助詞等功能詞匯存在大量缺失,但并不意味著完全沒有,因此,k-gram上下文的詞性標記仍然有助于識別短語邊界,例如,“適合三歲男孩的玩具”,“的”字助詞可以幫助識別出短語“三歲男孩”,原因是助詞一般不會成為短語的一部分。

基于上述分析,本文構建一種基于短語實體標記序列和詞性標記序列以及短語上下文中詞性標記分布的雙向LSTM模型,將其記為SC,具體結構如圖2所示。其中,實體標記和詞性標記中的PAD是填充符。

圖2 SC模型框架

本文模型同時考慮短語本身語義結構及短語所處上下文的合理性。詞性標記序列這類特征很難在傳統(tǒng)機器學習方法中進行建模,因此,本文采用基于雙向LSTM的序列分類模型,其相比于傳統(tǒng)基于規(guī)則的模型能夠更好地利用序列特征。

2.4 協(xié)同訓練

本文協(xié)同訓練框架主要有2個視圖的分類器,分別為基于統(tǒng)計特征的分類器和帶有語義增強特征的分類器。

2.4.1 基于統(tǒng)計特征的短語挖掘

對于給定的短語u=wiwi+1…wi+k-1,本文使用的統(tǒng)計特征主要分為以下4類[21]:

1)頻率特征:用來衡量短語u的常見程度,短語u越常見,其越可能是一個高質量短語。

2)協(xié)調(diào)性特征:用來評估短語u內(nèi)部的子短語是否為常見的搭配。比如,“恒溫電吹風”相比于“溫控電吹風”就是更為常見的搭配。對于給定的短語u,其可以被切割成2個最可能的子短語,計算2個子短語的點互信息(PMI)[24]如下:

其中,p(u)是短語u在語料中出現(xiàn)的概率。此時,可以使用PMI作為協(xié)調(diào)性的表達特征之一:PMI越大,說明2個短語組合出現(xiàn)的概率比它們共同出現(xiàn)的期望概率要大,即這2個短語越可能構成一個固定搭配,短語u越可能是一個高質量短語。對于單詞個數(shù)大于2的短語,比如“恒溫、控制、電吹風”,其可能有多個切分,如“恒溫控制、電吹風”和“恒溫、控制電吹風”,此時需要事先找到最可能的切分。本文通過點互信息來尋找該最優(yōu)劃分結果,如下:

3)完整性特征:用來衡量短語u是否為一個完整的短語,若短語u多數(shù)時間是作為另一個短語的子短語出現(xiàn),則它可能不是高質量的短語。比如“水星”一般是作為“水星家紡”的子短語出現(xiàn)。

4)信息量特征:用來衡量短語u的信息量,例如,停用詞和功能詞雖然很常見,但是它們并不包含有用的信息。

統(tǒng)計模型根據(jù)上述統(tǒng)計特征來構建分類器,以評估短語的質量。本文使用隨機森林算法[25]進行短語質量評估,決策樹作為該算法的基礎分類器,隨機森林算法不容易過擬合,能充分利用各類數(shù)值型和類別型特征,同時具有很高的精確率。本文將基于統(tǒng)計特征的分類器記為FC。

2.4.2 協(xié)同訓練流程

一般而言,監(jiān)督學習算法需要大量的標注樣本才能取得較好的效果,尤其是深度學習模型。本文針對短語挖掘問題有句法/語義和統(tǒng)計兩類特征的特點,采用協(xié)同訓練的方式進行分類器學習。協(xié)同訓練利用2個有差異的分類器為對方提供偽標注數(shù)據(jù),從而不斷迭代優(yōu)化彼此的性能。協(xié)同訓練流程偽代碼如算法1所示。

算法1協(xié)同訓練算法

輸入語料庫C,標注集合L

輸出短語得分集合S

1.Procedure 協(xié)同訓練(C,L)

2.r←0

3.U←generateKgram(C)

4.F←generateFeature(C,U)

5.while r

6.Model1←TrainFC(L,F)

7.Model2←TrainSC(L,F)

8.PS1←Predict(Model1,U)

9.PS2←Predict(Model2,U)

10.L←L∪SamplePhrase(PS1)

11.L←L∪SamplePhrase(PS2)

12.for each u∈L do

13.remove fufrom F

14.end for

15.r←r+1

16.end while

17.end Procedure

算法1描述了短語挖掘問題中協(xié)同訓練的流程。首先,系統(tǒng)初始化相關參數(shù),對原始語料進行預處理,抽取出候選短語及其特征向量,同時進行短語的詞性標記和命名實體識別(第2行~第4行),L初始時只包含人工標注的少量短語。然后,是協(xié)同訓練的迭代標注過程,總共迭代n輪,該過程主要分為2個階段:1)分別基于訓練數(shù)據(jù)訓練統(tǒng)計模型和語義增強模型(第6行~第7行);2)基于訓練好的2個分類模型預測未知短語的得分,篩選高質量樣本并添加到標注數(shù)據(jù)集L中(第8行~第11行)。最后,從未標注數(shù)據(jù)中移除已被自動標注的樣本(第12行~第14行)。上述2個階段不斷迭代優(yōu)化,直至達到指定迭代次數(shù)。

2.5 模型集成

協(xié)同訓練算法結束后,可以得到2個優(yōu)化后的分類器,這2個分類器有一定差異,對于不同的樣本可能會給出不同的輸出結果。因此,可以融合兩者的輸出結果,使得最終的集成模型對于原有分類器具有差異的輸出能給出正確的預測。本文使用Stacking方法進行模型集成,Stacking方法的具體過程如圖3所示。首先,訓練多個不同的基準模型Ci,然后,以這些模型的輸出oi作為另一個模型的輸入來訓練一個次級模型,得到最終的輸出of。與簡單的模型加權平均方式不同,Stacking能很好地學習不同數(shù)據(jù)上不同分類器的權重。在本文中,Stacking集成FC和SC 2個分類器的結果以得到最終結果。

圖3 Stacking集成模型框架

3 實驗結果與分析

本文研究電商領域的短語挖掘問題,以淘寶網(wǎng)的查詢語料庫作為實驗數(shù)據(jù)集,淘寶是世界上最大的中文電商平臺。為驗證本文語義增強的短語挖掘方法、協(xié)同訓練框架以及基于Stacking的模型集成方法的有效性,對比現(xiàn)有2種短語挖掘方法,在淘寶用戶查詢語料上進行實驗分析。

3.1 實驗設置

本文實驗收集了一周的用戶查詢語句數(shù)據(jù),然后對查詢語句進行分詞、詞性標記和命名實體識別,遍歷得到所有可能的k-gram(k≤5)。根據(jù)k-gram的頻率進行過濾,閾值設為30,最終得到了2 172 324個候選k-gram。其中,中文分詞、詞性標記、命名實體識別使用了阿里巴巴集團內(nèi)部的工具AliNLP。

為了評估不同方法的有效性,本文從候選k-gram中隨機采樣部分數(shù)據(jù)進行人工標注,用于模型訓練和評估??偣矘俗?00個樣本,其中,500個樣本用于評估,200個樣本用于訓練。本文采用了3人標注的方式,最終標注結果根據(jù)投票方式確定。對于有分歧的短語,選擇標數(shù)多的標注。本文實驗對比方法具體如下:

1)ClassPhrase:該方法基于詞的頻率、協(xié)同性特征、完整性特征和信息量特征等統(tǒng)計特征來評估短語的質量,其為Co-Phrase中的統(tǒng)計模型部分。

2)AutoPhrase[19]:該方法是目前效果較好的短語挖掘方法,其使用了正例和無標注樣本學習的訓練框架來避免人工標注成本,同時融合基于詞性標記的短語切分模型和統(tǒng)計模型進一步提升短語挖掘效果。

3)Co-Phrase:即本文提出的基于實體標記和詞性標記的深度短語分類模型,其使用協(xié)同訓練的短語挖掘框架,迭代優(yōu)化語義增強模型和統(tǒng)計特征模型的性能,并采用Stacking方法集成2個分類模型的結果。

實驗使用精確率(Precision)、召回率(Recall)、F1和PR_AUC來評估結果。其中,精確率反映模型預測為正樣本的數(shù)據(jù)中真實正樣本的比例,召回率反映模型預測為正樣本的真實正樣本占所有正樣本的比例,F1同時考慮Precision和Recall,PR_AUC是Precision-Recall曲線下的面積,其能綜合反映分類器的性能。

3.2 結果對比

表2所示為不同方法在淘寶查詢語料上的Precision、Recall、F1和PR_AUC值。圖4所示為不同方法在淘寶查詢語料上的Precision-Recall曲線。從表2可以看出,由于ClassPhrase只考慮了統(tǒng)計特征,在淘寶語料上容易學習到反序表達,因此其性能最弱;AutoPhrase雖然在ClassPhrase的基礎上引入了基于詞性標記的短語切分模型,能間接檢測出部分反序表達,但在PR_AUC上提升較少;本文模型使用了基于實體標記和詞性標記的語義模型,能夠有效檢測出反序表達,使得Precision達到76.5%,且F1和PR_AUC分別達到71.0%和78.7%,即本文短語挖掘框架在電商領域文本中的Precision、F1和PR_AUC相比對比方法均有明顯提升。

表2 3種方法在淘寶查詢語料上的評估結果

圖4 3種方法在淘寶查詢語料上的Precision-Recall曲線

3.3 迭代效果分析

協(xié)同訓練初始訓練樣本為200個,每次迭代增加100個偽標注樣本,迭代5輪,評估統(tǒng)計特征模型(FC)和語義增強模型(SC)的F1值變化情況,結果如圖5所示。

圖5 2種模型F1值隨迭代次數(shù)的變化曲線

從圖5可以得出:

1)統(tǒng)計特征模型和語義增強模型的性能在前幾輪迭代中都快速增長,這說明協(xié)同訓練增加的樣本能夠有效提高模型的性能。在3輪迭代之后,由于偽標注樣本噪音的影響,模型性能增長逐漸平緩。

2)由于引入了實體標記序列特征,語義增強模型的效果要明顯優(yōu)于統(tǒng)計特征模型。

綜上,Co-Phrase的協(xié)同訓練過程能夠迭代優(yōu)化語義增強模型和統(tǒng)計特征模型的性能,降低人工標注數(shù)據(jù)的成本,此外,通過實體標記和詞性標記序列構建的語義增強模型在電商領域文本上取得了良好的效果。

3.4 模型集成效果分析

為了驗證基于Stacking的模型集成效果,本文對比不同模型的Precision-Recall曲線,結果如圖6所示。FC是統(tǒng)計特征模型,SC是語義增強模型,Co-Phrase是集成FC和SC的模型。FC、SC和Co-Phrase都使用迭代5輪之后的標注數(shù)據(jù)進行訓練。從圖6可以看出,Stacking方法能夠有效地集成不同模型的優(yōu)點,提升模型的整體效果。

圖6 3種模型性能對比結果

3.5 算法時空復雜度分析

本文短語挖掘方法的主要模塊及其時空復雜度分析如下:

2)候選短語特征抽取模塊:該模塊中詞性標記、實體標記和短語上下文特征抽取耗時較多。其中,詞性標記由于文本序列較短,時空復雜度為O(N),實體標記歧義較少,速度接近于字典法標記,時空復雜度也為O(N),短語上下文特征抽取的時空復雜度為O(kN)。因此,該模塊總時空復雜度為O(N)。

3)基于語義增強的短語挖掘模型:該模型基于雙向LSTM對候選短語進行分類,雙向LSTM的時間復雜度為O(w|U|),空間復雜度為O(|U|),其中,w是固定的模型參數(shù)個數(shù),而O(kN)=O(|U|),因此,該模塊的總時空復雜度為O(N)。

4)基于統(tǒng)計特征的短語挖掘模塊:該模塊使用隨機森林對候選短語進行分類和訓練。隨機森林在樹個數(shù)和深度固定的情況下,其時空復雜度為O(|U|)。因此,該模塊的總時空復雜度為O(N)。

5)模型集成模塊:該模塊在訓練基分類器時,時空復雜度是基于統(tǒng)計和基于語義的模型的線性疊加,時間復雜度為O(N)。在訓練元分類器時,使用邏輯回歸做分類,該分類器時空復雜度均為O(|U|),因此,該模塊總時空復雜度為O(N)。

上述各模塊的時空復雜度均為O(N),因此,本文模型框架總的時空復雜度為O(N),算法整體運行時間隨著數(shù)據(jù)量的增長而線性增加,即本文算法具備大數(shù)據(jù)處理的可行性。

4 結束語

本文研究電商圖譜中存在的語料反序問題,提出一種基于實體標記與詞性標記序列的語義增強模型,并針對電商領域語料標注樣本成本過高的不足,構建語義增強模型和統(tǒng)計特征模型的協(xié)同訓練框架,以降低對人工標注的要求。在此基礎上,利用基于Stacking的模型集成方法,整合語義增強模型和統(tǒng)計特征模型,提升模型最終的短語挖掘效果。實驗結果表明,該模型的精確率和召回率較高,在淘寶查詢語料上取得了良好的短語挖掘效果。下一步將優(yōu)化基于語義的短語挖掘模型,引入單詞本身的信息,并更好地整合語義特征和統(tǒng)計特征,以高效評估短語的質量。

猜你喜歡
分類器短語語義
語言與語義
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權空-譜與最近鄰分類器相結合的高光譜圖像分類
結合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
通辽市| 许昌县| 清徐县| 临清市| 扎兰屯市| 南投县| 寿阳县| 山阳县| 梧州市| 阳山县| 秦皇岛市| 永川市| 红原县| 祁连县| 吉林市| 松溪县| 玛纳斯县| 揭阳市| 南充市| 班戈县| 平罗县| 广灵县| 嘉义县| 个旧市| 安庆市| 石河子市| 仲巴县| 平湖市| 蓝田县| 株洲市| 静乐县| 平顶山市| 工布江达县| 黔江区| 廊坊市| 莱西市| 攀枝花市| 盈江县| 田林县| 汨罗市| 凉城县|