国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于fasttext 實(shí)現(xiàn)船舶工況點(diǎn)分類系統(tǒng)研究

2023-01-24 12:51陳浩天劉曉東
電子設(shè)計(jì)工程 2023年2期
關(guān)鍵詞:語料類別文檔

陳浩天,劉曉東,2

(1.武漢郵電科學(xué)研究院,湖北武漢 430070;2.武漢虹旭信息技術(shù)有限責(zé)任公司,湖北 武漢 430070)

截止到2021 年上半年,船舶領(lǐng)域的語料庫基本缺失,無法在互聯(lián)網(wǎng)、圖書館等公共資源區(qū)域有效獲得船舶領(lǐng)域的相關(guān)語料,也就無法實(shí)現(xiàn)船舶工況點(diǎn)自動(dòng)匹配。

現(xiàn)有的文本自動(dòng)匹配方法研究如傳統(tǒng)的知識(shí)工程分類[4],對(duì)時(shí)間維度消耗大,不滿足最后的自動(dòng)化處理需求;基于深度學(xué)習(xí)進(jìn)行分類處理[8]的算法在處理時(shí)對(duì)語料要求很大,模型的效果很大程度取決于語料的好壞,人們常用的Logistic算法以及SVM算法[11]都是如此。隨著詞向量的提出,深度學(xué)習(xí)算法逐漸進(jìn)入人們的視野,CBOW 模型[12]以及Skip-Gram 模型都能很好地對(duì)分布式詞向量模型進(jìn)行分類。

為了驗(yàn)證改進(jìn)C-fattext 算法在實(shí)驗(yàn)中可以提升效率,文中針對(duì)改進(jìn)C-fasttext 算法和在分類中常用的樸素貝葉斯算法、支持向量機(jī)算法和原始fasttext算法進(jìn)行對(duì)比,力求達(dá)到實(shí)驗(yàn)預(yù)期指標(biāo)。

1 分類算法相關(guān)原理

1.1 傳統(tǒng)分類步驟

傳統(tǒng)分類步驟大致可以分為四步,即文本獲取、文本預(yù)處理、特征詞提取、分類器選擇。

1.1.1 文本獲取

在船舶領(lǐng)域,目前,互聯(lián)網(wǎng)、圖書館等場(chǎng)所無法獲取有效的船舶資源,這為獲取語料造成了極大的影響,文中通過網(wǎng)絡(luò)爬蟲獲取大量船舶網(wǎng)站的新聞數(shù)據(jù)以及試驗(yàn)數(shù)據(jù),加上公司內(nèi)部船舶資料、船長提供的手冊(cè)資料等,將這些資料結(jié)合成為一個(gè)龐大的語料庫,進(jìn)而轉(zhuǎn)換為純文本語料庫。

1.1.2 文本預(yù)處理

在文本獲取中得到大量文本數(shù)據(jù)后,不能直接使用原始數(shù)據(jù)進(jìn)行后續(xù)實(shí)驗(yàn),原始文本數(shù)據(jù)中包含了大量垃圾信息與噪聲,這些垃圾信息與噪聲對(duì)后續(xù)需要進(jìn)行的分類工作沒有任何幫助,甚至在一定程度會(huì)起到相反的作用,對(duì)分類的速度、準(zhǔn)確率造成不同程度的干擾,導(dǎo)致試驗(yàn)分類結(jié)果不佳。因此,使用分詞、去停用詞、同義詞轉(zhuǎn)換等方法處理文本信息。

1.2 特征詞提取

一個(gè)工況點(diǎn)的主要內(nèi)容可以由其特征詞匯決定,通過這些特征詞匯完成工況點(diǎn)分類。目前特征提取算法已經(jīng)呈現(xiàn)多元化發(fā)展,例如TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文本頻率指數(shù))算法、TextRank 算法(基于圖的用于關(guān)鍵詞抽取和文檔摘要的排序算法)、互信息算法、信息熵算法等,這些算法都能滿足特征提取需求。文中選用TF-IDF 算法實(shí)現(xiàn)工況點(diǎn)分類任務(wù)的特征詞提取。

1.3 分類器選擇

文中使用fasttext 分類器,fasttext 分類器采用分層softmax 提高訓(xùn)練速度,在大量文本中取得更好的評(píng)分效果,其因速度快、準(zhǔn)確率高而被廣泛應(yīng)用在文本分類領(lǐng)域。

2 分類算法改進(jìn)

2.1 TF-IDF算法

詞頻TF 表示文本某個(gè)詞在前文本中出現(xiàn)的次數(shù)或者頻率,計(jì)算公式為:

逆文檔頻率IDF 代表一個(gè)詞在詞庫中出現(xiàn)的詞條的頻率:

TF-IDF 算法的核心思路為詞頻和逆文檔頻率的乘積:

2.2 TF-IDF算法改進(jìn)

為了避免因?yàn)槭褂肐DF 逆文檔頻率直接表示文本外部特征帶來的負(fù)面影響,可以在分詞之后,將處于設(shè)備部分,并且出現(xiàn)可以直接代表分類結(jié)果的詞匯,直接匹配上分類結(jié)果。例如,在分類“主機(jī)”類別時(shí),形如“No.1 主機(jī)轉(zhuǎn)速”在分詞之后會(huì)出現(xiàn)“主機(jī)”詞匯,可以直接將此工況點(diǎn)分類至“主機(jī)”類別中;在后續(xù)通過模型訓(xùn)練出類別后,可以使用此規(guī)則得到的結(jié)果直接覆蓋,提升因?yàn)槟P驼`差、參數(shù)設(shè)計(jì)不合理等因素造成的分類失誤。

在傳統(tǒng)的TF-IDF 算法中,增加一個(gè)能夠表示船舶的特定工況點(diǎn)庫,如果待對(duì)比工況點(diǎn)數(shù)據(jù)出現(xiàn)在此特定工況點(diǎn)庫中,則記錄系數(shù)ci,表示工況點(diǎn)中是否出現(xiàn)了符合特定工況的情況。如果出現(xiàn)在特定工況點(diǎn)庫中,則按照工況點(diǎn)中記錄的ci系數(shù)同式(3)中的Wi,j相乘,同時(shí)需要考慮到特征詞在同一類別,但不同文章之間的分布情況。在傳統(tǒng)的TFIDF 算法中,如果一個(gè)詞匯在某類別的文章中和另外一個(gè)詞匯出現(xiàn)在此類別的文章中的次數(shù)是相同的,則這兩個(gè)詞匯會(huì)獲得相同的TF-IDF 系數(shù)。然而,可能前面的詞匯在同種文章中的分布是均勻的,后者卻在小部分文章中大量出現(xiàn),那么前者詞匯的系數(shù)應(yīng)當(dāng)大于后者的系數(shù)。為了解決上述可能出現(xiàn)的情形,同步對(duì)對(duì)式(3)進(jìn)行更新,新增類內(nèi)系數(shù)aci,計(jì)算如下:

式中,tfij表示詞j在文檔i中的頻率,N表示文檔總數(shù)目,nj表示詞j出現(xiàn)的總文檔數(shù),nci表示詞j在類別c文檔中出現(xiàn)的文檔數(shù)目。通過對(duì)輸入文本的每個(gè)詞都進(jìn)行更改后的TF-IDF 算法計(jì)算,將其命名為C-TF-IDF 算法。

另外,單純添加一個(gè)系數(shù)仍然無法避免低頻詞條刪除問題,因?yàn)樵趬嚎s文檔時(shí),低頻向量詞條可能會(huì)被刪除,這樣就可能會(huì)忽略掉出現(xiàn)頻率不高,但是代表性、專業(yè)性很強(qiáng)的詞匯,使得改進(jìn)的C-TF-IDF算法性能在某些情況下大打折扣。

為使得對(duì)權(quán)重的處理更加合理,使用歸一化處理,以達(dá)到簡化計(jì)算的目的。使用歸一化作用于每個(gè)詞向量,標(biāo)準(zhǔn)化高頻詞匯和低頻詞匯權(quán)重,避免出現(xiàn)某詞匯出現(xiàn)次數(shù)過多或者過少而產(chǎn)生分布失衡的現(xiàn)象,同時(shí)也避免出現(xiàn)詞頻相差過大而影響分類效果。如此更改對(duì)權(quán)重的處理將更加有意義,再結(jié)合fasttext 算法,將C-fasttext 算法進(jìn)行更新。

C-fasttext 算法的計(jì)算步驟如下:

1)規(guī)則索引;

2)語料庫的收集以及文本預(yù)處理;

3)在原始詞序列中增加N-gram 特征;

4)使用創(chuàng)新后的C-TF-IDF 算法計(jì)算單個(gè)工況點(diǎn)結(jié)果aij;

5)根據(jù)得到的結(jié)果aij對(duì)目標(biāo)工況點(diǎn)權(quán)重進(jìn)行更新迭代計(jì)算;

6)進(jìn)行模型運(yùn)算。

2.3 fasttext算法

fasttext 算法原理從word2vec 順延而來,它們都擁有CBOW 模型類似的結(jié)構(gòu),即分為三層:①輸入層,主要為文本詞向量的輸入、特征的輸入等;②隱藏層,進(jìn)行相關(guān)參數(shù)計(jì)算、迭代;③輸出層,與word2cev不同的是,fasttext 算法是通過上下文預(yù)測(cè)類別,其輸出的是最終判斷的類別可能性。

2.4 fasttext算法改進(jìn)

fasttext 算法可以理解為帶監(jiān)督的分類模型,輸入的數(shù)據(jù)可以認(rèn)為是帶有參數(shù)系數(shù)的詞向量信息,在輸入之前加入一層憑借層,此層的主要作用是將得到的信息整合,刪除無用信息,保證數(shù)據(jù)的完整性與可靠程度。憑借層網(wǎng)絡(luò)拓?fù)鋱D如圖1 所示。

圖1 憑借層網(wǎng)絡(luò)拓?fù)鋱D

由于文中的應(yīng)用領(lǐng)域?yàn)榇邦I(lǐng)域,結(jié)合前文對(duì)于算法的改進(jìn),最終選擇的損失函數(shù)是交叉熵?fù)p失函數(shù):

一個(gè)批次中的損失函數(shù)計(jì)算公式如式(7)所示:

式中,yi表示實(shí)際類別的標(biāo)記,表示模型預(yù)測(cè)的類別標(biāo)記。

可以得出改進(jìn)后fasttext 算法實(shí)現(xiàn)流程如圖2所示。

圖2 改進(jìn)后fasttext算法實(shí)現(xiàn)流程圖

3 實(shí)驗(yàn)及分析

3.1 實(shí)驗(yàn)環(huán)境

文中試驗(yàn)環(huán)境為本地Windows10 家庭版操作系統(tǒng),Intel Core i5 處理器,使用的語言為Python3.7,實(shí)驗(yàn)采用的評(píng)判指標(biāo)為文本分類準(zhǔn)確率、召回率、F值,用于對(duì)比顯示結(jié)果。

3.2 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)使用數(shù)據(jù)集為船舶領(lǐng)域數(shù)據(jù)庫中已經(jīng)擁有的2 123 條工況點(diǎn)數(shù)據(jù),驗(yàn)證數(shù)據(jù)集為新船中選取的1 000 條工況點(diǎn),訓(xùn)練集中數(shù)據(jù)格式如圖3 所示。

圖3 訓(xùn)練集數(shù)據(jù)格式

3.3 評(píng)價(jià)方法

在自然語言領(lǐng)域,通常使用三種評(píng)估指標(biāo),分別為準(zhǔn)確率、召回率和F 值。

準(zhǔn)確率:準(zhǔn)確率表示模型預(yù)測(cè)為正樣本且實(shí)際為正樣本的比例,計(jì)算公式為:

召回率:召回率表示模型準(zhǔn)確預(yù)測(cè)為正樣本的數(shù)量占所有正樣本數(shù)量的比例,計(jì)算公式為:

F 值:可以理解為P和R的加權(quán)調(diào)和平均,計(jì)算公式為:

3.4 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證改進(jìn)的C-fasttext算法的分類能力,使用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測(cè)試,同時(shí)選擇樸素貝葉斯算法、SVM 算法、傳統(tǒng)fasttext算法同改進(jìn)的C-fasttext算法進(jìn)行對(duì)比。

為了數(shù)據(jù)能夠更加直觀顯示,使用折線圖表示不同類別工況點(diǎn)數(shù)目,如圖4 所示。

圖4 不同類別工況點(diǎn)數(shù)目

圖4 表明,在船舶領(lǐng)域中,六大主要類別出現(xiàn)概率差距不大,沒有出現(xiàn)某種類別過多或者過少的情況,其中壓載類工況點(diǎn)數(shù)目少是因?yàn)閴狠d類一般出現(xiàn)在其他類別的輔助類中,原始數(shù)據(jù)中單獨(dú)出現(xiàn)壓載類的情況并不多。在數(shù)據(jù)集中,每個(gè)類別占有總數(shù)據(jù)的比例為:主機(jī)類26.45%,艙室類18.14%,鍋爐類9.85%,氣缸類10.40%,壓載類5.03%,電力類30.12%。在分類判決中,實(shí)際還有一個(gè)其他類,其他類擁有出現(xiàn)極少或者特殊情況的工況點(diǎn),在分類階段暫時(shí)剔除,以免對(duì)分類結(jié)果產(chǎn)生影響。

圖5 給出了改進(jìn)C-fasttext 算法在船舶領(lǐng)域六大類中的分類結(jié)果。

圖5 改進(jìn)C-fasttext算法分類結(jié)果圖

四種分類方法準(zhǔn)確率結(jié)果如圖6 所示。

圖6 四種分類方法準(zhǔn)確率結(jié)果圖

由圖6 可知,文中提出的改進(jìn)C-fasttext 算法準(zhǔn)確率最高,高達(dá)91.59%;傳統(tǒng)的fasttext 分類算法的平均準(zhǔn)確率也處于領(lǐng)先地位,為88.27%;支持向量機(jī)算法處在較低水平,準(zhǔn)確率只有59.98%;樸素貝葉斯方法在準(zhǔn)確率上達(dá)到76.19%??梢钥闯觯瑢?duì)比樸素貝葉斯算法、支持向量機(jī)算法和原始fasttext 算法,改進(jìn)C-fasttext 算法在二分類任務(wù)中獲得了較好的評(píng)分,說明改進(jìn)是成功的。

在錯(cuò)誤控制方面,隨機(jī)抽取100 條數(shù)據(jù),查看分類結(jié)果,發(fā)現(xiàn)誤報(bào)率為3%,語料覆蓋率為97%,滿足最初控制誤報(bào)率不超過5%、語料庫覆蓋率超過95%的需求,得出基于fasttext 的船舶工況點(diǎn)分類研究算法滿足項(xiàng)目要求結(jié)論。

4 結(jié)論

為解決船舶領(lǐng)域工況點(diǎn)對(duì)比分類問題,提出基于fasttext 的改進(jìn)C-fasttext 算法,對(duì)特征提取方法中的TF-IDF 算法做出改進(jìn),使其在權(quán)重設(shè)置上更加符合工況點(diǎn)分類要求;對(duì)fasttext 算法在輸入層做出創(chuàng)新,指出其在應(yīng)用于工況點(diǎn)分類中的不足之處,提出的C-fasttext 算法在原有基礎(chǔ)之上進(jìn)行了改進(jìn),從而節(jié)省大量人力資源,匹配準(zhǔn)確率為91.59%,語料覆蓋率為97%,提出的C-fasttext 算法能夠完善對(duì)工況點(diǎn)的分類效果,滿足需求。

猜你喜歡
語料類別文檔
淺談Matlab與Word文檔的應(yīng)用接口
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
有人一聲不吭向你扔了個(gè)文檔
壯字喃字同形字的三種類別及簡要分析
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
西夏刻本中小裝飾的類別及流變
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
多類別復(fù)合資源的空間匹配
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
察哈| 嵊泗县| 青铜峡市| 龙井市| 铁力市| 察哈| 宁化县| 酒泉市| 循化| 登封市| 忻州市| 建瓯市| 辰溪县| 墨竹工卡县| 阳谷县| 永福县| 佛冈县| 贺州市| 常德市| 平顶山市| 岑溪市| 鄄城县| 望都县| 凤庆县| 德化县| 波密县| 益阳市| 满城县| 谷城县| 西城区| 常熟市| 宁阳县| 长顺县| 新晃| 营口市| 新田县| 普安县| 连山| 宁南县| 安岳县| 常山县|