国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

船舶資料快速批量著錄系統(tǒng)文本自動(dòng)標(biāo)引研究

2019-08-16 03:02:42馬曲立
艦船科學(xué)技術(shù) 2019年7期
關(guān)鍵詞:標(biāo)引批量分詞

馬曲立

(海軍工程大學(xué) 教研保障中心,湖北 武漢 430033)

0 引 言

在船舶設(shè)計(jì)、制造、維修等過(guò)程中,將會(huì)形成海量圖紙和技術(shù)文件、管理文件(簡(jiǎn)稱船舶資料)。如何管理和處理這些資料,實(shí)現(xiàn)有效識(shí)別、快速查詢、資源共享的目標(biāo),是擺在有關(guān)管理和技術(shù)人員面前的難題。信息化技術(shù)的發(fā)展使得數(shù)字化處理海量船舶資料成為可能。船舶資料分為紙質(zhì)和電子2 種,就數(shù)字化過(guò)程而言,前者只比后者多了掃描和識(shí)別2 個(gè)過(guò)程,其余過(guò)程(包括著錄、輸出、共享和管理等)都是一樣的。在這些過(guò)程之中,如何快速、簡(jiǎn)潔、準(zhǔn)確、有規(guī)律地開展著錄,是實(shí)現(xiàn)船舶資料數(shù)字化的關(guān)鍵。而著錄的重要前提則是文本的自動(dòng)標(biāo)引,只有通過(guò)自動(dòng)標(biāo)引技術(shù)提取、歸納、凝練船舶資料中關(guān)鍵的、典型的、有代表性的信息,才能實(shí)施有效的著錄和索引,從而實(shí)現(xiàn)真正意義上的數(shù)字化管理和共享。

1 船舶資料中文文本自動(dòng)標(biāo)引

自動(dòng)標(biāo)引是指計(jì)算機(jī)通過(guò)“閱讀”文獻(xiàn)的題名、摘要、關(guān)鍵詞、正文等信息,按照一定的規(guī)則或方法來(lái)抽取該文獻(xiàn)檢索標(biāo)識(shí)的過(guò)程[1]。目前,自動(dòng)標(biāo)引的規(guī)則或方法可分為語(yǔ)言分析、機(jī)器學(xué)習(xí)(即人工智能)和概率統(tǒng)計(jì)三類[2]。

語(yǔ)言分析方法試圖將自動(dòng)標(biāo)引納入語(yǔ)言學(xué)研究的范疇,利用語(yǔ)言學(xué)的原理和辦法來(lái)解決自動(dòng)標(biāo)引這個(gè)語(yǔ)言問(wèn)題,但準(zhǔn)確率較低、通用性較差。人工智能方法是自動(dòng)標(biāo)引研究的熱點(diǎn),也是重要的發(fā)展方向,但該方法必須基于較為完善和及時(shí)更新的知識(shí)庫(kù)、策略庫(kù)和訓(xùn)練庫(kù),才能充分發(fā)揮其優(yōu)勢(shì)。概率統(tǒng)計(jì)方法歷史比較悠久、研究比較充分,具有直觀性強(qiáng)、通用性好、易于實(shí)現(xiàn)等特點(diǎn),應(yīng)用較為廣泛和成熟。但也存在著不足:一是策略性不夠,僅僅依據(jù)詞頻開展工作,不考慮單詞出現(xiàn)的位置;二是準(zhǔn)確率不高,容易受到出現(xiàn)頻率高卻意義不大的虛詞、介詞、助動(dòng)詞等的影響;三是容易出錯(cuò),受限于已有的分詞系統(tǒng),對(duì)系統(tǒng)未納入的單詞,分詞效果不太理想,甚至出現(xiàn)錯(cuò)誤。

為此,綜合應(yīng)用人工智能和概率統(tǒng)計(jì)2 種方法。首先,建立知識(shí)庫(kù),將該庫(kù)掛于分詞系統(tǒng)的外圍,作為其補(bǔ)充,解決分詞出錯(cuò)的問(wèn)題;其次,建立策略庫(kù),解決虛詞、介詞、助動(dòng)詞等問(wèn)題,剔除這些無(wú)用詞;第三,建立訓(xùn)練庫(kù),依據(jù)一定的數(shù)學(xué)模型根據(jù)單詞出現(xiàn)的位置確定其權(quán)重。

文獻(xiàn)[3]描述了單詞t 在船舶資料d 中權(quán)重的計(jì)算方法:W(t,d)

從上述公式可以看出,該權(quán)重僅僅考慮了單詞出現(xiàn)的頻率,而未考慮出現(xiàn)的位置。實(shí)際上,某一個(gè)單詞處于船舶資料的不同位置,其意義是大不相同的。因此需要引入位置權(quán)重P 的概念,改進(jìn)和完善該公式??梢詫⒛骋淮百Y料分為題名、摘要、關(guān)鍵詞、標(biāo)題、首段、尾段、其余共7 個(gè)部分[1],設(shè)定各部分權(quán)重P,則算如下[4]:

根據(jù)上述2 個(gè)公式計(jì)算出權(quán)重并采取人工智能方法構(gòu)建專用的訓(xùn)練庫(kù)、策略庫(kù)和知識(shí)庫(kù)后,按照一定的流程和規(guī)則,即可對(duì)船舶資料實(shí)施自動(dòng)標(biāo)引。圖1為船舶資料自動(dòng)標(biāo)引流程圖。

如圖1 所示,將船舶資料分為電子和紙質(zhì)2 種,前者直接進(jìn)入自動(dòng)標(biāo)引階段;后者因?yàn)樾枰獢?shù)字化后才能進(jìn)行自動(dòng)標(biāo)引,所以還應(yīng)經(jīng)過(guò)前期處理階段。該階段主要由以下過(guò)程組成。1)掃描。將紙質(zhì)文件變成數(shù)字化標(biāo)量文件。2)矢量化。將標(biāo)量文件轉(zhuǎn)換成矢量文件,以便于開展編輯、識(shí)別等工作。3)二值化。將矢量文件中的圖形和文字分割開。4)文字識(shí)別。采用專門的文字識(shí)別系統(tǒng)對(duì)文字進(jìn)行識(shí)別。自動(dòng)標(biāo)引階段是需要重點(diǎn)關(guān)注的,由分詞、剔除無(wú)用詞和確定權(quán)重3 個(gè)過(guò)程組成:1)分詞。采用標(biāo)準(zhǔn)化分詞系統(tǒng)(比如Ictclas,Nlpir,Httpcws,Scws,phpanAlysis 等)將連續(xù)的字變成有意義的詞,同時(shí)借助于知識(shí)庫(kù)解決標(biāo)準(zhǔn)化分詞系統(tǒng)還暫未收入的新詞、專業(yè)詞匯等,避免出現(xiàn)太大的錯(cuò)誤。2)剔除無(wú)用詞。開發(fā)并及時(shí)更新策略庫(kù),依據(jù)該庫(kù)剔除掉出現(xiàn)頻率高但對(duì)標(biāo)引無(wú)用的虛詞、副詞、形容詞、介詞、助動(dòng)詞等。3)確定權(quán)重。按照一定的計(jì)算和規(guī)則,確定某一詞的位置權(quán)重。最后,輸出關(guān)鍵詞并將關(guān)鍵詞分類,其中關(guān)鍵詞分類可以依據(jù)標(biāo)準(zhǔn)分類詞庫(kù)(比如中國(guó)分類主題詞表)進(jìn)行,甚至可以生成主題詞與中圖分類號(hào)的對(duì)應(yīng)表。某些作者引入回歸系數(shù)的概念對(duì)學(xué)術(shù)期刊知識(shí)交流效率進(jìn)行評(píng)價(jià)[5],實(shí)際上的作用與權(quán)重相類似。

圖 1 船舶資料自動(dòng)標(biāo)引流程圖Fig. 1 Flow chart for auto index of ship drawing and file

2 自動(dòng)標(biāo)引結(jié)果的著錄

紙質(zhì)和電子2 種船舶資料的著錄都是在ISBD 和ACCR2 的規(guī)則下進(jìn)行的,但是側(cè)重點(diǎn)不同。前者的主要信息源是其本身,遵守規(guī)則按照分類習(xí)慣進(jìn)行著錄即可;后者的著錄則側(cè)重于對(duì)電子資源性質(zhì)的揭示和來(lái)源的鏈接[6]。自動(dòng)標(biāo)引結(jié)果的著錄主要有2 種方法:一是基于元數(shù)據(jù)的多媒體信息分類檢索,代表是DublinCore 元素;二是基于內(nèi)容的多媒體信息分類檢索,代表是MPEG7 標(biāo)準(zhǔn)接口。前者主要適用于電子文獻(xiàn)的著錄,后者主要通過(guò)定義一系列的方法和工具來(lái)描述和著錄多媒體內(nèi)容,起到檢索標(biāo)準(zhǔn)接口、方便計(jì)算機(jī)自動(dòng)分類檢索的目的[7]。

無(wú)論是紙質(zhì)還是電子船舶資料,也無(wú)論是基于元數(shù)據(jù)還是基于內(nèi)容的多媒體信息分類檢索,需要重點(diǎn)解決的是著錄的準(zhǔn)確性和效率問(wèn)題。而著錄的準(zhǔn)確性取決于自動(dòng)標(biāo)引的準(zhǔn)確性。要提高效率則應(yīng)在2 個(gè)方面開展工作:一是盡量減少人工干預(yù),讓計(jì)算機(jī)來(lái)完成相關(guān)工作;二是盡量避免單文著錄,應(yīng)利用數(shù)據(jù)庫(kù)、接口分析等技術(shù)對(duì)同類型、同專業(yè)、同性質(zhì)、同時(shí)間的船舶資料進(jìn)行批量著錄。

圖2 為快速批量著錄界面。該批量著錄的信息主要有文件名、文件序號(hào)、題名、主要責(zé)任者、文件大小、制作者、分類號(hào)、關(guān)鍵詞、描述、制作日期和類型等,另外還規(guī)定了全部、當(dāng)前路徑、選中行和從選中開始等批量范圍,以及全部字段、指定字段等批量著錄操作字段,還可以對(duì)著錄信息的完整性進(jìn)行校驗(yàn)。據(jù)初步測(cè)算,通過(guò)對(duì)近萬(wàn)張船舶資料的著錄實(shí)踐,該快速批量著錄方法可以顯著提高著錄效率。

圖 2 快速批量著錄界面Fig. 2 Interface of fast batch record

3 船舶資料數(shù)字化處理平臺(tái)

圖紙資料的數(shù)字化在地震模擬圖紙?zhí)幚淼阮I(lǐng)域應(yīng)用范圍較廣[8],船舶領(lǐng)域同樣如此。目前船舶資料來(lái)源復(fù)雜、種類繁多、分布分散,客觀上存在著使用效率不高、資源共享不夠、集中管理偏弱等現(xiàn)象。需要建立一個(gè)具有強(qiáng)大數(shù)字化處理能力、牢固信息安全能力、規(guī)范信息管理能力、海量數(shù)據(jù)管理能力和有效共享保障能力的數(shù)字化處理平臺(tái)。圖3 為船舶資料數(shù)字化處理平臺(tái)系統(tǒng)的主界面。

圖 3 船舶資料數(shù)字化處理平臺(tái)主界面Fig. 3 Main interface of digitalization system for ship drawing and file

數(shù)字化處理平臺(tái)由軟件和硬件兩部分組成。軟件包括掃描、矢量化、文字識(shí)別(含自動(dòng)標(biāo)引功能)、批量著錄管理、信息管理等模塊;硬件則包括B0 幅面的掃描儀和繪圖儀等。

4 結(jié) 語(yǔ)

綜合利用權(quán)重技術(shù)等實(shí)現(xiàn)了自動(dòng)標(biāo)引,能夠按照一定的規(guī)則從船舶資料中自動(dòng)選取具有代表性的關(guān)鍵詞等信息,用作檢索等管理之用。借助數(shù)據(jù)庫(kù)等信息技術(shù),研制出批量著錄系統(tǒng),極大地提高了著錄的效率。最后在自動(dòng)標(biāo)引和批量著錄的基礎(chǔ)上,研制出數(shù)字化處理平臺(tái)。該平臺(tái)對(duì)有效開展船舶資料的數(shù)字化及其管理大有益處。

猜你喜歡
標(biāo)引批量分詞
批量提交在配置分發(fā)中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
檔案主題標(biāo)引與分類標(biāo)引的比較分析
本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求
值得重視的分詞的特殊用法
本刊對(duì)來(lái)稿中關(guān)鍵詞標(biāo)引的要求
淺議高校網(wǎng)銀批量代發(fā)
基于AUTOIT3和VBA的POWERPOINT操作題自動(dòng)批量批改
考慮價(jià)差和再制造率的制造/再制造混合系統(tǒng)生產(chǎn)批量研究
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
曲水县| 白城市| 资溪县| 长丰县| 乐安县| 连山| 同仁县| 水城县| 洪泽县| 河北省| 濮阳县| 明星| 崇义县| 竹溪县| 光泽县| 阳新县| 河源市| 宣威市| 彰化县| 石河子市| 孝昌县| 龙川县| 宜城市| 常宁市| 郯城县| 齐齐哈尔市| 鄂州市| 泰兴市| 临潭县| 临澧县| 嵊泗县| 文化| 龙里县| 温州市| 宁陕县| 德安县| 噶尔县| 巩留县| 东丽区| 和林格尔县| 尚志市|