国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GloVe詞向量的“技術(shù)

2019-04-20 08:09吉久明施陳煒李楠
現(xiàn)代情報(bào) 2019年4期

吉久 明施 陳煒 李楠

摘要:[目的/意義]本文探討挖掘技術(shù)和應(yīng)用間的關(guān)聯(lián)關(guān)系,便于把握技術(shù)的目標(biāo)應(yīng)用場(chǎng)景和了解應(yīng)用需求的可選技術(shù)方案,為技術(shù)轉(zhuǎn)化提供基礎(chǔ)。[方法/過程]首先,建立基于改進(jìn)GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)模型,提出改進(jìn)詞向量的算法;然后,以機(jī)器學(xué)習(xí)技術(shù)為例,獲取該領(lǐng)域?qū)W術(shù)論文文摘數(shù)據(jù),預(yù)處理后建立訓(xùn)練文本集合,再使用改進(jìn)GloVe模型訓(xùn)練獲得詞向量;最后,對(duì)詞向量聚類獲得“技術(shù)”和“應(yīng)用”類詞匯集,通過共現(xiàn)獲得兩者之間的關(guān)聯(lián)并分析。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)GloVe模型后訓(xùn)練的詞向量性能獲得提升,聚類效果好,最終實(shí)現(xiàn)“技術(shù)——應(yīng)用”的關(guān)聯(lián)分析。

關(guān)鍵詞:詞向量;GloVe模型;文本聚類;共現(xiàn)分析

DOI:10.3969/j.issn.1008-0821.2019.04.002

〔中圖分類號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)04-0013-10

Research on“Application-Technology”Discovery Based on

GloVe Word Representation

Ji JiumingShi ChenweiLi NanKang Jian

(Institute of Science and Technology Information,East China University of Science and Technology,

Shanghai 200237,China)

Abstract:[Purpose/significance]The purpose of this paper was to mine the relationship between applications and technologies,and to know applications of technologies and optional technologies of applications,and provide the base for technology transformation.[Method/Process]Firstly,established an“application-technology”discovery model based on improved GloVe word vector and improved the word vector training algorithm.Then,collected academic literature abstracts in the field of machine learning,built the training text set after preprocessing,and used the improved GloVe model to obtain the word vector;finally,clustered the word vector to obtain the“application”and“technology”vocabulary sets,and acquired the relationship between them to analyze the cooccurence.[Result/Conclusion]The experimental results showed that the performance of the word vector obtained by the improved GloVe model was better,the clustering effect was good,and the correlation analysis of“application-technology”was finally realized.

Key words:word vector;GloVe model;text clustering;co-occurrence analysis

在人類歷史發(fā)展的長(zhǎng)河中,“技術(shù)”從來都是為“應(yīng)用”服務(wù)的,沒有應(yīng)用需求,就沒有技術(shù)。但由于“技術(shù)”開發(fā)往往存在一定的門檻,很難一蹴而就,因此存在技術(shù)迭代現(xiàn)象,針對(duì)同一“應(yīng)用”會(huì)開發(fā)多項(xiàng)“技術(shù)”(本文對(duì)于同一“技術(shù)”的各種升級(jí)改造視為不同的技術(shù),如,同一種人臉識(shí)別算法的不同優(yōu)化或各種不同的人臉識(shí)別算法)。因此,“技術(shù)”與“應(yīng)用”不僅只有一一對(duì)應(yīng)的關(guān)系。某項(xiàng)“技術(shù)”可以同時(shí)滿足多項(xiàng)“應(yīng)用”需求,如深度學(xué)習(xí);還有一些“技術(shù)”最初只是為了滿足少數(shù)的“應(yīng)用”需求而開發(fā),后來衍生出更多的應(yīng)用,如互聯(lián)網(wǎng)起初僅用于軍事,逐漸成為改變世界的技術(shù)。

對(duì)于專業(yè)技術(shù)人員而言,如果某項(xiàng)較復(fù)雜的“應(yīng)用”僅有少量“技術(shù)”與之對(duì)應(yīng),則表明該項(xiàng)“應(yīng)用”的技術(shù)機(jī)會(huì)較多。而對(duì)于技術(shù)投資方而言,一對(duì)一或多對(duì)一的“技術(shù)——應(yīng)用”關(guān)系分別表明某項(xiàng)“應(yīng)用”市場(chǎng)的成熟度不夠或者基本成熟;為滿足少數(shù)人的“需求”而開發(fā)的“技術(shù)”往往預(yù)示著該應(yīng)用當(dāng)前為高端市場(chǎng);處于初期且能同時(shí)滿足多項(xiàng)“應(yīng)用”需求的某項(xiàng)“技術(shù)”的投資價(jià)值必然很高。對(duì)于應(yīng)用需求方而言,如果存在多項(xiàng)技術(shù)可供選擇,則能降低技術(shù)選擇成本,最大程度避免因技術(shù)缺陷導(dǎo)致的損失。因此挖掘各類文獻(xiàn)(主要包括學(xué)術(shù)論文和專利文獻(xiàn))中的“技術(shù)”與“應(yīng)用”對(duì)應(yīng)關(guān)系,可以為技術(shù)研究和投資提供相應(yīng)的情報(bào)。挖掘此類關(guān)聯(lián)關(guān)系的難點(diǎn)主要在于:“技術(shù)”和“應(yīng)用”的文本距離有時(shí)候并非很近,且自然語言表達(dá)隨意,存在名稱不規(guī)范的情況,很難采用常規(guī)的“規(guī)則”匹配法。

因此,本文擬采取以下方案挖掘?qū)W術(shù)文獻(xiàn)文本中的“技術(shù)”與“應(yīng)用”關(guān)聯(lián):先將文獻(xiàn)文本向量化,再聚類找出其中的“技術(shù)”和“應(yīng)用”詞匯,最后使用共現(xiàn)分析法發(fā)現(xiàn)它們的關(guān)聯(lián)關(guān)系。本文以機(jī)器學(xué)習(xí)領(lǐng)域?yàn)槔?yàn)證改進(jìn)算法的有效性,并做了“技術(shù)——引用”發(fā)現(xiàn)的實(shí)證。

1文獻(xiàn)綜述

盡管“技術(shù)——應(yīng)用”關(guān)聯(lián)分析的研究?jī)r(jià)值巨大,但目前已有的“技術(shù)——應(yīng)用”關(guān)聯(lián)研究較少,最相關(guān)的是“技術(shù)——功效”的關(guān)聯(lián)分析研究。陸佳偉等[1]引入技術(shù)——功效導(dǎo)向的領(lǐng)域本體規(guī)范輔助完成技術(shù)功效圖,其中,功效詞與技術(shù)詞由人工整理獲得。翟東升等[2]使用TF-IDF和模式匹配的方法實(shí)現(xiàn)技術(shù)和功效詞的抽取,然后通過數(shù)據(jù)倉庫技術(shù)實(shí)現(xiàn)技術(shù)功效圖的挖掘和對(duì)具體專利進(jìn)行識(shí)別。許海云等[3]通過專家指導(dǎo)的方式獲得技術(shù)主題和功效主題,進(jìn)而通過2模網(wǎng)絡(luò)分析識(shí)別相似的核心專利或核心簇。Cheng T Y[4]使用國(guó)際專利分類號(hào)劃分技術(shù)特征詞,進(jìn)而構(gòu)建技術(shù)功效矩陣。Kuotsan[5]以UPC專利分類中的名稱作為技術(shù)名,待解決的技術(shù)問題作為功效詞,提出一種基于大數(shù)據(jù)和云平臺(tái)的技術(shù)功效矩陣構(gòu)建框架。這些研究以技術(shù)及技術(shù)的功效作為研究對(duì)象,通過構(gòu)建技術(shù)功效共現(xiàn)矩陣實(shí)現(xiàn)關(guān)聯(lián)分析。

本文的“技術(shù)——應(yīng)用”關(guān)聯(lián)分析與“技術(shù)——功效”分析類似,也可以使用共現(xiàn)矩陣實(shí)現(xiàn)關(guān)聯(lián),但兩者也存在不同。從定義上看,“應(yīng)用”相比“功效”更宏觀、更抽象。從詞的表述上看,應(yīng)用詞一般為獨(dú)立詞的組合,如“語音識(shí)別”、“機(jī)器翻譯”,而功效詞的表述更多為短句,如“提高穩(wěn)定性”、“安裝操作方便”等,這也使得應(yīng)用詞的提取與功效詞不同,前者的抽取更自動(dòng)靈活,后者需要更多的人工參與。從關(guān)注重點(diǎn)來看,“技術(shù)——功效”的分析重在評(píng)估技術(shù)在功效上的差異,而本文研究的“技術(shù)——應(yīng)用”重在發(fā)現(xiàn)技術(shù)與應(yīng)用之間的關(guān)聯(lián)。綜上所述,“技術(shù)——功效”需要保證共現(xiàn)詞的有效性和準(zhǔn)確性,人工參與度高,構(gòu)建的共現(xiàn)矩陣維度較小;而“技術(shù)——應(yīng)用”的目的是盡可能發(fā)現(xiàn)更多共現(xiàn)詞間的關(guān)聯(lián),需要構(gòu)建更大的共現(xiàn)矩陣,對(duì)自動(dòng)化的要求高。因此,對(duì)于本文的研究,自動(dòng)化處理相關(guān)的詞向量技術(shù)和聚類方法是較好的選擇。

本文研究的對(duì)象形式是文本。文本是一類特殊的符號(hào)數(shù)據(jù),使用獨(dú)立字符的自然語言表示。自然語言是經(jīng)過人類抽象處理的數(shù)據(jù),含有豐富的語義信息。最初使用基于邏輯、規(guī)則及本體等符號(hào)化的方式處理,但由于歧義性和可變性等特點(diǎn),逐漸被基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法替代。早期的機(jī)器學(xué)習(xí)處理算法有感知機(jī)[6]、線性支持向量機(jī)[7]、邏輯回歸[8]等,但都在稀疏特征向量上訓(xùn)練,容易陷入維數(shù)災(zāi)難[9]。從20世紀(jì)90年代開始,隨著計(jì)算能力的發(fā)展,統(tǒng)計(jì)語言模型出現(xiàn)并受到關(guān)注,并逐漸衍生出詞向量模型,如C&W[10],CBOW[11],Skip-gram[11],GloVe[12]等。

聚類是一種非監(jiān)督式的機(jī)器學(xué)習(xí)方法[14],是將對(duì)象集合分成由類似對(duì)象組合成多個(gè)類的過程。其依據(jù)的假設(shè)是同類之間的對(duì)象相似度高,不同類之間的對(duì)象相似度低。文本聚類,是一種將文本集合自動(dòng)歸類的過程[15]。由于沒有訓(xùn)練過程,也無須對(duì)數(shù)據(jù)預(yù)先標(biāo)注,操作過程簡(jiǎn)單且高效,因此受到廣泛使用。文本聚類通過相似度的差異對(duì)文本分類,將相似的文本歸并到一起。常用的聚類算法有基于劃分的方法(如K-means[16]),基于密度的方法(如DBSCAN[17]),基于層次的方法(如Birch[18])等。文本聚類主要針對(duì)非結(jié)構(gòu)化文本,需要考慮文本間的語義關(guān)聯(lián)等隱含信息的影響,首要任務(wù)是將無結(jié)構(gòu)的自然語言轉(zhuǎn)化為可計(jì)算的特征文本,即向量化表示。由于詞向量的訓(xùn)練簡(jiǎn)單,效果好,目前已成為文本聚類常用的向量化方法。

詞向量與文本聚類的結(jié)合使用在國(guó)內(nèi)外已有較多的案例。夏天[19]通過Word2vec將維基百科中文數(shù)據(jù)轉(zhuǎn)化為詞向量并聚類,將其詞向量的聚類結(jié)果應(yīng)用到TextRank的關(guān)鍵詞抽取中,改善了抽取效果。林江豪等[20]將新聞和微博文本通過Word2vec得到詞向量的模型,并用K-means聚類實(shí)現(xiàn)新聞評(píng)論話題的抽取,獲得了較好的實(shí)時(shí)話題分析研究結(jié)果。章程志等[21]將在線用戶評(píng)論轉(zhuǎn)化為詞向量表示,并對(duì)候選屬性詞集聚類,最后得到細(xì)粒度的產(chǎn)品屬性集。Nikfarjam等[22]將社交媒體中的非正式文本轉(zhuǎn)化成詞向量,再通過文本聚類的方式提取藥物的不良反應(yīng)以測(cè)試公共衛(wèi)生的監(jiān)測(cè)水平。Mac Kim等[23]將Twitter中的個(gè)人資料文本集向量化后聚類,并提出一種機(jī)器學(xué)習(xí)的方法檢測(cè)探查用戶的社會(huì)角色。

這些方法都是以Word2vec的CBOW或Skip-gram模型對(duì)文本進(jìn)行訓(xùn)練,獲得詞向量后進(jìn)行文本聚類,為下一步研究做準(zhǔn)備或直接分析聚類結(jié)果獲得結(jié)論。這兩個(gè)模型使用了上下文窗口內(nèi)的文本,精簡(jiǎn)了神經(jīng)網(wǎng)絡(luò)的隱藏層,有較高的運(yùn)行效率,可以在更大規(guī)模的語料上訓(xùn)練詞向量,但本身對(duì)語義捕獲的能力也有所降低[24]。相比之下,GloVe融入了全局的先驗(yàn)統(tǒng)計(jì)信息,可以加快模型的訓(xùn)練速度,又可以控制詞的相對(duì)權(quán)重,更加靈活[25]。

綜上所述,本文以學(xué)術(shù)論文為研究文本,使用詞向量和文本聚類相結(jié)合的方式獲取“技術(shù)”和“應(yīng)用”詞匯,再通過共現(xiàn)分析法挖掘“技術(shù)——應(yīng)用”關(guān)聯(lián)關(guān)系。本文以可操控性強(qiáng)、靈活度高的GloVe詞向量模型為基礎(chǔ),提出一種針對(duì)本研究改進(jìn)的算法。該算法通過優(yōu)化詞向量表示,獲得更好的“技術(shù)”和“應(yīng)用”詞聚類抽取,達(dá)到改進(jìn)“技術(shù)——應(yīng)用”的發(fā)現(xiàn)效果。

2研究方法

本文建立了基于改進(jìn)GloVe詞向量的“技術(shù)——應(yīng)用”發(fā)現(xiàn)模型,其研究流程如圖1所示,分為4個(gè)階段。在預(yù)處理階段,使用學(xué)術(shù)論文文摘作為數(shù)據(jù)來源,分離獲得標(biāo)題、摘要、關(guān)鍵詞文本,并結(jié)合關(guān)鍵詞提取的專業(yè)詞表進(jìn)行預(yù)處理(分詞,停用詞清洗,詞典規(guī)范化),獲得標(biāo)題和摘要文本集;在WS-GloVe模型構(gòu)建階段,使用新算法改進(jìn)GloVe模型優(yōu)化訓(xùn)練的詞向量,然后進(jìn)行相似度評(píng)價(jià);在K-means聚類階段,使用輪廓系數(shù)法獲得最佳分類數(shù)K,并進(jìn)行聚類性能評(píng)價(jià)和結(jié)果分析,再提取出“技術(shù)”和“應(yīng)用”類詞匯;在“技術(shù)——應(yīng)用”發(fā)現(xiàn)階段,以預(yù)處理后的摘要集為文本對(duì)兩類詞共現(xiàn)表示,并使用Gephi進(jìn)行網(wǎng)絡(luò)關(guān)聯(lián)可視化分析。

212文本位置結(jié)構(gòu)差異

目前,詞向量模型在應(yīng)用時(shí)習(xí)慣于“一視同仁”,即僅考慮文本表達(dá)的信息,忽視文本的一些附屬信息,如文本所處的位置。顯而易見,詞語(指有意義的實(shí)詞)出現(xiàn)在標(biāo)題和正文中的重要性不同。文章不同位置結(jié)構(gòu)的用詞是作者思考態(tài)度的體現(xiàn),往往表現(xiàn)為重要的詞會(huì)被安排在更突出的位置。對(duì)于正式的規(guī)范文本,如法律、專利、標(biāo)準(zhǔn)、論文文獻(xiàn),這種位置結(jié)構(gòu)的權(quán)重差異現(xiàn)象更為突出。

本文以學(xué)術(shù)論文為研究文本。詞向量模型訓(xùn)練要求是連續(xù)的長(zhǎng)文本,論文中涉及研究?jī)?nèi)容的長(zhǎng)文本結(jié)構(gòu)一般有標(biāo)題、摘要和正文,位置結(jié)構(gòu)權(quán)重逐級(jí)遞減。正文的篇幅大,但核心內(nèi)容少、噪音多,且獲取有難度,故本文研究不使用正文。摘要規(guī)范性強(qiáng)、篇幅小,是論文的核心內(nèi)容集合。而對(duì)于標(biāo)題,通過閱讀發(fā)現(xiàn),將應(yīng)用場(chǎng)景和重要技術(shù)的詞匯寫在標(biāo)題中是普遍現(xiàn)象,如“基于模糊支持向量機(jī)的軟件缺陷預(yù)測(cè)技術(shù)[26]”,“基于LDA模型的交互式文本主題挖掘研究——以客服聊天記錄為例[27]”等。標(biāo)題文本中出現(xiàn)的“技術(shù)”和“應(yīng)用”詞匯比摘要中出現(xiàn)的相應(yīng)詞匯更加重要,若將這種隱含的重要性信息添加到詞向量模型中,就能獲得優(yōu)化的詞向量。

213改進(jìn)算法

本文在GloVe模型的基礎(chǔ)上,提出一種基于文本位置結(jié)構(gòu)差異的改進(jìn)算法,獲得加權(quán)改進(jìn)后的新模型WS-GloVe(Weighted-Structure GloVe)。在本實(shí)驗(yàn)中使用了標(biāo)題和摘要兩種結(jié)構(gòu)差異性文本。根據(jù)GloVe模型的原理,需先構(gòu)建詞共現(xiàn)矩陣和計(jì)算全局詞頻。因此,可通過改變?cè)~頻統(tǒng)計(jì)方式來調(diào)整權(quán)重,從而達(dá)到加權(quán)改進(jìn)的目的。具體過程如下:

中心詞i語境下窗口內(nèi)所有詞的共現(xiàn)次數(shù),在摘要文本中如式(6)所示,在標(biāo)題文本中如式(7)所示,N為詞表中詞的數(shù)量。在本研究中,以核心文本數(shù)據(jù)摘要集的詞作為詞表源,忽略在標(biāo)題集中出現(xiàn)而摘要集中沒有的詞。

22K-means聚類

K-means[16]算法是典型的基于距離的聚類算法,以數(shù)據(jù)點(diǎn)到質(zhì)心距離作為優(yōu)化的目標(biāo)函數(shù),利用函數(shù)求極值的方法得到迭代運(yùn)算的規(guī)則。該算法基于k個(gè)初始質(zhì)心或均值的初始條件來確定類的數(shù)量,采用誤差平方和(式(13))作為聚類準(zhǔn)則函數(shù)。

SSE=∑ki=1∑xj∈Si(xj-ui)2(13)

其算法過程如下:

1)從N個(gè)數(shù)據(jù)點(diǎn)中隨機(jī)選取k個(gè)作為質(zhì)心。

2)對(duì)剩余的數(shù)據(jù)點(diǎn)測(cè)量其到每個(gè)質(zhì)心的距離,并分配至距離最近的簇。

3)設(shè)置簇內(nèi)所分配的數(shù)據(jù)點(diǎn)的均值為新質(zhì)心。

4)迭代2~3步驟直到新的質(zhì)心不再變化或小于閾值,結(jié)束迭代。

3實(shí)驗(yàn)及評(píng)價(jià)

31實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)平臺(tái)為Ubuntu 1604 TLS(64位),8G內(nèi)存,128G SSD硬盤,主頻32GHz。

編程語言為Python35,分詞處理使用了哈工大LTP工具包[28],WS-GloVe模型實(shí)現(xiàn)是在作者提供的GloVe工具包[29]的基礎(chǔ)上修改而成,相似度評(píng)價(jià)和聚類實(shí)現(xiàn)使用了Gensim和Scikit-learn包,共現(xiàn)網(wǎng)絡(luò)可視化使用了Gephi軟件。

32實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

本文選擇CNKI的期刊數(shù)據(jù)庫為數(shù)據(jù)來源,限定主題詞“機(jī)器學(xué)習(xí)”進(jìn)行主題檢索,從2000年至檢索時(shí)間2018年9月30日為止,檢索得到的相關(guān)發(fā)文量總數(shù)為5 389篇。通過人工識(shí)別和技術(shù)輔助,剔除不符合實(shí)驗(yàn)要求的文摘數(shù)據(jù)后,共獲4 957篇。

根據(jù)CNKI文摘數(shù)據(jù)的標(biāo)識(shí)符:標(biāo)題(T1),摘要(AB),關(guān)鍵詞(K1),通過編程自動(dòng)提取各自對(duì)應(yīng)的文本至標(biāo)題集、摘要集和關(guān)鍵詞集。利用關(guān)鍵詞集篩選后獲得專業(yè)詞典,調(diào)用哈工大LTP軟件包結(jié)合專業(yè)詞典對(duì)標(biāo)題集和摘要集分詞,去除停用詞等預(yù)處理后作為標(biāo)題文本語料與摘要文本語料待用。

33相似度評(píng)價(jià)

算法是機(jī)器學(xué)習(xí)技術(shù)中的核心部分,算法名稱是技術(shù)交流中的信息量較多、出現(xiàn)頻率較高的詞匯。因此,本文在測(cè)試中選取20個(gè)常用的算法名稱詞匯進(jìn)行相似詞的相似度計(jì)算,如表2所示。本文使用CBOW,GloVe,WS-GloVe詞向量模型分別進(jìn)行詞向量訓(xùn)練,并使用余弦相似度進(jìn)行度量,從側(cè)面評(píng)價(jià)詞向量表示的效果。

通過表3可以發(fā)現(xiàn),CBOW的余弦值均值均大幅高于其余兩者,但方差較大,范圍較小,準(zhǔn)確率較低。通過對(duì)CBOW的其他詞向量余弦值測(cè)試比較,發(fā)現(xiàn)所有相關(guān)或不相關(guān)的詞匯的相似度都有很接近的余弦相似度,且相似詞的范圍極小,區(qū)分度差。本文分析,由于CBOW模型依賴于上下文窗口內(nèi)的詞匯建立,需要大量的文本確定相似程度,而本文的數(shù)據(jù)量較小,導(dǎo)致詞匯間的模式不清晰,對(duì)CBOW模型影響較大。GloVe及其改進(jìn)模型是結(jié)合上下文和全局詞頻統(tǒng)計(jì)建立的,在較少的文本數(shù)據(jù)下,相比能獲得更好的效果。實(shí)驗(yàn)結(jié)果表明,WS-GloVe模型與GloVe模型相比,各個(gè)指標(biāo)都獲得了提升,相似詞之間的相似性更高,區(qū)分度更好,在整體的性能上有所提升。

34K-means聚類

341選擇最佳K值

K-means聚類算法需預(yù)先確定分類數(shù)K,因此選擇恰當(dāng)?shù)腒值能帶來較好的聚類效果。本文使用輪廓系數(shù)法輔助選擇K值。輪廓系數(shù)的數(shù)值越大,分類效果越好。理論上需要選擇輪廓系數(shù)最大時(shí)的K值,從圖2看出,當(dāng)k=3時(shí)有較大的輪廓系數(shù),但是此時(shí)的SSE也較大(SSE越小,分類效果越好),結(jié)合兩者來看,當(dāng)k=5時(shí),SSE較小且下降趨緩,輪廓系數(shù)與k=4時(shí)相差不大,且k=6時(shí)降幅明顯。綜合比較分析,本文選擇k=5作為類簇?cái)?shù)。

342聚類性能評(píng)價(jià)

本文選擇外部指標(biāo)對(duì)聚類效果進(jìn)行評(píng)價(jià)[30]。根據(jù)聚類的外部指標(biāo)的要求,需先構(gòu)建參考模型分類,再根據(jù)參考分類與聚類結(jié)果進(jìn)行比較獲得4個(gè)變量值,最后獲得指標(biāo)的結(jié)果。如果參考模型有m個(gè)詞匯,需構(gòu)建樣本對(duì)數(shù)量為C2m。根據(jù)語料領(lǐng)域和特點(diǎn),結(jié)合專家意見,給定參考模型的詞及分類

圖2SSE和輪廓系數(shù)

為性能評(píng)價(jià)。從圖中簇1、3、4的集中度以及對(duì)于聚類的性能指標(biāo)綜合來看,對(duì)這3類詞匯的推測(cè)合理。圖3中上方框選的點(diǎn)集為類簇3,下方的為類簇1,對(duì)這兩類簇詞提取,分別篩選得到所需的“技術(shù)”和“應(yīng)用”類詞匯。

35“技術(shù)——應(yīng)用”發(fā)現(xiàn)

通過聚類提取獲得了“技術(shù)”類和“應(yīng)用”類的詞匯,經(jīng)過篩選規(guī)范后整理成技術(shù)詞表和應(yīng)用詞表。然后使用經(jīng)過預(yù)處理的摘要文本集作為共現(xiàn)文本,編寫共現(xiàn)程序構(gòu)建“技術(shù)——應(yīng)用”共現(xiàn)詞矩陣,最后使用Gephi進(jìn)行可視化。由于詞節(jié)點(diǎn)眾多,這里篩選去除共現(xiàn)頻次在2以下的詞節(jié)點(diǎn),并經(jīng)過調(diào)整后獲得結(jié)果,如圖4所示。藍(lán)色節(jié)點(diǎn)為技術(shù)方法,黃色節(jié)點(diǎn)為應(yīng)用場(chǎng)景,兩者之間的節(jié)點(diǎn)通過紅色的邊相連,頻次越大邊越寬。出于謹(jǐn)慎和技術(shù)的綜合考慮,未將同一技術(shù)的中英文進(jìn)行合并,需在最后整理分析階段進(jìn)行處理。

從圖4可知,通過Gephi的可視化,可以直觀地看到“技術(shù)”和“應(yīng)用”之間的關(guān)聯(lián)。中心部分的邊頻次權(quán)重大,節(jié)點(diǎn)應(yīng)用比較寬泛,如“人工智能”,“數(shù)據(jù)分析”等;邊緣的邊頻次小,節(jié)點(diǎn)應(yīng)用比較具體,如“圖像識(shí)別”、“異常檢測(cè)”、“垃圾郵件”等。從圖中提取幾個(gè)應(yīng)用場(chǎng)景為中心的子網(wǎng),得到這些應(yīng)用場(chǎng)景中所使用的技術(shù)方法,如表7所示;提取以技術(shù)方法為中心的子網(wǎng),得到這些技術(shù)的應(yīng)用場(chǎng)景,如表8所示。

4結(jié)束語

本文使用機(jī)器學(xué)習(xí)技術(shù)學(xué)術(shù)論文文摘作為研究文本,以GloVe詞向量模型為基礎(chǔ),提出一種基于文本位置結(jié)構(gòu)差異的加權(quán)改進(jìn)算法,并用改進(jìn)后的WS-GloVe模型獲得詞向量后,聚類提取“技術(shù)”和“應(yīng)用”類詞匯,最后使用共現(xiàn)方法對(duì)“技術(shù)——應(yīng)用”發(fā)現(xiàn)進(jìn)行關(guān)聯(lián)分析及可視化。經(jīng)過實(shí)驗(yàn)表明,在使用改進(jìn)方法后,詞向量的相似度測(cè)評(píng)效果更佳,聚類效果好,可以較好地分離出“技術(shù)”和“應(yīng)用”詞,最后實(shí)現(xiàn)“技術(shù)——應(yīng)用”的共現(xiàn)網(wǎng)絡(luò)與關(guān)聯(lián)分析。

目前,本文在較小文本數(shù)據(jù)量的情況下進(jìn)行實(shí)驗(yàn),下一步工作需要增加文本量,提升詞向量效果。而且,為控制詞匯數(shù)量,本文使用簡(jiǎn)單規(guī)則篩除了較多的詞匯,下一步需細(xì)化規(guī)則保留更多的詞匯,發(fā)現(xiàn)更多的“技術(shù)——應(yīng)用”關(guān)聯(lián),為技術(shù)轉(zhuǎn)化提供應(yīng)用場(chǎng)景的建議。在“技術(shù)——應(yīng)用”的發(fā)現(xiàn)部分,本文僅進(jìn)行了簡(jiǎn)單的挖掘分析,下一步可以借助圖論網(wǎng)絡(luò)相關(guān)算法進(jìn)一步進(jìn)行分析,發(fā)現(xiàn)更多的潛在關(guān)聯(lián)關(guān)系。

參考文獻(xiàn)

[1]陸佳偉,慎金花,張更平,等.基于領(lǐng)域本體的專利技術(shù)-功效文本挖掘方法——以MOCVD技術(shù)為例[J].價(jià)值工程,2018,37(2):245-248.

[2]翟東升,蔡力偉,張杰,等.基于專利數(shù)據(jù)倉庫的技術(shù)功效圖挖掘方法研究——以3D打印技術(shù)為例[J].現(xiàn)代圖書情報(bào)技術(shù),2015,(Z1):131-138.

[3]許海云,方曙.基于專利功效矩陣的技術(shù)主題關(guān)聯(lián)分析及核心專利挖掘[J].情報(bào)學(xué)報(bào),2014,33(2):158-166.

[4]Cheng T Y.A New Method of Creating Technology/Function Matrix for Systematic Innovation Without Expert[J].Journal of Technology Management & Innovation,2012,7(1):18-27.

[5]Kuotsan.A Quick Approach to Get a Technology-function Matrix for an Interested Technical topic of Patents[J].International Journal of Arts and Commerce,2013,2(6):85-96

[6]孟秀萍,蘇工兵,吳奇明,等.基于Halcon多層感知機(jī)的織物色差檢測(cè)研究[J].棉紡織技術(shù),2018,46(5):60-65.

[7]易校石.線性可分支持向量機(jī)的算法及應(yīng)用[D].重慶:重慶師范大學(xué),2018.

[8]Wagner H,Duller C.Bayesian Model Selection for Logistic Regression Models with Random Intercept[J].Computational Statistics & Data Analysis,2012,56(5):1256-1274.

[9]Rumelhart D E,Hinton G E,Williams R J.Learning Representations By Back-propagating Errors[J].Nature,1986,323(6088):399-421.

[10]Collobert R,Weston J.A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning[C]//International Conference on Machine Learning.ACM,2008:160-167.

[11]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].arXiv:1301.3781,2013.

[12]Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Conference on Empirical Methods in Natural Language Processing,2014:1532-1543.

[13]Kevin Lund,Curt Burgess,and Ruth Ann Atchley.Semantic and Associative Priming in High-dimensional Semantic Space[J].In Proceedings of the 17th Annual Conference of the Cognitive Science Society,1995,17:660-665.

[14]李秀霞,邵作運(yùn).“密度——距離”快速搜索聚類算法及其在共詞聚類中的應(yīng)用[J].情報(bào)學(xué)報(bào),2016,35(4):380-388.

[15]Sebastiani F.Machine Learning in Automated Text Categorization[J].ACM Computing Surveys,2002,34(1):1-47.

[16]Hartigan J A,Wong M A.Algorithm AS 136:A K-Means Clustering Algorithm[J].Journal of the Royal Statistical Society,1979,28(1):100-108.

[17]Ester M.A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[J].In Kdd,1996,96(34):226-231.

[18]Feng X J,Pan Q.The Algorithm of Deviation Measure for Cluster Models Based on the FOCUS Framework and BIRCH[C]//International Symposium on Intelligent Information Technology Application.IEEE Xplore,2008:44-49.

[19]夏天.詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017,1(2):28-34.

[20]林江豪,周詠梅,陽愛民,等.結(jié)合詞向量和聚類算法的新聞評(píng)論話題演進(jìn)分析[J].計(jì)算機(jī)工程與科學(xué),2016,38(11):2368-2374.

[21]周清清,章成志.在線用戶評(píng)論細(xì)粒度屬性抽取[J].情報(bào)學(xué)報(bào),2017,36(5):484-493.

[22]Nikfarjam,Azadeh,et al.Pharmacovigilance from Social Media:Mining Adverse Drug Reaction Mentions Using Sequence Labeling with Word Embedding Cluster Features[J].Journal of the American Medical Informatics Association,2015,22(3):671-681.

[23]Mac Kim,Sunghwan,Stephen Wan,and Cécile Paris.Detecting Social Roles in Twitter.Proceedings of The Fourth International Workshop on Natural Language Processing for Social Media,2016:34-40.

[24]來斯惟.基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究[D].北京:中國(guó)科學(xué)院大學(xué),2016.

[25]佚名.理解GloVe模型[EB].blog.csdn.net/u014665013/article/details/79642083,2018-03-21.

[26]程元啟,姚淑珍,譚火彬,等.基于模糊支持向量機(jī)的軟件缺陷預(yù)測(cè)技術(shù)[J].計(jì)算機(jī)工程與設(shè)計(jì),2018,39(9):2753-2757.

[27]李莉,林雨藍(lán),姚瑞波.基于LDA模型的交互式文本主題挖掘研究——以客服聊天記錄為例[J].情報(bào)科學(xué),2018,36(10):64-70.

[28]劉挺.語言云(語言技術(shù)平臺(tái)云)[EB].http://www.ltp-cloud.com,2018-08-09.

[29]Jeffrey Pennington,Richard Socher,Christopher D.Manning.GloVe:Global Vectors for Word Representation[EB].https://nlp.stanford.edu/projects/glove/,2018-09-05.

[30]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:198-199.

[31]Kaufman L,Rousseeuw P J,Massart D L,et al.Least Median of Squares:A Robust Method for Outlier and Model Error Detection in Regression and Calibration[J].Analytica Chimica Acta,1986,187(00):171-179.

(責(zé)任編輯:陳媛)

军事| 玉山县| 富平县| 五寨县| 阿瓦提县| 南溪县| 卢湾区| 和平区| 米易县| 乌兰县| 乌兰察布市| 靖宇县| 浠水县| 东兰县| 黎平县| 乌兰县| 札达县| 美姑县| 博爱县| 漳平市| 鸡东县| 尚义县| 乐山市| 绩溪县| 和田县| 嘉定区| 南岸区| 闻喜县| 四会市| 射阳县| 梓潼县| 康平县| 深圳市| 临夏县| 富阳市| 吉安县| 巧家县| 黄大仙区| 拜城县| 定安县| 靖安县|