国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機器學習的高校畢業(yè)論文課題信息分析方法

2021-04-27 02:39李路軍趙云崔榮一趙亞慧
關鍵詞:專業(yè)術語鄰域特征選擇

李路軍, 趙云, 崔榮一, 趙亞慧

( 延邊大學 工學院,吉林 延吉 133002 )

0 引言

撰寫畢業(yè)論文是檢驗本科生綜合運用所學專業(yè)知識分析和解決實際問題能力的一個重要環(huán)節(jié),也是高校實現(xiàn)人才培養(yǎng)目標的綜合性實踐教學的一個重要環(huán)節(jié)[1].為了更好地設計畢業(yè)論文課題,提高畢業(yè)論文水平,每個專業(yè)都需要詳細了解畢業(yè)論文的課題分布情況;但目前為止,國內對于畢業(yè)論文的相關研究大多僅限于論文內容本身.例如:李杰等[2]為了解我國安全科學與工程碩博士學位論文的研究主題分布、主題演化和研究方法,基于CNKI中國碩博論文數(shù)據(jù)庫的相關論文,采用關鍵詞詞頻分析和共詞分析的方法對上述內容進行了研究;付立宏等[3]通過對2008—2013年《圖書館學情報學》收錄論文的關鍵詞進行詞頻統(tǒng)計,分析了所收錄論文的研究重點、存在問題以及未來發(fā)展趨勢;曹樹金等[4]基于1958—2019年武漢大學信息管理學院不同歷史時期學術論文的研究內容,采用LDA主題模型和共詞分析法構建了一個主題抽取與演化的分析框架,并分析了該學院學術研究主題的演變.上述研究雖然有助于分析學科的發(fā)展趨勢,但難以提供各專業(yè)畢業(yè)論文課題的分布情況.因此,本文基于延邊大學計算機系2001—2019年的本科畢業(yè)論文課題信息文本,提出了一種基于機器學習的高校畢業(yè)論文課題信息分析方法,并通過實驗驗證了本文方法的有效性.

1 DBSCAN聚類算法

目前,機器學習中主要的聚類算法可分為劃分法[5]、層次法[6]、概率模型法[7]和密度法[8].其中,密度聚類算法是將各目標類簇看作是由一群被低密度區(qū)域分隔的稠密樣本點組成的,該算法的目的是過濾低密度區(qū)域,發(fā)現(xiàn)稠密樣本點.DBSCAN算法是一種典型的密度聚類算法,具有不受異常點的干擾和聚類效果穩(wěn)定的優(yōu)點,可以處理非凸數(shù)據(jù)集[9].因此,本文采用DBSCAN算法對論文課題的信息文本進行聚類分析,算法的實現(xiàn)過程為:

Step 1 掃描整個數(shù)據(jù)集,找到任意一個核心對象;對找到的核心對象進行擴充,尋找從該核心對象出發(fā)的所有與其密度相連的樣本點.

Step 2 遍歷上述核心對象的ε鄰域內的所有核心對象,并尋找與這些樣本點密度相連的點,直到沒有可以擴充的樣本點為止.

Step 3 重新掃描數(shù)據(jù)集(不包括之前尋找到的簇中的任何樣本點),尋找沒有被聚合的核心對象;重復Step 1—Step 2,對上述核心對象進行擴充,直到數(shù)據(jù)集中沒有新的核心對象為止.在數(shù)據(jù)集中,未包含在任何簇中的樣本點為噪聲點.

在DBSCAN算法中,給定對象半徑ε內的區(qū)域稱為該對象的ε鄰域,Minpts表示對象半徑ε內的區(qū)域包含的樣本點數(shù)目.若給定對象ε鄰域內的樣本點數(shù)目不小于Minpts,則稱該對象為核心對象.DBSCAN算法雖然具有無需預先指定簇數(shù)目的優(yōu)點,但是算法對所設置的ε鄰域和Minpts參數(shù)非常敏感,因此常常會導致聚類效果不理想.因此,為了提升聚類效果,需要引入合適的評價指標來確定超參數(shù).

2 畢業(yè)論文課題信息文本的表示與聚類

2.1 聚類分析流程

圖1 聚類分析流程圖

聚類分析流程如圖1所示,各環(huán)節(jié)的具體操作如下:

Step 1 預處理.收集、整理畢業(yè)論文課題信息文本數(shù)據(jù)集;對數(shù)據(jù)進行規(guī)范化、去重、刪除無關數(shù)據(jù)、分詞等預處理,以此獲得文檔集詞匯表V;最后從V中篩選出專業(yè)術語表T.

Step 2 特征選擇.統(tǒng)計V中的文檔頻率,以此獲得詞項的逆文檔頻率權值idf;利用idf值去除高覆蓋度和低覆蓋度詞匯,以保留專業(yè)術語詞,并確定特征詞集合:F={t1,t2,…,tM}.

Step 3 文本表示.統(tǒng)計F中的詞頻,以此獲得特征詞的tf值;利用詞項的idf值和專業(yè)術語因子確定特征詞的權值,并構造歸一化文檔向量.

Step 4 文本聚類.采用DBSCAN算法對文檔向量進行聚類;利用Rand指數(shù)評價聚類結果,并以此為依據(jù)確定超參數(shù).

Step 5 類簇描述.根據(jù)特征詞詞頻排位確定Top-K關鍵詞,并將其用作簇描述.

2.2 基于專業(yè)術語的特征選擇

向量空間模型(VSM)是文本挖掘領域中常用的一種模型,其功能是將文檔表示為術語向量.但由于向量空間維度過大會影響VSM模型的聚類性能,因此需要刪除非信息特征來進行空間降維.特征選擇是從原始特征中選擇出一些最有效的特征,其目的是最小化非信息特征的數(shù)量和最大化文本聚類算法的性能[10].目前,特征選擇常用的篩選規(guī)則有文檔頻率(DF)、互信息(MI)、信息增益(IG)和卡方檢驗(CHI)等[11].由于傳統(tǒng)的文檔頻率方法在進行特征選擇時僅考慮特征詞在類別中出現(xiàn)的頻率,并未考慮到特征詞在每篇文檔中出現(xiàn)的頻率以及專業(yè)術語的強代表性[12],因此本文提出一種基于逆文檔頻率和專業(yè)術語進行特征選擇的方法.該方法相對于傳統(tǒng)方法的具體改進內容如下:

1)適量刪除高覆蓋率的詞.能覆蓋大部分文檔的詞項(元語言詞項)通常不具備特征性,如“知識”、“領域”、“通過”、“熟練”等詞項.由于元語言詞項通常僅用于描述課題,不帶有課題的特征信息,因此刪除這些詞有助于降低特征維數(shù).去除高覆蓋率詞項thigh的判定條件為:

idf(thigh)

(1)

在式(1)中,當THidf_min= lg 10=1.0時,保留的特征詞至多能夠覆蓋文檔的10%.

2)適量刪除低覆蓋率的詞.僅能覆蓋極少數(shù)文檔的詞項通常不具備代表性,如“報文”一詞雖然在本文統(tǒng)計的論文課題信息文本中出現(xiàn)了8次,但都出現(xiàn)在同一篇文檔中.該詞項的idf值雖然很大,但由于該詞項僅出現(xiàn)在一篇文檔中;因此,刪除這些詞也有助于降低特征維數(shù).去除低覆蓋率詞項tlow的判定條件為:

idf(tlow)>THidf_max.

(2)

在式(2)中,當THidf_max= lgN,N為文檔總數(shù)時,可去除僅在一篇文檔中出現(xiàn)的詞項.

3)無條件保留專業(yè)術語詞.專業(yè)術語是課題信息文檔的價值體現(xiàn)之一,無論是高覆蓋率還是低覆蓋率的專業(yè)術語詞都必須保留,否則很可能會導致某些文檔的特征詞的個數(shù)為0.如果在保留專業(yè)術語詞的前提下,文檔的特征詞個數(shù)依然是0,則表明該文檔沒有專業(yè)性,應該從文檔集中刪除.

綜合上述條件可知,文檔中詞項t是特征詞的判定條件,可表示為:

term(t)&&(THidf_min≤idf(t)≤THidf_max),

(3)

(4)

2.3 特征權重的計算方法

基于詞頻-逆文檔頻率(TF-IDF)的計算方法是文本挖掘中計算權重的一種常用方法.該方法根據(jù)特征詞的頻率和逆文檔頻率來計算權重,若某特征詞的頻率很高,且僅出現(xiàn)在少量文檔中,則該特征詞對區(qū)分文檔具有重要作用,其表達式為:

ωi,j=tf(i,j)×idf(i,j)=tf(i,j)×lg(n/df(j)).

(5)

其中:ωi,j表示術語j在文檔i中的權重,f(i,j)表示術語j在文檔i中的詞頻,idf(i,j)是僅出現(xiàn)在少數(shù)文獻中的低頻率術語的增益因子,n是數(shù)據(jù)集的文檔數(shù)目,df(j)是包含術語j的文檔數(shù)目.

論文課題信息文本屬于短文本,其除了具有專業(yè)性強的特點,還具有特征分布稀疏的特點,因此傳統(tǒng)的權重計算方法不適用于論文課題信息文本.為此,本文引入專業(yè)術語因子來改進TF-IDF算法,以提高論文課題信息文本的聚類效果.改進的方式是通過賦予專業(yè)術語一個增益因子來突出其語義在文本中的重要性.本文對式(3)和式(4)進行改進得到如下的特征權重表達式:

tf_idf′(ti,dj)=(spec(ti)+1)×tf(ti,dj)×idf(ti),

(6)

其中spec(t)是增益因子,其表達式為:

(7)

非顯著特征分布是一個一維概率密度函數(shù),其所有特征的顯著性在初始化時通常被設置為0.5[13].本文為了突出專業(yè)術語詞的顯著性,為專業(yè)術語詞額外增加了0.5的一般顯著性增益.

2.4 算法的實現(xiàn)

首先對畢業(yè)論文課題信息文本進行聚類,得到不同的類簇;然后聚合每個類簇的所有關鍵詞,并提取每個類簇排名前5的頻繁關鍵詞.所提取的每個類簇排名前5的頻繁關鍵詞即為類簇描述詞.利用聚類獲得類簇描述詞的算法步驟如下:

Initialization(): /*初始化*/

for p=0,1,…,N-1 /*對所有文檔進行以下處理*/

doc_table[p].docID=p /*文檔進行編號*/

if |NearDoc(p)|≥MinPts /*文檔p的鄰域文檔數(shù)超過閾值*/

doc_table[p].doctype=1 /*文檔p為核心文檔*/

else

doc_table[p].doctype=0 /*文檔p為非核心文檔*/

endif

doc_table[p].visited=0 /*所有文檔尚未訪問處理*/

doc_table[p].labels=-1 /*所有文檔尚未歸類*/

endfor

for all doc_table[p].visited=0 /*對未訪問過的所有文檔做以下處理*/

if doc_table[p].doctype==1 /*如果當前文檔p是核心文檔*/

labels++ /*產生新簇*/

doc_table[p].labels=labels /*將文檔p劃入新的簇*/

ExpandCluster(p,labels) /*文檔p鄰域內的文檔并入本簇*/

doc_table[p].visited=1 /*標記文檔p已訪問*/

elseif q∈NearDoc(p)&&doc_table[q].doctype==0 /*文檔p鄰域中無核心文檔*/

doc_table[p].visited=1 /*文檔p為噪音文檔,不需再處理*/

endif /*循環(huán)結束時doc_table中標記了每個文檔所屬的簇號,負值為噪音文檔*/

endfor

ExpendCluster(p,labels): /*本函數(shù)把DBSCAN與核心文檔p密度相連的所有文檔劃入簇號為labels的簇*/

D=NearDoc(p) /*文檔p的鄰域文檔編號集*/

for all q in D /*集合D不空時取任意文檔q進行以下處理*/

if doc_table[q].visited=0 /*文檔q未處理*/

if doc_table[q].doctype=1 /*文檔q為核心文檔*/

D=D∪NearDoc(q) /*文檔q鄰域內所有文檔并入D中*/

endif

if doc_table[q].labels<0 /*文檔q尚未歸類*/

doc_table[q].labels=labels /*文檔q與p屬于同一簇*/

endif

doc_table[q].visited=1 /*文檔q已處理*/

endif

if doc_table[q].visited=1 /*若文檔q已處理*/

D=D-{q} /*從文檔集合D中刪除文檔q*/

endif

endfor /*本循環(huán)一直進行到集合D空為止,簇號為labels的簇產生完畢*/

NearDoc(p): /*本函數(shù)求文檔p的鄰域文檔編號集合*/

D={} /*文檔p的鄰域文檔集從空集開始*/

for q=0,1,…,N-1 /*掃描所有文檔進行以下處理*/

if dist[p][q]≤Eps /*發(fā)現(xiàn)p的鄰域文檔q*/

D=D∪{p} /*文檔q并入D*/

endif

endfor

return D

2.5 聚類評價指標

由于Rand指數(shù)可以度量兩個數(shù)據(jù)集之間的相似性,因此本文選擇Rand指數(shù)(RI)作為外部聚類評價指標,其表達式為:

RI=(a+d)/(a+b+c+d).

(8)

其中:a表示在Result(人工劃分的結果)和Predictor(聚類算法劃分的結果)中都為同一類的樣本對數(shù)目;b表示在Result中為同一類,但在Predictor中不是同一類的樣本對數(shù)目;c表示在Predictor中為同一類,但在Result中不是同一類的樣本對數(shù)目;d表示在Result和Predictor中都不為同一類的樣本對數(shù)目.Rand指數(shù)的上界為1,表示聚類結果與原始數(shù)據(jù)集的樣本分布完全一致;Rand指數(shù)的下界為0,表示聚類結果與原始數(shù)據(jù)集的樣本分布完全不一致:因此,可以根據(jù)RI值的最大原則來確定超參數(shù)的值.

3 實驗與分析

3.1 數(shù)據(jù)預處理

首先,對收集的課題信息文本(延邊大學計算機系2001—2019年的本科畢業(yè)論文和畢業(yè)設計,內容包括題目、設計目標、基本要求等)進行整理,得到896篇文檔;然后,將這些文檔構成聚類分析文檔集,并對聚類分析文檔集進行規(guī)范化、去重、刪除無關數(shù)據(jù)、分詞等預處理,以此獲得文檔集詞匯表并在其中篩選出專業(yè)術語表.部分原始數(shù)據(jù)集如表1所示.

表1 部分原始數(shù)據(jù)集

3.2 特征選擇

特征選擇時,首先使用傳統(tǒng)特征選擇方法在896篇論文課題信息文本中選取特征詞(共獲得了443個特征詞,其中包含專業(yè)術語詞244個,非專業(yè)詞199個);然后按本文提出的特征選擇改進方法將專業(yè)術語詞全部保留,并從非專業(yè)詞中挑選出52個高覆蓋率詞和27個低覆蓋率詞;最后刪除這些高覆蓋率詞和低覆蓋率詞,由此共得到364個特征詞.按上述方法選取特征詞后,特征詞匯表中的專業(yè)術語詞的占比由原來的50.56%提高到了61.54%,由此表明本文提出的特征選擇改進方法可有效提高特征詞匯表的專業(yè)性.

3.3 聚類分析

首先定義超參數(shù)ε=0.98,Minpts=3;然后根據(jù)所定義的參數(shù)對896篇論文課題信息文本進行聚類分析,由此得到類簇(56個);最后對所得的每個類簇的文檔數(shù)目進行統(tǒng)計,并提取每個類簇中頻次排名前5的關鍵詞,由此構成簇-關鍵詞表.所得的部分簇-關鍵詞見表2.由表2可以看出,不同的類簇也會出現(xiàn)相同的特征詞,如“C++”“面向對象”等.雖然很多專業(yè)領域所使用的基礎技術是相同的,但基礎技術相同并不代表專業(yè)領域相同,因此上述結果并不妨礙兩個類簇之間的相對獨立性.

表2 聚類分析得到的部分簇關鍵詞表

為了評估聚類效果,本文對896篇論文課題信息文本進行人工分類標注,并依據(jù)課題信息中所涉及到的理論、方法和技術等內容,構建22個不同的主題類,其分類統(tǒng)計結果和主題分布分別如表3和圖2所示.

表3 畢業(yè)論文課題的分類統(tǒng)計結果

圖2 畢業(yè)論文課題的分布圖

由表3可以看出,獲得的56個類簇分別代表56個主題,且同一主題內的文檔相似,同時提取出的關鍵詞與部分人工分類主題完全相對應,如“機器人”“數(shù)字信號處理類”等.由此表明,本文方法不僅可以為論文課題信息文本主題的劃分提供依據(jù),還可以直觀地展示每個類簇所包含的技術及專業(yè)知識.

3.4 超參數(shù)的確定

圖3為RI指數(shù)、簇數(shù)和噪聲數(shù)隨ε變化的曲線圖,圖4為RI指數(shù)、簇數(shù)和噪聲數(shù)隨Minpts變化的曲線圖.由圖3可知,ε對RI值的影響大于Minpts對RI值的影響,且當ε=0.98時RI值最大.由圖4可知,Minpts=3是類簇數(shù)目下降速度變緩的拐點,且此時RI值也較高.因此,本文將超參數(shù)確定為ε=0.98,Minpts=3.根據(jù)該參數(shù)計算得到的RI值為0.824,該結果表明本文的聚類效果與人工分類結果大體吻合[14].

圖3 RI指數(shù)、簇數(shù)和噪聲數(shù)隨ε變化的曲線

圖4 RI指數(shù)、簇數(shù)和噪聲數(shù)隨M inp ts 變化的曲線

4 結論

利用本文提出的基于逆文檔頻率和專業(yè)術語的特征選擇方法,對延邊大學計算機系2001—2019年的本科畢業(yè)論文課題信息文本進行了聚類分析.實驗結果表明,相比于傳統(tǒng)數(shù)據(jù)分析方法,本文方法不僅可以有效降低高覆蓋率和低覆蓋率詞的特征權重和有效提升專業(yè)術語的特征權重,還可以根據(jù)聚類評價指標來選取超參數(shù),其聚類效果與人工分類效果基本吻合.因此,本文研究方法可為評價和設計畢業(yè)論文課題提供有效的依據(jù).在今后的研究中,我們將考慮使用多種指標來確定超參數(shù)和采用多元因素的方法來提高特征選擇的準確性,以此進一步提高本文方法的有效性.

猜你喜歡
專業(yè)術語鄰域特征選擇
混合型數(shù)據(jù)的鄰域條件互信息熵屬性約簡算法
基于混合變鄰域的自動化滴灌輪灌分組算法
含例鄰域邏輯的薩奎斯特對應理論
基于數(shù)據(jù)庫的專業(yè)術語知識圖譜自動識別設計
看懂體檢報告,提前發(fā)現(xiàn)疾病
基于智能優(yōu)化算法選擇特征的網絡入侵檢測
美國航空中英文官網隱私政策翻譯對比分析
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護中的應用研究
一種多特征融合的中文微博評價對象提取方法