朱國進(jìn),李承前
(東華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,上?!?01620)
網(wǎng)絡(luò)知識資源表示學(xué)習(xí)模型
朱國進(jìn),李承前
(東華大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,上海201620)
隨著電子計算機(jī)技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)知識資源呈爆炸式增長,人們往往不能有效地獲取、利用所需的網(wǎng)絡(luò)知識資源。為了更好地利用網(wǎng)絡(luò)知識資源,需要應(yīng)用自動化、智能化的數(shù)據(jù)挖掘、信息提取方法。Web文檔作為網(wǎng)絡(luò)知識資源的一種載體,有著自然語言非結(jié)構(gòu)化的特點(diǎn),所以在運(yùn)用聚類、分類等挖掘技術(shù)進(jìn)行文本挖掘之前,需要將Web文檔轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法可以理解的格式,即將文本數(shù)據(jù)轉(zhuǎn)換成數(shù)值數(shù)據(jù)。針對現(xiàn)有常用文本表示方法的局限性,本文提出了一種基于命名實(shí)體和詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示學(xué)習(xí)模型。并在算法知識領(lǐng)域內(nèi)進(jìn)行實(shí)現(xiàn)與應(yīng)用探索,包括網(wǎng)絡(luò)解題報告的聚類和對網(wǎng)絡(luò)解題報告的搜索,實(shí)驗(yàn)結(jié)果顯示本文提出的方法在這些任務(wù)上取得了較好的效果。
文本表示;命名實(shí)體識別;條件隨機(jī)場;算法知識;詞向量
近年來計算機(jī)的普及和互聯(lián)網(wǎng)技術(shù)的飛躍發(fā)展使得信息的生產(chǎn)和傳播變得簡便快捷,大量的網(wǎng)絡(luò)知識資源開始涌現(xiàn)。顧名思義,網(wǎng)絡(luò)知識資源就是網(wǎng)絡(luò)中含有知識的信息資源,在互聯(lián)網(wǎng)上往往以網(wǎng)頁的形式出現(xiàn),在經(jīng)過爬取、預(yù)處理、正文提?。?]等過程之后,會以自然語言文本的形式存在,其中蘊(yùn)含有人們想要獲取的知識。例如,ACM國際大學(xué)生程序設(shè)計競賽(International Collegiate Programming Contest,ICPC)的解題報告就是這樣一種網(wǎng)絡(luò)知識資源,具體就是人們針對程序算法設(shè)計競賽中題目的解題心得記錄,其中包含了豐富的算法知識。在ACM參賽隊員的訓(xùn)練和數(shù)據(jù)結(jié)構(gòu)算法課程的教學(xué)中,往往有這樣的需求:需要通過一個知識點(diǎn)搜索相關(guān)的題目及其網(wǎng)絡(luò)解題報告,或者通過給定的一篇解題報告搜索在算法知識上相關(guān)的解題報告。例如希望通過搜索“動態(tài)規(guī)劃”這個知識點(diǎn)來從網(wǎng)絡(luò)獲得關(guān)于動態(tài)規(guī)劃的競賽題目的解題報告。
正因?yàn)榇嬖谥鲜龅姆N種需求,需要對網(wǎng)絡(luò)知識資源中的知識進(jìn)行挖掘,但目前自動化、智能化的數(shù)據(jù)挖掘技術(shù)往往都離不開利用機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,而此時首先發(fā)生的就是要將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為機(jī)器學(xué)習(xí)算法可以理解的形式。也就是說,在進(jìn)一步應(yīng)用機(jī)器學(xué)習(xí)算法之前,需要有一個網(wǎng)絡(luò)知識資源到文本再到數(shù)字向量表示的轉(zhuǎn)化過程。詞袋法(Bag of word,BOW)是表示一個文件的基本方法。該法重點(diǎn)是以文檔中的每個詞語的計數(shù)形成的頻率向量去表示文檔。這種文檔表示法則可稱為一個向量空間模型(VSM)[2]。但卻仍需指出,詞袋法/向量空間模型表示法有其自己的限制:表示向量的維度過高,損失了與相鄰單詞的相關(guān)性,而且也損失了文檔中詞語之間存在的語義關(guān)系。詞語加權(quán)方法用于分配適當(dāng)?shù)臋?quán)重給各個詞語,以增強(qiáng)文本分類的最終呈現(xiàn)[3-4]。Razavi等人使用潛在狄利克雷分布LDA(Latent Dirichlet Allocation)降低空間維度,從主題角度表示文檔,優(yōu)化了文檔表示質(zhì)量[5]。Jain等人使用小波擴(kuò)撒,在短文本表示上取得了不錯的表現(xiàn)[6]。Hsieh等人使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)詞向量的表示更趨完善地進(jìn)行文檔表示,在讀者情感分類任務(wù)上獲得了良好實(shí)效[7]。Harish等人用聚類之后的詞語頻率向量表示文檔,取得了較好的效果[8]。傳統(tǒng)的文本表示方法如One-Hot表示[2]和TFIDF(詞頻-逆文檔頻率)[9]常常只是簡單的詞頻統(tǒng)計,割裂了詞與上下文之間的聯(lián)系,具有一定局限性,不能很好地利用文本中的語法、語義信息。而流行的LDA主題模型雖然能一定程度反映文檔的主題結(jié)構(gòu),但卻不能有效表示文本中的知識。
針對以上問題,本文提出一種基于命名實(shí)體與詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示方法,能從知識的角度對網(wǎng)絡(luò)資源進(jìn)行表示,并且更好地利用文本的語法,語義信息,充分挖掘詞與上下文的關(guān)系。最后,利用本文所提出的模型方法,實(shí)現(xiàn)了網(wǎng)絡(luò)解題報告的聚類和搜索應(yīng)用,實(shí)驗(yàn)取得了較好的效果。
1.1命名實(shí)體識別
命名實(shí)體識別是信息提取的子任務(wù),意在從自然語言文本中尋找實(shí)體的位置和對實(shí)體進(jìn)行正確的分類。命名實(shí)體識別是許多自然語言處理應(yīng)用不可或缺的一部分,例如問答系統(tǒng),機(jī)器翻譯等。
傳統(tǒng)的通用命名實(shí)體識別任務(wù)主要是識別出待處理文本中三大類(實(shí)體類、時間類和數(shù)字類),七小類(人名、機(jī)構(gòu)名、地名、時間、日期、貨幣、和百分比)命名實(shí)體。領(lǐng)域命名實(shí)體識別是針對特殊的應(yīng)用領(lǐng)域與文本體裁中特定類型的命名實(shí)體,有產(chǎn)品名稱實(shí)體,基因名稱實(shí)體等相關(guān)的研究[10]。
命名實(shí)體識別基本上可分為3種方法:基于規(guī)則的、基于詞典的和基于統(tǒng)計的。其中,基于統(tǒng)計的條件隨機(jī)場模型(conditional random field,CRF)是由Lafferty在2001年提出的一種典型的判別式模型[11-12]。實(shí)現(xiàn)中,可在觀測序列的基礎(chǔ)上對目標(biāo)序列進(jìn)行建模,是給定一組輸入隨機(jī)變量條件下另一組輸出隨機(jī)變量的條件概率分布模型,條件隨機(jī)場的參數(shù)化一般模型為:
其中,x為觀測序列,y為標(biāo)記序列,Z(x)是歸一化因子,F(xiàn)為特征函數(shù),λ是需要訓(xùn)練學(xué)習(xí)的參數(shù)。模型常使用BFGS優(yōu)化算法進(jìn)行訓(xùn)練,解碼時用維特比算法輸出標(biāo)記序列。
條件隨機(jī)場模型既具有判別式模型的優(yōu)點(diǎn),又具有產(chǎn)生式模型考慮到上下文標(biāo)記間的轉(zhuǎn)移概率,以序列化形式進(jìn)行全局參數(shù)優(yōu)化和解碼的特點(diǎn),解決了其他判別式模型(如最大熵馬爾科夫模型)難以避免的標(biāo)記偏見問題。本文將規(guī)則和詞典作為一種特征與統(tǒng)計方法結(jié)合,使用條件隨機(jī)場模型應(yīng)用在知識實(shí)體識別中。
1.2詞向量
分布式表示(Distributed representation)最早是由Hinton在1986年的論文中提出的一種低維實(shí)數(shù)向量[13]。例如[0.792,-0.177,-0.107,0.109,-0.542,…],維度以50維和100維比較常見。Distributed representation用來表示詞,通常被稱為“Word Representation”或“Word Embedding”,中文譯稱“詞向量”[14]。這種表示法的優(yōu)點(diǎn)在于可以讓相似的詞在距離上更為接近,能體現(xiàn)出詞與詞之間、詞與上下文之間的相關(guān)性,從而反映詞之間的依賴關(guān)系。Bengio等人在2001年提出神經(jīng)網(wǎng)絡(luò)語言模型(NNLM),在用神經(jīng)網(wǎng)絡(luò)對N-gram語言模型實(shí)施建模過程的同時獲得詞向量。Mikolov等提出的Word2vec用CBOW模型和Skip-gram模型獲取上下文相關(guān)詞向量,對NNLM進(jìn)行了優(yōu)化,從而在大規(guī)模語料訓(xùn)練上處理得到了更好的性能和表示效果。綜合以上研究分析,本文將選用開源word2vec實(shí)現(xiàn)gensim作為實(shí)驗(yàn)工具進(jìn)行詞向量訓(xùn)練。
2.1模型總體框架圖
命名實(shí)體識別的條件隨機(jī)場模型可以通過對詞性特征和組合特征的選取,并優(yōu)質(zhì)利用文本中的語義和語法信息,從而高效識別并標(biāo)記出文本中的知識。詞向量作為一種深度學(xué)習(xí)的副產(chǎn)品,在神經(jīng)網(wǎng)絡(luò)對語言模型的建模過程中,獲得一種單詞在向量空間上的表示,與潛在語義分析(Latent Semantic Index,LSI)、潛在狄立克雷分配(Latent Dirichlet Allocation,LDA)的經(jīng)典過程相比[15],詞向量利用詞的上下文,語義信息更加地豐富,能夠更好地對詞進(jìn)行表示。所以,在本文中提出了一種基于命名實(shí)體和詞向量相結(jié)合的網(wǎng)絡(luò)知識資源深層表示學(xué)習(xí)模型,模型框圖如圖1所示。
圖1 模型總體框架圖Fig.1 General framework of the model
模型輸入為網(wǎng)絡(luò)知識資源,經(jīng)過爬蟲爬取、網(wǎng)頁正文提取等過程轉(zhuǎn)化為文檔集合。圖1的左半部分通過條件隨機(jī)場在訓(xùn)練語料的學(xué)習(xí)得到命名實(shí)體標(biāo)注器,從而提取文檔中人們所關(guān)心的知識實(shí)體。圖1的右半部分通過在領(lǐng)域語料上對神經(jīng)網(wǎng)絡(luò)skip-gram模型進(jìn)行訓(xùn)練獲得詞向量的良好表示,最后將兩者進(jìn)行加權(quán)平均,由此而獲得文檔的向量表示。
2.2模型的定義
本文以文檔中識別出的命名實(shí)體作為文檔特征,作為一個領(lǐng)域中定義的命名實(shí)體,其本身就是研究中想要獲取的知識。在該領(lǐng)域內(nèi),命名實(shí)體可以充分表示文檔的語義內(nèi)涵。下面給出定義:
經(jīng)過爬取,預(yù)處理的網(wǎng)絡(luò)知識資源轉(zhuǎn)化為文檔D可以表示為詞的集合,其中t代表文檔中的一個詞,n為文檔中詞的個數(shù):
經(jīng)過領(lǐng)域命名實(shí)體識別,由詞表示的文檔可以轉(zhuǎn)換為由命名實(shí)體表示的文檔D:
具體地,NE表示命名實(shí)體,m表示命名實(shí)體個數(shù),m<<n。而且,其中可能有重復(fù)的實(shí)體。
定義model為在領(lǐng)域語料上進(jìn)行了深度學(xué)習(xí)訓(xùn)練好的詞向量模型,其中d為一個維度,k為訓(xùn)練時規(guī)定的詞向量的維度數(shù)。
對文檔中識別出的每個命名實(shí)體對應(yīng)的詞向量進(jìn)行TFIDF(詞頻-逆文檔頻率,TF-IDF與實(shí)體在文檔中的出現(xiàn)次數(shù)成正比,與該實(shí)體在整個語料中的出現(xiàn)次數(shù)成反比)加權(quán)平均計算。計算公式如下所示:
其中,式(2)計算詞i在文檔j中的詞頻,ni,j指詞i在文檔j中出現(xiàn)的次數(shù),k代表文檔j中詞的總數(shù);式(3)計算詞i的逆文檔頻率,分子代表語料庫中的文檔總數(shù),分母代表包含詞i的文檔數(shù);最后將tf和idf相乘就得到了詞i在文檔j中的tfidf權(quán)重。
最終文檔D可以表示為公式(5)。數(shù)學(xué)描述如下:
其中,m代表文檔中的命名實(shí)體數(shù),DT指由詞表示的文檔。
經(jīng)過計算,文檔D最終表示為向量后,文檔之間的語義距離或者語義相似度就可以通過余弦相似度來度量。
本文在算法知識領(lǐng)域以網(wǎng)絡(luò)解題報告為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)資源表示實(shí)驗(yàn)。分為算法知識實(shí)體標(biāo)注器訓(xùn)練和算法知識領(lǐng)域詞向量訓(xùn)練2個部分。本文通過編寫爬蟲程序從CSDN,百度空間等知名博客網(wǎng)站抓取17 000余原始網(wǎng)頁。利用文獻(xiàn)[1]中所述的解題報告正文提取方法,將原始網(wǎng)頁進(jìn)行處理,得到只有解題報告正文的文本。
3.1算法知識實(shí)體標(biāo)注器訓(xùn)練
本文使用開源包CRF++作為命名實(shí)體識別工具,開源包jieba作為分詞工具,知識實(shí)體標(biāo)注器的訓(xùn)練流程如圖2所示。
本文定義了2種實(shí)體OJ,KNOWLEDGE分別代表解題報告中的在線評測系統(tǒng)(online judge)和算法知識,實(shí)體的標(biāo)注標(biāo)簽如表1所示。
接著從17 000篇經(jīng)過正文提取的文檔集中隨機(jī)選取400篇文檔、包含約90 000個句子作為待標(biāo)注集,使用開源的brat工具進(jìn)行標(biāo)注,OJ實(shí)體由淺粉色標(biāo)簽標(biāo)記,Knowledge實(shí)體由綠色標(biāo)簽標(biāo)記。
圖2 知識實(shí)體標(biāo)注器訓(xùn)練流程Fig.2 Knowledge entity tagging training process
表1 定義2種實(shí)體標(biāo)簽Tab.1 Define two entity Tags
接下來,將brat輸出的格式轉(zhuǎn)化為CRF++要求的輸出格式如表2所示,其中省略了幾列對應(yīng)下文介紹的各個特征,限于篇幅原因,表2中未標(biāo)示出來。
表2 CRF++輸入語料格式Tab.2 CRF++input data format
本文根據(jù)算法知識領(lǐng)域網(wǎng)絡(luò)解題報告的特點(diǎn),構(gòu)建了單詞特征、構(gòu)詞特征、指示詞特征、詞性特征、詞典特征和停用詞特征。并且編寫了特征模板[16],CRF++會利用特征模板將以上特征組合、計算轉(zhuǎn)化為數(shù)字向量,進(jìn)行CRF模型訓(xùn)練。最后選取了199篇文檔作為測試集,5折交叉檢驗(yàn)的結(jié)果如表3所示,從而得到了算法知識實(shí)體標(biāo)注器。
表3 CRF模型測試結(jié)果Tab.3 CRF model test results
3.2算法知識領(lǐng)域詞向量訓(xùn)練
本文使用17 000篇算法知識領(lǐng)域的網(wǎng)絡(luò)解題報告經(jīng)過分詞等預(yù)處理過程后作為word2vec的訓(xùn)練語料。一般認(rèn)為模型、語料、參數(shù)3方面會影響詞向量的訓(xùn)練,因?yàn)镾kip-Gram在小語料上有更好效果,所以本文詞向量訓(xùn)練選擇Skip-Gram模型。語料方面,傳統(tǒng)看法認(rèn)為語料越大越好,所有語料都集聚到一起,不管是什么內(nèi)容,語料越龐大,涵蓋的語義信息就越豐富,效果就越趨于理想。但是Lai等研究表明語料的領(lǐng)域更重要,領(lǐng)域選擇正確,可能只要1/10甚至1/100的語料,就能達(dá)到一個大規(guī)模泛領(lǐng)域語料的效果,有時候語料選取不當(dāng),甚至?xí)?dǎo)致負(fù)面效果(比隨機(jī)詞向量效果還差),文章還做了實(shí)驗(yàn),當(dāng)只有小規(guī)模的領(lǐng)域內(nèi)語料,而有大規(guī)模的領(lǐng)域外語料時,到底是語料越純越好,還是越大越好,在該文章實(shí)驗(yàn)中,結(jié)論是越純越好[17],與本文思路相吻合。訓(xùn)練時所用參數(shù)如表4所示。
表4 word2vec訓(xùn)練參數(shù)Tab.4 Training parameter
詞向量的訓(xùn)練結(jié)果如表5所示,展示了與“?!薄ⅰ皥D”、“DP”和“樹”等詞各自最相似的3個詞。其中與“DP”相似的詞看上去與詞“樹”有關(guān),但實(shí)際上,在算法知識領(lǐng)域卻與“DP”形成更多關(guān)聯(lián)。至此,獲得了算法知識領(lǐng)域語料上訓(xùn)練完成的詞向量模型model。
表5 詞與詞之間的相似度Tab.5 The similarity between words
3.3網(wǎng)絡(luò)解題報告表示的生成
最終網(wǎng)絡(luò)資源表示生成的流程圖如圖3所示。在得到算法知識實(shí)體標(biāo)注器與訓(xùn)練完成的詞向量模型之后,就可以計算知識實(shí)體在文檔中的TF-IDF權(quán)值,由于詞向量模型中的分詞過程不可能完美分割一些領(lǐng)域知識詞匯,就使得算法知識命名實(shí)體的詞向量表示需要由構(gòu)成該實(shí)體的詞對應(yīng)的詞向量合并而成,并且忽略一些無意義的符號,而命名實(shí)體的TFIDF值則選取構(gòu)成該實(shí)體的詞的TF-IDF的平均值。例如“動態(tài)規(guī)劃”這一KNOWLEDGE實(shí)體的詞向量即是由“動態(tài)”和“規(guī)劃”相加得到,并且取“動態(tài)”和“規(guī)劃”的TF-IDF平均值作為“動態(tài)規(guī)劃”的TF-IDF值。此后,經(jīng)過計算,一篇網(wǎng)絡(luò)解題報告就可以表示為100維的向量,如前文公式(5)所述。
圖3 表示的生成Fig.3 Generation of representation
4.1網(wǎng)絡(luò)解題報告的聚類
本文使用前文提出的方法將隨機(jī)選擇的199篇網(wǎng)絡(luò)解題報告轉(zhuǎn)化為特征向量(最初200篇,有1篇文檔為空,實(shí)際為199篇),并使用K-means算法進(jìn)行聚類,其中使用余弦相似度定義距離,而且只考慮算法知識實(shí)體。經(jīng)過多次試驗(yàn),選取不同的K-means初始簇數(shù)參數(shù),初始中心使用“Kmeans++”方法,該方法可實(shí)現(xiàn)初始中心各自彼此遠(yuǎn)離。實(shí)驗(yàn)結(jié)果如圖4所示,這里從眾多實(shí)驗(yàn)組中選擇4組,從左到右,至上而下分別是初始簇數(shù)為3、7、15、20的聚類結(jié)果展示。本文使用PCA(Principal Component Analysis)主成分分析將原100維的文本向量降維為2維向量,方便在二維坐標(biāo)上進(jìn)行可視化。圖中每種顏色色塊代表一種簇的邊界,每一個黑點(diǎn)是數(shù)據(jù)實(shí)例,白叉代表每個簇的中心點(diǎn)。
圖4 聚類實(shí)驗(yàn)結(jié)果Fig.4 Cluster experiment result
實(shí)驗(yàn)主要針對算法知識實(shí)體(KNOWLEDGE),而將OJ實(shí)體向量置為零向量,通過對聚類結(jié)果與原始文本進(jìn)行對照分析,簇數(shù)分別為15、20的聚類結(jié)果對于199篇解題報告來說有些過擬合,劃分類別過多、過細(xì),而簇數(shù)為3的聚類結(jié)果又有些欠擬合,分類則過少、過粗。最后,簇數(shù)為7的聚類結(jié)果與測試數(shù)據(jù)集有著較為吻合的分類邊界,見圖4右上角。聚類結(jié)果分析則如表6所示。
表6 初始簇數(shù)為7的聚類結(jié)果分析Tab.6 Clustering results
從表6可以看出,基于命名實(shí)體與詞向量的網(wǎng)絡(luò)知識資源表示方法在網(wǎng)絡(luò)解題報告的聚類上達(dá)到了一定效果。
4.2網(wǎng)絡(luò)解題報告的搜索
在ACM隊員的訓(xùn)練和數(shù)據(jù)結(jié)構(gòu)算法課程的教學(xué)中,往往有這樣的需求:需要通過一個知識點(diǎn)搜索相關(guān)的題目或者解題報告。例如希望通過搜索“動態(tài)規(guī)劃”來獲得關(guān)于動態(tài)規(guī)劃知識點(diǎn)的網(wǎng)絡(luò)解題報告。本次研究使用前文所述方法實(shí)現(xiàn)了通過知識點(diǎn)對網(wǎng)絡(luò)解題報告進(jìn)行搜索。
如表7所示,分別以“動態(tài)規(guī)劃”、“二分圖”、“二叉樹”為知識點(diǎn)進(jìn)行了搜索,該應(yīng)用默認(rèn)顯示了與知識點(diǎn)相似度最高的前3篇網(wǎng)絡(luò)解題報告的第一行,有些報告中雖然沒有關(guān)鍵字,但是報告對應(yīng)的題目是與知識名稱相關(guān)的知識點(diǎn)。
表7 算法知識點(diǎn)搜索Tab.7 Algorithm knowledge search
可以看出,通過本文提出的網(wǎng)絡(luò)知識資源設(shè)計模型表示的網(wǎng)絡(luò)解題報告的特征向量與關(guān)鍵詞的詞向量也有良好的相關(guān)性。
本文提出了一種基于命名實(shí)體與詞向量相結(jié)合的網(wǎng)絡(luò)知識資源表示學(xué)習(xí)模型,能夠從知識的角度對文本進(jìn)行解析,從而更趨充分、全面地利用文本的語法、語義等信息,也更加利于針對某個領(lǐng)域的文本進(jìn)行表示。本文以網(wǎng)絡(luò)知識資源表示方法為基礎(chǔ)在算法知識領(lǐng)域進(jìn)行了應(yīng)用探索,包括網(wǎng)絡(luò)解題報告聚類實(shí)驗(yàn)和網(wǎng)絡(luò)解題報告的搜索,實(shí)驗(yàn)結(jié)果顯示網(wǎng)絡(luò)知識資源表示方法在這些任務(wù)上有較為良好的效果。在未來工作中,希望能夠在更大語料,更廣的領(lǐng)域上進(jìn)行實(shí)驗(yàn),與其它文本表示方法進(jìn)行對比,進(jìn)一步研究探索深度學(xué)習(xí)框架的命名實(shí)體識別與詞向量聯(lián)合學(xué)習(xí)的方法。
[1]朱國進(jìn),鄭寧.基于自然語言處理的算法知識名稱發(fā)現(xiàn)[J].計算機(jī)工程,2014,40(12):126-131.
[2]SALTON G,WANG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975(18):613-620.
[3]LAN M,TAN C L,SU J,et al.Supervised and traditional term weighting methods for automatic text categorization[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(4):721-735.
[4]ALTINCAY H,ERENEL Z.Analytical evaluation of term weighting schemes for text categorization[J].Journal of Pattern Recognition Letters,2010,31(11):1310-1323.
[5]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J]. the Journal of machine Learning research,2003,3:993-1022.
[6]JAIN V,MAHADEOKAR J.Short-text representation using diffusion wavelets[C]//Proceedings of the companion publication of the 23rdinternational conference on World wide web companion.International World Wide Web Conferences Steering Committee.Seoul,Republic of Korea:ACM,2014:301-302.
[7]HSIEH Y L,LIU S H,CHANG Y C,et al.Neural network-based vector representation of documents for reader-emotion categorization[C]//Information Reuse andIntegration(IRI),2015IEEE International Conference on.Miami,F(xiàn)lorida,USA:IEEE,2015:569-573.
[8]HARISH B S,ARUNA K S V,MANJUNATH S.Classifying text documents using unconventional representation[C]//Big Data and Smart Computing(BIGCOMP),2014 International Conference on. Bangkok,Thail:IEEE,2014:210-216.
[9]RAMOS J.Using tf-idf to determine word relevance in document queries[C]//Proceedings of the 20thinternational conference on machine learning.Washington,DC,USA:ICML,2003:1-4.
[10]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2014.
[11]MCCALLUM A,BELLARE K,PEREIRA F.A conditional random field for discriminatively-trained finite-state string edit distance[J]. arXiv preprint arXiv:1207.1406,2012.
[12]TSENG H,CHANG P,ANDREW G,et al.A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the fourth SIGHAN workshop on Chinese language Processing.Jeju Island,Korea:SIGHAN,2005:171.
[13]HINTON G E.Learning distributed representations of concepts[C]// Proceedings of the eighth annual conference of the cognitive science society.Amherst,Mass:COGSS,1986:12.
[14]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vector space[J].arXiv preprint arXiv:1301. 3781,2013.
[15]CHANG Y L,CHIEN J T.Latent Dirichlet learning for document summarization[C]//Acoustics,Speech and Signal Processing,2009. ICASSP 2009.IEEE International Conference on.Taipei,Taiwan:IEEE,2009:1689-1692.
[16]劉章勛.中文命名實(shí)體識別粒度和特征選擇研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2010.
[17]LAI S,LIU K,XU L,et al.How to generate a good word embedding?[J].arXiv preprint arXiv:1507.05523,2015.
A learning model for representation of knowledge resources on the Web
ZHU Guojin,LI Chengqian
(School of Computer Science and Technology,Donghua University,Shanghai 201620,China)
With the rapid development of computer technology and the Internet,the network knowledge resources are increasing,people often can not effectively access and use the network knowledge resources.In order to make better use of the network knowledge resources,the application of automation and intelligent data mining and information extraction methods are needed.As a carrier of knowledge resource on Web,Web document was non structured natural language,so before in using clustering and classification mining technology to text mining,the web document is required to be transformed into the format which can be understood for machine learning algorithms,that is to realize the conversion text data into numerical data.In view of the limitations of the existing common text representation methods,this paper proposes a network knowledge resource representation learning model based on the combination of named entity and word vector.And the paper discusses the implementation and application in the field of algorithm of knowledge,including clustering network solving report and search for network problem solving report.The experimental results show that method presented in this paper on these tasks achieved good results.
text representation;named entity recognition;CRF;the algorithm knowledge;word representation
TP391
A
2095-2163(2016)03-0005-06
2016-04-11
朱國進(jìn)(1958-),男,博士,副教授,主要研究方向:計算機(jī)網(wǎng)絡(luò)、分布式技術(shù);李承前(1989-),男,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)。