何陽宇 易綿竹 李宏欣
摘 要:政治外交領(lǐng)域本體術(shù)語的獲取是構(gòu)建相關(guān)領(lǐng)域本體的關(guān)鍵,也是進行信息抽取、信息檢索的重要組成部分。文章首先利用現(xiàn)有資源構(gòu)建了基礎(chǔ)術(shù)語集,然后利用Word2Vec的新詞推薦功能在此基礎(chǔ)上進行擴展,最后以融合知網(wǎng)和同義詞詞林的方法進行詞語語義相似度計算,篩選出合格的本體術(shù)語構(gòu)建擴展術(shù)語集。由此建立起老撾政治外交領(lǐng)域本體術(shù)語集。
關(guān)鍵詞:老撾;政治外交;本體術(shù)語;信息檢索;信息抽取
中圖分類號:D507;D82;H059;H083文獻標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2019.04.001
The Construction of Ontology Term Set in Laos Political Diplomacy Domain//HE Yangyu,YI Mianzhu,LI Hongxin
Abstract: The acquisition of ontology terms in political diplomacy domain is the key to the construction of ontology in related fields, and also an important part of information extraction and information retrieval. We construct the basic term set by using existing resources, and then use Word2Vecs new word recommendation function to expand on the basis. Moreover, we calculate the semantic similarity computation of words by the method of integrating HowNet and Cilin, select the qualified ontology terms to construct a set of extended term, and thus establish the ontology term set of Laos political diplomacy.
Keywords: Laos; political diplomacy; ontology term; information retrieval; information extraction
引 言
老撾作為東南亞唯一的內(nèi)陸國家[1],北鄰中國,南接柬埔寨,東臨越南,西北達緬甸,西南毗連泰國,素有“東南亞十字路口”之稱,地理位置十分重要[2]。近年來,老撾積極響應(yīng)“一帶一路”倡議,在多個領(lǐng)域與中國進行了廣泛的合作。但目前中國還未對老撾有較為全面的認識,對其政治經(jīng)濟制度、國內(nèi)產(chǎn)業(yè)格局、民族、文化、宗教、風(fēng)土人情等的了解還遠達不到需求[3]。為了及時準(zhǔn)確地了解老撾動態(tài),為國家戰(zhàn)略和政策提供重要參考,有必要加強信息基礎(chǔ)資源的建設(shè)。隨著信息時代的到來,如何使網(wǎng)上的海量數(shù)據(jù)形成一個互相關(guān)聯(lián)的網(wǎng)絡(luò)顯得尤為重要?;诒倔w知識庫的信息抽取和檢索可以有效解決這個問題,而本體術(shù)語抽取是本體構(gòu)建的首要工作,對本體學(xué)習(xí)以及基于本體的應(yīng)用技術(shù)的發(fā)展具有重要意義[4]。
本體術(shù)語的獲取途徑可大致分為基于規(guī)則、基于知識庫、基于統(tǒng)計以及多策略融合的方法。雅克曼(Christian Jacquemin)[5]提出了一個描述多詞術(shù)語的形態(tài)、句法和語義變化的雙層模型,用于醫(yī)學(xué)和農(nóng)業(yè)領(lǐng)域的術(shù)語標(biāo)準(zhǔn)化。張桂平等[6]基于HowNet構(gòu)建了面向航天領(lǐng)域的術(shù)語語義知識庫。韋小麗等 [7]采用基于最大熵模型的方法來獲取概念,通過對領(lǐng)域文本進行挖掘而得到名詞性短語,使用改進的TF-IDF公式從中抽取具有領(lǐng)域性的短語,并經(jīng)人工修正后得到本體概念。杜波等 [8]設(shè)計了一個將統(tǒng)計方法與規(guī)則方法相結(jié)合的專業(yè)領(lǐng)域內(nèi)術(shù)語抽取算法??偟膩碚f,基于規(guī)則的方法準(zhǔn)確率高,操作簡單,能夠有效提取低頻術(shù)語,但是語言學(xué)規(guī)則制定難度大,耗時耗力;基于知識庫的方法無需語料庫進行訓(xùn)練,易于理解,但知識庫的建設(shè)很大程度上依賴于人的主觀判斷和知識結(jié)構(gòu);基于統(tǒng)計的方法效率高、可移植性較好,但計算量大,效果取決于語料庫的規(guī)模和質(zhì)量,同時針對低頻術(shù)語的效果較差。以上方法各有優(yōu)缺點,因此多策略融合的方法是目前術(shù)語獲取的最佳途徑。
本文構(gòu)建的術(shù)語集主要包括兩大部分:基礎(chǔ)術(shù)語集和擴展術(shù)語集。首先,通過各種渠道對現(xiàn)有術(shù)語資源進行收集整理,然后利用CiteSpace從相關(guān)文獻中提取領(lǐng)域術(shù)語,進而合并為基礎(chǔ)術(shù)語集。接下來,以基礎(chǔ)術(shù)語集作為種子術(shù)語,以Word2Vec、知網(wǎng)和同義詞詞林作為統(tǒng)計模型和知識庫,利用融合的詞語語義相似度計算方法進行術(shù)語拓展,形成擴展術(shù)語集。最終,兩部分術(shù)語集組合成為老撾政治外交領(lǐng)域本體術(shù)語集。
一 老撾政治外交領(lǐng)域基礎(chǔ)術(shù)語集的構(gòu)建
(一)基礎(chǔ)術(shù)語集簡介
老撾政治外交領(lǐng)域基礎(chǔ)術(shù)語集的來源可大致分為兩類:現(xiàn)有術(shù)語資源和相關(guān)文獻?,F(xiàn)有術(shù)語資源主要包括專業(yè)詞典、相關(guān)論著、權(quán)威網(wǎng)站等,相關(guān)文獻主要是國內(nèi)關(guān)于老撾政治外交的碩士與博士論文、期刊論文等。這一術(shù)語集是后續(xù)擴展術(shù)語集的基礎(chǔ),對整個術(shù)語集的構(gòu)建起著至關(guān)重要的作用。具體流程如圖1所示。
(二)現(xiàn)有術(shù)語資源的收集整理
現(xiàn)有術(shù)語資源中的詞典主要采用《老撾語漢語詞典》[9]和《老撾語漢語·漢語老撾語簡明外交詞典》[10],前者是目前涵蓋范圍最廣的老撾語漢語綜合詞典,共收6萬多詞條,包括古今語言、文學(xué)、宗教和各門科學(xué)用語,根據(jù)本文目的,取其中與政治外交相關(guān)部分;后者是一部外交領(lǐng)域的專門詞典,共收詞1.5萬余條,內(nèi)容包括外交、時政、宗教、人權(quán)、法律、科技、歷史、軍事、安全等各方面在外事工作中經(jīng)常涉及的詞匯。其他現(xiàn)有資源來自相關(guān)紙質(zhì)、電子版著作以及權(quán)威網(wǎng)站,著作主要包括:《解決老撾問題的擴大的日內(nèi)瓦會議文件匯編》[11]《老撾和老撾人民反對美國新殖民主義的勝利斗爭》[12]《老撾戰(zhàn)后大事記》[13]《中國古籍中有關(guān)老撾資料匯編》[14]《列國志·老撾》[15]《老撾》[16]《老撾概論》[1]《老撾:在革新中騰飛》[17]《新世紀(jì)以來GMS五國國情的演進:轉(zhuǎn)型與發(fā)展研究》[18]《世界主要政黨規(guī)章制度文獻:越南、老撾、朝鮮、古巴》[19]《老撾史》[20]《老撾與“一帶一路”》[21]《美國對老撾政策研究(1955—1963)》[22]等,權(quán)威網(wǎng)站包括:維基百科[23]、百度百科[24]、人民網(wǎng)[25]、中華人民共和國外交部[26]、中華人民共和國駐老撾人民民主共和國大使館[27]等。
通過對上述資料進行整理及人工篩選,得到老撾政治外交領(lǐng)域術(shù)語672個,其中將老撾人民革命黨和老撾政府各組織機構(gòu)及主要領(lǐng)導(dǎo)人、老撾重要的歷史事件和人物、東盟各組織機構(gòu)等作為重點進行收集和整理。篩選標(biāo)準(zhǔn)為:(1)具有領(lǐng)域代表性;(2)得到較為權(quán)威的認證;(3)盡量遵循單義性、準(zhǔn)確性和簡明性;(4)涵蓋廣泛,全稱、簡稱、別稱等均應(yīng)收錄。其中根據(jù)實際情況,對部分術(shù)語進行了修正和更新,如涉及組織機構(gòu)調(diào)整改革的,為保證術(shù)語信息的完整性以及保證后續(xù)信息檢索和信息抽取的準(zhǔn)確性,對新舊組織機構(gòu)名都予以保留。
(三)基于相關(guān)文獻的術(shù)語提取
本小節(jié)主要利用CiteSpace對中國知網(wǎng)(CNKI)中老撾政治外交領(lǐng)域相關(guān)文獻進行可視化分析。CiteSpace最早見于2004年美國德雷塞爾大學(xué)(Drexel University)陳超美發(fā)表的Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[28],這是一款主要用于計量和分析科技文獻數(shù)據(jù)的信息可視化軟件,可以用來繪制科學(xué)和技術(shù)領(lǐng)域發(fā)展的知識圖譜,直觀地展現(xiàn)科技知識領(lǐng)域的信息全景,識別某一科技領(lǐng)域中的關(guān)鍵文獻、研究熱點和前沿方向,在實際應(yīng)用中既科學(xué)有效又簡單易用,且具有豐富美觀的可視化效果,在國內(nèi)外信息科學(xué)領(lǐng)域得到了廣泛的應(yīng)用[29]。
在CNKI的高級檢索功能中,將領(lǐng)域主題限定為政治或外交,將檢索范圍設(shè)定為老撾,由于關(guān)于老撾的文獻數(shù)量較少,所以在檢索老撾相關(guān)文獻時采取窮盡搜索的辦法,得到2834條結(jié)果(檢索時間跨度為1979年1月1日—2018年8月10日)。利用CiteSpace對上述文獻進行分析,如圖2所示。在圖2操作的基礎(chǔ)上,對結(jié)果進行可視化處理,得到按詞頻排序的相關(guān)術(shù)語861個。
(四)小結(jié)
本節(jié)主要通過兩個渠道構(gòu)建基礎(chǔ)術(shù)語集,其中對現(xiàn)有術(shù)語的收集整理主要依靠人工篩選,對老撾重要政治外交人物、政治外交事件、主要組織機構(gòu)及其他相關(guān)政治外交術(shù)語做了總結(jié)和統(tǒng)計,獲得術(shù)語672個;利用CiteSpace對CNKI相關(guān)文獻進行可視化分析,獲得術(shù)語861個。通過對這些術(shù)語進行領(lǐng)域性分析、刪除重復(fù)項等操作,共獲取政治外交術(shù)語1332個。
二 老撾政治外交領(lǐng)域擴展術(shù)語集的構(gòu)建
擴展術(shù)語集的構(gòu)建主要以上述構(gòu)建的基礎(chǔ)術(shù)語集為種子術(shù)語,利用Word2Vec的相似詞推薦功能進行新詞推薦,然后利用融合知網(wǎng)、同義詞詞林的詞語相似度計算方法對推薦的新詞進行相似度計算,最后根據(jù)實際情況設(shè)定閾值進行篩選。具體流程如圖3所示。
(一)基于Word2Vec的新詞推薦
1.Word2Vec簡介
2003年,本希奧(Yoshua Bengio)等[30]提出了一套用神經(jīng)網(wǎng)絡(luò)建立統(tǒng)計語言模型的框架(neural network language model),如圖4所示,這為Word2Vec等后續(xù)研究奠定了基礎(chǔ)。
2013年, 米科洛夫(Tomas Mikolov)等人提出了Word2Vec,可用于詞向量計算,它可以在大規(guī)模數(shù)據(jù)集上進行高效訓(xùn)練,得到訓(xùn)練結(jié)果——詞向量(word embedding),由此度量詞語之間的相似度。Word2Vec是一個淺層神經(jīng)網(wǎng)絡(luò),主要包括CBOW(continuous bag-of-words model)(如圖5)和Skip-gram(如圖6)兩大架構(gòu)模型,這兩種模型實際上是互為鏡像的,CBOW根據(jù)上下文預(yù)測當(dāng)前單詞,而Skip-gram根據(jù)給定單詞預(yù)測上下文。另外,還包括層次softmax算法、負采樣(negative sampling)算法以及欠采樣(sub-sampling)技術(shù)等[31]。
2.語料收集及預(yù)處理
本文采用八爪魚網(wǎng)頁數(shù)據(jù)采集器進行網(wǎng)絡(luò)爬蟲操作,爬取網(wǎng)站主要包括百度[32]、人民網(wǎng)、新華網(wǎng)[33]、中華人民共和國外交部、中國國際廣播電臺國際在線網(wǎng)[34]以及知名公眾號CRI悅生活、老撾快訊、老撾要聞、老撾那些事兒等。將采集到的數(shù)據(jù)進行過濾處理,去除圖片、標(biāo)簽、未知符號等無效數(shù)據(jù),然后利用AnsjSeg[35]對語料進行分詞處理,最后以txt的格式進行保存。
3.模型訓(xùn)練
CBOW和Skip-gram兩個模型都可用來生成詞的分布式表示,CBOW訓(xùn)練效率更高,速度更快,Skip-gram雖然計算量較大,但訓(xùn)練質(zhì)量更高,尤其針對低頻詞的效果更優(yōu),Mikolov等[31]的實驗結(jié)果也印證了這一點。 因此,本研究采用Skip-gram模型。在Word2Vec的訓(xùn)練過程中,需要設(shè)置一些參數(shù),以保證訓(xùn)練質(zhì)量和速度[36]。主要參數(shù)如表1所示。
參數(shù)設(shè)置完畢后,將預(yù)處理完成的數(shù)據(jù)作為輸入,便可完成Word2Vec的訓(xùn)練工作。然后利用訓(xùn)練好的模型對種子術(shù)語進行新詞推薦,經(jīng)實驗比較,當(dāng)推薦數(shù)量設(shè)置為50以上時,就會產(chǎn)生較多冗余詞語,而設(shè)置為10以下又可能導(dǎo)致重要詞語遺漏。綜合考慮,將推薦閾值設(shè)定為20,由此建立新詞術(shù)語集。
(二)融合知網(wǎng)和同義詞詞林的詞語語義相似度計算
1.知網(wǎng)、同義詞詞林簡介
知網(wǎng)創(chuàng)建于1988年,主要是描述概念及其屬性間的網(wǎng)狀關(guān)系。創(chuàng)建者董振東將哲學(xué)思想貫穿于知網(wǎng)構(gòu)建的全過程,認為世界上一切事物都在一定的時間和空間內(nèi)不停地運動和變化,而且通常是從一種狀態(tài)變化到另一種狀態(tài),并一般由其屬性值的改變來體現(xiàn)。知網(wǎng)將高層概念分為N、V、A三大范疇,這三大范疇又包括若干子范疇,具體如表2所示。為了便于理解,其中N相當(dāng)于名詞,V相當(dāng)于動詞和部分形容詞,A相當(dāng)于形容詞和副詞,但這只是幫助認知,實際不能如此對應(yīng)。
知網(wǎng)作為一個常識知識庫,它重點刻畫的是概念的共性和個性,此外概念以及屬性間的各種關(guān)系也屬于其描述范圍,知網(wǎng)的全部主要文件構(gòu)成了一個有機結(jié)合的知識系統(tǒng)[37]。概念關(guān)系示例如圖7。
《同義詞詞林》是梅家駒等人于1983年編纂而成的,與WordNet的格式有類似之處,即都是用一個同義詞集合來表示一個概念。后來哈爾濱工業(yè)大學(xué)信息檢索實驗室在此基礎(chǔ)上做了改進,即《同義詞詞林擴展版》。該擴展版剔除了原版中大量的罕用詞,最終的詞表包含77 492條詞語,其中一詞多義的詞語為8860個,共分為12個大類,94個中類,1428個小類,小類下再以同義原則劃分詞群,最細的級別為原子詞群[38],由此形成了5層樹狀結(jié)構(gòu),如圖8。每一層都有相應(yīng)的編碼符號對應(yīng),通過編碼,可以精確定位每一個節(jié)點,詞語編碼如表3所示。
2.融合知網(wǎng)、同義詞詞林的詞語相似度計算
本文采用朱新華等人提出的綜合知網(wǎng)和同義詞詞林的詞語相似度計算方法,知網(wǎng)部分根據(jù)義原層次結(jié)構(gòu)的特征,采用了一定的邊權(quán)重策略,改進了現(xiàn)有的基于知網(wǎng)的相似度算法;詞林部分采用以詞語距離為主要因素、分支節(jié)點數(shù)和分支間隔為微調(diào)節(jié)參數(shù)的方法,改進了現(xiàn)有的詞林詞語相似度算法。然后再根據(jù)詞語的分布情況,采用綜合考慮知網(wǎng)與同義詞詞林的動態(tài)加權(quán)策略計算出最終的詞語語義相似度。該方法充分利用了詞語在知網(wǎng)與詞林中的語義信息,極大地擴充了可計算詞語的范圍,同時也提高了詞語相似度計算的準(zhǔn)確率[39]。
(1)改進的基于知網(wǎng)的詞語相似度計算
該方法將詞語相似度計算轉(zhuǎn)換為對詞語義項語義表達式(DEF)的相似度計算,而義項的相似度計算又可轉(zhuǎn)化成綜合獨立義原集合、關(guān)系義原特征結(jié)構(gòu)與關(guān)系符號義原特征結(jié)構(gòu)的相似度計算,分別表示為sim1(C1,C2)、sim2(C1,C2)、sim3(C1,C2),這三項相似度因重要程度不同,所占權(quán)重也不同,其中sim1(C1,C2)占大部分比重。考慮到部分詞語有多個義項,兩個詞語的最終相似度取所有義項組合中相似度最大的值為有效值。最終得到公式①:
(2)改進的基于同義詞詞林的詞語相似度計算
同義詞詞林的整體構(gòu)造是一個五層樹形結(jié)構(gòu),因此兩個詞語在詞林樹中的連接路徑是影響詞語相似度的主要因素。詞林的第一層是大類,朱新華等將不屬于同一個大類的詞語間的距離都處理為18,同時按照低層到高層的順序,賦予層際連接邊越來越低的權(quán)重Wi(1≤i≤4),且滿足:0.5≤W1≤W2≤W3≤W4≤5,W1+W2+W3+W4≤10,由此提出了一個以詞語距離d為主要影響因素,分支節(jié)點數(shù)n和分支間隔k為調(diào)節(jié)參數(shù)的同義詞詞林詞語相似度計算公式②:
式中,dis(C1,C2)是詞語編碼C1和C2在樹狀結(jié)構(gòu)中的距離函數(shù),等于詞語對的連接路徑中各邊的權(quán)重之和,可取值2×W1、2×(W1+W2)、2×(W1+W2+W3)、2×(W1+W2+W3+W4)。n和k的表達式作為e的負指數(shù),并對其開平方,以此降低公式對n和k這兩個參數(shù)的敏感度,避免出現(xiàn)修正幅度過大的現(xiàn)象。
(3)知網(wǎng)、詞林加權(quán)融合計算方法
綜合考慮知網(wǎng)和詞林的詞語相似度計算的總體思想為:對于任意兩個詞語W1和W2,按照上述策略分別計算出它們基于知網(wǎng)及詞林的相似度,記作s1和s2,然后根據(jù)它們在圖9中的分布情況,為這兩個相似度分別賦予權(quán)重λ1和λ2,且滿足:λ1+λ2=1,最后按照公式③計算出綜合知網(wǎng)和詞林的詞語語義相似度:
因為知網(wǎng)和詞林屬于兩套不同的知識庫,因此勢必會出現(xiàn)涵蓋范圍不盡相同的情況。大致會出現(xiàn)以下情況:知網(wǎng)特有的詞語、詞林特有的詞語、兩者共有的詞語以及兩者都未包括的詞語。圖9中, I表示所有詞語構(gòu)成的全集,A表示知網(wǎng)涵蓋的詞語集,B表示詞林涵蓋的詞語集,C表示兩者的交集。
下面以“老撾人民革命黨”為例展示融合策略詞語相似度計算,見表4。
通過對所有推薦的新詞進行相似度計算,觀察發(fā)現(xiàn)大部分正確新詞的相似值位于0.6以上,因此本文將正確術(shù)語的相似值閾值設(shè)置為0.6,以此方法可將大部分符合要求的新詞術(shù)語篩選出來,然后再人工檢驗,得到擴展術(shù)語2430個,經(jīng)過領(lǐng)域性分析和去除重復(fù)項等操作,最終共計獲得2281個術(shù)語。
(三)小結(jié)
本部分主要利用Word2Vec在基礎(chǔ)術(shù)語集的基礎(chǔ)上進行新詞推薦,然后借助知網(wǎng)和詞林在中文詞語概念上的強大描述能力和可計算化,對推薦的新詞進行了相似詞計算和篩選,最終得到了2281個術(shù)語,由此構(gòu)建了擴展術(shù)語集。
三 結(jié)論及展望
本文利用CiteSpace、Word2Vec、知網(wǎng)、詞林等嘗試構(gòu)建了老撾政治外交領(lǐng)域本體術(shù)語集,包括基礎(chǔ)術(shù)語集和擴展術(shù)語集,共計3613個術(shù)語。本體術(shù)語的獲取是建立領(lǐng)域本體的關(guān)鍵,是國家基礎(chǔ)信息資源的重要組成部分,是實現(xiàn)政治外交領(lǐng)域信息化必不可少的工作。隨著“一帶一路”倡議的深入開展,中國和老撾之間的政治外交往來日益頻繁,要想及時、準(zhǔn)確地把握最新政治外交動態(tài),制定相應(yīng)的政策、措施,為國家發(fā)展助力,就必須加強信息抽取能力,而領(lǐng)域本體術(shù)語是提高該能力的“鑰匙”。
本研究仍有很多不足之處,在本體術(shù)語集構(gòu)建的“深度”和“廣度”上還有待進一步加強。由于老撾相關(guān)文獻較少,詞典等現(xiàn)有資源也較為匱乏,這在一定程度上制約了領(lǐng)域本體術(shù)語的收集。此外,本文只針對中文術(shù)語進行了獲取,如果用于信息抽取等實際任務(wù)中,可能會漏掉重要的英文和老撾文文本。因此,在今后的工作中可以進一步細化概念分析框架,擴充更多的文獻資源,并將術(shù)語獲取拓展到英文和老撾文。同時,可以嘗試其他模型和算法,取長補短,爭取達到更優(yōu)的效果。
注釋
① 第8位的標(biāo)記有3種,分別是“=”“#”“@”。 “=”代表“相等”“同義”; “#”代表“不等”“同類”,屬于相關(guān)詞語; “@”代表“自我封閉”“獨立”,它在詞典中既沒有同義詞,也沒有相關(guān)詞。
參考文獻
[1]郝勇,黃勇,覃海倫.老撾概論[M].廣州:世界圖書出版廣東有限公司,2012.
[2]何陽宇.論“一帶一路”與老撾社會經(jīng)濟的發(fā)展[J].語文學(xué)刊,2016(1):87-89.
[3]康生.“一帶一路”戰(zhàn)略下中老關(guān)系問題研究[D].長春:吉林大學(xué)碩士學(xué)位論文,2017.
[4]湯青,呂學(xué)強,李卓,等.領(lǐng)域本體術(shù)語抽取研究[J].現(xiàn)代圖書情報技術(shù),2014,30(1):43-50.
[5]Jacquemin C.Syntagmatic and paradigmatic representations of term variation[C]//Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics on Computational Linguistics:Association for Computational Linguistics,1999:341-348.
[6]張桂平,刁麗娜,王裴巖.基于HowNet的航空術(shù)語語義知識庫的構(gòu)建[J].中文信息學(xué)報,2014,28(5):92-101.
[7]韋小麗,孫涌,張書奎,等.基于最大熵模型的本體概念獲取方法[J].計算機工程,2009,35(24):114-116.
[8]杜波,田懷鳳,王立,等.基于多策略的專業(yè)領(lǐng)域術(shù)語抽取器的設(shè)計[J].計算機工程,2005,31(14):159-160.
[9]黃冰.老撾語漢語詞典[M].尚未正式出版.
[10]程琳.老撾語漢語·漢語老撾語簡明外交詞典[M].北京:軍事誼文出版社,2013.
[11]世界知識出版社.解決老撾問題的擴大的日內(nèi)瓦會議文件匯編[G].北京:世界知識出版社,1962.
[12]馮維希.老撾和老撾人民反對美國新殖民主義的勝利斗爭[M].北京:人民出版社,1974.
[13]秦欽峙.老撾戰(zhàn)后大事記[M].昆明:云南省社會科學(xué)院東南亞研究所,1985.
[14]景振國.中國古籍中有關(guān)老撾資料匯編[M].鄭州:中州古籍出版社,1985.
[15]馬樹洪,方蕓.列國志·老撾[M].北京:社會科學(xué)文獻出版社,2004.
[16]蔡文欉.老撾[M].北京:世界知識出版社,2008.
[17]柴尚金.老撾:在革新中騰飛[M].北京:社會科學(xué)文獻出版社,2015.
[18]王士錄,趙姝嵐,李秋瑾.新世紀(jì)以來GMS五國國情的演進:轉(zhuǎn)型與發(fā)展研究[M].北京:中國社會科學(xué)出版社,2015.
[19]許寶友.世界主要政黨規(guī)章制度文獻:越南、老撾、朝鮮、古巴[M].北京:中央編譯出版社,2016.
[20]埃文斯.老撾史[M].郭繼光,劉剛,王瑩,譯.上海:東方出版中心,2016.
[21]張海冰,周太東.老撾與“一帶一路”[M].北京:時事出版社,2017.
[22]溫榮剛.美國對老撾政策研究(1955—1963)[M].北京:中國社會科學(xué)出版社,2018.
[23]維基百科[DB/OL]. [2018-07-20].https://zh.wikipedia.org.
[24]百度百科[DB/OL]. [2018-07-20].https://baike.baidu.com.
[25]人民網(wǎng)[DB/OL]. [2018-07-20].http://www.people.com.cn.
[26]中華人民共和國外交部[DB/OL]. [2018-07-20].http://www.fmprc.gov.cn/web.
[27]中華人民共和國駐老撾人民民主共和國大使館[DB/OL]. [2018-07-20].http://la.china-embassy.org/chn.
[28]Chen C. Searching for Intellectual Turning Points: Progressive Knowledge Domain Visualization[J].Proceedings of the National Academy of Sciences,2004,101(1):5303-5310.
[29]侯劍華,胡志剛.CiteSpace軟件應(yīng)用研究的回顧與展望[J].現(xiàn)代情報,2013,33(4):99-103.
[30]Bengio Y,Vincent P,Janvin C.A Neural Probabilistic Language Model[J].Journal of Machine Learning Research,2003,3(6):1137-1155.
[31]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Science,2013.
[32]百度[DB/OL]. [2018-09-05].https://www.baidu.com.
[33]新華網(wǎng)[DB/OL]. [2018-09-05].http://www.xinhuanet.com.
[34]中國國際廣播電臺國際在線網(wǎng)[DB/OL]. [2018-09-05].http://www.cri.cn/index.html?lang=zh-CN.
[35]AnsjSeg[DB/OL]. [2018-09-05].http://nlpchina.github.io/ansj_seg.
[36]周練.Word2vec的工作原理及應(yīng)用探究[J].圖書情報導(dǎo)刊,2015(2):145-148.
[37]董振東.語義關(guān)系的表達和知識系統(tǒng)的建造[J].語言文字應(yīng)用,1998(3):79-85.
[38]劉丹丹,彭成,錢龍華,等.《同義詞詞林》在中文實體關(guān)系抽取中的作用[J].中文信息學(xué)報,2014,28(2):91-99.
[39]朱新華,馬潤聰,孫柳,等.基于知網(wǎng)與詞林的詞語語義相似度計算[J].中文信息學(xué)報,2016,30(4):29-36.