汪言
摘要:在大數(shù)據(jù)時(shí)代,利用相關(guān)技術(shù)手段對(duì)大數(shù)據(jù)進(jìn)行獲取與解讀就顯得十分重要?!霸~云”技術(shù),由于能夠?qū)⑽谋局械摹瓣P(guān)鍵詞”圖像化,正受到人們?cè)絹?lái)越多人的關(guān)注。該文以《中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》全文文本為例,對(duì)基于Python的詞云文本分析技術(shù)進(jìn)行了優(yōu)化,以期為快速解讀文本內(nèi)容提供方便。
關(guān)鍵詞:Python;中文分詞;詞云;優(yōu)化;十四五規(guī)劃
中圖分類(lèi)號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)19-0023-06
Research on Generation and Optimization of Word Cloud Based on Python—Take the Text of the 14th Five-year Plan as an Example
WANG Yan
(Hubei University, Wuhan 430062,China)
Abstract: In the era of big data, it is very important to obtain and interpret big data by using relevant technical means. "Word cloud" technology, due to its ability to visualize the "Keywords" in the text, is attracting more and more attention. This paper takes the full text of Proposal of the Central Committee of the Communist Party of China on Formulating the 14th Five-Year Plan for National Economic and Social Development and the Long-term Goals for the year of 2035 as an example, and optimizes the text analysis technology of word cloud based on python, so as to provide convenience for quick interpretation of the text content.
Key words: Python; Chinese word segmentation; word cloud; optimization; 14th five-year plan
1 引言
“詞云”,是近幾年來(lái)出現(xiàn)的用于文本挖掘的可視化技術(shù),其將文本中大量的不重要的信息過(guò)濾,并對(duì)出現(xiàn)頻率較高的“關(guān)鍵詞”予以字體大小和顏色等視覺(jué)形式的差異來(lái)直觀反映詞語(yǔ)的重要程度,文字的字體越大,表明其越重要,可以幫助閱讀者迅速把握文本的主要內(nèi)容。簡(jiǎn)言之,“詞云”,是一種將大量文本信息或網(wǎng)絡(luò)大數(shù)據(jù)迅速生成幫助閱讀者把握文本關(guān)鍵內(nèi)容的輔助性可視化工具,其生成的詞云圖中的詞語(yǔ)字形、字號(hào)、顏色以及圖片背景可以根據(jù)使用者的實(shí)際需求進(jìn)行修改和保存。此外,借助mask、stopwords、scale等參數(shù)的設(shè)置,可以對(duì)生成的詞云圖進(jìn)行優(yōu)化設(shè)計(jì),比如:背景圖設(shè)計(jì)、刪減詞語(yǔ)、增加輪廓線等等。
“詞云”,由于其能夠快速、直觀地抓取文本的主要內(nèi)容,方便人們對(duì)文本內(nèi)容的解讀,正受到人們?cè)絹?lái)越多的關(guān)注。然而,由于對(duì)“詞云”技術(shù)的掌握和應(yīng)用需要掌握一定的編程知識(shí)和技巧,導(dǎo)致大眾對(duì)此“望洋興嘆”。因此,本文寫(xiě)作目的在于幫助一般讀者從無(wú)到有掌握“詞云”文本分析技術(shù)。具體而言,即借助《中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和二〇三五年遠(yuǎn)景目標(biāo)的建議》文本,嘗試對(duì)基于Python的詞云文本分析技術(shù)進(jìn)行應(yīng)用和優(yōu)化。一方面,解讀“詞云”原理。另一方面,則為一般讀者應(yīng)用“詞云”理論和技術(shù)進(jìn)行文本分析和解讀提供一般流程。
2 詞云理論
“詞云”(Word Cloud)一詞,由美國(guó)學(xué)者Rich Gordon于2006年提出,又稱文字云圖(詞云圖),屬于當(dāng)前文本挖掘可視化主流技術(shù)之一?!霸~云”制作基本思想為:基于單詞庫(kù)(或詞典)將整個(gè)文本切分成不同單詞片段, 同時(shí)對(duì)同一單詞在文本中的出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì);而后根據(jù)詞頻大小,將單詞按不同字體大小和顏色通過(guò)圖像呈現(xiàn)出來(lái);詞頻越高,單詞的呈現(xiàn)方式越凸顯?;谥形牡摹霸~云”制作基本原理如圖1所示。從圖1可知,信息收集工作是詞云制作的出發(fā)點(diǎn),研究者可根據(jù)具體需要選擇文本。文本預(yù)處理一般可以將輸入文本存為txt或Word文檔類(lèi)型,將輸出文本以表格或圖形方式存儲(chǔ)和呈現(xiàn)。中文分詞、單詞庫(kù)(或詞典)以及關(guān)鍵詞提取是詞云圖制作核心。
2.1中文分詞
分詞是自然語(yǔ)言處理(NLP)中文本處理的前提和基礎(chǔ)步驟,由于詞是語(yǔ)句中的基本單位,故需要在分析語(yǔ)句前將文本中的連貫的句子切分成不連續(xù)的詞。相比于英文,中文語(yǔ)句由于句式結(jié)構(gòu)復(fù)雜、沒(méi)有間隔符,一個(gè)詞語(yǔ)在不同的語(yǔ)句或文本中意義千差萬(wàn)別,地名、人名、省略語(yǔ)以及網(wǎng)絡(luò)詞、流行詞、俗語(yǔ)等不確定性詞匯的存在等特點(diǎn)加大了分詞的難度。中文分詞技術(shù)面臨的困難主要表現(xiàn)在:對(duì)詞的界定、歧義消除以及未登錄詞識(shí)別三個(gè)方面。目前,中文分詞有基于詞典、基于統(tǒng)計(jì)和基于理解三種算法。
Jieba庫(kù)是一種應(yīng)用廣泛且效果較為理想的中文分詞工具,需要通過(guò)pip指令安裝,主要支持三種分詞模式——精確模式、全模式和搜索引擎模式。
1精確分詞模式:默認(rèn)模式,對(duì)語(yǔ)句進(jìn)行精確切分,適合文本分析,無(wú)冗余,常用格式:Jieba.cut(sentence, cut_all=False)