巧用Python自制“詞云”圖

2021-06-25 07:46牟曉東

電腦報 2021年2期

牟曉東

所謂的“詞云”圖，指的是通過“關(guān)鍵詞（KeyWord）渲染”的方式對高頻關(guān)鍵詞進(jìn)行視覺凸顯強(qiáng)調(diào)的圖片，將絕大多數(shù)的低頻文本信息進(jìn)行了過濾，瀏覽者可以在短短幾秒的時間內(nèi)獲得文章的最關(guān)鍵信息——“一圖勝千文”。目前在互聯(lián)網(wǎng)上有網(wǎng)站提供在線詞云圖的生成服務(wù)，用戶只需將自己的文本內(nèi)容粘貼上傳，服務(wù)器很快就會生成并返回一張詞云圖（有的還提供有各種個性化形狀）。其實，我們在本地通過Python編程也能夠比較方便地制作出詞云圖。

1.jieba和wordcloud等庫模塊的安裝準(zhǔn)備工作

Python之所以功能強(qiáng)大，是與其豐富的標(biāo)準(zhǔn)庫和第三方庫的支持分不開的。想要進(jìn)行詞云圖的制作，除了常規(guī)的numpy科學(xué)計算和PIL圖像庫之外，還需要在編寫程序前進(jìn)行jieba和wordcloud庫模塊的安裝，操作方法是在命令行模式中分別輸入命令“pip install jieba”和“pip install wordcloud”。如果無法安裝成功（默認(rèn)的國外更新源經(jīng)常會因速度不穩(wěn)而導(dǎo)致安裝失敗），建議更換安裝源為國內(nèi)的清華或是阿里云等鏡像。

jieba模塊是一個專門用于中文（也支持英文）分詞的Python庫模塊，即將文本內(nèi)容以單個詞為單元進(jìn)行“斷句”，可以使用其中的jieba.lcut（）進(jìn)行分詞并將結(jié)果保存于列表中。比如：“words = jieba.lcut（‘我們都有一個家）”和“print（words）”兩行語句，執(zhí)行后就會將“我們都有一個家”分解成“我們”、“都”、“有”、“一個”和“家”共五個詞，保存在words列表中打印輸出（如圖2）。

2.提取高頻詞

我們以分析《三國演義》中著名的“火燒赤壁”片段為例（從第60章“諸葛亮舌戰(zhàn)群儒”到第70章“諸葛亮智算華容”），將文本內(nèi)容從網(wǎng)絡(luò)上復(fù)制粘貼到本地，保存為文本文件“火燒赤壁.txt”。

首先使用“import jieba”命令將jieba庫模塊導(dǎo)入，接著使用“with open（‘火燒赤壁.txt，‘r） as file：”將準(zhǔn)備好的文本文件以只讀形式打開，并且作為file文件對象;“text = file.read（）”：建立text變量，賦值為file文件對象讀取“火燒赤壁.txt”文件的所有內(nèi)容;“words = jieba.lcut（text）”：使用jieba.lcut（）將“斷句”后生成的各分詞內(nèi)容保存至words變量中;“counter = dict（）”：使用dict（）建立一個名為counter的空字典，準(zhǔn)備存放各分詞內(nèi)容及對應(yīng)的出現(xiàn)次數(shù);然后使用for循環(huán)在words中進(jìn)行遍歷：如果分詞的長度大于1（if len（i）>1：），則進(jìn)行“計數(shù)”（counter[i] = counter.get（i，0） +1），這樣可以將“的”、“和”、“了”等出現(xiàn)頻率極高的單個分詞進(jìn)行“過濾”;最后使用“print（counter）”將counter字典中的鍵（Keys）和值（Values）進(jìn)行輸出，運(yùn)行程序——“諸葛亮”：19、“孔明”：98、“曹操”：137等等（如圖3）。此時，我們已經(jīng)得到了“火燒赤壁”中除了單個字之外的所有分詞內(nèi)容及出現(xiàn)次數(shù)，準(zhǔn)備再借助wordcloud庫模塊進(jìn)行詞云圖的生成。

3.渲染生成常規(guī)的詞云圖

在程序開始部分補(bǔ)充“from wordcloud import WordCloud”，意思是從wordcloud中導(dǎo)入WordCloud;建立WCs變量，使用WordCloud為其賦值：“WCs = WordCloud（font_path=‘C：＼＼Windows＼＼Fonts＼＼simhei.ttf，? width=1080，height =720，max_words=50， background_color? ? ? =‘white）”，其中的“font_path”部分是指定詞云圖生成時各分詞的字體設(shè)置，width和height是指定生成詞云圖的大小為寬1080、高720，max_words是指定從counter字典中取出現(xiàn)頻率最高的前50個分詞，background_color是指定詞云圖的背景是白色;“WCs.generate_from_frequencies（counter）”和“WCs.to_file（‘WordCloud1.jpg）”負(fù)責(zé)將counter字典中前50個出現(xiàn)頻率最高的分詞取出并渲染生成為WordCloud1.jpg詞云圖片文件。

運(yùn)行程序，在同級目錄中很快就生成了WordCloud1.jpg詞云圖，出現(xiàn)頻率越高的分詞，字就越大，比如“曹操”、“周瑜”、“孔明”（如圖4）。

4.改進(jìn)效果

觀察WordCloud1.jpg詞云圖，不難發(fā)現(xiàn)其中像“孔明曰”、“卻說”、“不可”、“次日”和“一人”等分詞雖然出現(xiàn)的頻率較高，但其內(nèi)容出現(xiàn)在詞云中并不能代表原文的關(guān)鍵信息，這就需要像處理單個字那樣將這種分詞進(jìn)行人工過濾。還有，這種方形的詞云圖在展示時的視覺沖擊度稍顯單薄，是否可以將它做成諸葛亮手中的“羽扇”形狀的詞云圖呢？

改進(jìn)一：對過濾列表filter_list進(jìn)行遍歷

建立列表“filter_list”，為其賦值為“[‘孔明曰，‘卻說，‘不可，‘次日，‘一人，‘二人，‘于是，‘之后]”，即將所有待過濾的高頻分詞作為其中的元素;接著使用for循環(huán)對counter字典進(jìn)行遍歷，將字典中保存有filter_list列表各元素的鍵和值均刪除：“del counter[i]”。

改進(jìn)二：個性化詞云圖輪廓

從網(wǎng)上搜索并下載一張羽扇圖“羽扇.jpg”，要求背景為純白（用PS處理）;然后在程序開始添加“import numpy as np”和“from PIL import Image”，將numpy及PIL庫模塊中的Image導(dǎo)入;“image_mask = np.array（Image.open（‘羽扇.jpg））”：建立image_mask變量，賦值為先通過Image.open（）打開的“羽扇.jpg”、再經(jīng)numpy的np.array（）矩陣轉(zhuǎn)換后的值，這個值就是一個羽扇的輪廓;接著仍是在“WCs = WordCloud”中進(jìn)行參數(shù)添加：“mask = image_mask”，指定詞云圖的“蒙版”mask，賦值為image_mask;接著，根據(jù)下載的“羽扇.jpg”圖片文件的尺寸大小，將width和height參數(shù)分別設(shè)置為1024和704（width=1024，height=704）;同時，為了保證最終生成的詞云圖各分詞的緊密分布效果，可以在此將關(guān)鍵詞的最大顯示數(shù)量由之前的50修改為160（max_words=160）;最后記得在“WCs.to_file”中將生成的詞云圖文件名設(shè)置為“WordCloud2.jpg”，防止將第一次生成的詞云圖覆蓋。

兩處改進(jìn)修改完成之后，再次運(yùn)行程序，生成了一張新的詞云圖，不僅之前的“不可”、“次日”和“一人”等高頻無效分詞消失了，而且形狀也由中規(guī)中矩的形狀變成了“羽扇”蒙版式（如圖5）。

通過Python編程，我們可以將自己喜歡的整部文學(xué)作品（或是某篇專業(yè)論文）進(jìn)行詞云圖的“私人定制”，效果非常不錯，大家不妨一試。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

巧用Python自制“詞云”圖

1.jieba和wordcloud等庫模塊的安裝準(zhǔn)備工作

2.提取高頻詞

3.渲染生成常規(guī)的詞云圖

4.改進(jìn)效果