張楚
(武漢市第六中學 國際部高二(4)班,湖北 武漢430000)
Python 編程語言相對于其他語言來說,簡單易學,由于貼近人類語言所以閱讀起來難度不大。這種具有偽代碼性質(zhì)的代碼編程語言可以讓使用者降低對于語言本身研究的注意力,專注于解決問題。同時Python 還擁有豐富的第三方庫,包含數(shù)據(jù)可視化、圖片處理、游戲制作、圖形繪制、中文分詞等等,可以讓使用者在處理問題時更加方便簡易。Python 精準又高效的語言特征,用于文本挖掘,提取高頻詞匯具有很大的用處。所以,我們利用jieba 庫來對文本文件進行分詞處理,用wordcloud 模塊實現(xiàn)詞云效果,用imageio 庫將詞云顯示在圖片中,提高可讀性。
文本可視化方法的實現(xiàn),主要借用Python 中的第三方庫。先對中文文本進行分詞處理,將處理好的高頻詞匯以詞云形式顯示,同時導入背景人物圖,再將最后的結果呈現(xiàn)到png 格式的圖片文件中。
在實現(xiàn)文本可視化時,使用的工具為Python3.7 版本,可在官網(wǎng)中對照電腦配置下載。但下載時需要添加到環(huán)境變量中,安裝組件包括Python 文檔文件、pip 包工具、開發(fā)環(huán)境、啟動器等。同時需要使用到以下幾個第三方庫:jieba 庫、wordcloud 庫以及imageio 庫,可以在命令行中直接使用"pip install jieba"來下載jieba 庫,其余第三方庫同理。下面來對這幾個庫的功能進行簡述:
首先是jieba 庫,它是優(yōu)秀的中文分詞第三方庫,可以通過對中文進行分詞處理來獲得其中的單個詞語,所以我們可以利用它,來從文本文件大段的內(nèi)容中提取出單個的高頻詞匯,提取文本內(nèi)容中出現(xiàn)概率比較大的詞語,完成分詞。jieba 庫分詞有三個模式:精準模式、全模式和搜索引擎模式。
其次是wordcloud 庫,它可以以詞云形式展示內(nèi)容,詞云以單個詞語為基本單位,對文本的展示更加清晰明了,并且它可以根據(jù)文本中詞語出現(xiàn)的頻率等參數(shù)來繪制詞云,所以在使用時,可以對主要任務以及中心內(nèi)容有一個更加直觀的了解。
最后使用imageio 庫對圖片進行處理,這個第三方庫提供了一個簡單的接口來讀取和寫入各種圖像數(shù)據(jù)。通過調(diào)用這個庫,我們可以將文本挖掘的結果在圖片上展示出來,以增加閱讀過程的趣味性。
我們選取四大名著之一的《三國演義》來作為研究的文本對象,將三國演義小說中關鍵人物以及事件以詞云方式展示出來,并把生成的結果放置到人物背景圖片中,幫助讀者更直觀地了解本書內(nèi)容。
要提取文件中的內(nèi)容,首先就要使用"with open() as f" 語句打開文件,把txt 文件存放到f 這個變量中,open()函數(shù)里存放要打開的文本文件路徑、文件名以及文件擴展名,打開方式為"r"可讀模式。文件打開之后,使用data = f.read()語句讀取txt文件并存放到變量data 中,接著使用jieba 庫中的Icut()精準模式對存放到data 變量中txt 文件進行分詞,精準模式可以精準地將句子分割,更適用于文本文件,分詞返回結果為列表數(shù)據(jù)類型。我們再設置一個空列表,用for 循環(huán)把上一步分詞列表中存在的單個詞語過濾掉,剩下的詞語存放到新列表中。最后,我們把列表轉換成字符串,使用join()函數(shù)以空格拼接字符串。具體代碼展示如圖1 所示。
圖1 分詞過程代碼展示
分詞部分功能完成之后,還要將分詞結果展示在生成的詞云圖片中。首先要導入背景圖片到詞云,我們選取三國人物之一——曹操,作為背景圖片,使用imageio 庫中的工具imread(),把圖片導入進去。接著還要使用wordcloud 庫,把詞云顯示在圖片中,詞云設置參數(shù)包含:背景顏色、字體、圖片寬高、詞云形狀等,詞云會依據(jù)詞語出現(xiàn)的頻率來顯示字體大小,出現(xiàn)頻率越高,則顯示的字體越大,最后再設置生成的圖片名稱及格式。具體代碼展示如圖2 所示。
圖2 詞云圖片生成過程代碼展示
“曹操”原圖如圖3 所示,程序最后生成文本可視化的圖片如圖4 所示。
圖3“曹操”原圖展示
圖4 文本可視化處理后圖片展示
由程序運行結果可以看出,《三國演義》中出現(xiàn)頻率最高的幾個詞匯為“將軍”、“曹操”、“孔明”,主要人物也在圖片中展示出來。分詞過程中的過濾詞匯功能也會把特殊的字符等在文章中出現(xiàn)的高頻單個詞匯去除,從而提高分詞的精確度。
通過調(diào)查與研究發(fā)現(xiàn),Python 中用于文本可視化的方法有很多,都能夠在某一方面展現(xiàn)出文本內(nèi)容的特點。本文使用到的是基于詞云的文本可視化,除此之外,還有基于數(shù)圖的文本可視化、基于關聯(lián)詞的文本可視化、基于時間的文本可視化等等。不同的文本可視化處理方式,對于展示出來的文本可視化內(nèi)容側重點也不同。
基于數(shù)圖的文本可視化內(nèi)容化的方法, 是利用不同面積的塊元素描述個體與個體之間的關系,和基于詞云的文本可視化相同的一點,都是能夠讓用戶簡單快捷地了解文本內(nèi)容。基于關聯(lián)詞的文本可視化方法,顧名思義,可以通過對文本的處理,將文本中的此為關系通過點線圖的形式展示,能夠展示文本多維度的信息?;跁r間的文本可視化方式,可以應用于平臺熱點話題榜單,他能夠依據(jù)時間變化來展示某個熱點事件的信息傳播和流動的規(guī)律。
文本可視化方法實現(xiàn)的主要思路,首先要對文本數(shù)據(jù)進行分詞處理,這個過程中會篩選出其中隱含的字符和其他編碼信息,并且也可以把經(jīng)常出現(xiàn)的一些高頻口語化內(nèi)容剔除,將保留名詞類詞組信息存放到變量中,最后再呈現(xiàn)到圖片中。
總結起來就是以下三個步驟:信息采集、預處理、視覺呈現(xiàn)。信息采集對于所有文本可視化方法來說都是至關重要的基礎步驟,可以是某一段文字,可以是某一本書,也可以是通過Python 爬蟲爬取的某個商品或者歌曲的評論信息,這些都可以用作文本可視化的初始信息。預處理就是對于采集到的文本信息進行一系列操作的過程,包括分詞、提取高頻詞匯等,預處理完成之后的結果,就是我們需要呈現(xiàn)在某個可視化的圖片或者表格中的信息。所以最后一步視覺呈現(xiàn)需要根據(jù)預處理后的元素、分詞數(shù)量選擇合適的展示形式。
文本可視化在提取關鍵信息方面可以起到很大作用,目前作用范圍也比較廣泛,很多音樂平臺的歌曲評論都會使用到文本可視化來提取用戶評論的高頻詞匯。對互聯(lián)網(wǎng)中廣泛信息進行處理的技術,將會在現(xiàn)在和未來產(chǎn)生巨大影響。