姜 恒,郭淑霞
(北京市市政工程設(shè)計研究總院有限公司,北京 100082)
詞頻統(tǒng)計(Word Frequency Count)是一種詞匯分析研究方法,通過統(tǒng)計一定長度的語言材料中每個詞出現(xiàn)的次數(shù),分析統(tǒng)計結(jié)果,以便描繪詞匯規(guī)律。信息可視化(Information Visualization)是將抽象數(shù)據(jù)用可視的形式表示出來,以利于分析數(shù)據(jù)、發(fā)現(xiàn)規(guī)律(或信息)和制定決策。隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展,這些統(tǒng)計分析方法得到了廣泛的應(yīng)用。如研制一套微博熱詞發(fā)現(xiàn)和分析系統(tǒng),提供從微博數(shù)據(jù)中發(fā)現(xiàn)熱詞、情感分類等功能,以及綜合評價人們用自然語言描述同一路段道路通行狀況時該路段的交通擁堵程度。以交通領(lǐng)域項目信息為研究對象,進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化,希望了解國內(nèi)交通領(lǐng)域項目近年來主要的關(guān)注領(lǐng)域、重點發(fā)展方向等。
國內(nèi)近年交通規(guī)劃類項目最佳來源是招投標(biāo)信息。我國2000年就開始實施的《中華人民共和國招標(biāo)投標(biāo)法》規(guī)定,采用公開招標(biāo)方式的,應(yīng)當(dāng)通過國家指定的報刊、信息網(wǎng)絡(luò)或者其他媒介發(fā)布招標(biāo)公告。原國家發(fā)展計劃委于2000年印發(fā)《招標(biāo)公告發(fā)布暫行辦法》(國家發(fā)展計劃委第4號令),依法確定中國日報、中國經(jīng)濟導(dǎo)報、中國建設(shè)報、中國采購與招標(biāo)網(wǎng)(“三報一網(wǎng)”)為發(fā)布招標(biāo)公告的媒介。2017年底,國家發(fā)展改革委印發(fā)《招標(biāo)公告和公示信息發(fā)布管理辦法》(國家發(fā)展改革委第10號令),依法確定招標(biāo)項目應(yīng)當(dāng)發(fā)布在“中國招標(biāo)投標(biāo)公共服務(wù)平臺”或者項目所在地省級電子招標(biāo)投標(biāo)公共服務(wù)平臺上,并且規(guī)定,“中國招標(biāo)投標(biāo)公共服務(wù)平臺”應(yīng)當(dāng)匯總公開全國招標(biāo)公告和公示信息。這些媒體和網(wǎng)站積累了大量的項目信息,數(shù)據(jù)非常權(quán)威。
通過對比數(shù)據(jù)獲取難度、數(shù)量和質(zhì)量,本文最終選擇了招標(biāo)投標(biāo)公共服務(wù)平臺作為數(shù)據(jù)源。
觀察獲得的數(shù)據(jù),發(fā)現(xiàn)只有“項目名稱”和“所屬地區(qū)”二個字段具有分析價值,“項目名稱”內(nèi)容都比較長,包含了過多的信息,屬于非結(jié)構(gòu)化文本,如果能對每個項目名稱進(jìn)行交通行業(yè)項目類型、領(lǐng)域的提取細(xì)分,形成一個標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,那么這次分析的結(jié)果會比較理想。但是這樣做需要投入較多的人工去整理數(shù)據(jù)庫,而且整理后的數(shù)據(jù)庫可能以后也不會復(fù)用,價值較低。
所以本文嘗試使用自然語言處理,通過中文分詞以后,進(jìn)行詞頻統(tǒng)計,來挖掘出有價值的信息。
本文使用Python語言,采用selenium+chrome的方式、以“交通規(guī)劃”為關(guān)鍵詞采集了2個月、10 050條數(shù)據(jù)。
采集到的數(shù)據(jù)有二個問題,一是存在大量“交通規(guī)劃”不相關(guān)數(shù)據(jù);二是數(shù)據(jù)存在重復(fù)現(xiàn)象,主要原因是招投標(biāo)不同階段發(fā)布信息,以及匯總其他平臺信息產(chǎn)生的。清洗后數(shù)據(jù)剩下4 653條。保留“項目名稱”和“所屬地區(qū)”字段,刪除其他字段后進(jìn)行分析。
對中文文本進(jìn)行分詞是一個自然語言處理的基礎(chǔ)性工作,國內(nèi)已經(jīng)開發(fā)出很多中文分詞工具,本文使用了結(jié)巴分詞,其算法主要有三點。
(1)基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(DAG)。
(2)采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合。
(3)對于未登錄詞,采用了基于漢字成詞能力的HMM模型,使用了Viterbi算法。
分詞工具提供了停用詞和自定義詞庫功能。本文用“停用詞”功能把不關(guān)注的詞剔除詞頻統(tǒng)計,如“重點”、“地區(qū)”等,以及沒有意義的單字詞“導(dǎo)”、“則”等,使用自定義詞庫功能加入專業(yè)名詞,如“綜合交通規(guī)劃”和“導(dǎo)則”等。在分析中,本文通過梳理部分招投標(biāo)項目信息,定義了100個自定義詞。通過應(yīng)用分詞工具的這兩個功能,本文得到和交通相關(guān)的詞語的詞頻統(tǒng)計。部分結(jié)果見表1。
表1 詞頻統(tǒng)計部分結(jié)果
數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。詞頻分析最常用的可視化方法是詞云圖,詞云圖對文本中出現(xiàn)頻率較高的“關(guān)鍵詞”予以視覺上的突出,形成“關(guān)鍵詞云層”或“關(guān)鍵詞渲染”,從而過濾掉大量的文本信息,使瀏覽者只要一眼掃過文本就可以領(lǐng)略文本的主旨。本文采用Wordcloud實現(xiàn)詞云圖。效果見圖1。
圖1 詞頻統(tǒng)計結(jié)果的矩形詞云圖
詞云圖還可以通過背景圖片定義形狀,使可視化效果更加生動。效果見圖2。
圖2 詞頻統(tǒng)計結(jié)果的馬形詞云圖
數(shù)據(jù)分析是核心,可視化只是表象,但是可視化是最終面對受眾的環(huán)節(jié),直接影響到受眾對分析成果的認(rèn)知和接受程度,所以非常有必要重視可視化的工作。
結(jié)合數(shù)據(jù)和圖表,大致可以看出交通領(lǐng)域關(guān)注的熱點。我們可以做出如下結(jié)論:在交通這個行業(yè),“交通”、“規(guī)劃”、“道路”、“設(shè)計”是主流,“街道”、“綠化”是人民群眾對美好生活的向往,“軌道交通”的熱潮方興未艾,伴著大數(shù)據(jù)的浪潮,“信息”(化)越來越受到重視,“戶戶通”改善農(nóng)村交通條件,讓偏遠(yuǎn)地區(qū)的農(nóng)民走出來,與外面的世界對接,經(jīng)過多年的快速發(fā)展,我們國家開始從增量轉(zhuǎn)向存量發(fā)展,關(guān)注“公交”、設(shè)施“升級”、道路“硬化”,這些提質(zhì)增效的項目,但是仍然能看出來,“開發(fā)區(qū)”依然是我們建設(shè)發(fā)展的重要手段。