摘 要:目前大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用到各行各業(yè)的文本數(shù)據(jù)分析領(lǐng)域。Python作為大數(shù)據(jù)處理和分析的首選編程語言,尤其在中文文本的識別、分析、處理方面具備絕對優(yōu)勢。文章以深圳國海創(chuàng)新資本數(shù)據(jù)匹配項(xiàng)目為實(shí)際案例,介紹大數(shù)據(jù)技術(shù)在金融領(lǐng)域中的中文文本數(shù)據(jù)分析應(yīng)用。整個數(shù)據(jù)分析匹配過程包括數(shù)據(jù)預(yù)處理、列表數(shù)據(jù)元素匹配、輸出匹配結(jié)果三個步驟。研究成果為大數(shù)據(jù)在金融行業(yè)的廣泛應(yīng)用提供了具體的技術(shù)方法和研究思路。
關(guān)鍵詞:大數(shù)據(jù);中文文本;數(shù)據(jù)分析
1 引言
近年來,隨著全球數(shù)字化信息數(shù)據(jù)量呈爆發(fā)式增長,大數(shù)據(jù)已經(jīng)滲透到各行各業(yè),相應(yīng)誕生的大數(shù)據(jù)技術(shù)也迅猛發(fā)展,也被人們用來解決各種實(shí)際問題。Python這門編程語言異軍突起,目前已經(jīng)成為大數(shù)據(jù)處理和分析的首選編程語言。原因有以下幾個:第一、Python是一種開源的解釋型腳本語言、簡單易學(xué)。第二,和C++、Java一樣,Python也是一種面向?qū)ο缶幊陶Z言,具備封裝、繼承、多態(tài)三大特性。第三,Python的跨平臺性良好、可擴(kuò)展性強(qiáng)、代碼重用性高。第四、Python為我們提供了豐富的第三方庫、應(yīng)用廣泛。Python不僅僅可以用來做系統(tǒng)編程、圖形處理、GUI編程,而且目前一些非?;鸨母拍畋热缇W(wǎng)絡(luò)爬蟲、人工智能、大數(shù)據(jù)、云計(jì)算等都將Python視為首選語言。另外,Python在中文文本的識別、分析、處理方面相比較于其它編程語言具備絕對優(yōu)勢。所以,目前政府機(jī)構(gòu)使用的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)、金融領(lǐng)域的量化投資分析都使用到Python。
本文以深圳國海創(chuàng)新資本數(shù)據(jù)匹配項(xiàng)目為實(shí)際案例,演示如何利用大數(shù)據(jù)技術(shù)解決目前金融領(lǐng)域中相關(guān)中文文本數(shù)據(jù)分析問題。
2 問題描述
2.1 項(xiàng)目需求
深圳國海創(chuàng)新資本有限公司給我們提供了大量的excel文件,每個文件里有數(shù)千條數(shù)據(jù)。每條數(shù)據(jù)由4列信息(代碼、名稱、發(fā)行對象、股東信息)組成。每條數(shù)據(jù)中發(fā)行對象中有若干成員(>=1)、股東信息中有若干成員(>=1)。發(fā)行對象中若干成員(>=1)只要出現(xiàn)在股東信息中,該公司認(rèn)為該條數(shù)據(jù)發(fā)行對象與股東信息之間存在關(guān)聯(lián)性。否則,則不存在關(guān)聯(lián)性。該公司要求我們準(zhǔn)確標(biāo)記出每條數(shù)據(jù)發(fā)行對象和股東信息之間是否存在關(guān)聯(lián)性。存在,則關(guān)聯(lián)性標(biāo)注為1。不存在,則關(guān)聯(lián)性標(biāo)注為0。
所提供的excel表格數(shù)據(jù)內(nèi)容如圖1所示。其中第3條數(shù)據(jù)發(fā)行對象中的成員北京盈谷信曄投資有限公司出現(xiàn)在了該條數(shù)據(jù)對應(yīng)的股東名稱當(dāng)中,則認(rèn)為該條數(shù)據(jù)發(fā)行對象和股東名稱之間存在關(guān)聯(lián)性,需要將關(guān)聯(lián)性標(biāo)記結(jié)果為1。其中第5條數(shù)據(jù)發(fā)行對象中每一個成員都沒有出現(xiàn)在第對應(yīng)的股東名稱當(dāng)中,則該條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果需要標(biāo)記為0。
2.2 問題分析
顯然,這是一個中文字符串?dāng)?shù)據(jù)處理問題。其中涉及到中文字符串的預(yù)處理、匹配、輸出結(jié)果等操作。我們無法通過Excel自帶的公式來計(jì)算出每條數(shù)據(jù)的關(guān)聯(lián)性匹配結(jié)果。如果采用人工的方法進(jìn)行手動標(biāo)注,不僅僅費(fèi)時費(fèi)力,而且準(zhǔn)確性得不到保證。所以需要我們借助大數(shù)據(jù)技術(shù)通過編寫算法來解決。我們?nèi)绻x擇C++、Java等編程語言,它們處理中文字符串困難,相關(guān)API接口函數(shù)都得自己寫,代碼量大、處理效果不佳。而Python在處理中文字符串方面擁有絕對優(yōu)勢,是解決該問題的首選。
3 數(shù)據(jù)處理和分析
整個數(shù)據(jù)處理和分析過程包含三個步驟,分別是數(shù)據(jù)預(yù)處理、列表數(shù)據(jù)元素匹配、輸出匹配結(jié)果。我們選擇使用Python中常見的數(shù)據(jù)結(jié)構(gòu)——列表來存儲數(shù)據(jù)。整個數(shù)據(jù)處理和分析流程圖如圖2所示。
3.1 數(shù)據(jù)預(yù)處理
首先,將Excel表格數(shù)據(jù)中的發(fā)行對象信息和股東名稱信息這兩列復(fù)制出來,存放到txt文本文件內(nèi)。去除文本數(shù)據(jù)中的頓號,并將頓號替換為字母a和b。這樣做是為了方便我們后面編寫程序?qū)γ織l數(shù)據(jù)進(jìn)行分割切片。然后編寫程序?qū)⒚織l數(shù)據(jù)中的發(fā)行對象成員和股東名稱成員依次添加到對應(yīng)的列表中。具體程序?qū)崿F(xiàn)如圖3所示。
3.2 列表數(shù)據(jù)元素匹配
該步驟為解決該項(xiàng)目的核心算法。簡單來說,就是將發(fā)行對象列表中的每個元素和股東名稱列表中的每個元素逐一匹配。一旦有一個元素匹配成功,則該條數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)果置為1,否則為0。具體程序?qū)崿F(xiàn)如圖4所示。
3.3 輸出匹配結(jié)果
全部數(shù)據(jù)關(guān)聯(lián)性匹配結(jié)束后,我們將關(guān)聯(lián)性匹配結(jié)果列表里的數(shù)據(jù)輸出到Exce表格關(guān)聯(lián)性列中,如圖5所示,就完成了整個項(xiàng)目所有內(nèi)容。
圖5 輸出匹配結(jié)果
4結(jié)論
我們選擇Python作為開發(fā)語言,利用大數(shù)據(jù)處理和分析技術(shù)解決了深圳國海創(chuàng)新資本有限公司中文文本數(shù)據(jù)匹配難題,最終得到的關(guān)聯(lián)性匹配結(jié)果準(zhǔn)確率達(dá)到100%。將大數(shù)據(jù)技術(shù)應(yīng)用到金融領(lǐng)域,不僅僅可以為從業(yè)者或公司解決數(shù)據(jù)分析或處理方面的難題,而且可以大大的提高工作效率,節(jié)省時間成本。本項(xiàng)目中編寫的程序稍作修改,還可以更深入做中英文字符串查找、匹配、歸類、提取等操作,可以用來解決金融領(lǐng)域所遇到了類似問題。
參考文獻(xiàn):
[1] 諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報(bào)科學(xué),2007,25(7):1046-1051.
[2] 袁海,陳康,陶彩霞,等.基于中文文本的可視化技術(shù)研究[J].電信科學(xué),2014,30(4):114-121.
[3] 谷俊,王昊.基于領(lǐng)域中文文本的術(shù)語抽取方法研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2011,27(4):29-34.
[4] 黃冬,何睿.“大數(shù)據(jù)”認(rèn)知的語義網(wǎng)與情感傾向分析[J].中國文化產(chǎn)業(yè)評論,2015(2):335-347
[5] 季培培,鄢小燕,岑詠華.面向領(lǐng)域中文文本信息處理的術(shù)語識別與抽取研究綜述[J].圖書情報(bào)工作,2010,54(16):124-129.
[6] 康書生,曹榮.互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)在融資領(lǐng)域的應(yīng)用研究[J].金融理論與實(shí)踐,2014,1:1-08.
[7] 蔡慶豐,郭春松,陳詣之.大數(shù)據(jù)思維在金融學(xué)研究中的運(yùn)用[J].經(jīng)濟(jì)學(xué)動態(tài),2015,3:104-114.
[8] Liu B,Zhou X,Wang Y,et al.Data processing and analysis in real‐world traditional Chinese medicine clinical data:challenges and approaches[J].Statistics in medicine,2012,31(7):653-660.
[9] Syeda K N,Shirazi S N,Naqvi S A A,et al.Big Data and Natural Language Processing for Analysing Railway Safety:Analysis of Railway Incident Reports[M]//Innovative Applications of Big Data in the Railway Industry.IGI Global,2018:240-267.
作者簡介:
汪洋(1991.09——)男,漢族,四川城市職業(yè)學(xué)院 汽車與信息工程學(xué)院 四川省成都市 助教 碩士 主要 研究領(lǐng)域大數(shù)據(jù)、人工智能等。
基金項(xiàng)目:
本論文需掛四川城市職業(yè)學(xué)院校級課題,課題名稱《基于大數(shù)據(jù)的中文文本情感分析研究——以電商平臺熱銷手機(jī)用戶評論為例》,課題編號CS19KYYB10)。