劉 銳河南省鄭州市消防支隊信息通信科,河南鄭州 450001
基于大數(shù)據(jù)的消防產(chǎn)品評價系統(tǒng)
劉 銳
河南省鄭州市消防支隊信息通信科,河南鄭州 450001
目前,大數(shù)據(jù)的應(yīng)用已經(jīng)滲透到各個領(lǐng)域,但在消防部隊仍處于初級階段,如何有效應(yīng)用大數(shù)據(jù)技術(shù)為消防部隊服務(wù),利用現(xiàn)有的海量數(shù)據(jù)和自然語言處理技術(shù),建立有效的關(guān)系模型,分析現(xiàn)有數(shù)據(jù)之間存在的關(guān)系,預(yù)測未來事物的發(fā)展趨勢,為消防滅火救援、消防防火執(zhí)法、消防部隊管理、消防裝備采購等方面提供輔助決策。在這篇文章中研究和討論是利用計算機自然語言處理技術(shù)對相關(guān)消防產(chǎn)品的海量評論數(shù)據(jù)進行挖掘,判斷出這些評價信息的褒貶傾向和強度。經(jīng)過測試,正確率可達到89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
消防;大數(shù)據(jù);自然語言處理;輔助決策;褒貶傾向和強度
隨著網(wǎng)絡(luò)數(shù)據(jù)的不斷增加,在網(wǎng)絡(luò)上關(guān)于消防產(chǎn)品的信息也不斷增多。大數(shù)據(jù)的處理在消防上的應(yīng)用也越來越廣泛。一些消防類產(chǎn)品會有成百上千的評論文章,在這些評論中會有用戶對相關(guān)消防產(chǎn)品的評價信息。當(dāng)用戶在了解某個消防產(chǎn)品或者廠家需要了解需求的時候,這些信息就顯得尤為重要。但面對這些海量的信息,如果使用人工閱讀和判斷就顯得較為困難,會耗費大量的人力和物力,也很難做出準(zhǔn)確的決定。面對這些問題,利用計算機處理海量數(shù)據(jù)的優(yōu)勢,對評價信息做出判斷是最方便快捷的應(yīng)用。在這篇文章中研究和討論是利用計算機自然語言處理技術(shù)對相關(guān)消防產(chǎn)品的海量評論數(shù)據(jù)進行挖掘,判斷出這些評價信息的褒貶傾向和強度。經(jīng)過測試,正確率可達到89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
在對相關(guān)產(chǎn)品進行評價之前,需要建立相關(guān)的基礎(chǔ)資源,如影響元素數(shù)據(jù)表、組合元素、產(chǎn)品數(shù)據(jù)表、詞義傾向性數(shù)據(jù)表、相關(guān)特征數(shù)據(jù)、清除元素、特殊元素等等。
1.1影響元素數(shù)據(jù)表
一段評論或文章中的某些詞本身并不具有褒貶傾向性的意義,但是它對句子的褒貶程度會產(chǎn)生一定的影響力,例如程度副詞或否定副詞等詞語,起到了增強、減弱和否定等作用,在此我們會對這些元素用不同的符號進行標(biāo)注表示不同的影響程度。
一些影響元素需要和褒貶詞有一定的間隔限制才會影響到句子的褒貶程度。例如,“AT消防車外部的電子液位顯示器絕對是為了讓消防員更便捷的掌握消防車液位量而設(shè)計的?!逼渲小氨憬荨笔菍T消防車的評價,但影響元素“絕對”并不能增強評論人員對AT消防車的感情色彩。我們規(guī)定影響元素必須與褒貶詞緊鄰或者之間由“那么、這么、是、得”等詞間隔時才會起作用。
還存在一些情況,如“一七消防車的器材箱門沒有一絲的瑕疵”,“瑕疵”是貶義的,加上了“沒有”就起到了否定的作用。
1.2組合元素
一些詞語雖然本身并沒有什么意義,但如果與另一些詞搭配使用時就會帶有傾向性的意義,例如“性價比高”“噪聲低”,其中“高”“低”本身無褒貶性,但與前面的詞語搭配使用就具有了褒貶性。
1.3產(chǎn)品數(shù)據(jù)表
本文研究的主要是對一些消防產(chǎn)品進行評價,被評價的消防產(chǎn)品就是產(chǎn)品數(shù)據(jù)。例如一七消防車、大力水泵、海洋王頭燈等。系統(tǒng)分析一個品牌消防產(chǎn)品的不同形式的全部信息,即將一個產(chǎn)品的所有相關(guān)信息都映射到它本身。
1.4詞義傾向性數(shù)據(jù)表
一個信息的傾向性主要是由褒貶詞決定的,對這些詞匯的提取工作是最基礎(chǔ)也是最重要的。可以根據(jù)詞匯的褒貶程度再進行細分,可將其劃分為加強褒、褒、加強貶和貶,用“+、-、*、~”來表示。
在判斷一個詞的褒貶傾向性的時候要考慮到領(lǐng)域、詞性等因素,一個詞放在某個句子時是褒義的,但放在另一個句子是可能就會是貶義的,因為我們研究的是基于消防產(chǎn)品的評價,所以我們只考慮在消防領(lǐng)域中的表達意義。當(dāng)然也需要考慮詞性的問題,當(dāng)一個詞為形容詞時它可能表示的是貶義,但為動詞時就表示褒義,所以這就需要利用自然語言處理的分詞技術(shù)對語料進行提前的標(biāo)注。
1.5相關(guān)特征數(shù)據(jù)
相關(guān)特征數(shù)據(jù)即對每一個消防產(chǎn)品都有一個特征數(shù)據(jù)表,特征數(shù)據(jù)表的每一個信息都是該產(chǎn)品的一部分。例如一個4G圖像傳輸設(shè)備的特征數(shù)據(jù)表中有電池、攝像頭、連接線等等。
1.6清除元素
一些詞本身是有意義的,但如果與另一些詞搭配使用就會失去意義,如“用這樣的方法改裝消防車是否成功有待在實戰(zhàn)中進一步驗證”,“成功”是褒義的,但與“是否”搭配后就失去了意義。所以我們會把這樣的句子做清除處理。
1.7特殊元素
一些詞語與褒義詞連用就會形成貶義,如“過”字的出現(xiàn),對于這些組合我們也要考慮到并做出處理。
2.1功能
收集大量的消防產(chǎn)品評價信息,對其進行分詞,并對相關(guān)產(chǎn)品及特征進行評價,給出詳細的評分。
2.2流程
輸入信息庫數(shù)據(jù),利用自然語言處理分詞技術(shù)進行分詞后選擇需要憑評價的產(chǎn)品進行測評。系統(tǒng)會利用前期建立的資源進行遍歷,最終計算出每篇文章的得分和得分細節(jié)。
收集了1 000余篇文章進行了評價,這些文章前期已經(jīng)經(jīng)過了評價,但沒有對相關(guān)產(chǎn)品和產(chǎn)品特征進行評價,得出實驗結(jié)果為:用所有資源評價整篇文章褒貶的正確率為89%,僅用褒貶詞評價整篇文章的正確率為88%,由此可以看出褒貶詞對文章的褒貶性的影響是非常大的。
在用上影響元素和組合元素后正確率略微提升,但實驗中發(fā)現(xiàn)影響元素和組合元素在判讀傾向性級別和強度時是很有用的。
在實驗中我們發(fā)現(xiàn),系統(tǒng)對于一些中性的文章評價效果不好。
在這篇文章中我們研究和討論了如何利用計算機自然語言處理技術(shù)對相關(guān)消防產(chǎn)品的海量評論數(shù)據(jù)進行挖掘,判斷出這些評價信息的褒貶傾向和強度。系統(tǒng)的正確率為89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
雖然取得了良好的效果,但系統(tǒng)還有許多需要改進的地方:一是提升分詞的正確率;二是對一些特殊語句的處理有待進一步提高;三是在處理詞匯間的連詞放面有待進一步改善。
目前我們已經(jīng)進入了大數(shù)據(jù)時代,大數(shù)據(jù)給我們帶來的好處已經(jīng)隨處可見,我們可以利對大數(shù)據(jù)分析和挖掘來提升我們的工作效率、增強對事物判斷的準(zhǔn)確性,消防工作更離不開大數(shù)據(jù)應(yīng)用的支持,我們將不斷探索和研究大數(shù)據(jù)在消防行業(yè)中的應(yīng)用,讓其更好地為消防事業(yè)服務(wù)。
[1]Turney P, Littman M. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems (TOIS), 2003, 21(4): 315-346.
[2]RWM Yuen, TYW Chan, TBY Lai, OY Kwong, BKY Tsou. Morpheme-based Derivation of bipolar semantic orientation of Chinese words. Proceedings of the 20th International Conference on Computational Linguistics (COLING-2004), 2004, pp. 1008.
[3]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C]. In Proceedings of joint conference on Human Language Technology Conference on Empirical Methods in Natural Language Processing (HLT/ EMNLP’05), 2005: 347-354.
[4]R. Xu, K.F. Wong and Y. Xia. Opinmine-Opinion Analysis System by CUHK for NTCIR-6 Pilot Task. Proc. of NTCIR-6. 2007.
[5]B Liu, M Hu, J Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web. In: Proceedings of WWW’05, the 14th International Conference on WorldWide Web,Chiba, Japan, 2005:342-351.
F4
A
1674-6708(2016)170-0070-02
劉銳,助理工程師,河南省鄭州市消防支隊信息通信科,研究方向為計算機。