李文峰 宗佳佳 唐善成 張鏷月 李大娟 陳熊熊
摘? 要: 移動互聯(lián)網(wǎng)時代,信息種類豐富,獲取途徑多樣,稅務(wù)信息對專業(yè)性和準(zhǔn)確性的要求尤為嚴(yán)格。針對由此產(chǎn)生的檢索難度上升、檢索精準(zhǔn)度下降的問題,結(jié)合國家稅務(wù)總局“互聯(lián)網(wǎng)+稅務(wù)”行動計劃,提出基于主流即時通信軟件的納稅服務(wù)平臺,以人工智能技術(shù)輔助稅務(wù)信息的檢索。利用以自然語言處理為核心的智能信息檢索技術(shù),對檢索人輸入文本進(jìn)行文本提取、特征項(xiàng)提取、利用夾角余弦法進(jìn)行語義相似度計算并檢索輸出,實(shí)現(xiàn)稅務(wù)信息的智能問答功能,提供納稅人辦稅所需的各項(xiàng)稅務(wù)服務(wù)信息。最終實(shí)現(xiàn)以納稅人為中心,以實(shí)際問題為導(dǎo)向的稅務(wù)服務(wù),助推稅務(wù)服務(wù)的現(xiàn)代化、信息化、智能化發(fā)展。
關(guān)鍵詞: 微信納稅平臺; 互聯(lián)網(wǎng)+稅務(wù); 自然語言處理; 人工智能; 智能信息檢索; 語義相似度計算
中圖分類號: TN911?34? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識碼: A? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2020)05?0019?03
WeChat tax payment platform based on natural language processing
—A case of tax service of Weinan city in Shaanxi province
LI Wenfeng, ZONG Jiajia, TANG Shancheng, ZHANG Puyue, LI Dajuan, CHEN Xiongxiong
(School of Communication and Information Engineering, Xian University of Science and Technology, Xian 710054, China)
Abstract: There are many types of information in the era of the mobile Internet and the ways to get the information are diversified. The requirements for professionalism and accuracy of tax information are particularly strict. In view of the resulting problem of difficulty increase and accuracy decrease of the retrieval, a tax service platform based on mainstream instant messaging software is proposed in combination with the "Internet + tax" action plan proposed by the State Administration of Taxation (SAT), which assists the tax information retrieval with artificial intelligence technology. The intelligent information retrieval technology which takes natural language processing as the core is utilized to exert the text extraction and feature item extraction upon the retriever′s input text, and semantic similarity calculation and retrieval output are performed with the included angle cosine method, thus realizing the intelligent question?and?answer function of tax information and providing various tax service information required by taxpayers for tax payment. Finally, the taxpayer?centered and practical issue?oriented tax service is realized, which promotes the modernization, informatization and intelligent of tax services.
Keywords: WeChat tax payment platform; Internet + tax; natural language processing; artificial intelligence; intelligent information retrieval; semantic similarity computing
0? 引? 言
稅收是國家財政收入的主要來源,隨著社會發(fā)展,財稅體制也進(jìn)行著不斷探索與改革。我國現(xiàn)行增值稅、消費(fèi)稅等十余項(xiàng)稅種[1],辦稅指南信息涉及信息報告、發(fā)票辦理、申報納稅、優(yōu)惠辦理、證明辦理、出口退(免)稅、國際稅收、清稅注銷、信用評價、權(quán)益保護(hù)、涉稅專業(yè)服務(wù)等多方面,針對不同納稅主體的不同稅務(wù)服務(wù)信息需求,精準(zhǔn)推送報送資料、辦理渠道、辦理時限、注意事項(xiàng)及相關(guān)政策依據(jù)等納稅服務(wù)信息,簡化優(yōu)化納稅人辦稅流程,需要特別關(guān)注。
同時,伴隨互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展成熟,即時通信軟件已經(jīng)成為常見的日常通信手段,根據(jù)2017年11月騰訊官方發(fā)布的《2017微信數(shù)據(jù)報告》,截至當(dāng)時微信日登錄用戶已超9億,較前一年增長[2]17%。龐大的用戶基數(shù)為基于微信開發(fā)的各項(xiàng)服務(wù)平臺提供了可能,催生出多種產(chǎn)業(yè)在互聯(lián)網(wǎng)時代下新的運(yùn)營發(fā)展模式,充分利用網(wǎng)絡(luò)資源,構(gòu)建智能化、一體化的服務(wù)平臺。
而目前,陜西省渭南市國地稅稅務(wù)服務(wù)系統(tǒng)主要采用稅務(wù)服務(wù)大廳現(xiàn)場咨詢和稅務(wù)系統(tǒng)官網(wǎng)查詢,在稅務(wù)大廳放置的二維碼雖然也可以為納稅人提供在移動端查詢獲取各自所需的辦稅信息的渠道,如圖1所示,但是,經(jīng)粗略統(tǒng)計,省稅務(wù)局“辦稅指南二維碼”上就有110個二維碼,納稅人在掃描二維碼獲取所需稅務(wù)服務(wù)信息時時常會遇到“選擇困難癥”而無所適從,無法及時高效地獲取有效稅務(wù)服務(wù)信息。
針對上述情況,本文提出了基于自然語言處理的微信納稅服務(wù)平臺,通過智能檢索實(shí)現(xiàn)模糊匹配的自動問答系統(tǒng),在大大降低了對用戶專業(yè)性的需求、減少了納稅人大量時間成本的同時,也能針對用戶需求,為智能推送定制化的稅務(wù)服務(wù)信息提供依據(jù)和渠道,以降低征納成本、提高稅務(wù)服務(wù)質(zhì)量、構(gòu)建智能化稅務(wù)服務(wù)體系。
1? 自然語言處理
信息的檢索本質(zhì)上是用戶的信息檢索需求和數(shù)據(jù)庫存儲信息之間的匹配過程[3]。隨著互聯(lián)網(wǎng)技術(shù)的跨越式發(fā)展,綜合利用互聯(lián)網(wǎng)技術(shù)、通信技術(shù)、數(shù)據(jù)庫技術(shù)進(jìn)行信息的檢索得到了廣泛關(guān)注,如何在海量的多媒體信息中過濾掉無用部分,檢索到有用信息,相關(guān)檢索技術(shù)的研究取得了豐碩成果,其中就包含了對于自然語言的處理。
自然語言處理就是計算機(jī)對人類所使用的口頭或書面形式的自然語言進(jìn)行各種處理、加工的技術(shù),這種技術(shù)能夠?qū)⒆匀徽Z言翻譯為計算機(jī)語言,以便計算機(jī)更容易地接受和執(zhí)行人類以自然語言形式輸入的指令,是發(fā)展人工智能技術(shù)的基礎(chǔ)[3]。將自然語言處理應(yīng)用于信息的檢索,使得檢索技術(shù)邁向了智能檢索的方向,檢索的效率和準(zhǔn)確性將得到進(jìn)一步的提升。智能信息檢索的核心在于文本相似度的計算。文本相似度計算主要從分詞、去停用詞、特征項(xiàng)提取、權(quán)值計算、相似度度量等方面著手,以取得更高效、更精確的處理結(jié)果[4]。
1.1? 分詞處理
中文區(qū)分于英文的最大特點(diǎn)在于中文沒有明確的分割符,而是通過字與字之間的不同組合來表達(dá)詞義,甚至在不同語境中,相同的字詞還會表示不同的語義,極大提升了自然語言理解的復(fù)雜性。進(jìn)行分詞處理可以將文本優(yōu)化為更具結(jié)構(gòu)化的表示后再進(jìn)行后續(xù)處理。目前主流的中文分詞方法主要有基于字串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法[5?7]。
1.2? 去停用詞
停用詞是指文本中大量出現(xiàn)的但沒有實(shí)際意義或?qū)渥诱Z義理解作用不大的詞,如嘆詞、連詞、冠詞等均屬其中。停用詞對句子語義的貢獻(xiàn)非常小,在分詞結(jié)束后過濾掉這些停用詞能夠更好地優(yōu)化算法。
1.3? 特征項(xiàng)提取
文本的特征項(xiàng)是能夠表征文本含義的單元。從特征項(xiàng)的層級來說,由低到高可以分為字、詞、短語等。在多數(shù)情況下,層級高的特征項(xiàng)能夠表述更完整的文本含義,但相對來說,也會對分詞等處理提出更高要求。同時,文本的特征表示,能夠幫助計算機(jī)將自然語言轉(zhuǎn)化為易于計算的特征向量[8],對于計算機(jī)處理和理解自然語言有極大簡化作用。當(dāng)前,獨(dú)熱編碼(One?Hot Encoding)、詞頻?逆文件頻率(TF?IDF)技術(shù)[9?10]等多種方法都可以應(yīng)用在文本的特征項(xiàng)提取中。
1.4? 語義相似度計算
通過特征項(xiàng)提取,文本已經(jīng)被轉(zhuǎn)化為空間向量表示,文本的語義相似度計算也就被轉(zhuǎn)化為了向量之間的相似度度量。一般向量計算相似度有如下方法:向量內(nèi)積、歐氏距離、夾角余弦和絕對值距離等[11]。
2? 微信納稅服務(wù)平臺
在互聯(lián)網(wǎng)技術(shù)極大發(fā)展的時代背景下,開發(fā)基于即時通信軟件的納稅服務(wù)平臺是適應(yīng)更多人使用習(xí)慣、合乎信息時代發(fā)展條件下稅務(wù)服務(wù)信息化、智能化發(fā)展要求的一項(xiàng)工作。本文提出的基于自然語言處理的微信納稅服務(wù)平臺的主要功能是提供稅務(wù)部門與納稅主體之間的稅務(wù)服務(wù)信息交互渠道,以人工智能技術(shù)輔導(dǎo)納稅人對所需稅務(wù)服務(wù)信息的智能模糊檢索,提供稅務(wù)業(yè)務(wù)描述、辦理流程、政策依據(jù)、辦理時限、報送資料、辦理地址等信息的自助問答,切入其痛點(diǎn),也可為未來針對性推送繳稅提醒、相關(guān)法律法規(guī)更新、稅務(wù)信息查詢等服務(wù)信息提供渠道和依據(jù),充分利用互聯(lián)網(wǎng)+的服務(wù)模式優(yōu)勢,使納稅人能更方便、快捷、高效地獲取稅務(wù)服務(wù)信息。
本文提出的基于微信客戶端的納稅服務(wù)平臺的系統(tǒng)體系結(jié)構(gòu)如圖2所示。用戶提交給納稅服務(wù)平臺的消息將會首先傳遞到騰訊服務(wù)器,再轉(zhuǎn)發(fā)至納稅服務(wù)平臺的服務(wù)器,在服務(wù)器接收到請求后,將進(jìn)行消息格式的解析,根據(jù)用戶消息內(nèi)容和設(shè)定的服務(wù)器邏輯,計算需要返回的消息,再封裝經(jīng)由微信后臺轉(zhuǎn)發(fā)至用戶的微信移動客戶端,國家納稅指南Web服務(wù)器、陜西省稅務(wù)服務(wù)器作為已有服務(wù)器,可以為微信智能納稅服務(wù)平臺服務(wù)器提供Web服務(wù)。
納稅服務(wù)平臺進(jìn)行智能模糊檢索時的技術(shù)方案如圖3所示,主要由微信納稅服務(wù)平臺界面、文本提取模塊、文本特征項(xiàng)提取模塊、數(shù)據(jù)庫、語義相似度計算模塊和索引模塊組成。
在特征項(xiàng)提取模塊,微信納稅服務(wù)平臺使用One?Hot編碼進(jìn)行特征項(xiàng)的提取,將文本轉(zhuǎn)化為計算機(jī)能夠理解和處理的二進(jìn)制編碼;而在語義相似度計算模塊,微信納稅服務(wù)平臺使用夾角余弦法計算向量的相似度。
對于向量[x=(x1,x2,…,xn)],[y=(y1,y2,…,yn)],相似度[Sim(x,y)]的計算公式如下[3,12]:
[Sim(x,y)=i=1nxi?yii=1nx2i?i=1ny2i]
索引模塊的主要功能就是對計算得到的語義相似度值進(jìn)行正向排序,將其中相似度值最高的三項(xiàng)作為檢索結(jié)果順序輸出,若相似度值高于設(shè)置的閾值0.8,視為精確檢索,將唯一輸出此項(xiàng)檢索結(jié)果,而當(dāng)相似度值低于所設(shè)閾值0.1時,則視為檢索失敗。微信納稅服務(wù)平臺的檢索結(jié)果展示如圖4所示。