国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

外事管理辦公室因公出國管理業(yè)務(wù)數(shù)據(jù)分析與應(yīng)用

2020-11-06 06:01:29符寧
科技創(chuàng)新與應(yīng)用 2020年31期
關(guān)鍵詞:數(shù)據(jù)分析數(shù)據(jù)管理

符寧

摘 ?要:政府外事管理辦公室的信息系統(tǒng)記錄了大量因公出國訪問申請和歸國總結(jié)報告數(shù)據(jù)。但是針對出國訪問數(shù)據(jù)的治理和分析研究還非常少,而且這些數(shù)據(jù)的管理和挖掘還面臨著數(shù)據(jù)異構(gòu)、非結(jié)構(gòu)化等挑戰(zhàn)。文章面向因公出國業(yè)務(wù)數(shù)據(jù),設(shè)計了一個大數(shù)據(jù)治理平臺,能夠?qū)υL問申請和總結(jié)報告實現(xiàn)統(tǒng)一的管理,并提出了包含多種組件的智能計算引擎,對數(shù)據(jù)進(jìn)行多方位的分析,設(shè)計了面向不同用戶的多種應(yīng)用。該平臺提升了出國訪問數(shù)據(jù)的治理效果,實現(xiàn)訪問成果的有效共享。

關(guān)鍵詞:文本處理;數(shù)據(jù)分析;數(shù)據(jù)管理;治理創(chuàng)新

中圖分類號:TP391 ? ? ? ? 文獻(xiàn)標(biāo)志碼:A 文章編號:2095-2945(2020)31-0184-03

Abstract: The information system of the government's Foreign Affairs Office records a large number of data about applications for visits abroad on business and reports on returning home. However, there are scant researches focused on the governance and analysis of overseas visit data, and the management and mining of these data are also faced with challenges such as heterogeneous and unstructured data. Aiming at the data of going abroad on business, this paper designs a big data governance platform, which can realize the unified management of applications for visits and summary reports, and puts forward an intelligent computing engine with multiple components to analyze the data in many directions. A variety of applications for different users are designed. The platform improves the governance effect of data about visits abroad and realizes the effective sharing of visit results.

Keywords: text processing; data analysis; data management; governance innovation

近些年,大數(shù)據(jù)技術(shù)快速發(fā)展,在很多領(lǐng)域都得到了廣泛應(yīng)用[1]。探索大數(shù)據(jù)技術(shù)在政務(wù)領(lǐng)域的應(yīng)用,能夠有效提升現(xiàn)有信息系統(tǒng)的智能化水平[2-3]。政府的外事管理辦公室記錄了因公出國訪問申請和總結(jié)報告數(shù)據(jù),其蘊含著豐富的知識[4]。但是,這些數(shù)據(jù)具有形式多樣、非結(jié)構(gòu)化等特點,難以進(jìn)行統(tǒng)一管理和挖掘,而且目前相關(guān)的研究還非常少。建設(shè)面向出訪數(shù)據(jù)的大數(shù)據(jù)分析平臺,對于提升出國訪問成果分享效果具有重要意義。

1 總體架構(gòu)

本論文使用某省市的外事管理辦公室出國團(tuán)組申報數(shù)據(jù)和出訪報告數(shù)據(jù),構(gòu)建面向出國訪問總結(jié)數(shù)據(jù)的大數(shù)據(jù)服務(wù)平臺,實現(xiàn)大數(shù)據(jù)技術(shù)在外事管理辦公室因公出國管理業(yè)務(wù)中的應(yīng)用。本論文構(gòu)建如圖1的大數(shù)據(jù)分析及應(yīng)用平臺,具體包括數(shù)據(jù)采集層、大數(shù)據(jù)管理平臺、智能計算引擎以及上層應(yīng)用和服務(wù)。數(shù)據(jù)采集層匯聚團(tuán)組申報數(shù)據(jù)和歸國總結(jié)報告數(shù)據(jù),以及互聯(lián)網(wǎng)文本數(shù)據(jù)。大數(shù)據(jù)管理平臺對數(shù)據(jù)進(jìn)行融合、處理、存儲并提供訪問接口。智能計算引擎是面向不同用戶需求,形成智能計算工具和組件。應(yīng)用和服務(wù)層建設(shè)面向多種類型用戶的大數(shù)據(jù)應(yīng)用。

2 數(shù)據(jù)基礎(chǔ)

數(shù)據(jù)包括團(tuán)組出國訪問申報信息和出訪報告數(shù)據(jù)。團(tuán)組申報數(shù)據(jù)是結(jié)構(gòu)化的表格數(shù)據(jù),顯式包含每次出訪的時間、地點、目的、人員信息等。出訪報告數(shù)據(jù)是非結(jié)構(gòu)化的文本數(shù)據(jù),包含顯式的出訪時間和單位等信息,以及學(xué)習(xí)內(nèi)容和成果等隱式信息。互聯(lián)網(wǎng)上爬取文本數(shù)據(jù)作為輔助信息,促進(jìn)自然語言處理方法的訓(xùn)練和使用。

3 大數(shù)據(jù)平臺

基于政府的外事管理辦公室因公出國訪問申報信息和出訪報告數(shù)據(jù),大數(shù)據(jù)管理平臺需要設(shè)計相應(yīng)的存儲和管理機制。包括數(shù)據(jù)訪問控制、分布式數(shù)據(jù)全量存儲、數(shù)據(jù)治理、專題數(shù)據(jù)庫、索引和接口等幾個模塊組成。

大數(shù)據(jù)管理平臺首先要從外事管理辦公室現(xiàn)有系統(tǒng)中獲取結(jié)構(gòu)化的組團(tuán)申報信息和非結(jié)構(gòu)化的出訪報告文本。數(shù)據(jù)訪問控制模塊需要與現(xiàn)有的系統(tǒng)相兼容,在不干擾業(yè)務(wù)正常運行的情況下,實現(xiàn)周期性地、定時地從現(xiàn)有管理系統(tǒng)中獲取組團(tuán)申報信息和出訪報告數(shù)據(jù)。

大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、數(shù)據(jù)類型多樣的特點。本論文借助Hadoop的HDFS等分布式存儲平臺,在保證數(shù)據(jù)安全存儲的基礎(chǔ)上,實現(xiàn)數(shù)據(jù)的快速訪問。本論文還結(jié)合MapReduce等分布式大數(shù)據(jù)處理技術(shù),實現(xiàn)對大數(shù)據(jù)的分布式快速處理,降低每臺服務(wù)器的負(fù)載,提升系統(tǒng)任務(wù)處理的吞吐率。

在將數(shù)據(jù)存儲到相應(yīng)的數(shù)據(jù)庫之前,需要對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)治理方法主要包括格式標(biāo)準(zhǔn)化、數(shù)據(jù)清洗等組件。對于數(shù)據(jù)的存儲要定義合適的數(shù)據(jù)格式,如時間、地點信息的存儲等。數(shù)據(jù)清洗包括刪除不完整的記錄、去除冗余數(shù)據(jù)、發(fā)現(xiàn)異常值等。針對缺失的數(shù)據(jù)字段,可以使用數(shù)據(jù)缺失值填充技術(shù),借助均值、最大最小值、默認(rèn)值等對數(shù)據(jù)進(jìn)行補全。

對于結(jié)構(gòu)化團(tuán)組申報數(shù)據(jù),可以使用關(guān)系型數(shù)據(jù)庫存儲。對于非結(jié)構(gòu)化數(shù)據(jù),即訪問報告,借助一些非關(guān)系型數(shù)據(jù)庫,包括Redis、MongoDB、HBase等[5],根據(jù)列或者鍵進(jìn)行索引,能夠有效提升數(shù)據(jù)查詢效率。

針對外事管理辦公室的公派出國訪問數(shù)據(jù),大數(shù)據(jù)管理平臺設(shè)計多種數(shù)據(jù)庫進(jìn)行存儲,有針對性地選擇數(shù)據(jù)庫和建立索引,并對上層提供統(tǒng)一訪問接口。

4 智能計算引擎

智能計算引擎利用自然語言處理技術(shù),構(gòu)建多種數(shù)據(jù)挖掘組件,實現(xiàn)對因公出國訪問大數(shù)據(jù)的智能化分析和挖掘。智能計算引擎主要由分詞及字典構(gòu)建、關(guān)鍵詞生成和索引、實體識別和關(guān)系抽取、報告質(zhì)量評估模型、文本分類、情感分析、報告檢索和排序、主題模型、編解碼摘要生成模型等幾個模塊組成。

分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。現(xiàn)有的分詞方法主要分為:基于字符串匹配的方法、基于理解的方法、基于統(tǒng)計的分詞方法。常用的字典構(gòu)建方法主要包括CBOW和Skip-gram,字典的構(gòu)建是進(jìn)行分詞、實體識別和抽取的基礎(chǔ),其中基于字符串匹配的分詞方法,也稱為基于詞典的分詞方法,是應(yīng)用最廣泛,分詞速度最快的分詞方法。

對關(guān)鍵詞進(jìn)行索引,可以大幅加快檢索、推薦的速度。模型輸入是分詞過后的所有在數(shù)據(jù)庫中的報告,每篇報告包含的是詞序列,輸出的是一個建立完成的索引。

實體識別的任務(wù)在于識別出待處理文本中的命名實體,包括實體邊界識別和確定實體類別兩個子任務(wù)。關(guān)系抽取是自動識別由一對概念和聯(lián)系這對概念的關(guān)系構(gòu)成的相關(guān)三元組。關(guān)系抽取包括傳統(tǒng)關(guān)系抽取和開放域關(guān)系抽取,傳統(tǒng)關(guān)系抽取的任務(wù)在于給定實體關(guān)系類別,給定語料,抽取目標(biāo)關(guān)系對,其評測預(yù)料為質(zhì)量高的專家標(biāo)注語料。

報告質(zhì)量評估模型對每一篇報告的質(zhì)量進(jìn)行評估。接收的數(shù)據(jù)是底層經(jīng)過預(yù)處理和分詞操作的文本數(shù)據(jù)以及結(jié)構(gòu)化的申請表信息,輸出的是對該報告的具體評分。

文本分類使用機器對文本集按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動分類標(biāo)記,是樸素貝葉斯分類方法。文本分類的核心方法為首先提取分類數(shù)據(jù)的特征,然后選擇最優(yōu)的匹配,其流程通常為預(yù)處理、文本表示及特征向量、構(gòu)造分類器、分類。文本分類基于分詞和實體識別與抽取的上層方法。

情感分析是對一個主觀的文本分析判斷說話者的情感色彩或者褒貶態(tài)度。整個情感分析模型接收的是經(jīng)過分詞和字典映射后的詞向量序列,輸出的是具有強烈褒貶情感的句子,以及整篇報告的情感傾向。

在對關(guān)鍵詞建立索引之后,每個鍵(key)對應(yīng)的值(value)都是一個列表或者類似的容器,其中存儲的是一系列出現(xiàn)過這個鍵的報告。對于不同的關(guān)鍵詞,每篇報告的權(quán)重是不同的,整篇報告與被搜索的關(guān)鍵詞的聯(lián)系越緊密、被點擊的次數(shù)越多,相應(yīng)的權(quán)重也應(yīng)該越高。

主題模型是以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)進(jìn)行聚類的統(tǒng)計模型。其主要被用于對文本的表征進(jìn)行降維、按主題對文本進(jìn)行聚類。

編碼-解碼模型(encoder-decoder模型)利用編碼的方法將原始數(shù)據(jù)轉(zhuǎn)化為特征向量,將特征向量通過解碼器再次轉(zhuǎn)化為序列的形式輸出,生成對應(yīng)的摘要。

5 應(yīng)用和服務(wù)

借助智能計算引擎,本論文設(shè)計了摘要生成、報告質(zhì)量評估、出訪成果檢索與推薦、出訪目標(biāo)設(shè)計與推薦、出訪成果分析等幾項示范應(yīng)用。

摘要生成應(yīng)用面向平臺的所有用戶,提供其所檢索的、為其推薦的等所有展示給用戶的出訪報告的內(nèi)容摘要,包括該報告的撰寫人、組團(tuán)名單、出訪日期、出訪地點以及簡易概括的出訪目標(biāo)和出訪收獲。該功能的提出旨在避免用戶為找到目標(biāo)出訪報告而重復(fù)的點擊進(jìn)入詳情頁面,多次瀏覽出訪報告全文的繁瑣,給出每篇報告的摘要,用戶可憑摘要信息快速地了解每篇報告的主要標(biāo)簽和內(nèi)容,排查掉與所找目標(biāo)無關(guān)的報告,從而準(zhǔn)確地鎖定自身想要查看的報告,在節(jié)約用戶查找時間的同時提高用戶體驗。該應(yīng)用將依賴于智能計算引擎部分的分詞及詞典構(gòu)建、實體識別和關(guān)系抽取、主題模型、編解碼模型等關(guān)鍵技術(shù)。

出訪報告質(zhì)量評估應(yīng)用基于既有的報告質(zhì)量評估模型,對報告的內(nèi)容覆蓋面、報告撰寫質(zhì)量等方面進(jìn)行評估,給出評分,根據(jù)評分各管理層用戶可以根據(jù)報告質(zhì)量給予適當(dāng)?shù)墓膭?,或者向報告質(zhì)量降低的單位重新索取歸國報告。出訪報告質(zhì)量評估也是對用戶進(jìn)行高質(zhì)量的報告推薦的基礎(chǔ),系統(tǒng)自動將評分較高的報告推薦給用戶或者展示著近期高質(zhì)量的報告榜單中,供平臺用戶查看。

出訪成果檢測和推薦應(yīng)用適用于所有瀏覽網(wǎng)頁的用戶,該應(yīng)用的主要功能是允許用戶輸入一個或多個關(guān)鍵詞,之后根據(jù)用戶輸入的關(guān)鍵詞,進(jìn)行檢索,返回與檢索的關(guān)鍵詞相關(guān)的數(shù)據(jù)庫中的報告,并且與關(guān)鍵詞的關(guān)聯(lián)度越高、報告的訪問量越高、質(zhì)量評估的結(jié)果越好,相應(yīng)的檢索排名越高。這部分需要使用的是分詞之后的報告文本,以及建立完成之后的關(guān)鍵詞索引,和排序模型。同時,在用戶搜索較為模糊的關(guān)鍵詞,如“教育”時,系統(tǒng)會根據(jù)搜索的關(guān)鍵詞以及用戶的個人注冊信息如性別、年齡、職業(yè)等,進(jìn)行更有針對性的推薦。這一部分除了需要用到索引和排序模型外,還需要使用主題模型輸出的結(jié)果以及文本分類的結(jié)果。相比于現(xiàn)有的出訪檢索模型,該模塊不再單純按照報告的時間進(jìn)行排序,而是給出不同的影響因子進(jìn)行排序,支持個性化的推薦。

出訪目標(biāo)及方法推薦會根據(jù)用戶的注冊信息和現(xiàn)有的申請信息進(jìn)行針對性的推薦。該應(yīng)用主要面向正在申請出訪的用戶,旨在向用戶提供同領(lǐng)域或類似領(lǐng)域的近期出訪報告,或根據(jù)用戶的信息推薦類似職務(wù)的他人近期的出訪報告,由此為用戶的出訪行程提供建議和參考。這部分需要利用文本分類模塊對已有的報告文本進(jìn)行分類,根據(jù)每篇報告的所屬類別以及用戶的個人信息進(jìn)行篩選,之后根據(jù)報告質(zhì)量評估系統(tǒng)對篩選后的報告進(jìn)行評估,并向用戶推薦評估質(zhì)量較高的報告。在顯示推薦列表時,系統(tǒng)會根據(jù)報告檢索和排序給出的結(jié)果依次顯示結(jié)果。

出訪報告的類別是多樣化的,很多時候僅通過搜索關(guān)鍵詞或者利用文本分類的結(jié)果無法得到細(xì)粒度的統(tǒng)計結(jié)果。因此這一部分旨在提供更細(xì)粒度、多層次的出訪成果的分析。這一應(yīng)用主要面向的群體是高層人員,用于月、季、年度的出訪成果統(tǒng)計。相比于現(xiàn)有的統(tǒng)計,該應(yīng)用將提取文本中隱藏的信息,并利用這些隱藏的信息,做到更準(zhǔn)確、細(xì)粒度的統(tǒng)計。該應(yīng)用需要用到的是智能引擎中的所有技術(shù),整合這些技術(shù)之后得到一個多層次的成果分析。

6 結(jié)束語

我國目前正逐步加快政務(wù)的信息化進(jìn)程,也在探索大數(shù)據(jù)技術(shù)在政務(wù)領(lǐng)域的應(yīng)用,提升政務(wù)信息系統(tǒng)的智能化水平。本論文基于各單位的出訪數(shù)據(jù),構(gòu)建了大數(shù)據(jù)管理與分析平臺,實現(xiàn)對出訪數(shù)據(jù)的管理與挖掘,有效提升了訪問成果的分享效果和出訪經(jīng)費利用率。

參考文獻(xiàn):

[1]顧榮.大數(shù)據(jù)處理技術(shù)與系統(tǒng)研究[D].南京大學(xué),2016.

[2]崔昭彥.我國政務(wù)信息系統(tǒng)的大數(shù)據(jù)建設(shè)[J].電子技術(shù)與軟件工程,2018(08):158.

[3]龔煒.一套基于人工智能技術(shù)的政務(wù)服務(wù)平臺設(shè)計[J].中國科技信息,2020(12):57-58.

[4]董倩.蘇州公安電子出入境管理問題及對策研究[D].蘇州大學(xué),2018.

[5]葛微.大數(shù)據(jù)索引和查詢優(yōu)化技術(shù)與系統(tǒng)研究[D].南京大學(xué),2019.

猜你喜歡
數(shù)據(jù)分析數(shù)據(jù)管理
企業(yè)級BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
列控數(shù)據(jù)管理平臺的開發(fā)
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
體育時空(2016年8期)2016-10-25 18:02:39
Excel電子表格在財務(wù)日常工作中的應(yīng)用
淺析大數(shù)據(jù)時代背景下的市場營銷策略
新常態(tài)下集團(tuán)公司內(nèi)部審計工作研究
中國市場(2016年36期)2016-10-19 04:31:23
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
都兰县| 麻栗坡县| 景德镇市| 田东县| 洛南县| 洛宁县| 温州市| 永宁县| 德兴市| 六盘水市| 鸡东县| 青铜峡市| 贵港市| 东乌珠穆沁旗| 汽车| 永吉县| 广昌县| 卢氏县| 桓台县| 寻乌县| 南丰县| 惠东县| 将乐县| 和龙市| 曲阳县| 阿拉善左旗| 泰顺县| 邯郸县| 华宁县| 余干县| 城市| 炎陵县| 伊金霍洛旗| 乌恰县| 红原县| 朝阳市| 修文县| 特克斯县| 安丘市| 金乡县| 荥经县|