陳鋼 佘祥榮 秦加奇 水新瑩
(中國科學(xué)技術(shù)大學(xué)智慧城市研究院(蕪湖) 安徽省蕪湖市 241000)
政府在城市治理的過程中積累了海量業(yè)務(wù)數(shù)據(jù),但部門與部門之間存在十分嚴(yán)重的“數(shù)據(jù)煙囪”現(xiàn)象,無法實現(xiàn)基于“數(shù)據(jù)智能”的“多元協(xié)同”工作模式[1]。以城市自然人數(shù)據(jù)為例,它是城市大數(shù)據(jù)體系中最基本且最重要的數(shù)據(jù)資源,但通常分散在人社、民政、公安等不同的政府部門,這些數(shù)據(jù)在不同部門之間的協(xié)調(diào)和共享存在機(jī)制上的不足。為打通政府部門之間的數(shù)據(jù)壁壘,一些省市依托大數(shù)據(jù)管理部門或大數(shù)據(jù)中心完成了政務(wù)數(shù)據(jù)資源整合并實現(xiàn)了共享和交換,為“互聯(lián)網(wǎng)+政務(wù)服務(wù)”奠定了良好的基礎(chǔ)。
“互聯(lián)網(wǎng)+政務(wù)服務(wù)”要求政府部門主動轉(zhuǎn)向“服務(wù)范式”,為公眾提供精準(zhǔn)化和個性化的服務(wù)。用戶畫像,就是根據(jù)人口統(tǒng)計學(xué)信息、社會關(guān)系信息、消費偏好等靜態(tài)和動態(tài)信息抽象出來的一系列標(biāo)簽化組合。用戶畫像的核心是利用大數(shù)據(jù)技術(shù)對目標(biāo)群體打上各種標(biāo)簽并在此基礎(chǔ)上進(jìn)行定性和定量分析統(tǒng)計,進(jìn)而達(dá)到對目標(biāo)群體精準(zhǔn)刻畫的目的。在電商領(lǐng)域,用戶畫像技術(shù)被廣泛用于精準(zhǔn)營銷并取得了良好的效果[2]。在政務(wù)服務(wù)領(lǐng)域,基于所匯聚的政務(wù)大數(shù)據(jù)構(gòu)造全生命周期、全維度的自然人畫像,能夠在此基礎(chǔ)上洞察公眾的潛在需求進(jìn)而提供主動化、精準(zhǔn)化和個性化的服務(wù)。為實現(xiàn)上述目標(biāo),本文提出了一種基于全息數(shù)據(jù)模型的自然人全息畫像技術(shù)。
“自然人全息數(shù)據(jù)”是指自然人從生到死全這個生命周期過程中所產(chǎn)生的全部信息。一些省市的政務(wù)服務(wù)網(wǎng)也將個人辦事按照自然人全生命周期來分類,例如北京市政務(wù)服務(wù)網(wǎng)按照“升學(xué)、工作、購房、結(jié)婚、生育、失業(yè)、創(chuàng)業(yè)、遷居、退休、后事”等階段劃分自然人全生命周期。就政務(wù)服務(wù)領(lǐng)域而言,它是指政府各業(yè)務(wù)部門在服務(wù)個人全生命周期辦事過程中所使用和產(chǎn)生的數(shù)據(jù)集合[3]。如果能夠?qū)⑦@些信息資源進(jìn)行歸納和抽象,形成不同層面、不同維度和不同視角的業(yè)務(wù)模型大寬表,以此構(gòu)建自然人全息畫像框架,用來描述、預(yù)測和展現(xiàn)該自然人過去、現(xiàn)在和將來的時間和空間狀態(tài)和屬性變化?;诖耍块T有望實現(xiàn)全面分析、感知和識別服務(wù)對象的目標(biāo),為公眾提供精準(zhǔn)化政務(wù)服務(wù)提供手段。
從業(yè)務(wù)角度看,自然人全息數(shù)據(jù)模型的形成可以通過對自然人各“生命階段”的相關(guān)屬性及狀態(tài)進(jìn)行深入地分析,在此基礎(chǔ)上梳理每項涉人辦事業(yè)務(wù)在自然人全生命周期中的直接或間接邏輯關(guān)系,然后將附屬于自然人各個生命階段的結(jié)果數(shù)據(jù)實施有機(jī)整合。這就實現(xiàn)了把自然人從出生到去世這一歷史變化過程中產(chǎn)生的全部數(shù)據(jù)進(jìn)行有機(jī)整合,所形成的結(jié)果數(shù)據(jù)集可以稱之為“全息數(shù)據(jù)”。就實現(xiàn)方法來說,可以從政府部門現(xiàn)有的信息系統(tǒng)入手,先收集所有與部門核心業(yè)務(wù)相關(guān)的原始系統(tǒng)數(shù)據(jù),獲取業(yè)務(wù)的基本情況,根據(jù)這些系統(tǒng)數(shù)據(jù)再倒推它們各自所屬的業(yè)務(wù)事項,獲取業(yè)務(wù)的輸入輸出數(shù)據(jù),最終完成信息資源的梳理。具體實現(xiàn)路徑是:
(1)根據(jù)政府各部門“三定”方案明確部門的職能域,初步確定其主要的業(yè)務(wù)類型;
(2)根據(jù)政務(wù)服務(wù)事項清單對涉人業(yè)務(wù)事項進(jìn)行業(yè)務(wù)流程分析,得到相應(yīng)的事項結(jié)果名稱,該名稱可以作為數(shù)據(jù)目錄;
(3)對于服務(wù)事項申請材料中有“空白表格”或“示例樣表”的,識別并抽取該表格中的核心數(shù)據(jù)項;對于沒有“空白表格”或“示例樣表”的,則根據(jù)相應(yīng)的國家標(biāo)準(zhǔn)或者該事項的設(shè)定依據(jù)提取核心數(shù)據(jù)項。從技術(shù)角度說:
(1)采用Glove模型、word2vec模型、Bert模型[4]訓(xùn)練生成詞向量,計算對應(yīng)文本詞向量的相似度,進(jìn)行權(quán)力清單與政務(wù)服務(wù)清單的匹配;
(2)在獲取政務(wù)服務(wù)網(wǎng)上涉人事項數(shù)據(jù)的基礎(chǔ)上利用自然人語言處理文本或語義相似度算法,對所獲取的業(yè)務(wù)事項進(jìn)行融合,并形成對應(yīng)的事項名稱集合;
(3)將所獲取的辦事事項非結(jié)構(gòu)化文檔或圖片文件中的信息利用OCR技術(shù)自動識別出來形成核心數(shù)據(jù)項;
(4)借助知識圖譜技術(shù)對這些事項數(shù)據(jù)進(jìn)行融合處理,分別對應(yīng)到自然人不同生命周期階段中形成全息數(shù)據(jù)模型。
基于上述業(yè)務(wù)理念和技術(shù)手段,本文根據(jù)國家行政學(xué)院電子政務(wù)研究中心2019年4月發(fā)布的《2019省級政府和重點城市網(wǎng)上政務(wù)服務(wù)能力調(diào)查評估報告》[5],選取了政府服務(wù)能力水平“非常高”(評分≥90)的6個省份和7個重點城市,以此作為自然人全息數(shù)據(jù)模型形成的來源依據(jù)。在最終所形成的全息模型中,包含目錄名稱、依據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)項和來源部門等信息。該模型對自然人劃分了12個人生階段,包含185個人生事件,涉及的核心數(shù)據(jù)項約為13000個。在獲得全息數(shù)據(jù)模型后,需要按照一定的方式對這些數(shù)據(jù)加以組織。一般而言,人有組織、人有地址、人有物、人和人之間存在關(guān)系、組織有地址、事件有地址、事件涉及人和物。因此,可以按照“人、地、物、事、組織”這五大維度對全息數(shù)據(jù)加以分類,并將分類后的數(shù)據(jù)以(實體-關(guān)系-實體)和(實體-屬性-屬性值)三元組形式存儲。在組織好自然人全息數(shù)據(jù)后,下一步就需要基于它們來生成各種標(biāo)簽,包括基礎(chǔ)標(biāo)簽和業(yè)務(wù)標(biāo)簽?;谶@些標(biāo)簽,可以運用標(biāo)簽組合來構(gòu)建面向不同政務(wù)服務(wù)領(lǐng)域的自然人全息畫像,以此來洞察該自然人現(xiàn)在的業(yè)務(wù)需求和未來的業(yè)務(wù)需求。
“全息畫像”是構(gòu)建基于全息數(shù)據(jù)框架、多維度的自然人畫像,旨在刻畫和揭示自然人全生命周期歷程中各個階段和維度的時間和空間屬性及其狀態(tài)變化。全息畫像的優(yōu)點是能夠提供一個多層次、多視角、可全面剖析自然人的“綜合檔案袋”。在政務(wù)服務(wù)實踐中,通過剖析某類人群的全息畫像,能夠了解他們當(dāng)前和潛在的服務(wù)需求,有針對性地將供給側(cè)精準(zhǔn)匹配到需求側(cè),進(jìn)而實現(xiàn)由“人找服務(wù)”到“服務(wù)找人”的模式轉(zhuǎn)變。從技術(shù)視角看,全息畫像依托大數(shù)據(jù)和人工智能技術(shù),以靜態(tài)屬性數(shù)據(jù)和動態(tài)行為數(shù)據(jù)為基礎(chǔ),綜合運用統(tǒng)計分析、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)相關(guān)算法對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析處理,形成一系列標(biāo)簽并進(jìn)行動態(tài)可視化展示,實現(xiàn)了對自然人在賽博空間中“特征全貌”的抽象和刻畫。有了全息畫像,政府部門就能夠利用所積累的涉人歷史業(yè)務(wù)數(shù)據(jù)對組成各個標(biāo)簽的業(yè)務(wù)模型所涉及到的數(shù)據(jù)項做趨勢分析,預(yù)測出未來一段時間內(nèi)自然人某項/某些指標(biāo)狀態(tài)的變化及其潛在所需要的服務(wù)。為了通過全息畫像剖析自然人全生命周期屬性狀態(tài),需要構(gòu)建對自然人進(jìn)行抽象描述的概念模型,從中抽取反映狀態(tài)變化的數(shù)據(jù)項來對人群進(jìn)行打標(biāo)簽并實現(xiàn)分類。
概念模型具有語義表達(dá)能力較強(qiáng)、簡單清晰且易于理解等特點,能夠直接表達(dá)業(yè)務(wù)領(lǐng)域相關(guān)知識[6]。自然人全息畫像概念模型是對自然人統(tǒng)計人口屬性、社會關(guān)系和涉事經(jīng)歷進(jìn)行描述的模型,是對自然人真實狀態(tài)和行為的刻畫,是影響全息畫像結(jié)果的關(guān)鍵所在。因此,構(gòu)建科學(xué)合理的自然人全息畫像概念模型應(yīng)遵循全面性、可行性和智能性的原則。基于上述構(gòu)建原則,本文從基本屬性、事件屬性和關(guān)系屬性這3個方面構(gòu)建自然人全息畫像概念模型。將與自然人自身密切相關(guān)而且在全生命周期中相對不變的信息納入到基本屬性中,它通常具有穩(wěn)定性和標(biāo)識性,通常在政府業(yè)務(wù)部門之間有共享需求。例如身份號碼、姓名、性別、年齡、民族、出生日期、婚姻狀況等數(shù)據(jù)項是大多數(shù)政務(wù)服務(wù)都需要使用的。另外還有一些數(shù)據(jù)項是通過政務(wù)服務(wù)網(wǎng)中的涉人事件獲取的,反映自然人在生命周期過程中參與的各類業(yè)務(wù)事件或活動,它們是與特定業(yè)務(wù)部門密切相關(guān)的(如參保事件產(chǎn)生了社會保險信息、住房公積金賬戶開設(shè)事件產(chǎn)生了住房公積金信息、學(xué)籍辦理事件產(chǎn)生了教育信息等),可以將這些數(shù)據(jù)歸入事件屬性中。關(guān)系屬性主要反映自然人在婚姻、居住、學(xué)習(xí)、工作等活動中與人、地和物所建立的各種關(guān)系等。關(guān)系屬性主要包括“人-人關(guān)系”(如親屬、同事、同學(xué)、鄰居等)、“人-物關(guān)系”(如擁有房產(chǎn)、汽車等)和“人-地關(guān)系”(如出生地、住所等)。這種概念模型不但非常容易理解,而且還與知識圖譜(即全息數(shù)據(jù)模型分類后以三元組形式存儲在知識圖譜中)相吻合。
與概念模型相比,標(biāo)簽體系更加形象和具體,獲取相應(yīng)的數(shù)據(jù)后可以直接進(jìn)行可視化分析。常用的標(biāo)簽生成方法有“直接提取法”、“統(tǒng)計分析法”和“機(jī)器學(xué)習(xí)法”。
3.3.1 直接提取法
一般情況下,事實類標(biāo)簽可以采用直接提取法。有些數(shù)據(jù)自身就是對自然人屬性的描述(即自身就是標(biāo)簽化的數(shù)據(jù)),因此不必再去定義標(biāo)簽,可直接對他們進(jìn)行標(biāo)簽提取。舉例來說,在自然人基本屬性數(shù)據(jù)集中,有些數(shù)據(jù)項的數(shù)據(jù)類型是分類型或者標(biāo)識型,可以基于數(shù)據(jù)項名稱提取標(biāo)簽。例如姓名、身份證號這樣的數(shù)據(jù)項沒有必要去分類,其作用是對自然人個體進(jìn)行標(biāo)識,就可以直接將它們作為標(biāo)簽使用。此外,還有一些直接類別類數(shù)據(jù),如性別、學(xué)歷、婚姻狀況等也可以直接作為標(biāo)簽使用。在事件屬性數(shù)據(jù)集中,有些事件的名稱較長,可以對事件名稱進(jìn)行轉(zhuǎn)換,在保持語義不變的情況下將長名稱轉(zhuǎn)換為以短詞語形式為主、事件名稱更為精簡的標(biāo)簽。例如“取得出版專業(yè)技術(shù)人員中級職業(yè)資格”可以轉(zhuǎn)化為“出版專業(yè)(中級)”。可見,直接提取標(biāo)簽不需要進(jìn)行任何計算,而是直接保留或縮減了原始數(shù)據(jù)。
3.3.2 統(tǒng)計分析法
統(tǒng)計分析法主要應(yīng)用于在基于數(shù)據(jù)計算的標(biāo)簽提取場景。從自然人全息數(shù)據(jù)出發(fā),借助不同的統(tǒng)計分析方法,計算某一數(shù)據(jù)項或標(biāo)簽的統(tǒng)計量。對單時點數(shù)據(jù)計算平均值、最小值、最大值等,對時間序列數(shù)據(jù)分析增長率或降低率等,并對計算之后所形成結(jié)果的突出特征進(jìn)行提取。統(tǒng)計類標(biāo)簽是需要根據(jù)原始數(shù)據(jù)進(jìn)行聚合計算的一類標(biāo)簽,例如年度納稅總額、交通處罰次數(shù)、工作年限等。
3.3.4 機(jī)器學(xué)習(xí)法
預(yù)測類標(biāo)簽是指無法通過事實數(shù)據(jù)計算得到,需要借助機(jī)器學(xué)習(xí)算法進(jìn)行預(yù)測的標(biāo)簽,例如房屋購買能力、信用變化趨勢等。該類標(biāo)簽的構(gòu)建核心在于利用聚類、分類和集成學(xué)習(xí)算法對自然人全息數(shù)據(jù)進(jìn)行建模分析,通過全方位、深層次地分析自然人三大屬性維度數(shù)據(jù),提取各個維度的標(biāo)簽,可以挖掘更多的潛在信息,進(jìn)而對自然人的未來趨勢進(jìn)行預(yù)測分析。舉例來說,可以構(gòu)建基于“人、地、事、物和組織”的自然人知識圖譜,可以從人-人關(guān)系出發(fā),在知識圖譜中引入外部信息,實現(xiàn)在原始標(biāo)簽的基礎(chǔ)上擴(kuò)展出新的標(biāo)簽。例如可以通過人-人關(guān)系屬性和刑事案件屬性運用關(guān)聯(lián)算法擴(kuò)展出“與涉黑人員有關(guān)”這一標(biāo)簽。
構(gòu)建好標(biāo)簽后,就可以組合這些標(biāo)簽構(gòu)建自然人全息畫像了。對單個自然人而言,其個體全息畫像主要包括自然人基本屬性、事件屬性和關(guān)系屬性?;緦傩运男畔樾彰?、身份證件類型、身份證件號碼、性別、年齡、民族、籍貫、婚姻狀況、出生日期、出生地、政治面貌、最高文化程度、職業(yè)、聯(lián)系方式等。事件屬性主要反映自然人涉及事件情況,包括獎取得證照類事件、獲得獎勵類事件、遭受處罰類事件、涉及民事案和刑事案事件等。關(guān)系屬性主要反映自然人親屬、鄰居、同事、同學(xué)、同小區(qū)、所屬學(xué)校、所屬企業(yè)、擁有房產(chǎn)、擁有機(jī)動車、擁有發(fā)明專利等。為了對單個自然人有一個整體概貌認(rèn)知,可以用標(biāo)簽云的形式進(jìn)行畫像展示,這些標(biāo)簽就是用上述三種標(biāo)簽提取方法對自然人基本屬性、事件屬性和關(guān)系屬性中的數(shù)據(jù)進(jìn)行分析處理。此外,還可以采用列表和圖譜形式對三大屬性進(jìn)行詳細(xì)展示。
在個體畫像的基礎(chǔ)上還可以構(gòu)造群體畫像。舉例來說,構(gòu)造一個某市中產(chǎn)階級人群畫像,可以定義標(biāo)簽中產(chǎn)階級:= {凈資產(chǎn)大于等于300萬元或年收入大于等于30萬元},這樣就能夠先篩選出中產(chǎn)階級人群。然后通過性別、年齡、學(xué)歷、職業(yè)等標(biāo)簽進(jìn)行進(jìn)一步分類,就可以洞察該市中產(chǎn)階級人群在不同維度的詳細(xì)分布情況。對人群進(jìn)行分類畫像,可以快速判定自然人所屬人群,精準(zhǔn)定位此該自然人當(dāng)前和未來所需服務(wù)??梢?,全息畫像是政府滿足公眾個性化信息服務(wù)需求的重要抓手,在提升服務(wù)信息推送精準(zhǔn)度的基礎(chǔ)上,切實提高了用戶服務(wù)體驗。