劉辰昀,儲昭武,夏 娟
(1.上海市大數(shù)據(jù)中心,上海 200072;2.上海計算機(jī)軟件技術(shù)開發(fā)中心,上海 201114)
隨著現(xiàn)代社會的不斷發(fā)展,城鎮(zhèn)化進(jìn)程的加速推進(jìn),人口流動日趨頻繁和隨機(jī),以家庭為中心的親屬關(guān)系呈現(xiàn)出難以全面掌握、管理及使用的現(xiàn)象。①傳統(tǒng)以血緣為紐帶的區(qū)域親屬關(guān)系逐漸向以地域為紐帶的跨域親屬關(guān)系轉(zhuǎn)變,親屬關(guān)系較難在同一地域管理單元內(nèi)全面反映。②市場經(jīng)濟(jì)體制的促進(jìn)作用,具有近親屬關(guān)系的自然人分布在多個戶籍或多個地域中,從戶籍關(guān)系較難反映家庭成員的親屬關(guān)系。③由于行政職能部門的業(yè)務(wù)協(xié)同和數(shù)據(jù)共享難等問題,法律認(rèn)定的部分親屬關(guān)系數(shù)據(jù)分散在多個職能部門中,尚未形成有效匯聚和融合處理,無法從數(shù)據(jù)層面直觀反映動態(tài)變化的親屬關(guān)系。鑒于此,本文將聚焦“一網(wǎng)通辦”政務(wù)服務(wù)的智能和高效,梳理涉及親屬關(guān)系業(yè)務(wù)事項辦理的痛點、堵點,以及親屬關(guān)系證明的使用場景,整理分析高頻親屬關(guān)系類型和數(shù)據(jù)構(gòu)成,提出一種親屬關(guān)系知識圖譜的構(gòu)建方法和路徑,為支撐政務(wù)服務(wù)水平和效能的提升,提供具有可復(fù)制性、可行性的解決路徑。
隨著政務(wù)服務(wù)的改革深化,各行政職能部門圍繞政府職能轉(zhuǎn)變、政務(wù)服務(wù)體系變革和服務(wù)能力提升,從業(yè)務(wù)流程優(yōu)化、業(yè)務(wù)協(xié)同能力提升、數(shù)據(jù)共享共建等方面持續(xù)建設(shè),但由于人口流動大、戶籍關(guān)系跨域性等因素影響,證明“我媽是我媽”“我爸只有我一個兒子”等親屬關(guān)系證明情況仍屢見不鮮。經(jīng)統(tǒng)計,在超過一百余項政務(wù)服務(wù)事項需要提供親屬關(guān)系證明材料,且無法通過簡單的跨部門、跨層級、跨地域的數(shù)據(jù)共享實現(xiàn),在自然人辦理政務(wù)事項時造成了不同程度的困擾。為了有效減少辦事材料及證明、簡化辦事流程、增加辦事效率,切實落實“讓數(shù)據(jù)多跑路,群眾少跑腿”“進(jìn)一網(wǎng)、進(jìn)一門,能通辦”的發(fā)展愿,親屬關(guān)系證明減免的工作是提高政務(wù)服務(wù)效能的突破點之一。
自然人的數(shù)據(jù)來源繁雜、管理主體多元,在面向自然人以及家庭的社會管理和服務(wù)過程中,真實可信的親屬關(guān)系數(shù)據(jù)是社會治理精準(zhǔn)、高效實施的重要支撐。如在疫情防控工作中,以家庭為基本管理單元的活動中,自然人的家庭成員情況、親屬情況等信息,能夠幫助疫情工作人員及時、高效的定位防控對象,達(dá)到事半功倍的效果;在困難家庭幫扶、貧困家庭認(rèn)定等民政相關(guān)的精準(zhǔn)幫扶管理中,真實、有效的親屬關(guān)系能夠幫助管理者前瞻性、主動式的發(fā)現(xiàn)對象,提升群眾的幸福感和獲得感,增強(qiáng)政府的公信力;在防范管理特殊群體過程中,通過親屬關(guān)系的發(fā)掘,針對性地進(jìn)行指導(dǎo)和親屬關(guān)系介入影響,能夠更有效的實現(xiàn)社會安定。因此,親屬關(guān)系數(shù)據(jù)是社會治理的重要支撐,親屬關(guān)系的構(gòu)建是賦能社區(qū)治理更加智能、更加精準(zhǔn)、更加高效的有效路徑之一。
由于政府部門行政職能的分工和職權(quán)的區(qū)隔,自然人的各類數(shù)據(jù)孤立、分散、無序的存儲現(xiàn)狀仍然顯著,基于自然人的數(shù)據(jù)共享廣度、深度和效度都還相對有限,難以形成較為全局視角的自然人數(shù)據(jù)地圖和精準(zhǔn)的自然人數(shù)據(jù)資產(chǎn),隨著社會多樣化、多變性、時效性的需求不斷產(chǎn)生,迫切需要充分提升數(shù)據(jù)的應(yīng)用深度和應(yīng)用效度,增強(qiáng)數(shù)據(jù)共享的力度,加速釋放數(shù)據(jù)價值。利用知識圖譜技術(shù),構(gòu)建親屬關(guān)系圖譜,能高效融合分散、無序的自然人數(shù)據(jù),促進(jìn)政務(wù)數(shù)據(jù)的高效共享和創(chuàng)新應(yīng)用,是形成全面、統(tǒng)一、權(quán)威、真實、可靠的自然人數(shù)據(jù)資產(chǎn)的可行路徑之一。
知識圖譜是一種大規(guī)模的語義網(wǎng)絡(luò),通過描述物理世界的實體及實體間的關(guān)系形成結(jié)構(gòu)化的語義知識庫。從原始的數(shù)據(jù)到構(gòu)建形成知識圖譜,主要歷經(jīng)知識建模、知識抽取、知識融合、知識加工和質(zhì)量評估等步驟。通過數(shù)據(jù)的融合實現(xiàn)信息的表達(dá),并積累、擴(kuò)展實現(xiàn)知識的轉(zhuǎn)化,用于高效搜索、精準(zhǔn)表達(dá)物理世界實體之間的關(guān)系以及實體的基本屬性。
親屬關(guān)系圖譜遵循知識圖譜的構(gòu)建方法,采用語言學(xué)的語義場分析手段,從大量自然人數(shù)據(jù)中提取實體、屬性和關(guān)系信息,聚合親屬關(guān)系信息,并結(jié)合相關(guān)法律法規(guī)文件,補(bǔ)充關(guān)系類型,從而實現(xiàn)親屬關(guān)系知識的快速響應(yīng)和推理。由于自然人數(shù)據(jù)主要來源于政府各行政職能部門采集的數(shù)據(jù),具有單類數(shù)據(jù)結(jié)構(gòu)良好、來源權(quán)威、質(zhì)量可控但數(shù)據(jù)關(guān)聯(lián)度低、業(yè)務(wù)語義不規(guī)范等特點,因此,親屬關(guān)系知識圖譜的構(gòu)建工作重點將圍繞自然人數(shù)據(jù)向親屬關(guān)系信息的提取和向親屬關(guān)系知識庫的轉(zhuǎn)化兩個維度展開,以自然人這一實體對象為核心,加強(qiáng)關(guān)系抽取、關(guān)系推理等任務(wù),將多來源、多語義的實體屬性和關(guān)系數(shù)據(jù)有效融合加工,形成能準(zhǔn)確、全面、清晰表達(dá)的親屬關(guān)系圖譜,構(gòu)建框架包括數(shù)據(jù)準(zhǔn)備、圖譜構(gòu)建和譜圖服務(wù)(如圖1所示)。
圖1 親屬關(guān)系圖譜構(gòu)建框架
知識圖譜的邏輯架構(gòu),通常劃分為數(shù)據(jù)層和模式層兩個層次。模式層是知識圖譜的核心,主要通過本體庫來存放實體、關(guān)系和屬性等信息,數(shù)據(jù)層是相對應(yīng)的真實數(shù)據(jù)存儲層。在構(gòu)建親屬關(guān)系圖譜之前,首先借助物理世界的法律法規(guī)明確各類親屬關(guān)系,以指導(dǎo)親屬關(guān)系圖譜的本體模型的構(gòu)建,再結(jié)合本體模型,梳理各實體所需的數(shù)據(jù)資源,夯實知識圖譜所需的各類圖譜要素基礎(chǔ)。
通過《民法典》可知,核心的親屬關(guān)系有:①血緣關(guān)系,此類親屬關(guān)系的主要特征具有強(qiáng)可推理性,例如父親的父親可推理為爺爺。②法律認(rèn)定的婚姻關(guān)系,此類關(guān)系具有條件依賴性,隨著婚姻關(guān)系的狀態(tài)變化而變化。③由血緣關(guān)系和婚姻關(guān)系衍生的其他親屬關(guān)系,此類親屬關(guān)系兼具推理性和條件依賴性。④法律認(rèn)定的監(jiān)護(hù)關(guān)系、收養(yǎng)關(guān)系等,此類法律認(rèn)定關(guān)系具有期限性、可變性等特點。通過對這四類的親屬關(guān)系的梳理組成親屬關(guān)系核心語義場,將分析其他各類關(guān)系的語義場所包含的親屬關(guān)系,最后合并成親屬關(guān)系總語義場(表1),以指導(dǎo)本體模型的構(gòu)建。
表1 親屬關(guān)系總語義場
基于政府行政部門的業(yè)務(wù)范圍和職權(quán)分工,構(gòu)建親屬關(guān)系知識圖譜所需的數(shù)據(jù)資源主要存儲于公安、衛(wèi)健委、民政、法院、教育等業(yè)務(wù)部門,由于各部門的信息化建設(shè)能力和數(shù)據(jù)治理能力的差異,數(shù)據(jù)業(yè)務(wù)含義、數(shù)據(jù)的質(zhì)量狀況、數(shù)據(jù)的共享情況都有較大差異。結(jié)合公共數(shù)據(jù)治理和應(yīng)用的實踐,梳理涉及親屬關(guān)系的數(shù)據(jù)主要有以下幾類:
3.2.1 自然人基礎(chǔ)數(shù)據(jù)
自然人的基礎(chǔ)數(shù)據(jù)主要來源于公安部門的實有人口數(shù)據(jù),此類數(shù)據(jù)具有全面、權(quán)威、更新及時等特性,是本體模型中各類實體的數(shù)據(jù)底數(shù)。
3.2.2 血緣關(guān)系數(shù)據(jù)
目前權(quán)威的血緣數(shù)據(jù)來源主要有兩類。第一類是衛(wèi)健委的出生醫(yī)學(xué)證明數(shù)據(jù),用于確定父母子女關(guān)系,由于社會發(fā)展的階段不同,此類數(shù)據(jù)存在的主要問題是不能覆蓋中老齡人口的出生和生育信息,需其它數(shù)據(jù)進(jìn)行補(bǔ)充。第二類是公安部門的戶籍?dāng)?shù)據(jù),用于確定以房屋為單元的親屬關(guān)系,由于公安部門的權(quán)威性和安全性,此類數(shù)據(jù)通常質(zhì)量較好,但隨著城鎮(zhèn)化發(fā)展的演進(jìn)以及商品化住房的涌現(xiàn),會存在父母、子女分戶的情況以及非直系親屬關(guān)系的情況,親屬關(guān)系較為分散和復(fù)雜。通過以上兩類數(shù)據(jù)交互補(bǔ)充及驗證,能建立起基礎(chǔ)父母子女關(guān)系和親屬關(guān)系,結(jié)合社會常識進(jìn)行推理,可形成相對完整的以血緣為紐帶的親屬關(guān)系。
3.2.3 婚姻關(guān)系數(shù)據(jù)
婚姻關(guān)系數(shù)據(jù)來源主要有兩類。第一類是民政部門的結(jié)婚登記、離婚登記和死亡證明數(shù)據(jù)等,第二類是由法院執(zhí)行的婚姻判決數(shù)據(jù)。通過以上兩類數(shù)據(jù)交互補(bǔ)充及驗證,能建立起由婚姻為紐帶形成的親屬關(guān)系。
3.2.4 法律認(rèn)定的其它關(guān)系數(shù)據(jù)
法律認(rèn)定的其它關(guān)系數(shù)據(jù)主要是指民政部門的收養(yǎng)類數(shù)據(jù)、法院的撫養(yǎng)判決和監(jiān)護(hù)判決以及親屬關(guān)系公證等數(shù)據(jù),能建立起由法律規(guī)定為依據(jù)的親屬關(guān)系。
除上所述來源數(shù)據(jù)外,還會采用教育部門、公共服務(wù)部門等在履行職責(zé)過程中沉淀的數(shù)據(jù),進(jìn)行親屬關(guān)系的交互驗證和補(bǔ)充。
親屬關(guān)系圖譜構(gòu)建在技術(shù)和工具選擇以適用為原則,技術(shù)架構(gòu)分為知識存儲層、知識加工層兩層(如圖2所示)。
圖2 技術(shù)架構(gòu)
知識存儲層分為輸入?yún)^(qū)、管理區(qū)、圖譜區(qū)三個存儲區(qū)。輸入?yún)^(qū)主要存儲各行政職能部分提供的涉及自然人信息的源數(shù)據(jù)資源;管理區(qū)主要存儲問題數(shù)據(jù)、模型數(shù)據(jù)、規(guī)則數(shù)據(jù)等知識圖譜構(gòu)建過程中的管理數(shù)據(jù);圖譜區(qū)存儲以圖數(shù)據(jù)庫存儲經(jīng)過融合、加工的自然人實體、關(guān)系和屬性等圖譜結(jié)果數(shù)據(jù),用于對外提供智能搜索、關(guān)系分析等服務(wù)。
知識加工層分為本體模型管理、實體抽取、關(guān)系抽取和關(guān)系推理四個功能模塊。實體抽取模塊包括映射管理、屬性抽取等;關(guān)系抽取模塊包括抽取規(guī)則、關(guān)系抽取、關(guān)系融合等;關(guān)系推理包括推理規(guī)則、推理引擎、推理任務(wù)等。
親屬關(guān)系圖譜中模型層的實體對象只有自然人一類,自然人實體對象的屬性主要包括姓名、身份證號、性別、民族、出生日期等關(guān)鍵信息項,自然人實體關(guān)系包含上文所列各類親屬關(guān)系。遵循RDF 標(biāo)準(zhǔn),構(gòu)建自然人本體模型如圖3所示。
圖3 自然人本體模型
親屬關(guān)系圖譜的知識加工任務(wù)主要基于自然人本體模型的實體基礎(chǔ)數(shù)據(jù),結(jié)合親屬關(guān)系語義場,通過實體抽取、關(guān)系抽取、關(guān)系推理加工融合,形成“實體—關(guān)系—實體”三元組以及實體與其屬性、關(guān)系的網(wǎng)狀知識結(jié)構(gòu),加工過程如圖4所示。
圖4 知識加工過程
實體抽取是指從輸入?yún)^(qū)的源數(shù)據(jù)集中通過映射方式進(jìn)行實體數(shù)據(jù)識別,并通過映射規(guī)則或邏輯計算的方式獲取實體屬性等結(jié)構(gòu)化數(shù)據(jù),得到一系列離散的自然人實體、屬性、性值,形成本體庫實體對象及其屬性知識圖譜元素。
關(guān)系抽取指根據(jù)核心親屬關(guān)系規(guī)則,通過映射規(guī)則獲取自然人實體之間的核心親屬關(guān)系數(shù)據(jù),并采取必要的人工校驗或邏輯計算的方式進(jìn)行知識融合、合并和補(bǔ)充,形成本體庫實體對象核心親屬關(guān)系知識圖譜元素。
關(guān)系推理指基于社會常識構(gòu)建的特定親屬關(guān)系推理規(guī)則,在核心親屬關(guān)系知識基礎(chǔ)上,通過知識推理規(guī)則,補(bǔ)充和校驗自然人實體之間的其他親屬關(guān)系數(shù)據(jù),并進(jìn)行知識融合、合并和補(bǔ)充,形成本體庫實體對象其他親屬關(guān)系圖譜元素。
4.3.1 實體抽取
實體抽取分為實體識別、屬性抽取兩個步驟。采用自然人身份證號作為實體指稱項,通過映射方式對自然人基礎(chǔ)數(shù)據(jù)集進(jìn)行實體識別,并將每個身份證號映射為一個實體,再從各自然人基礎(chǔ)數(shù)據(jù)集通過屬性映射規(guī)則或邏輯計算等方式抽取出各個實體屬性值,自然人基礎(chǔ)數(shù)據(jù)集的關(guān)鍵屬性為{姓名、身份證號、性別、民族、出生日期}。實體抽取的結(jié)果按照自然人本體模型規(guī)范,以RDF 三元組方式表示為{實體,屬性,性值},實體為自然人實體指稱,屬性為實體數(shù)據(jù)的屬性名,性值為對應(yīng)的屬性值,形成自然人基礎(chǔ)知識本體庫,示例如表2所示。
表2 實體抽取結(jié)果示例
4.3.2 關(guān)系抽取
關(guān)系抽取采用給定的核心親屬關(guān)系規(guī)則映射或邏輯計算的方式,以信息不丟失、不失真為原則,對多個含有親屬關(guān)系的數(shù)據(jù)集抽取自然人實體之間的親屬關(guān)系實例,關(guān)系抽取步驟如圖5所示。
圖5 關(guān)系抽取模式
根據(jù)3.1 節(jié)親屬關(guān)系分析的核心親屬關(guān)系,結(jié)合3.2 節(jié)的親屬關(guān)系探查結(jié)果,歸納整理可抽取的核心親屬關(guān)系及其對應(yīng)數(shù)據(jù)集、抽取技術(shù)如表3所示。
表3 核心親屬關(guān)系及其對應(yīng)數(shù)據(jù)集
對于抽取到的關(guān)系實例,主要采取以下幾種方式進(jìn)行關(guān)系實例選擇,確定最終保留的關(guān)系實例結(jié)果。一是對抽取的關(guān)系實例數(shù)據(jù)通過人工校驗的方式進(jìn)行融合和合并,獲取最終的可靠、可信的核心親屬關(guān)系知識。二是基于職能部門的業(yè)務(wù)實際,按照時序、可信度及其它業(yè)務(wù)邏輯規(guī)則等計算規(guī)則,對抽取的關(guān)系實例數(shù)據(jù)進(jìn)行知識融合和合并,獲取最終的權(quán)威、最新狀態(tài)的核心親屬關(guān)系知識。三是對少量不完整的核心親屬關(guān)系實例,綜合參考教育、公共服務(wù)、社會事務(wù)等其他來源數(shù)據(jù)集,綜合權(quán)重計算進(jìn)行核心親屬關(guān)系知識補(bǔ)充。
關(guān)系抽取的結(jié)果最終按照自然人本體模型規(guī)范,以RDF三元組方式表示為{實體1,關(guān)系,實體2},主語為自然人實體指稱(身份證號),謂詞為關(guān)系名稱,賓語為對應(yīng)關(guān)系自然人實體指稱,形成自然人核心親屬關(guān)系知識本體庫,示例如表4所示。
表4 核心親屬關(guān)系RDF三元組
4.3.3 關(guān)系推理
關(guān)系推理主要基于抽取任務(wù)建立的核心親屬關(guān)系RDF 三元組,結(jié)合社會常識構(gòu)建特定關(guān)系推理規(guī)則,進(jìn)行知識推理補(bǔ)全其它親屬關(guān)系,以保障親屬關(guān)系圖譜在場景應(yīng)用過程中的支撐效度和響應(yīng)速度。其中可通過知識推理補(bǔ)全的其他親屬關(guān)系主要包括隔代的關(guān)系,以及由婚姻關(guān)系產(chǎn)生的繼父母子女關(guān)系等。考慮到數(shù)據(jù)存儲量及不同關(guān)系使用的概率,本文的其他親屬關(guān)系補(bǔ)全只考慮使用概率較高的三代親屬關(guān)系補(bǔ)全規(guī)則(如表5),其它關(guān)系推理規(guī)則可參考重新定義,并根據(jù)需要添加及動態(tài)計算。
表5 三代親屬關(guān)系推理規(guī)則
基于本文所描述的親屬關(guān)系圖譜構(gòu)建方法和構(gòu)建路徑,結(jié)合公共數(shù)據(jù)治理和應(yīng)用的實踐,最終形成了三項實踐成果,為政務(wù)服務(wù)體系變革和政務(wù)服務(wù)能力提升提供了全新路徑,為公共數(shù)據(jù)價值的加速釋放提供了可行路徑。
基于RDF 標(biāo)準(zhǔn)構(gòu)建的自然人本體模型,具備了良好的擴(kuò)展性,為后續(xù)持續(xù)構(gòu)建以自然人為實體的相關(guān)業(yè)務(wù)知識圖譜打下了實體圖譜元素基礎(chǔ),同時,標(biāo)準(zhǔn)化的本體模型結(jié)構(gòu),能滿足和其它知識圖譜的本體層進(jìn)行知識融合的需要。
經(jīng)過實踐檢驗的譜圖構(gòu)建方法及系統(tǒng)架構(gòu),為基于公共數(shù)據(jù)的政務(wù)服務(wù)和城市治理能力提升及創(chuàng)新應(yīng)用,提供了可復(fù)用的相關(guān)領(lǐng)域知識圖譜構(gòu)建方法和構(gòu)建路徑,如企業(yè)圖譜、房屋圖譜、城市部件圖譜等,為公共數(shù)據(jù)的由數(shù)據(jù)向信息的表達(dá)和向知識的轉(zhuǎn)化提供理論參考和實踐支撐,極大提升政府職能部門的數(shù)據(jù)整合力度和知識轉(zhuǎn)化效能。
構(gòu)建完成了區(qū)域內(nèi)基于核心親屬關(guān)系的三代親屬關(guān)系知識圖譜,該圖譜具備動態(tài)更新、增量補(bǔ)充的構(gòu)建能力,能滿足公安、民政、法院等多個職能部門,涉及檔案、醫(yī)療、救助、教育等多項業(yè)務(wù)場景的親屬關(guān)系檢索查詢及定位判別需求,能滿足材料免交的政務(wù)服務(wù)發(fā)展要求,極大提升了區(qū)域內(nèi)的政務(wù)服務(wù)的效能,極大增強(qiáng)了群眾的獲得感和滿意度。圖6為親屬關(guān)系知識圖譜實踐成果示例展示。
圖6 親屬關(guān)系圖譜示例
自然人作為政府最重要的服務(wù)和管理對象,圍繞其屬性、特征、關(guān)系等各類數(shù)據(jù)資源的管理和應(yīng)用具有非常重要的現(xiàn)實價值及實踐意義。親屬關(guān)系知識圖譜作為承載自然人之間相互聯(lián)系的重要信息載體,高效、高速、高質(zhì)地實現(xiàn)公共數(shù)據(jù)的價值化能,是公共數(shù)據(jù)價值釋放的創(chuàng)新應(yīng)用路徑,但伴隨相關(guān)法律法規(guī)的變更以及自然人成長狀態(tài)的變化,未來親屬關(guān)系圖譜還應(yīng)從以下幾個方面持續(xù)建設(shè)和升級發(fā)展。
各職能部門可根據(jù)自身的業(yè)務(wù)發(fā)展需求,構(gòu)建以自然人為實體對象的領(lǐng)域性知識圖譜。例如公安以調(diào)查為目的建立的自然人社會關(guān)系類、民政以救助為目的建立的自然人近親屬關(guān)系類、法院以財產(chǎn)分割為目的建立的自然人受益人關(guān)系類等,通過各領(lǐng)域親屬關(guān)系的融合、合并、補(bǔ)充和校正,構(gòu)建體系化、完善化、全局化的區(qū)域親屬關(guān)系知識圖譜。
由于城鎮(zhèn)化發(fā)展的必然趨勢和人口加速流動的社會現(xiàn)實,在確保數(shù)據(jù)安全可靠的前提下,親屬關(guān)系知識圖譜也需從構(gòu)建機(jī)制、管理體制上創(chuàng)新和變革,通過跨地域的親屬關(guān)系圖譜共建共享,提升政務(wù)服務(wù)跨省通辦的能力和效能,構(gòu)建全面化、完備化、共享化的跨區(qū)域親屬關(guān)系知識圖譜。
政府?dāng)?shù)字化轉(zhuǎn)型的發(fā)展初期,涉及治理、生活、經(jīng)濟(jì)三個方面的轉(zhuǎn)型都離不開圍繞自然人、法人的高質(zhì)量、高效能的數(shù)據(jù)積累及知識應(yīng)用。積極探索基于親屬關(guān)系圖譜的應(yīng)用場景,加速釋放數(shù)據(jù)向知識轉(zhuǎn)化的價值,能夠為社會治理、群眾生活和經(jīng)濟(jì)發(fā)展提供更加豐富的數(shù)字化轉(zhuǎn)型場景,全面支撐城市高質(zhì)量的轉(zhuǎn)型發(fā)展。