邱瑞 汪寧 朱振華
摘 ? 要:通過對標簽體系分類方法和標簽數(shù)據(jù)共享技術(shù)路線的研究,利用基礎(chǔ)屬性、統(tǒng)計分析、模型算法及大數(shù)據(jù)分析等技術(shù),將描述研究對象的標簽數(shù)據(jù)進行提取和分類,實現(xiàn)了對標簽資源的分類,建立統(tǒng)一標簽資源目錄體系。在數(shù)據(jù)協(xié)同過程中,系統(tǒng)中心節(jié)點獲取各子節(jié)點查詢請求,并統(tǒng)一調(diào)配計算資源,最后將匯總結(jié)果返回到請求方節(jié)點,從而實現(xiàn)節(jié)點間的標簽數(shù)據(jù)共享,有效的推動業(yè)務(wù)數(shù)據(jù)跨地區(qū)、跨部門的共享,促進了業(yè)務(wù)模型向智能化發(fā)展。
關(guān)鍵詞:標簽;標簽目錄;數(shù)據(jù)協(xié)同
1 引言
標簽反映人或物的社會屬性、行為屬性等屬性特征。近年來,在公共安全等領(lǐng)域,專家用標簽進行畫像和特征分析,建立相關(guān)的應(yīng)用系統(tǒng),幫助用戶進行工作模式的改進和工作效率的提高。
在標簽數(shù)據(jù)分類的過程中,由于不同的分類方式產(chǎn)生的標簽定義也不一致,有可能造成在使用過程中導致數(shù)據(jù)難以共享、標簽易誤解等問題,造成對研究對象的錯誤預警。
在標簽資源服務(wù)系統(tǒng)中,對各子節(jié)點間獲取統(tǒng)一標簽資源目錄體系,通過分布式調(diào)度架構(gòu)將查詢請求經(jīng)中心節(jié)點發(fā)送至各子節(jié)點,中心節(jié)點統(tǒng)一協(xié)調(diào)各子節(jié)點的調(diào)配資源,將標簽查詢結(jié)果匯總后返回到請求方節(jié)點,從而實現(xiàn)了不同子節(jié)點間的標簽數(shù)據(jù)共享。
本文將利用屬性標注、模型算法、文本挖掘等技術(shù),研究標簽數(shù)據(jù)的分類技術(shù),同時研究基于標簽資源目錄的協(xié)同共享技術(shù),實現(xiàn)標簽數(shù)據(jù)的協(xié)同共享。
2 標簽治理和分類
2.1 數(shù)據(jù)治理
標簽數(shù)據(jù)治理是對匯集的原始數(shù)據(jù)進行標準化、規(guī)范化的處理過程,主要包括數(shù)據(jù)匯集、數(shù)據(jù)治理、數(shù)據(jù)建庫等工作。通過對數(shù)據(jù)進行一系列的治理,形成結(jié)構(gòu)化、規(guī)范化的資源庫,為標簽分類和生產(chǎn)提供數(shù)據(jù)基礎(chǔ)。
首先,通過數(shù)據(jù)采集系統(tǒng)采集多源異構(gòu)數(shù)據(jù),如金融數(shù)據(jù)等相關(guān)數(shù)據(jù)。之后,針對不同的數(shù)據(jù)采取數(shù)據(jù)去重、數(shù)據(jù)融合、字段標準等規(guī)范化操作。最后,構(gòu)建基于標簽領(lǐng)域相關(guān)的資源庫,實現(xiàn)對各級業(yè)務(wù)數(shù)據(jù)統(tǒng)一規(guī)范化的管理,針對各個數(shù)據(jù)進行主題分類、標準化和規(guī)范化存儲。
2.2 數(shù)據(jù)分類
標簽分類體系的建設(shè)過程就是對數(shù)據(jù)不斷提煉和價值迭代的過程,通過構(gòu)建標簽分類體系,讓數(shù)據(jù)價值清晰化、規(guī)范化,通過標簽表達數(shù)據(jù)潛在的意義、滿足當前業(yè)務(wù)的分析工作。標簽分類主要從屬性抽取、特征提煉、規(guī)律刻畫等幾個方面考慮,標簽按照數(shù)據(jù)生成的維度可以分為屬性標簽、統(tǒng)計標簽和算法標簽。
(1) 屬性標簽包括研究對象的所有原生屬性和派生屬性,主要為人的年齡、性別、學歷、身份信息等基礎(chǔ)屬性信息,基礎(chǔ)屬性的標簽往往和個人信息有關(guān)。
(2) 統(tǒng)計標簽是基于過往特定時間段內(nèi)的行為、日志數(shù)據(jù)而計算出的描述個體或群體的規(guī)律性標簽,這類標簽隨著統(tǒng)計周期而發(fā)生變化,更新頻率較大、周期較短、標簽變化性較大。
(3) 算法標簽是根據(jù)過去特定段時間的行為狀態(tài),預測事物未發(fā)生、或?qū)砑磳l(fā)生的行為,這種標簽是基于普通標簽、統(tǒng)計標簽數(shù)據(jù),通過使用特定算法、挖掘技術(shù)計算出來的,給出預測對象的行為相符合的標簽。
3 標簽建設(shè)路線
標簽開發(fā)流程分為特征提取、標簽加工、標簽管理、標簽應(yīng)用四大部分。首先,特征提取主要從基礎(chǔ)特征、人員特征、行為特征、社會屬性等維度來提取特征,形成基礎(chǔ)化標簽;在標簽加工過程中,對已經(jīng)提取的基礎(chǔ)化標簽數(shù)據(jù)進行規(guī)則清洗、加工、建模,再經(jīng)由對標簽進行ETL開發(fā),從而得到體系化、規(guī)范化的標簽,并進入標簽市場,為下一步標簽應(yīng)用做準備。
我們可以將標簽構(gòu)建過程分為三個階段。第一階段是基礎(chǔ)標簽的建設(shè),此階段將通過對數(shù)據(jù)資源按照一定的規(guī)則進行加工得到基礎(chǔ)化的標簽,用來刻畫實體的基礎(chǔ)特征,主要由數(shù)據(jù)治理人員參與并完成。伴隨基礎(chǔ)標簽的體系建立標簽構(gòu)建將進入第二階段,業(yè)務(wù)人員根據(jù)行業(yè)分析經(jīng)驗將對基礎(chǔ)標簽進行組合,從而得到符合行業(yè)的業(yè)務(wù)標簽。第三階段為數(shù)據(jù)分析人員對業(yè)務(wù)標簽進行分析,并經(jīng)過對事件進行分析、研判、建模,構(gòu)建符合的算法標簽,以滿足預測預警的需求。經(jīng)過三大階段對標簽的構(gòu)建過程,將構(gòu)建符合行業(yè)規(guī)范的數(shù)據(jù)資源目錄體系,從而實現(xiàn)對標簽數(shù)據(jù)的分類。
4 數(shù)據(jù)協(xié)同技術(shù)的研究
標簽資源服務(wù)系統(tǒng)面向各級子節(jié)點開放,建設(shè)了標準化、規(guī)范化的標簽資源服務(wù)目錄,實現(xiàn)標簽統(tǒng)一發(fā)布、各級子節(jié)點共享,能夠有效支撐各級子節(jié)點業(yè)務(wù)需求,為用戶提供便捷的操作方式,減少標簽生成復雜過程。
文中數(shù)據(jù)協(xié)同技術(shù)采用的是“一主多從”架構(gòu)。中心節(jié)點為主節(jié)點,統(tǒng)一對資源目錄進行建設(shè)、上線、下線等管理操作。各級子節(jié)點為平級子節(jié)點,共享中心節(jié)點所發(fā)布的資源目錄。各級子節(jié)點通過“申請審批”等流程,當子節(jié)點A啟動節(jié)點間標簽組合查詢時,即開始占用其請求的子節(jié)點的標簽資源,中心節(jié)點統(tǒng)一調(diào)配資源并在中心節(jié)點進行計算,將標簽組合查詢結(jié)果匯總后返到查詢子節(jié)點A,減少了資源的浪費,同時實現(xiàn)了節(jié)點間的標簽數(shù)據(jù)協(xié)同共享。
5 結(jié)束語
本文研究實現(xiàn)了標簽治理、分類目的,解決了如何從海量數(shù)據(jù)中發(fā)現(xiàn)各種數(shù)據(jù)關(guān)系與關(guān)聯(lián)規(guī)則,挖掘數(shù)據(jù)的價值問題,形成了語義化的描述。建立統(tǒng)一標簽資源目錄體系,通過分布式調(diào)度系統(tǒng)將查詢請求發(fā)送至各子節(jié)點,最后中心節(jié)點將匯總結(jié)果返回到請求方節(jié)點,從而實現(xiàn)了不同節(jié)點間的標簽數(shù)據(jù)共享。下一步將繼續(xù)優(yōu)化算法模型,在預測類標簽生成的準確性方面進行重點研究。
參考文獻
[1]張大偉. 公安數(shù)據(jù)標簽化建設(shè)應(yīng)用研究[J].警察技術(shù),2017,(6):37-41.
[2]席巖, 張乃光, 王磊, et al. 基于大數(shù)據(jù)的用戶畫像方法研究綜述[J]. 廣播電視信息, 2017(10):39-43.
[3]王慶, 趙發(fā)珍. 基于"用戶畫像"的圖書館資源推薦模式設(shè)計與分析[J]. 現(xiàn)代情報, 2018(3):105-109,137
[4]丁偉,王題,劉新海等.基于大數(shù)據(jù)技術(shù)的手機用戶畫像與征信研究[J].郵電設(shè)計技術(shù),2016(3):64-69.
責編/李曼