張永洪,孫幼政,高名巖,王洋博,席夢(mèng)丹
(1.自然資源部第一航測(cè)遙感院,陜西 西安 710054;2.中煤航測(cè)遙感集團(tuán)有限公司,陜西 西安 710054)
宅基地和集體建設(shè)用地使用權(quán)的確權(quán)登記工作,是黨中央部署的一項(xiàng)重要任務(wù)[1]。旨在查清農(nóng)村宅基地和集體建設(shè)用地使用權(quán)及其地上房屋權(quán)屬情況并建立農(nóng)村房地一體的權(quán)籍調(diào)查數(shù)據(jù)庫(kù),為不動(dòng)產(chǎn)登記信息基礎(chǔ)管理平臺(tái)運(yùn)行提供數(shù)據(jù)支撐。其中,建庫(kù)收集的資料信息情況復(fù)雜,存在農(nóng)村地區(qū)地籍調(diào)查基礎(chǔ)薄弱、登記資料不規(guī)范和信息化程度低等問(wèn)題,收集的資料主要以紙質(zhì)為主,需要按照“一戶一宅”原則逐戶逐人進(jìn)行數(shù)字化,工作量較大、易出現(xiàn)錯(cuò)漏等問(wèn)題。
目前,國(guó)內(nèi)學(xué)者已對(duì)不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)的建設(shè)進(jìn)行了大量研究[2],如:王慧等采用WalkScrip語(yǔ)言進(jìn)行walkmap二次開(kāi)發(fā)實(shí)現(xiàn)圖庫(kù)一體編輯[3],但該軟件存在人機(jī)交互步驟繁多、效率不高等問(wèn)題;覃永基等采用ArcPy對(duì)數(shù)據(jù)庫(kù)進(jìn)行維護(hù)等操作,與不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)信息獲取及入庫(kù)還有很多工作需要完成[4];胡迅妃采用WalkRE不動(dòng)產(chǎn)權(quán)籍調(diào)查測(cè)繪系統(tǒng)平臺(tái)錄入信息,該方法比較原始在人工信息錄入時(shí)有較大的工作量,不夠智能化[5];唐濤等使用谷歌開(kāi)源的Tesseract庫(kù)和百度OCR(Optical Character Recognition,光學(xué)字符識(shí)別)對(duì)紙質(zhì)宗地圖數(shù)字化識(shí)別坐標(biāo),該方法所使用場(chǎng)景較為單一,沒(méi)有考慮戶籍信息自動(dòng)化錄入的功能[6];胡提坤采用MDF和神經(jīng)網(wǎng)絡(luò)的方法將Hough直線消隱后的快遞單實(shí)現(xiàn)文字識(shí)別,該方法實(shí)現(xiàn)過(guò)程繁瑣、還需大量的前期預(yù)處理工作[7];張宜軒采用百度OCR對(duì)圖文資料進(jìn)行關(guān)鍵字識(shí)別和最優(yōu)推薦匹配進(jìn)行賦分,但該方法還遠(yuǎn)不能滿足房地一體項(xiàng)目需求,單純的文字識(shí)別對(duì)于不動(dòng)產(chǎn)項(xiàng)目沒(méi)有實(shí)際意義[8];除了傳統(tǒng)的方法之外,李帆等采用深度學(xué)習(xí)不同網(wǎng)絡(luò)算法來(lái)對(duì)文本檢測(cè)、分割、識(shí)別等進(jìn)行了研究[9-11],但是深度學(xué)習(xí)往往存在過(guò)擬合、泛化能力弱等問(wèn)題,而且針對(duì)不同的場(chǎng)景需要制作大量的數(shù)據(jù)集[12-13],對(duì)于實(shí)際工程操作性有限。
本文通過(guò)百度OCR技術(shù)識(shí)別戶籍信息,采用Python Xlrd和Xlwt庫(kù)將身份證和戶口本信息按關(guān)鍵詞錄入Excel臺(tái)賬中,并使用基于C#的AutoCAD二次開(kāi)發(fā)FIPRS-IDPH軟件進(jìn)行臺(tái)賬屬性掛接以完成數(shù)據(jù)庫(kù)的建設(shè)。該方法自動(dòng)化程度高、人工干預(yù)少,高效快捷,在不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)建設(shè)方面具有一定的推廣作用。
本文方法分為3個(gè)步驟:
1)對(duì)紙質(zhì)身份證、戶口本的掃描件進(jìn)行百度OCR文字識(shí)別;
2)將識(shí)別的文本內(nèi)容利用Python Xlrd和Xlwt庫(kù)按關(guān)鍵詞整理成Excel文件;
3)利用C#語(yǔ)言 AutoCAD二次開(kāi)發(fā)的FIPRS-IDPH軟件將Excel文件和圖形文件以宗為單位進(jìn)行掛接,最終形成數(shù)據(jù)庫(kù)。
技術(shù)路線如圖1所示。
圖1 利用百度OCR技術(shù)識(shí)別戶籍信息技術(shù)路線圖Fig.1 Technology roadmap of identifing household information with OCR
百度OCR具備多場(chǎng)景、多語(yǔ)種、高精度的文字識(shí)別功能,提供API Key 和 Secret Key,可以在線請(qǐng)求服務(wù)。在PyCharm中搭建運(yùn)行環(huán)境,需要配置Python的Sys、Json和Base64站點(diǎn)包,通過(guò)獲取Token請(qǐng)求API授權(quán)、讀取文件、調(diào)用遠(yuǎn)程服務(wù)以完成文字識(shí)別。識(shí)別結(jié)果如圖2所示。
圖2 身份證識(shí)別效果Fig.2 ID card recognition effect
利用百度OCR將身份證掃描件信息識(shí)別后,信息排列比較散亂,可以按照關(guān)鍵詞分類保存到Excel表臺(tái)賬中,百度OCR識(shí)別結(jié)果是按照J(rèn)son格式來(lái)儲(chǔ)存的,可以將內(nèi)容按照姓名、性別、民族、出生、住址、公民身份證號(hào)碼解析,以列儲(chǔ)存到Excel表臺(tái)賬中。
程序?qū)崿F(xiàn)的核心代碼如下:
words_list=json.loads(szf_result)
for words in words_list:
if words=="words_result":
for word in words_list[words]:
str=word['words']
str=str.replace("姓名","")
str=str.replace("性別","")
str=str.replace("民族","")
str=str.replace("出生","")
str=str.replace("住址","")
str=str.replace("公民身份號(hào)碼","")
person_list.append(str)
將整理好的戶籍信息以戶主為索引按照宗為單位記錄到臺(tái)賬中,按照關(guān)鍵詞:所在組別、家庭人口、戶主姓名、戶主身份證、戶主性別、家庭成員姓名、家庭成員、家庭成員身份證號(hào),采用Python站點(diǎn)包Xlwt進(jìn)行列操作,以戶主為索引關(guān)鍵詞建立行列表,核心代碼如下:
wObj=xlwt.Workbook()
wSheet=wObj.add_sheet(sheetName)
lstColNames=["所在組別","家庭人口","戶主姓名","戶主身份證","戶主性別","家庭成員姓名","家庭成員","家庭成員身份證號(hào)"]
for i in range(8):
wSheet.write(0,i,lstColNames[i])
for i in range (len(lstFamilys)):
family=lstFamilys[i]
rowData=[family.groupName,family.pCount,family.mainName,family.mainNum,family.mainMale,"、".join(family.names),"、".join(family.relations),"、".join(family.nums)]
for j in range(8):
row=i+1
wSheet.write(row,j,rowData[j])
wObj.save(wPath)
del wObj
以宗為單位整理的臺(tái)賬結(jié)果如圖3所示。
圖3 以宗為單位整理的臺(tái)賬結(jié)果表Fig.3 Account results organized by parcel
FIPRS-IDPH是利用C#語(yǔ)言對(duì) AutoCAD進(jìn)行二次開(kāi)發(fā)的用于房地一體化項(xiàng)目的軟件。利用該軟件的不動(dòng)產(chǎn)確權(quán)圖表輸出工具可將臺(tái)賬信息掛接到圖形數(shù)據(jù)中,實(shí)現(xiàn)宗地屬性表、房屋屬性表、房屋附屬屬性表、權(quán)利人信息屬性表等信息表的自動(dòng)屬性賦值。這種通過(guò)臺(tái)賬來(lái)統(tǒng)一管理屬性表方便實(shí)現(xiàn)數(shù)據(jù)庫(kù)的增刪改和屬性值的共享,避免造成屬性值錯(cuò)亂和邏輯不一致。工具條工作界面如圖4所示。
掛接完成就可以進(jìn)行圖形數(shù)據(jù)與屬性數(shù)據(jù)的互操作,可以將圖形數(shù)據(jù)中的房屋結(jié)構(gòu)、用途、竣工日期、建設(shè)位置等注記信息更新到臺(tái)賬中,也可以將臺(tái)賬中的戶籍信息和權(quán)利人信息與圖形數(shù)據(jù)通過(guò)宗地代碼進(jìn)行一對(duì)一映射,檢查無(wú)誤后,利用FIPRS-IDPH軟件輸出報(bào)表和完成數(shù)據(jù)庫(kù)的更新。
圖5 宗地圖提取工具條工作界面Fig.5 Working interface of parcel map extraction toolbar
采用Python的站點(diǎn)包Xlrd和Xlwt 高效便捷地將百度OCR識(shí)別出來(lái)的身份證、戶口本基本信息結(jié)果整理成房地一體化FIPRS-IDPH軟件所對(duì)應(yīng)的臺(tái)賬信息表,經(jīng)過(guò)漢中市鎮(zhèn)巴縣房地一體項(xiàng)目生產(chǎn)應(yīng)用,結(jié)果證明此方法靈活方便、軟件開(kāi)發(fā)成本較低、節(jié)省時(shí)間,在此類不動(dòng)產(chǎn)調(diào)查建庫(kù)工作中具有一定的參考價(jià)值。但是,對(duì)于掃描不清有礙于識(shí)別的掃描件還是存在一定的預(yù)測(cè)錯(cuò)誤情況,在自動(dòng)化識(shí)別時(shí)需要提前將戶籍信息按照一定的規(guī)則排列。針對(duì)不同的關(guān)鍵詞字段臺(tái)賬整理時(shí)還需要對(duì)源代碼進(jìn)行局部修改,泛化能力有限??偟膩?lái)說(shuō),該軟件能夠滿足實(shí)際項(xiàng)目生產(chǎn)需要,減輕工作量。