国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

百度OCR在房地一體戶籍檔案數(shù)字化中的自動(dòng)著錄研究*

2022-01-18 09:36張永洪孫幼政高名巖王洋博席夢(mèng)丹
地礦測(cè)繪 2021年4期
關(guān)鍵詞:戶主家庭成員身份證

張永洪,孫幼政,高名巖,王洋博,席夢(mèng)丹

(1.自然資源部第一航測(cè)遙感院,陜西 西安 710054;2.中煤航測(cè)遙感集團(tuán)有限公司,陜西 西安 710054)

0 引言

宅基地和集體建設(shè)用地使用權(quán)的確權(quán)登記工作,是黨中央部署的一項(xiàng)重要任務(wù)[1]。旨在查清農(nóng)村宅基地和集體建設(shè)用地使用權(quán)及其地上房屋權(quán)屬情況并建立農(nóng)村房地一體的權(quán)籍調(diào)查數(shù)據(jù)庫(kù),為不動(dòng)產(chǎn)登記信息基礎(chǔ)管理平臺(tái)運(yùn)行提供數(shù)據(jù)支撐。其中,建庫(kù)收集的資料信息情況復(fù)雜,存在農(nóng)村地區(qū)地籍調(diào)查基礎(chǔ)薄弱、登記資料不規(guī)范和信息化程度低等問(wèn)題,收集的資料主要以紙質(zhì)為主,需要按照“一戶一宅”原則逐戶逐人進(jìn)行數(shù)字化,工作量較大、易出現(xiàn)錯(cuò)漏等問(wèn)題。

目前,國(guó)內(nèi)學(xué)者已對(duì)不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)的建設(shè)進(jìn)行了大量研究[2],如:王慧等采用WalkScrip語(yǔ)言進(jìn)行walkmap二次開(kāi)發(fā)實(shí)現(xiàn)圖庫(kù)一體編輯[3],但該軟件存在人機(jī)交互步驟繁多、效率不高等問(wèn)題;覃永基等采用ArcPy對(duì)數(shù)據(jù)庫(kù)進(jìn)行維護(hù)等操作,與不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)信息獲取及入庫(kù)還有很多工作需要完成[4];胡迅妃采用WalkRE不動(dòng)產(chǎn)權(quán)籍調(diào)查測(cè)繪系統(tǒng)平臺(tái)錄入信息,該方法比較原始在人工信息錄入時(shí)有較大的工作量,不夠智能化[5];唐濤等使用谷歌開(kāi)源的Tesseract庫(kù)和百度OCR(Optical Character Recognition,光學(xué)字符識(shí)別)對(duì)紙質(zhì)宗地圖數(shù)字化識(shí)別坐標(biāo),該方法所使用場(chǎng)景較為單一,沒(méi)有考慮戶籍信息自動(dòng)化錄入的功能[6];胡提坤采用MDF和神經(jīng)網(wǎng)絡(luò)的方法將Hough直線消隱后的快遞單實(shí)現(xiàn)文字識(shí)別,該方法實(shí)現(xiàn)過(guò)程繁瑣、還需大量的前期預(yù)處理工作[7];張宜軒采用百度OCR對(duì)圖文資料進(jìn)行關(guān)鍵字識(shí)別和最優(yōu)推薦匹配進(jìn)行賦分,但該方法還遠(yuǎn)不能滿足房地一體項(xiàng)目需求,單純的文字識(shí)別對(duì)于不動(dòng)產(chǎn)項(xiàng)目沒(méi)有實(shí)際意義[8];除了傳統(tǒng)的方法之外,李帆等采用深度學(xué)習(xí)不同網(wǎng)絡(luò)算法來(lái)對(duì)文本檢測(cè)、分割、識(shí)別等進(jìn)行了研究[9-11],但是深度學(xué)習(xí)往往存在過(guò)擬合、泛化能力弱等問(wèn)題,而且針對(duì)不同的場(chǎng)景需要制作大量的數(shù)據(jù)集[12-13],對(duì)于實(shí)際工程操作性有限。

本文通過(guò)百度OCR技術(shù)識(shí)別戶籍信息,采用Python Xlrd和Xlwt庫(kù)將身份證和戶口本信息按關(guān)鍵詞錄入Excel臺(tái)賬中,并使用基于C#的AutoCAD二次開(kāi)發(fā)FIPRS-IDPH軟件進(jìn)行臺(tái)賬屬性掛接以完成數(shù)據(jù)庫(kù)的建設(shè)。該方法自動(dòng)化程度高、人工干預(yù)少,高效快捷,在不動(dòng)產(chǎn)數(shù)據(jù)庫(kù)建設(shè)方面具有一定的推廣作用。

1 技術(shù)路線

本文方法分為3個(gè)步驟:

1)對(duì)紙質(zhì)身份證、戶口本的掃描件進(jìn)行百度OCR文字識(shí)別;

2)將識(shí)別的文本內(nèi)容利用Python Xlrd和Xlwt庫(kù)按關(guān)鍵詞整理成Excel文件;

3)利用C#語(yǔ)言 AutoCAD二次開(kāi)發(fā)的FIPRS-IDPH軟件將Excel文件和圖形文件以宗為單位進(jìn)行掛接,最終形成數(shù)據(jù)庫(kù)。

技術(shù)路線如圖1所示。

圖1 利用百度OCR技術(shù)識(shí)別戶籍信息技術(shù)路線圖Fig.1 Technology roadmap of identifing household information with OCR

1.1 百度OCR戶籍信息識(shí)別

百度OCR具備多場(chǎng)景、多語(yǔ)種、高精度的文字識(shí)別功能,提供API Key 和 Secret Key,可以在線請(qǐng)求服務(wù)。在PyCharm中搭建運(yùn)行環(huán)境,需要配置Python的Sys、Json和Base64站點(diǎn)包,通過(guò)獲取Token請(qǐng)求API授權(quán)、讀取文件、調(diào)用遠(yuǎn)程服務(wù)以完成文字識(shí)別。識(shí)別結(jié)果如圖2所示。

圖2 身份證識(shí)別效果Fig.2 ID card recognition effect

1.2 整理臺(tái)賬

利用百度OCR將身份證掃描件信息識(shí)別后,信息排列比較散亂,可以按照關(guān)鍵詞分類保存到Excel表臺(tái)賬中,百度OCR識(shí)別結(jié)果是按照J(rèn)son格式來(lái)儲(chǔ)存的,可以將內(nèi)容按照姓名、性別、民族、出生、住址、公民身份證號(hào)碼解析,以列儲(chǔ)存到Excel表臺(tái)賬中。

程序?qū)崿F(xiàn)的核心代碼如下:

words_list=json.loads(szf_result)

for words in words_list:

if words=="words_result":

for word in words_list[words]:

str=word['words']

str=str.replace("姓名","")

str=str.replace("性別","")

str=str.replace("民族","")

str=str.replace("出生","")

str=str.replace("住址","")

str=str.replace("公民身份號(hào)碼","")

person_list.append(str)

將整理好的戶籍信息以戶主為索引按照宗為單位記錄到臺(tái)賬中,按照關(guān)鍵詞:所在組別、家庭人口、戶主姓名、戶主身份證、戶主性別、家庭成員姓名、家庭成員、家庭成員身份證號(hào),采用Python站點(diǎn)包Xlwt進(jìn)行列操作,以戶主為索引關(guān)鍵詞建立行列表,核心代碼如下:

wObj=xlwt.Workbook()

wSheet=wObj.add_sheet(sheetName)

lstColNames=["所在組別","家庭人口","戶主姓名","戶主身份證","戶主性別","家庭成員姓名","家庭成員","家庭成員身份證號(hào)"]

for i in range(8):

wSheet.write(0,i,lstColNames[i])

for i in range (len(lstFamilys)):

family=lstFamilys[i]

rowData=[family.groupName,family.pCount,family.mainName,family.mainNum,family.mainMale,"、".join(family.names),"、".join(family.relations),"、".join(family.nums)]

for j in range(8):

row=i+1

wSheet.write(row,j,rowData[j])

wObj.save(wPath)

del wObj

以宗為單位整理的臺(tái)賬結(jié)果如圖3所示。

圖3 以宗為單位整理的臺(tái)賬結(jié)果表Fig.3 Account results organized by parcel

1.3 FIPRS-IDPH軟件圖形屬性處理

FIPRS-IDPH是利用C#語(yǔ)言對(duì) AutoCAD進(jìn)行二次開(kāi)發(fā)的用于房地一體化項(xiàng)目的軟件。利用該軟件的不動(dòng)產(chǎn)確權(quán)圖表輸出工具可將臺(tái)賬信息掛接到圖形數(shù)據(jù)中,實(shí)現(xiàn)宗地屬性表、房屋屬性表、房屋附屬屬性表、權(quán)利人信息屬性表等信息表的自動(dòng)屬性賦值。這種通過(guò)臺(tái)賬來(lái)統(tǒng)一管理屬性表方便實(shí)現(xiàn)數(shù)據(jù)庫(kù)的增刪改和屬性值的共享,避免造成屬性值錯(cuò)亂和邏輯不一致。工具條工作界面如圖4所示。

掛接完成就可以進(jìn)行圖形數(shù)據(jù)與屬性數(shù)據(jù)的互操作,可以將圖形數(shù)據(jù)中的房屋結(jié)構(gòu)、用途、竣工日期、建設(shè)位置等注記信息更新到臺(tái)賬中,也可以將臺(tái)賬中的戶籍信息和權(quán)利人信息與圖形數(shù)據(jù)通過(guò)宗地代碼進(jìn)行一對(duì)一映射,檢查無(wú)誤后,利用FIPRS-IDPH軟件輸出報(bào)表和完成數(shù)據(jù)庫(kù)的更新。

圖5 宗地圖提取工具條工作界面Fig.5 Working interface of parcel map extraction toolbar

2 結(jié)束語(yǔ)

采用Python的站點(diǎn)包Xlrd和Xlwt 高效便捷地將百度OCR識(shí)別出來(lái)的身份證、戶口本基本信息結(jié)果整理成房地一體化FIPRS-IDPH軟件所對(duì)應(yīng)的臺(tái)賬信息表,經(jīng)過(guò)漢中市鎮(zhèn)巴縣房地一體項(xiàng)目生產(chǎn)應(yīng)用,結(jié)果證明此方法靈活方便、軟件開(kāi)發(fā)成本較低、節(jié)省時(shí)間,在此類不動(dòng)產(chǎn)調(diào)查建庫(kù)工作中具有一定的參考價(jià)值。但是,對(duì)于掃描不清有礙于識(shí)別的掃描件還是存在一定的預(yù)測(cè)錯(cuò)誤情況,在自動(dòng)化識(shí)別時(shí)需要提前將戶籍信息按照一定的規(guī)則排列。針對(duì)不同的關(guān)鍵詞字段臺(tái)賬整理時(shí)還需要對(duì)源代碼進(jìn)行局部修改,泛化能力有限??偟膩?lái)說(shuō),該軟件能夠滿足實(shí)際項(xiàng)目生產(chǎn)需要,減輕工作量。

猜你喜歡
戶主家庭成員身份證
都有身份證
回來(lái)(外一首)
辣椒也有身份證
家庭成員的排序 決定孩子的格局
趣說(shuō)古人的“身份證”
論蔡和森、李富春革命家庭成員赴法勤工儉學(xué)之原因
身份證里的“X”是什么意思
老年人受家庭成員侵害維權(quán)體制改革新論
漢唐戶主資格的變遷*
幸福的家庭
襄城县| 水城县| 曲阳县| 晴隆县| 宁都县| 府谷县| 通河县| 江北区| 永济市| 义马市| 武山县| 襄汾县| 德清县| 定陶县| 抚顺市| 望都县| 武山县| 镇康县| 九龙县| 长葛市| 新干县| 巴楚县| 莱阳市| 澳门| 芜湖市| 菏泽市| 鞍山市| 新津县| 新河县| 乐平市| 元阳县| 新宾| 塘沽区| 龙海市| 慈溪市| 驻马店市| 射洪县| 吉首市| 鸡西市| 积石山| 武山县|