国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于結(jié)構(gòu)特征和元模型的中文表格語(yǔ)義分析方法

2016-09-26 07:31:07張家銳
關(guān)鍵詞:專(zhuān)管員表格約束

張家銳 張 涵

1(合肥學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系 英國(guó) 赫特福德郡 AL10 9AB)

?

基于結(jié)構(gòu)特征和元模型的中文表格語(yǔ)義分析方法

張家銳1張涵2

1(合肥學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系英國(guó) 赫特福德郡AL10 9AB)

針對(duì)現(xiàn)有技術(shù)對(duì)中文表格語(yǔ)義分析不夠全面的現(xiàn)實(shí),提出基于結(jié)構(gòu)特征和元模型的語(yǔ)義分析方法。使用具有公知性的一階謂詞函數(shù)Value(值函數(shù))、Num(數(shù)量函數(shù)),結(jié)合偽編碼,對(duì)幾類(lèi)最常見(jiàn)的中文表格進(jìn)行語(yǔ)義分析,獲取了中文表格的表面語(yǔ)義、上下文語(yǔ)義、主-子表之間的限制語(yǔ)義、表附屬性對(duì)表格數(shù)據(jù)的附加語(yǔ)義、屬性值背后隱藏的關(guān)系語(yǔ)義。實(shí)例驗(yàn)證的結(jié)果表明,結(jié)構(gòu)特征和元模型是中文表格語(yǔ)義分析的有效方法,獲取的語(yǔ)義信息量和種類(lèi)遠(yuǎn)超目前的方法。

結(jié)構(gòu)特征元模型一階謂詞函數(shù)表面語(yǔ)義上下文語(yǔ)義限制語(yǔ)義附加語(yǔ)義關(guān)系語(yǔ)義

0 引 言

中文表格是中文書(shū)面文本中最常見(jiàn)的元素之一,具有比普通文字語(yǔ)言更高的精確性和簡(jiǎn)捷性,在很多領(lǐng)域相關(guān)的文本中,經(jīng)常會(huì)使用表格來(lái)增強(qiáng)可閱讀性、可理解性。因此,對(duì)中文表格進(jìn)行語(yǔ)義分析是中文自然語(yǔ)言理解中不可或缺的部分。中文表格人工理解很方便,機(jī)器辨識(shí)很困難。目前,對(duì)中文表格的語(yǔ)義分析,多數(shù)是將研究對(duì)象限定為Web頁(yè)面中基于HTML標(biāo)簽的電子表格,方法大致有如下幾種[1]:內(nèi)容樹(shù)[2,3]、基于本體使用隱馬爾可夫模型[4]、領(lǐng)域本體[5]、啟發(fā)式規(guī)則[6]、正則表達(dá)式匹配[7]、基于集成的半自動(dòng)化方法[8]、人工解釋表格結(jié)構(gòu)的半自動(dòng)化方法[9],目的是通過(guò)語(yǔ)義抽取表格數(shù)據(jù)。在利用表格的半結(jié)構(gòu)化特征來(lái)獲取其語(yǔ)義方面,楊海濤[10]按表頭的形態(tài)把表格分為:典型關(guān)系表格、可規(guī)范的關(guān)系表格、帶指標(biāo)森林表頭的表格。賴(lài)中華[11]提出列分割、嵌套列表頭跨度識(shí)別、行分段、單位識(shí)別、表格展開(kāi)方式識(shí)別和表格標(biāo)題識(shí)別的表格結(jié)構(gòu)識(shí)別方法,把表格的物理結(jié)構(gòu)規(guī)整化到邏輯結(jié)構(gòu)后解讀其語(yǔ)義。陳競(jìng)波[12]運(yùn)用報(bào)表數(shù)據(jù)語(yǔ)義對(duì)象化處理技術(shù),對(duì)報(bào)表數(shù)據(jù)與報(bào)表結(jié)構(gòu)進(jìn)行解耦,將報(bào)表數(shù)據(jù)與其語(yǔ)義信息封裝成語(yǔ)義對(duì)象,并通過(guò)報(bào)表公式來(lái)描述數(shù)據(jù)對(duì)象之間的運(yùn)算或約束關(guān)系。馮曉晨[13]的研究重點(diǎn)是表格屬性之間的關(guān)系(同義/概念分類(lèi)/特性關(guān)系/值的類(lèi)屬模式等)語(yǔ)義。尹文生[14]通過(guò)建立屬性取值的識(shí)別規(guī)則和語(yǔ)義脈絡(luò)樹(shù)來(lái)獲取表格的值語(yǔ)義??傊壳暗姆椒ㄖ粚?duì)表格的表面語(yǔ)義(值語(yǔ)義)進(jìn)行分析[10,11,13,14],雖然文獻(xiàn)[12]加入了表格的運(yùn)算和約束語(yǔ)義,但表格的上下文語(yǔ)義、主-子表間的限制語(yǔ)義、表附屬性對(duì)表格的附加語(yǔ)義、表內(nèi)屬性值之間的關(guān)系語(yǔ)義皆未被考慮。鑒于此,針對(duì)中文書(shū)面文本中幾類(lèi)常見(jiàn)的中文表格,在以文獻(xiàn)[10,11]方法進(jìn)行表格樣式解析的前提下,提出一種基于結(jié)構(gòu)特征和元模型的中文表格語(yǔ)義分析方法,便于獲得中文表格更全面的語(yǔ)義,希望能部分彌補(bǔ)目前方法的不足。

1 常見(jiàn)的中文表格類(lèi)型

中文表格雖然不像中文文本語(yǔ)句那樣豐富多彩、充滿(mǎn)限制和歧義,但其類(lèi)別繁多、難以窮盡,所以至今也沒(méi)有一種標(biāo)準(zhǔn)的分類(lèi)方法,本文僅面向應(yīng)用中最典型、最常見(jiàn)的幾類(lèi)中文表格進(jìn)行研究。

定義1欄目的值與且僅與某一個(gè)屬性及其約束相關(guān)的表格為一維表格。如表1所示。

表1單位及信息專(zhuān)管員基本信息表

單位蓋章:

單位編號(hào)TY001組織機(jī)構(gòu)編碼79843562-5單位名稱(chēng)太原市政府信息辦中文簡(jiǎn)稱(chēng)信息辦英文簡(jiǎn)稱(chēng)XXB單位地址中山路36號(hào)信息專(zhuān)管員基本信息姓名孫廣宏職務(wù)科長(zhǎng)辦公室電話2336759手機(jī)號(hào)碼13903516638政務(wù)號(hào)GK35692電子信箱sunguanghong@163.comQQ號(hào)1339883518

填表人:王擁軍填表日期:2014-04-08

定義2欄目的值與且僅與橫、縱兩個(gè)屬性及其約束相關(guān),且這兩個(gè)屬性之間一般有“定語(yǔ)+名詞”或“定語(yǔ)+數(shù)詞”或“定語(yǔ)+量詞”構(gòu)成關(guān)系的表格為二維表格。如表2所示。

表2某項(xiàng)目設(shè)備預(yù)算表

填表日期:2014年5月16日貨幣單位:元

設(shè)備種類(lèi)設(shè)備型號(hào)數(shù)量單位預(yù)算單價(jià)小計(jì)服務(wù)器聯(lián)想萬(wàn)全R3503臺(tái)60000.00180000.00PC機(jī)華碩M33AAG16臺(tái)3620.0057920.00防火墻華為USG51201臺(tái)38000.0038000.00核心交換機(jī)華為5700-24TP1臺(tái)27000.0027000.00分支交換機(jī)華為2700-26TP1臺(tái)1280.001280.00工作臺(tái)山鷹W144張260.001040.00合計(jì)305240.00

定義3在一維表格中嵌入了另一個(gè)表格,該表格與被嵌入的表格之間構(gòu)成了主-子(master-detail)關(guān)系,且一般被嵌入的表格是二維表格,此類(lèi)表格稱(chēng)為具有主-子關(guān)系的一維表格。如表3所示。

表3某公司員工信息表

填表日期:2014-07-01

編號(hào)姓名出生日期身份證號(hào)碼學(xué)歷A001李國(guó)棟性別男19720608民族漢340101197206080611本科職稱(chēng)工程師照片學(xué)習(xí)經(jīng)歷起止時(shí)間學(xué)習(xí)單位和內(nèi)容證明人199502-199508上海大眾維護(hù)班,汽車(chē)維護(hù)張彤

續(xù)表1

定義4在二維表格中嵌入了另一個(gè)表格,該表格與被嵌入的表格之間構(gòu)成了主-子關(guān)系,同樣,被嵌入的表格一般也是二維表格。此類(lèi)表格稱(chēng)為具有主-子關(guān)系的二維表格。如表4和表5所示。

表4某集團(tuán)公司月度考勤統(tǒng)計(jì)表

統(tǒng)計(jì)年月:2014年5月

全勤人次曠工人次遲到人次早退人次公差人次病事假人次集團(tuán)總部118003240第一分部262416112第二分部216621101第三分部246201223第四分部223811211合計(jì)10670412887

制表人:劉三保 制表日期:2014年6月1日

表5 集團(tuán)總部2014年5月遲到人次清單

制表人:劉三保 制表日期:2014年6月1日

2 表格的結(jié)構(gòu)特征

一個(gè)中文表格T可以用式(1)的六元組來(lái)表示:

T=

(1)

其中,Td為表序,即表格在文本中的序號(hào),具有唯一性;Tn為表名,即表格的名稱(chēng);Tf為表附,反映表格的外部特征,它是若干<屬性,值>對(duì)所組成的集合,用FAi表示表附的第i個(gè)屬性,F(xiàn)Vi表示FAi屬性的值,則:

Tf={,…,

}(h為自然數(shù))

(2)

Tb為表體,由表格中的橫、縱欄目的<屬性,值>對(duì)組成的集合,設(shè)橫欄有m行,縱欄有n列,m,n都是正整數(shù),當(dāng)m或n有一個(gè)為1時(shí),表示一維表格。用x1,x2,…,xm表示橫欄屬性,y1,y2,…,yn表示縱欄屬性,Vij表示橫欄屬性xi、縱欄屬性yj對(duì)應(yīng)的值,則:

Tb={,,…,,

,…,,

……

,,…,}

(3)

Tc是表格的上下文結(jié)構(gòu),包括狀態(tài)約束、時(shí)間約束、地點(diǎn)約束、人物約束、事件約束。

Tc={ StatusConstraint;TimeConstraint;LocationConstraint;PersonConstraint; ThingConstraint;SequenceConstraint }

(4)

其中,StatusConstraint為狀態(tài)約束,布爾型,為真(ture)表示該表格中的數(shù)據(jù)已經(jīng)確認(rèn),否則未確認(rèn);TimeConstraint為時(shí)間約束,其值用SandE(starttime,endtime)來(lái)表示,描述表格數(shù)據(jù)僅在上述時(shí)間范圍內(nèi)有效。如果starttime為空、endtime不為空表示自endtime之前有效;如果starttime不為空、endtime不為空表示在starttime和endtime時(shí)限內(nèi)有效;如果starttime不為空、endtime為空表示自starttime開(kāi)始生效。若starttime=endtime則表示時(shí)間點(diǎn);LocationConstraint為地點(diǎn)約束,描述表格數(shù)據(jù)相關(guān)的發(fā)生地點(diǎn),其值為自由文本;PersonConstraint為人物約束,描述表格數(shù)據(jù)相關(guān)的人物,其值為自由文本;ThingConstraint為事件約束,描述表格數(shù)據(jù)相關(guān)的事件,其值為自由文本;SequenceConstraint為屬性間的順序約束,即所標(biāo)識(shí)的列序號(hào)在解讀語(yǔ)義時(shí)須依次進(jìn)行。其值可表示為SC(y1,y2,…,yn)。

Tk是表格的鏈接點(diǎn)集合,通過(guò)鏈接點(diǎn)一個(gè)表格可以嵌入多個(gè)相關(guān)的子表格。

Tk={TL1,TL2,…,TLs}s是自然數(shù)

TLi={ EmbeddedTid;EmbeddedTname; VerifyConstraint;PrefixConstraint }

(5)

其中,EmbeddedTid為被嵌入的表格序號(hào),實(shí)數(shù);EmbeddedTname為被嵌入的表格名稱(chēng),自由文本;VerifyConstraint為驗(yàn)證約束,是T對(duì)子表的整體約束,其值可以表示為Vij=RowNum(EmbeddedTid),表示序號(hào)為EmbeddedTid的子表行數(shù)必須等于T中Vij,如表1中有Vij=3=RowNum(4.2);PrefixConstraint為前綴約束,也是T對(duì)子表的整體約束,其值可以表示為Prefix(Vij,Td),表示Td子表中所有數(shù)據(jù)都需要加上前綴Vij。

3 屬性的元模型

為中文表格T的所有表附屬性、表體屬性分別設(shè)計(jì)一個(gè)元模型,用MDFi、MDBij對(duì)應(yīng)表示第i個(gè)表附屬性、第i行第j列表體屬性,其中h、m、n取值范圍同上。

MDFi={ Type; Range; ColumnConstraint; RowConstraint }

(i=1,2,…,h)

(6)

其中,Type為該屬性對(duì)應(yīng)的數(shù)據(jù)類(lèi)型;Range為該屬性的取值范圍,如按GB/T 7408-2005執(zhí)行;ColumnConstraint為列約束,該屬性值對(duì)表格的某一列施加約束,其值可以表示為CC(y1,y2,…,yn)+FVi,其中yj為表格的j列,j為小于等于n的正整數(shù)。(如表2中的“貨幣單位:元”對(duì)第5列、第6列的約束);RowConstraint為行約束,該屬性值對(duì)表格的某一行施加約束,其值可以表示為RC(x1,x2,…,xm)+FVi,其中xj為表格的j行,j為小于等于m的正整數(shù)。

MDBij={Type; Range; RowColumnConstraint }

(i=1,2,…,m;j=1,2,…,n)

(7)

其中,Type為該屬性對(duì)應(yīng)的數(shù)據(jù)類(lèi)型;Range為值域,該屬性的取值范圍,如按GB/T7408-2005執(zhí)行;RowColumnConstraint為屬性間的行列約束,其值可表示為RCC(Vab運(yùn)算符Vuv運(yùn)算符…Vdw關(guān)系符 Vij)。其中,a、b、u、v、d、w皆為正整數(shù)。

4 語(yǔ)義分析

本文將中文表格的語(yǔ)義擴(kuò)展為:表面語(yǔ)義(包括“非值”部分和“值”部分)、上下文語(yǔ)義、主-子表間的限制語(yǔ)義、表附屬性對(duì)表格的附加語(yǔ)義、表內(nèi)屬性值之間的關(guān)系語(yǔ)義。

對(duì)于給定的表格T,按照式(1)-式(7)構(gòu)建表格的結(jié)構(gòu)特征和屬性的元模型,利用一階謂詞演算中的函數(shù)和偽碼來(lái)進(jìn)行中文表格的語(yǔ)義分析。

4.1表面語(yǔ)義

根據(jù)所構(gòu)建的式(1)-式(3)的值,則有:

?T,?Td,Tn,Tf,Tb,Tk,h,m,n,s

Value(T,Td)∩Value(T,Tn)∩Num(T,Tf,h)∩

Num(T,R,m)∩Num(T,C,n)∩Num(T,Tk,s)

(8)

其中,Value(T,X)表示“表T的X屬性的值”,Num(T,R,Q)表示“表T的行數(shù)量是Q”,Num(T,C,Q)表示“表T的列數(shù)量是Q”。則上述謂詞公式表達(dá)了表面語(yǔ)義的“非值”部分:給定的中文表格T,其序號(hào)為T(mén)d,名稱(chēng)為T(mén)n,有h個(gè)附加屬性,有m行,有n列,有s個(gè)被嵌入的子表。

為了機(jī)器處理的效率,表面語(yǔ)義的“值”部分融合到以下語(yǔ)義中。

4.2上下文語(yǔ)義

ifTc.StatusConstraint=truethen"T的數(shù)據(jù)已經(jīng)被確認(rèn)"else"T的數(shù)據(jù)未被確認(rèn)";

ifTc.TimeConstraint <>nullthen{

if(starttime <>nullandendtime =null)then"T的數(shù)據(jù)從starttime開(kāi)始生效";

if(starttime =nullandendtime <>null)then"T的數(shù)據(jù)在endtime之前有效";

if(starttime <>nullandendtime <>null)then"T的數(shù)據(jù)在starttime和endtime之間有效";

}

ifTc.LocationConstraint <>nullthen"T的數(shù)據(jù)與地點(diǎn)Tc.LocationConstraint 相關(guān)";

ifTc.PersonConstraint <>nullthen"T的數(shù)據(jù)與人物Tc.PersonConstraint 相關(guān)";

ifTc.ThingConstraint <>nullthen"T的數(shù)據(jù)與事件Tc.ThingConstraint相關(guān)";

ifTc.SequenceConstraint <>nullthen"T的數(shù)據(jù)具有SC(y1,y2,…,yn)順序要求";

4.3主-子表間的限制語(yǔ)義

ifs<>0then

for(i=1tos) {

被嵌入的表格序號(hào)為T(mén)Li.EmbeddedTid;

被嵌入的表格名稱(chēng)為T(mén)Li.EmbeddedTname;

表格T對(duì)TLi.EmbeddedTid子表的驗(yàn)證約束為T(mén)Li.VerifyConstraint;

表格T對(duì)TLi.EmbeddedTid子表的前綴約束為T(mén)Li.PrefixConstraint;

}

4.4表附屬性對(duì)表格的附加語(yǔ)義

ifh<>0then

fori=1toh {

表附屬性FAi的值是FVi;

表附屬性FAi的數(shù)據(jù)類(lèi)型為MDFi.Type;

表附屬性FAi的值域?yàn)镸DFi.Range;

表附屬性FAi對(duì)T的列約束為MDFi.ColumnConstraint;

表附屬性FAi對(duì)T的行約束為MDFi.RowConstraint;

}

4.5表內(nèi)屬性值之間的關(guān)系語(yǔ)義

fori=1tom {

forj=1ton {

表體橫欄屬性為xi、縱欄屬性為yj對(duì)應(yīng)的值是Vij;

該表體屬性值的數(shù)據(jù)類(lèi)型為MDBij.Type;

該表體屬性值的值域?yàn)镸DBij.Range;

if(MDBij.RowColumnConstraint<>null)then

"值Vij隱含了RCC(Vab運(yùn)算符Vuv運(yùn)算符…Vdw關(guān)系符 Vij)關(guān)系";

if(MDFj.ColumnConstraint<>null)thenVij=Vij+MDFj.Co-lumnConstraint;

if(MDFi.RowConstraint<>null)thenVij=Vij+MDFi.RowConstraint);

}

}

5 實(shí)例應(yīng)用

利用上述的語(yǔ)義分析方法,針對(duì)本文給定的四類(lèi)典型的中文表格進(jìn)行驗(yàn)證。

表1的語(yǔ)義分析:

構(gòu)建該表的結(jié)構(gòu)特征和元模型:

Td=1;Tn=單位及信息專(zhuān)管員基本信息表;h=3;m=1;n=13; s=0;

Tf= {<單位蓋章,null>,<填表人,王擁軍>,<填表日期,2014-04-08>};

Tb= {<單位編號(hào),TY001>,<組織機(jī)構(gòu)編碼,79843562-5>,<單位名稱(chēng),太原市政府信息辦>,<中文簡(jiǎn)稱(chēng),信息辦>,<英文簡(jiǎn)稱(chēng),XXB>,<單位地址,中山路36號(hào)>,<信息專(zhuān)管員姓名,孫廣宏>,<信息專(zhuān)管員職務(wù),科長(zhǎng)>,<信息專(zhuān)管員辦公室電話,2336759>,<信息專(zhuān)管員手機(jī)號(hào)碼,13903516638>,<信息專(zhuān)管員政務(wù)號(hào),GK35692>,<信息專(zhuān)管員電子信箱,sunguanghong@ 163.com>,<信息專(zhuān)管員QQ號(hào),1339883518>};

Tc={

StatusConstraint=false;

TimeConstraint=null;

LocationConstraint=null;

PersonConstraint=null;

ThingConstraint=為配合全市信息化統(tǒng)一規(guī)劃,對(duì)各委辦局和信息專(zhuān)管員的基本信息進(jìn)行采集;

SequenceConstraint=null}

s=0,故無(wú)須構(gòu)建Tk。

屬性的元模型為:

MDF1={

Type=字符串;

Range=自由文本;

ColumnConstraint=null;

RowConstraint=null;}

MDF2={

Type=字符串;

Range=長(zhǎng)度不超過(guò)五個(gè)漢字;

ColumnConstraint=null;

RowConstraint=null;}

MDF3={

Type=日期型;

Range=符合YYYY-MM-DD日期規(guī)范;

ColumnConstraint=null;

RowConstraint=null;}

MB11={

Type=字符串;

Range=TY+3位數(shù)字;

RowColumnConstraint=null;}

MB12={

Type=9位數(shù)字字符串;

Range=符合國(guó)家組織機(jī)構(gòu)編碼及校驗(yàn)規(guī)則;

RowColumnConstraint=null}

以下MB13至MB112類(lèi)似,省略。

MB113={

Type=數(shù)字串;

Range=四至十位的數(shù)字;

RowColumnConstraint=null;}

可獲得如下語(yǔ)義:

(1) 表面語(yǔ)義

根據(jù)式(8)可以得到表面語(yǔ)義的“非值”部分:表的序號(hào)為“1”,表名為“單位及信息專(zhuān)管員基本信息表”,有3個(gè)附加屬性,有1行13列,沒(méi)有嵌入子表。

(2) 上下文語(yǔ)義

該表是“為配合全市信息化統(tǒng)一規(guī)劃,對(duì)各委辦局和信息專(zhuān)管員的基本信息進(jìn)行采集”,但本表填報(bào)的信息尚未得到單位“確認(rèn)”。

(3) 主-子表間的限制語(yǔ)義

無(wú)。

(4) 表附屬性對(duì)表格的附加語(yǔ)義

表附屬性值為:

單位蓋章=null,字符串,自由文本;

填表人=王擁軍,字符串,不超過(guò)五個(gè)漢字;

填表日期=2014-04-08,日期型,格式為YYYY-MM-DD;

附加語(yǔ)義:無(wú)。

(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義

表體屬性值為:

單位編號(hào)=TY001,字符串,格式為T(mén)Y+3位數(shù)字;

組織機(jī)構(gòu)編碼=79843562-5,9位數(shù)字字符串,符合國(guó)家組織機(jī)構(gòu)編碼及校驗(yàn)規(guī)則;

單位名稱(chēng)=太原市政府信息辦,字符串,自由文本;

中文簡(jiǎn)稱(chēng)=信息辦,字符串,自由文本;

英文簡(jiǎn)稱(chēng)=XXB,字符串,自由文本;

單位地址=中山路36號(hào),字符串,自由文本;

信息專(zhuān)管員姓名=孫廣宏,字符串,長(zhǎng)度不超過(guò)五個(gè)漢字;

信息專(zhuān)管員職務(wù)=科長(zhǎng),字符串,符合國(guó)家職務(wù)編碼規(guī)范;

信息專(zhuān)管員辦公室電話=2336759,數(shù)字串,七位數(shù)字;

信息專(zhuān)管員手機(jī)號(hào)碼=13903516638,數(shù)字串,十位數(shù)字;

信息專(zhuān)管員政務(wù)號(hào)=GK35692,字符串,GK+5位數(shù)字,具有唯一性;

信息專(zhuān)管員電子信箱=sunguanghong@163.com,字符數(shù)字串,符合電子郵件地址規(guī)范;

信息專(zhuān)管員QQ號(hào)=1339883518,數(shù)字串,四至十位數(shù)字;

屬性值之間關(guān)系語(yǔ)義:無(wú)。

表2的語(yǔ)義分析:

限于篇幅,省略結(jié)構(gòu)特征和元模型的構(gòu)建過(guò)程,對(duì)于表格的表面語(yǔ)義的“值”部分也予以省略。

(1) 表面語(yǔ)義

表的序號(hào)為“2”,表名為“某項(xiàng)目設(shè)備預(yù)算表”,有2個(gè)附加屬性,有7行6列,沒(méi)有嵌入子表。

(2) 上下文語(yǔ)義

該表是“針對(duì)某項(xiàng)目設(shè)備預(yù)算制作的清單”,解讀該表時(shí)針對(duì)每一行按第1、2、3、4、5、6列順序進(jìn)行,本表填報(bào)的信息已經(jīng)“確認(rèn)”。

(3) 主-子表間的限制語(yǔ)義

無(wú)。

(4) 表附屬性對(duì)表格的附加語(yǔ)義

表附屬性值:省略。

附加語(yǔ)義:表的第6、7列的限制量詞為“元”。

(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義

表體屬性值:省略。

屬性值之間關(guān)系語(yǔ)義:滿(mǎn)足V13×V15=V16;V23×V25=V26;V33×V35=V36;V43×V45=V46;V53×V55=V56;V63×V65=V66;V16+V26+V36+V46+V56+V66=V76。

表3的語(yǔ)義分析:

(1) 表面語(yǔ)義

表的序號(hào)為“3”,表名為“某公司員工信息表”,有1個(gè)附加屬性,有1行9列,有2個(gè)嵌入子表,表序分別為3.1和3.2。

(2) 上下文語(yǔ)義

該表“對(duì)公司所有員工的基本信息進(jìn)行采集”,本表填報(bào)的信息已經(jīng)“確認(rèn)”,信息在2014年7月1日前有效。

(3) 主-子表間的限制語(yǔ)義

表3.1和3.2所有數(shù)據(jù)值都應(yīng)冠以前綴“李國(guó)棟”。

(4) 表附屬性對(duì)表格的附加語(yǔ)義

表附屬性值:省略。

附加語(yǔ)義:無(wú)。

(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義

表體屬性值為:略

關(guān)系語(yǔ)義:無(wú)。

子表3.1和3.2的語(yǔ)義分析:省略。

表4和表5的語(yǔ)義分析:

(1) 表面語(yǔ)義

表的序號(hào)為“4”,表名為“某集團(tuán)公司月度考勤統(tǒng)計(jì)表”,有3個(gè)附加屬性,有6行6列,有1個(gè)嵌入子表,表序?yàn)椤?”。

(2) 上下文語(yǔ)義

該表“對(duì)集團(tuán)所有員工按所在分部進(jìn)行考勤匯總”,本表填報(bào)的信息已經(jīng)“確認(rèn)”,信息的有效性范圍為2014年5月1日至2014年5月31日。

(3) 主-子表間的限制語(yǔ)義

被嵌入的子表5的行數(shù)必須為3。

(4) 表附屬性對(duì)表格的附加語(yǔ)義

表附屬性值:省略。

附加語(yǔ)義:無(wú)。

(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義

表體屬性值為:略。

關(guān)系語(yǔ)義:

V11+V21+V31+V41+V51=V61;V12+V22+V32+V42+V52=V62;

V13+V23+V33+V43+V53=V63;V14+V24+V34+V44+V54=V64;

V15+V25+V35+V45+V55=V65;V16+V26+V36+V46+V56=V66。

對(duì)子表5的語(yǔ)義分析:省略。

6 語(yǔ)義質(zhì)量評(píng)價(jià)

鄧敏等[15]基于CHENG[16]提出了準(zhǔn)確性、一致性、完整性語(yǔ)義質(zhì)量評(píng)價(jià)方法,孫翀等[17]提出了語(yǔ)義損失率的評(píng)價(jià)方法,還有基于語(yǔ)義擴(kuò)散距離的評(píng)價(jià)方法。這些方法都是在假定研究對(duì)象的語(yǔ)義已經(jīng)存在的前提下,進(jìn)行某種運(yùn)算(文獻(xiàn)[15]為綜合,文獻(xiàn)[16]為匯總)時(shí),對(duì)運(yùn)算前后語(yǔ)義的變化進(jìn)行質(zhì)量評(píng)價(jià),而針對(duì)中文表格到底應(yīng)該包含哪些語(yǔ)義尚未得到統(tǒng)一認(rèn)知的情況下(這正是本文的研究目標(biāo)之一),上述方法皆不可行。以下用本文中的四個(gè)實(shí)例來(lái)對(duì)比目前方法與本文方法所獲得的語(yǔ)義信息量,見(jiàn)表6所示。

表6 各種方法所獲得的語(yǔ)義信息量比較

7 結(jié) 語(yǔ)

在實(shí)際情況中,中文表格的分類(lèi)標(biāo)準(zhǔn)、語(yǔ)義范疇、是否領(lǐng)域相關(guān)等問(wèn)題的認(rèn)識(shí)并未得到統(tǒng)一,因此,面向常見(jiàn)的幾種表格類(lèi)型,基于結(jié)構(gòu)特征和元模型對(duì)中文表格進(jìn)行了語(yǔ)義分析,思路清晰,算法簡(jiǎn)單。較已有的方法,獲取了中文表格的表面語(yǔ)義(“值”和“非值”語(yǔ)義)、上下文語(yǔ)義、表附屬性的附加語(yǔ)義、主-子表之間的限制語(yǔ)義、表內(nèi)屬性值間的關(guān)系語(yǔ)義,擴(kuò)展了中文表格語(yǔ)義分析的范圍,豐富了語(yǔ)義信息量。

從本質(zhì)上說(shuō),構(gòu)建中文表格的結(jié)構(gòu)特征和元模型的過(guò)程就是表格概化的過(guò)程,可看成槽填充表示法[18]的擴(kuò)展,且具備對(duì)多層嵌套子表的遞歸分析能力。顯然,從結(jié)構(gòu)特征和元模型中獲取中文表格語(yǔ)義的過(guò)程對(duì)語(yǔ)義是無(wú)損的,結(jié)果是無(wú)歧義的。不難看出,該方法也可用于中文表格的信息抽取。

[1] 范莉婭,肖田元.自動(dòng)獲取HTML表格語(yǔ)義層次結(jié)構(gòu)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,47(10):1586-1590.

[2]LimSeungjin,NgYiukai.AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables[C]//ProceedingsoftheEighthInternationalConferenceonInformationandKnowledgeManagement.KansasCity:ACM,1999: 466-474.

[3]LIUJiexue,AOZhuoyun,ParkHH,etal.AnXMLapproachtosemanticallyextractdatafromHTMLtables[C]//DatabaseandExpertSystemsApplications,DEXA2005,LectureNotesinComputerScience3588.Heidelberg:SpringerBerlin,2005:696-705.

[4]YoshidaM,TorisawaK,TsujiiJ.Extractingattributesandtheirvaluesfromwebpages[C]//AntonacopoulosA,HuJianying.WebDocumentAnalysis:ChallengesandOpportunities.Singapore:WorldScientificPublishing,2003: 179-200.

[5]HsiaoShuling,ChouShihchun,ChangLuping.InformationextractionfromHTMLtablesbaseondomainontology[C]//InternationalConferenceonInformationandKnowledgeEngineering-IKE’03.LasVegas:CSREAPress,2003: 70-78.

[6]KimYeonseok,LeeKyongho.ExtractingtableinformationfromtheWeb[C]//DocumentAnalysisSystemsVI. 6thInternationalWorkshop,DAS2004,LectureNotesinComputerScience3163,2004:438-441.

[7] 張凱.基于本體的web信息集成若干關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2004.

[8]LiShijun,PENGZhiyong,LIUMengchi.ExtractionandintegrationinformationinHTMLtables[C]//FourthInternationalConferenceonComputerandInformationTechnology.Nanjing,China,2004:315-320.

[9]TanakaM,IshidaT.Ontologyextractionfromtablesontheweb[C]//ProceedingsoftheInternationalSymposiumonApplicationsonInternetinSAINT-06.Washington:IEEEComputerSociety,2006:284-290.

[10] 楊海濤.復(fù)雜表頭表格的關(guān)系模式表示[J].計(jì)算機(jī)工程,2011,37(2):49-54.

[11] 賴(lài)中華. 基于本體的金融年報(bào)語(yǔ)義網(wǎng)自動(dòng)構(gòu)建方法[D].哈爾濱工業(yè)大學(xué),2008.

[12] 陳競(jìng)波.基于語(yǔ)義的報(bào)表系統(tǒng)模型的應(yīng)用研究[D].遼寧:遼寧工程技術(shù)大學(xué),2010.

[13] 馮曉晨,張曉輝,邸瑞華.基于本體的電子表格數(shù)據(jù)到語(yǔ)義數(shù)據(jù)的轉(zhuǎn)換[J].計(jì)算機(jī)科學(xué),2011,38(10):145-148.

[14] 尹文生.HTML表格語(yǔ)義脈絡(luò)分析方法:中國(guó),200910272408[P]. 2011-05-04.

[15] 鄧敏,劉揚(yáng),程濤,等.地圖綜合中語(yǔ)義質(zhì)量的度量方法研究[J].地理與地理信息科學(xué),2008,24(5):11-15.

[16]ChengT,LIZL.Quantitativemeasuresforsemanticqualityofpolygongeneralization[J].Cartographica,2006,41(2):135-148.

[17] 孫翀,盧炎生.基于層次空間聚類(lèi)的表語(yǔ)義匯總算法[J].計(jì)算機(jī)科學(xué),2012,39(3):163-169.

[18] 馮志偉.自然語(yǔ)言處理簡(jiǎn)明教程[M].上海:上海外語(yǔ)教育出版社,2012:516-517.

SEMANTICANALYSISMETHODFORTABLESINCHINESEBASEDONSTRUCTURALFEATURESANDMETA-MODEL

ZhangJiarui1ZhangHan2

1(Department of Computer Science and Technology,Hefei University,Hefei 230601,Anhui, China)2(Department of Life and Medical Science, University of Hertfordshire,Hatfield,AL10 9AB,UK)

InlightoftheactualityoflesscomprehensiveanalysisonsemanticsoftablesinChinesethecurrenttechniqueis,inthispaperwepresentthestructuralfeaturesandmeta-modelbasedsemanticsanalysismethod.Byusingthewell-knownfirst-orderpredicatecalculusfunctionsincludingValue(valuefunction)andNum(numberfunction),aswellascombiningpseudocode,weanalysethesemanticsofseveralkindsofthemostcommontablesinChineseandobtaintheirsurfacesemantics,contextsemantics,restrictsemanticsbetweenmastertableandsub-tables,additionalsemanticsofsubsidiarynatureoftableontabledata,andrelationshipsemanticsbehindtheattributevalue.Resultsofexampleverificationindicatethatthestructuralfeatureandmeta-modelaretheeffectivewayforanalysingthesemanticsoftablesinChinese,theacquiredinformationamountandcategoriesofsemanticsexceedfarthantheexistingmethods.

StructuralfeaturesMeta-modelFirstorderpredicatecalculusfunctionSurfacesemanticsContextsemanticsRestrictionsemanticsAdditionalsemanticsRelationshipsemantics

2014-10-08??萍疾恐行∑髽I(yè)創(chuàng)新基金項(xiàng)目(11C26 213401181);校人才科研基金項(xiàng)目(14RC08)。張家銳,高工,主研領(lǐng)域:軟件建模,信息集成,數(shù)據(jù)挖掘。張涵,本科生。

TP311

ADOI:10.3969/j.issn.1000-386x.2016.03.020

猜你喜歡
專(zhuān)管員表格約束
《現(xiàn)代臨床醫(yī)學(xué)》來(lái)稿表格要求
“碳中和”約束下的路徑選擇
閬中市:勞資專(zhuān)管員培訓(xùn)會(huì)召開(kāi)
約束離散KP方程族的完全Virasoro對(duì)稱(chēng)
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
統(tǒng)計(jì)表格的要求
適當(dāng)放手能讓孩子更好地自我約束
人生十六七(2015年6期)2015-02-28 13:08:38
完善鄉(xiāng)鎮(zhèn)財(cái)政專(zhuān)管員工作的要點(diǎn)解析
關(guān)于強(qiáng)力推進(jìn)鄉(xiāng)鎮(zhèn)財(cái)政專(zhuān)管員制度建設(shè)的探索與思考
台中市| 丰都县| 河南省| 青神县| 四川省| 登封市| 沙湾县| 浦江县| 和田市| 东山县| 吉木萨尔县| 四会市| 盐源县| 澳门| 偃师市| 青海省| 遵化市| 蛟河市| 抚顺市| 温州市| 静安区| 玉环县| 江阴市| 盐池县| 合阳县| 凭祥市| 南召县| 牙克石市| 格尔木市| 靖西县| 抚宁县| 孝昌县| 永登县| 天门市| 陕西省| 塔城市| 乌海市| 鄂州市| 仁化县| 冷水江市| 蓬安县|