張家銳 張 涵
1(合肥學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系 英國(guó) 赫特福德郡 AL10 9AB)
?
基于結(jié)構(gòu)特征和元模型的中文表格語(yǔ)義分析方法
張家銳1張涵2
1(合肥學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系安徽 合肥 230601)2(赫特福德大學(xué)生命與醫(yī)藥科學(xué)系英國(guó) 赫特福德郡AL10 9AB)
針對(duì)現(xiàn)有技術(shù)對(duì)中文表格語(yǔ)義分析不夠全面的現(xiàn)實(shí),提出基于結(jié)構(gòu)特征和元模型的語(yǔ)義分析方法。使用具有公知性的一階謂詞函數(shù)Value(值函數(shù))、Num(數(shù)量函數(shù)),結(jié)合偽編碼,對(duì)幾類(lèi)最常見(jiàn)的中文表格進(jìn)行語(yǔ)義分析,獲取了中文表格的表面語(yǔ)義、上下文語(yǔ)義、主-子表之間的限制語(yǔ)義、表附屬性對(duì)表格數(shù)據(jù)的附加語(yǔ)義、屬性值背后隱藏的關(guān)系語(yǔ)義。實(shí)例驗(yàn)證的結(jié)果表明,結(jié)構(gòu)特征和元模型是中文表格語(yǔ)義分析的有效方法,獲取的語(yǔ)義信息量和種類(lèi)遠(yuǎn)超目前的方法。
結(jié)構(gòu)特征元模型一階謂詞函數(shù)表面語(yǔ)義上下文語(yǔ)義限制語(yǔ)義附加語(yǔ)義關(guān)系語(yǔ)義
中文表格是中文書(shū)面文本中最常見(jiàn)的元素之一,具有比普通文字語(yǔ)言更高的精確性和簡(jiǎn)捷性,在很多領(lǐng)域相關(guān)的文本中,經(jīng)常會(huì)使用表格來(lái)增強(qiáng)可閱讀性、可理解性。因此,對(duì)中文表格進(jìn)行語(yǔ)義分析是中文自然語(yǔ)言理解中不可或缺的部分。中文表格人工理解很方便,機(jī)器辨識(shí)很困難。目前,對(duì)中文表格的語(yǔ)義分析,多數(shù)是將研究對(duì)象限定為Web頁(yè)面中基于HTML標(biāo)簽的電子表格,方法大致有如下幾種[1]:內(nèi)容樹(shù)[2,3]、基于本體使用隱馬爾可夫模型[4]、領(lǐng)域本體[5]、啟發(fā)式規(guī)則[6]、正則表達(dá)式匹配[7]、基于集成的半自動(dòng)化方法[8]、人工解釋表格結(jié)構(gòu)的半自動(dòng)化方法[9],目的是通過(guò)語(yǔ)義抽取表格數(shù)據(jù)。在利用表格的半結(jié)構(gòu)化特征來(lái)獲取其語(yǔ)義方面,楊海濤[10]按表頭的形態(tài)把表格分為:典型關(guān)系表格、可規(guī)范的關(guān)系表格、帶指標(biāo)森林表頭的表格。賴(lài)中華[11]提出列分割、嵌套列表頭跨度識(shí)別、行分段、單位識(shí)別、表格展開(kāi)方式識(shí)別和表格標(biāo)題識(shí)別的表格結(jié)構(gòu)識(shí)別方法,把表格的物理結(jié)構(gòu)規(guī)整化到邏輯結(jié)構(gòu)后解讀其語(yǔ)義。陳競(jìng)波[12]運(yùn)用報(bào)表數(shù)據(jù)語(yǔ)義對(duì)象化處理技術(shù),對(duì)報(bào)表數(shù)據(jù)與報(bào)表結(jié)構(gòu)進(jìn)行解耦,將報(bào)表數(shù)據(jù)與其語(yǔ)義信息封裝成語(yǔ)義對(duì)象,并通過(guò)報(bào)表公式來(lái)描述數(shù)據(jù)對(duì)象之間的運(yùn)算或約束關(guān)系。馮曉晨[13]的研究重點(diǎn)是表格屬性之間的關(guān)系(同義/概念分類(lèi)/特性關(guān)系/值的類(lèi)屬模式等)語(yǔ)義。尹文生[14]通過(guò)建立屬性取值的識(shí)別規(guī)則和語(yǔ)義脈絡(luò)樹(shù)來(lái)獲取表格的值語(yǔ)義??傊壳暗姆椒ㄖ粚?duì)表格的表面語(yǔ)義(值語(yǔ)義)進(jìn)行分析[10,11,13,14],雖然文獻(xiàn)[12]加入了表格的運(yùn)算和約束語(yǔ)義,但表格的上下文語(yǔ)義、主-子表間的限制語(yǔ)義、表附屬性對(duì)表格的附加語(yǔ)義、表內(nèi)屬性值之間的關(guān)系語(yǔ)義皆未被考慮。鑒于此,針對(duì)中文書(shū)面文本中幾類(lèi)常見(jiàn)的中文表格,在以文獻(xiàn)[10,11]方法進(jìn)行表格樣式解析的前提下,提出一種基于結(jié)構(gòu)特征和元模型的中文表格語(yǔ)義分析方法,便于獲得中文表格更全面的語(yǔ)義,希望能部分彌補(bǔ)目前方法的不足。
中文表格雖然不像中文文本語(yǔ)句那樣豐富多彩、充滿(mǎn)限制和歧義,但其類(lèi)別繁多、難以窮盡,所以至今也沒(méi)有一種標(biāo)準(zhǔn)的分類(lèi)方法,本文僅面向應(yīng)用中最典型、最常見(jiàn)的幾類(lèi)中文表格進(jìn)行研究。
定義1欄目的值與且僅與某一個(gè)屬性及其約束相關(guān)的表格為一維表格。如表1所示。
表1單位及信息專(zhuān)管員基本信息表
單位蓋章:
單位編號(hào)TY001組織機(jī)構(gòu)編碼79843562-5單位名稱(chēng)太原市政府信息辦中文簡(jiǎn)稱(chēng)信息辦英文簡(jiǎn)稱(chēng)XXB單位地址中山路36號(hào)信息專(zhuān)管員基本信息姓名孫廣宏職務(wù)科長(zhǎng)辦公室電話2336759手機(jī)號(hào)碼13903516638政務(wù)號(hào)GK35692電子信箱sunguanghong@163.comQQ號(hào)1339883518
填表人:王擁軍填表日期:2014-04-08
定義2欄目的值與且僅與橫、縱兩個(gè)屬性及其約束相關(guān),且這兩個(gè)屬性之間一般有“定語(yǔ)+名詞”或“定語(yǔ)+數(shù)詞”或“定語(yǔ)+量詞”構(gòu)成關(guān)系的表格為二維表格。如表2所示。
表2某項(xiàng)目設(shè)備預(yù)算表
填表日期:2014年5月16日貨幣單位:元
設(shè)備種類(lèi)設(shè)備型號(hào)數(shù)量單位預(yù)算單價(jià)小計(jì)服務(wù)器聯(lián)想萬(wàn)全R3503臺(tái)60000.00180000.00PC機(jī)華碩M33AAG16臺(tái)3620.0057920.00防火墻華為USG51201臺(tái)38000.0038000.00核心交換機(jī)華為5700-24TP1臺(tái)27000.0027000.00分支交換機(jī)華為2700-26TP1臺(tái)1280.001280.00工作臺(tái)山鷹W144張260.001040.00合計(jì)305240.00
定義3在一維表格中嵌入了另一個(gè)表格,該表格與被嵌入的表格之間構(gòu)成了主-子(master-detail)關(guān)系,且一般被嵌入的表格是二維表格,此類(lèi)表格稱(chēng)為具有主-子關(guān)系的一維表格。如表3所示。
表3某公司員工信息表
填表日期:2014-07-01
編號(hào)姓名出生日期身份證號(hào)碼學(xué)歷A001李國(guó)棟性別男19720608民族漢340101197206080611本科職稱(chēng)工程師照片學(xué)習(xí)經(jīng)歷起止時(shí)間學(xué)習(xí)單位和內(nèi)容證明人199502-199508上海大眾維護(hù)班,汽車(chē)維護(hù)張彤
續(xù)表1
定義4在二維表格中嵌入了另一個(gè)表格,該表格與被嵌入的表格之間構(gòu)成了主-子關(guān)系,同樣,被嵌入的表格一般也是二維表格。此類(lèi)表格稱(chēng)為具有主-子關(guān)系的二維表格。如表4和表5所示。
表4某集團(tuán)公司月度考勤統(tǒng)計(jì)表
統(tǒng)計(jì)年月:2014年5月
全勤人次曠工人次遲到人次早退人次公差人次病事假人次集團(tuán)總部118003240第一分部262416112第二分部216621101第三分部246201223第四分部223811211合計(jì)10670412887
制表人:劉三保 制表日期:2014年6月1日
表5 集團(tuán)總部2014年5月遲到人次清單
制表人:劉三保 制表日期:2014年6月1日
一個(gè)中文表格T可以用式(1)的六元組來(lái)表示:
T=
(1)
其中,Td為表序,即表格在文本中的序號(hào),具有唯一性;Tn為表名,即表格的名稱(chēng);Tf為表附,反映表格的外部特征,它是若干<屬性,值>對(duì)所組成的集合,用FAi表示表附的第i個(gè)屬性,F(xiàn)Vi表示FAi屬性的值,則:
Tf={
(2)
Tb為表體,由表格中的橫、縱欄目的<屬性,值>對(duì)組成的集合,設(shè)橫欄有m行,縱欄有n列,m,n都是正整數(shù),當(dāng)m或n有一個(gè)為1時(shí),表示一維表格。用x1,x2,…,xm表示橫欄屬性,y1,y2,…,yn表示縱欄屬性,Vij表示橫欄屬性xi、縱欄屬性yj對(duì)應(yīng)的值,則:
Tb={
……
(3)
Tc是表格的上下文結(jié)構(gòu),包括狀態(tài)約束、時(shí)間約束、地點(diǎn)約束、人物約束、事件約束。
Tc={ StatusConstraint;TimeConstraint;LocationConstraint;PersonConstraint; ThingConstraint;SequenceConstraint }
(4)
其中,StatusConstraint為狀態(tài)約束,布爾型,為真(ture)表示該表格中的數(shù)據(jù)已經(jīng)確認(rèn),否則未確認(rèn);TimeConstraint為時(shí)間約束,其值用SandE(starttime,endtime)來(lái)表示,描述表格數(shù)據(jù)僅在上述時(shí)間范圍內(nèi)有效。如果starttime為空、endtime不為空表示自endtime之前有效;如果starttime不為空、endtime不為空表示在starttime和endtime時(shí)限內(nèi)有效;如果starttime不為空、endtime為空表示自starttime開(kāi)始生效。若starttime=endtime則表示時(shí)間點(diǎn);LocationConstraint為地點(diǎn)約束,描述表格數(shù)據(jù)相關(guān)的發(fā)生地點(diǎn),其值為自由文本;PersonConstraint為人物約束,描述表格數(shù)據(jù)相關(guān)的人物,其值為自由文本;ThingConstraint為事件約束,描述表格數(shù)據(jù)相關(guān)的事件,其值為自由文本;SequenceConstraint為屬性間的順序約束,即所標(biāo)識(shí)的列序號(hào)在解讀語(yǔ)義時(shí)須依次進(jìn)行。其值可表示為SC(y1,y2,…,yn)。
Tk是表格的鏈接點(diǎn)集合,通過(guò)鏈接點(diǎn)一個(gè)表格可以嵌入多個(gè)相關(guān)的子表格。
Tk={TL1,TL2,…,TLs}s是自然數(shù)
TLi={ EmbeddedTid;EmbeddedTname; VerifyConstraint;PrefixConstraint }
(5)
其中,EmbeddedTid為被嵌入的表格序號(hào),實(shí)數(shù);EmbeddedTname為被嵌入的表格名稱(chēng),自由文本;VerifyConstraint為驗(yàn)證約束,是T對(duì)子表的整體約束,其值可以表示為Vij=RowNum(EmbeddedTid),表示序號(hào)為EmbeddedTid的子表行數(shù)必須等于T中Vij,如表1中有Vij=3=RowNum(4.2);PrefixConstraint為前綴約束,也是T對(duì)子表的整體約束,其值可以表示為Prefix(Vij,Td),表示Td子表中所有數(shù)據(jù)都需要加上前綴Vij。
為中文表格T的所有表附屬性、表體屬性分別設(shè)計(jì)一個(gè)元模型,用MDFi、MDBij對(duì)應(yīng)表示第i個(gè)表附屬性、第i行第j列表體屬性,其中h、m、n取值范圍同上。
MDFi={ Type; Range; ColumnConstraint; RowConstraint }
(i=1,2,…,h)
(6)
其中,Type為該屬性對(duì)應(yīng)的數(shù)據(jù)類(lèi)型;Range為該屬性的取值范圍,如按GB/T 7408-2005執(zhí)行;ColumnConstraint為列約束,該屬性值對(duì)表格的某一列施加約束,其值可以表示為CC(y1,y2,…,yn)+FVi,其中yj為表格的j列,j為小于等于n的正整數(shù)。(如表2中的“貨幣單位:元”對(duì)第5列、第6列的約束);RowConstraint為行約束,該屬性值對(duì)表格的某一行施加約束,其值可以表示為RC(x1,x2,…,xm)+FVi,其中xj為表格的j行,j為小于等于m的正整數(shù)。
MDBij={Type; Range; RowColumnConstraint }
(i=1,2,…,m;j=1,2,…,n)
(7)
其中,Type為該屬性對(duì)應(yīng)的數(shù)據(jù)類(lèi)型;Range為值域,該屬性的取值范圍,如按GB/T7408-2005執(zhí)行;RowColumnConstraint為屬性間的行列約束,其值可表示為RCC(Vab運(yùn)算符Vuv運(yùn)算符…Vdw關(guān)系符 Vij)。其中,a、b、u、v、d、w皆為正整數(shù)。
本文將中文表格的語(yǔ)義擴(kuò)展為:表面語(yǔ)義(包括“非值”部分和“值”部分)、上下文語(yǔ)義、主-子表間的限制語(yǔ)義、表附屬性對(duì)表格的附加語(yǔ)義、表內(nèi)屬性值之間的關(guān)系語(yǔ)義。
對(duì)于給定的表格T,按照式(1)-式(7)構(gòu)建表格的結(jié)構(gòu)特征和屬性的元模型,利用一階謂詞演算中的函數(shù)和偽碼來(lái)進(jìn)行中文表格的語(yǔ)義分析。
4.1表面語(yǔ)義
根據(jù)所構(gòu)建的式(1)-式(3)的值,則有:
?T,?Td,Tn,Tf,Tb,Tk,h,m,n,s
Value(T,Td)∩Value(T,Tn)∩Num(T,Tf,h)∩
Num(T,R,m)∩Num(T,C,n)∩Num(T,Tk,s)
(8)
其中,Value(T,X)表示“表T的X屬性的值”,Num(T,R,Q)表示“表T的行數(shù)量是Q”,Num(T,C,Q)表示“表T的列數(shù)量是Q”。則上述謂詞公式表達(dá)了表面語(yǔ)義的“非值”部分:給定的中文表格T,其序號(hào)為T(mén)d,名稱(chēng)為T(mén)n,有h個(gè)附加屬性,有m行,有n列,有s個(gè)被嵌入的子表。
為了機(jī)器處理的效率,表面語(yǔ)義的“值”部分融合到以下語(yǔ)義中。
4.2上下文語(yǔ)義
ifTc.StatusConstraint=truethen"T的數(shù)據(jù)已經(jīng)被確認(rèn)"else"T的數(shù)據(jù)未被確認(rèn)";
ifTc.TimeConstraint <>nullthen{
if(starttime <>nullandendtime =null)then"T的數(shù)據(jù)從starttime開(kāi)始生效";
if(starttime =nullandendtime <>null)then"T的數(shù)據(jù)在endtime之前有效";
if(starttime <>nullandendtime <>null)then"T的數(shù)據(jù)在starttime和endtime之間有效";
}
ifTc.LocationConstraint <>nullthen"T的數(shù)據(jù)與地點(diǎn)Tc.LocationConstraint 相關(guān)";
ifTc.PersonConstraint <>nullthen"T的數(shù)據(jù)與人物Tc.PersonConstraint 相關(guān)";
ifTc.ThingConstraint <>nullthen"T的數(shù)據(jù)與事件Tc.ThingConstraint相關(guān)";
ifTc.SequenceConstraint <>nullthen"T的數(shù)據(jù)具有SC(y1,y2,…,yn)順序要求";
4.3主-子表間的限制語(yǔ)義
ifs<>0then
for(i=1tos) {
被嵌入的表格序號(hào)為T(mén)Li.EmbeddedTid;
被嵌入的表格名稱(chēng)為T(mén)Li.EmbeddedTname;
表格T對(duì)TLi.EmbeddedTid子表的驗(yàn)證約束為T(mén)Li.VerifyConstraint;
表格T對(duì)TLi.EmbeddedTid子表的前綴約束為T(mén)Li.PrefixConstraint;
}
4.4表附屬性對(duì)表格的附加語(yǔ)義
ifh<>0then
fori=1toh {
表附屬性FAi的值是FVi;
表附屬性FAi的數(shù)據(jù)類(lèi)型為MDFi.Type;
表附屬性FAi的值域?yàn)镸DFi.Range;
表附屬性FAi對(duì)T的列約束為MDFi.ColumnConstraint;
表附屬性FAi對(duì)T的行約束為MDFi.RowConstraint;
}
4.5表內(nèi)屬性值之間的關(guān)系語(yǔ)義
fori=1tom {
forj=1ton {
表體橫欄屬性為xi、縱欄屬性為yj對(duì)應(yīng)的值是Vij;
該表體屬性值的數(shù)據(jù)類(lèi)型為MDBij.Type;
該表體屬性值的值域?yàn)镸DBij.Range;
if(MDBij.RowColumnConstraint<>null)then
"值Vij隱含了RCC(Vab運(yùn)算符Vuv運(yùn)算符…Vdw關(guān)系符 Vij)關(guān)系";
if(MDFj.ColumnConstraint<>null)thenVij=Vij+MDFj.Co-lumnConstraint;
if(MDFi.RowConstraint<>null)thenVij=Vij+MDFi.RowConstraint);
}
}
利用上述的語(yǔ)義分析方法,針對(duì)本文給定的四類(lèi)典型的中文表格進(jìn)行驗(yàn)證。
表1的語(yǔ)義分析:
構(gòu)建該表的結(jié)構(gòu)特征和元模型:
Td=1;Tn=單位及信息專(zhuān)管員基本信息表;h=3;m=1;n=13; s=0;
Tf= {<單位蓋章,null>,<填表人,王擁軍>,<填表日期,2014-04-08>};
Tb= {<單位編號(hào),TY001>,<組織機(jī)構(gòu)編碼,79843562-5>,<單位名稱(chēng),太原市政府信息辦>,<中文簡(jiǎn)稱(chēng),信息辦>,<英文簡(jiǎn)稱(chēng),XXB>,<單位地址,中山路36號(hào)>,<信息專(zhuān)管員姓名,孫廣宏>,<信息專(zhuān)管員職務(wù),科長(zhǎng)>,<信息專(zhuān)管員辦公室電話,2336759>,<信息專(zhuān)管員手機(jī)號(hào)碼,13903516638>,<信息專(zhuān)管員政務(wù)號(hào),GK35692>,<信息專(zhuān)管員電子信箱,sunguanghong@ 163.com>,<信息專(zhuān)管員QQ號(hào),1339883518>};
Tc={
StatusConstraint=false;
TimeConstraint=null;
LocationConstraint=null;
PersonConstraint=null;
ThingConstraint=為配合全市信息化統(tǒng)一規(guī)劃,對(duì)各委辦局和信息專(zhuān)管員的基本信息進(jìn)行采集;
SequenceConstraint=null}
s=0,故無(wú)須構(gòu)建Tk。
屬性的元模型為:
MDF1={
Type=字符串;
Range=自由文本;
ColumnConstraint=null;
RowConstraint=null;}
MDF2={
Type=字符串;
Range=長(zhǎng)度不超過(guò)五個(gè)漢字;
ColumnConstraint=null;
RowConstraint=null;}
MDF3={
Type=日期型;
Range=符合YYYY-MM-DD日期規(guī)范;
ColumnConstraint=null;
RowConstraint=null;}
MB11={
Type=字符串;
Range=TY+3位數(shù)字;
RowColumnConstraint=null;}
MB12={
Type=9位數(shù)字字符串;
Range=符合國(guó)家組織機(jī)構(gòu)編碼及校驗(yàn)規(guī)則;
RowColumnConstraint=null}
以下MB13至MB112類(lèi)似,省略。
MB113={
Type=數(shù)字串;
Range=四至十位的數(shù)字;
RowColumnConstraint=null;}
可獲得如下語(yǔ)義:
(1) 表面語(yǔ)義
根據(jù)式(8)可以得到表面語(yǔ)義的“非值”部分:表的序號(hào)為“1”,表名為“單位及信息專(zhuān)管員基本信息表”,有3個(gè)附加屬性,有1行13列,沒(méi)有嵌入子表。
(2) 上下文語(yǔ)義
該表是“為配合全市信息化統(tǒng)一規(guī)劃,對(duì)各委辦局和信息專(zhuān)管員的基本信息進(jìn)行采集”,但本表填報(bào)的信息尚未得到單位“確認(rèn)”。
(3) 主-子表間的限制語(yǔ)義
無(wú)。
(4) 表附屬性對(duì)表格的附加語(yǔ)義
表附屬性值為:
單位蓋章=null,字符串,自由文本;
填表人=王擁軍,字符串,不超過(guò)五個(gè)漢字;
填表日期=2014-04-08,日期型,格式為YYYY-MM-DD;
附加語(yǔ)義:無(wú)。
(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義
表體屬性值為:
單位編號(hào)=TY001,字符串,格式為T(mén)Y+3位數(shù)字;
組織機(jī)構(gòu)編碼=79843562-5,9位數(shù)字字符串,符合國(guó)家組織機(jī)構(gòu)編碼及校驗(yàn)規(guī)則;
單位名稱(chēng)=太原市政府信息辦,字符串,自由文本;
中文簡(jiǎn)稱(chēng)=信息辦,字符串,自由文本;
英文簡(jiǎn)稱(chēng)=XXB,字符串,自由文本;
單位地址=中山路36號(hào),字符串,自由文本;
信息專(zhuān)管員姓名=孫廣宏,字符串,長(zhǎng)度不超過(guò)五個(gè)漢字;
信息專(zhuān)管員職務(wù)=科長(zhǎng),字符串,符合國(guó)家職務(wù)編碼規(guī)范;
信息專(zhuān)管員辦公室電話=2336759,數(shù)字串,七位數(shù)字;
信息專(zhuān)管員手機(jī)號(hào)碼=13903516638,數(shù)字串,十位數(shù)字;
信息專(zhuān)管員政務(wù)號(hào)=GK35692,字符串,GK+5位數(shù)字,具有唯一性;
信息專(zhuān)管員電子信箱=sunguanghong@163.com,字符數(shù)字串,符合電子郵件地址規(guī)范;
信息專(zhuān)管員QQ號(hào)=1339883518,數(shù)字串,四至十位數(shù)字;
屬性值之間關(guān)系語(yǔ)義:無(wú)。
表2的語(yǔ)義分析:
限于篇幅,省略結(jié)構(gòu)特征和元模型的構(gòu)建過(guò)程,對(duì)于表格的表面語(yǔ)義的“值”部分也予以省略。
(1) 表面語(yǔ)義
表的序號(hào)為“2”,表名為“某項(xiàng)目設(shè)備預(yù)算表”,有2個(gè)附加屬性,有7行6列,沒(méi)有嵌入子表。
(2) 上下文語(yǔ)義
該表是“針對(duì)某項(xiàng)目設(shè)備預(yù)算制作的清單”,解讀該表時(shí)針對(duì)每一行按第1、2、3、4、5、6列順序進(jìn)行,本表填報(bào)的信息已經(jīng)“確認(rèn)”。
(3) 主-子表間的限制語(yǔ)義
無(wú)。
(4) 表附屬性對(duì)表格的附加語(yǔ)義
表附屬性值:省略。
附加語(yǔ)義:表的第6、7列的限制量詞為“元”。
(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義
表體屬性值:省略。
屬性值之間關(guān)系語(yǔ)義:滿(mǎn)足V13×V15=V16;V23×V25=V26;V33×V35=V36;V43×V45=V46;V53×V55=V56;V63×V65=V66;V16+V26+V36+V46+V56+V66=V76。
表3的語(yǔ)義分析:
(1) 表面語(yǔ)義
表的序號(hào)為“3”,表名為“某公司員工信息表”,有1個(gè)附加屬性,有1行9列,有2個(gè)嵌入子表,表序分別為3.1和3.2。
(2) 上下文語(yǔ)義
該表“對(duì)公司所有員工的基本信息進(jìn)行采集”,本表填報(bào)的信息已經(jīng)“確認(rèn)”,信息在2014年7月1日前有效。
(3) 主-子表間的限制語(yǔ)義
表3.1和3.2所有數(shù)據(jù)值都應(yīng)冠以前綴“李國(guó)棟”。
(4) 表附屬性對(duì)表格的附加語(yǔ)義
表附屬性值:省略。
附加語(yǔ)義:無(wú)。
(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義
表體屬性值為:略
關(guān)系語(yǔ)義:無(wú)。
子表3.1和3.2的語(yǔ)義分析:省略。
表4和表5的語(yǔ)義分析:
(1) 表面語(yǔ)義
表的序號(hào)為“4”,表名為“某集團(tuán)公司月度考勤統(tǒng)計(jì)表”,有3個(gè)附加屬性,有6行6列,有1個(gè)嵌入子表,表序?yàn)椤?”。
(2) 上下文語(yǔ)義
該表“對(duì)集團(tuán)所有員工按所在分部進(jìn)行考勤匯總”,本表填報(bào)的信息已經(jīng)“確認(rèn)”,信息的有效性范圍為2014年5月1日至2014年5月31日。
(3) 主-子表間的限制語(yǔ)義
被嵌入的子表5的行數(shù)必須為3。
(4) 表附屬性對(duì)表格的附加語(yǔ)義
表附屬性值:省略。
附加語(yǔ)義:無(wú)。
(5) 表內(nèi)屬性值之間的關(guān)系語(yǔ)義
表體屬性值為:略。
關(guān)系語(yǔ)義:
V11+V21+V31+V41+V51=V61;V12+V22+V32+V42+V52=V62;
V13+V23+V33+V43+V53=V63;V14+V24+V34+V44+V54=V64;
V15+V25+V35+V45+V55=V65;V16+V26+V36+V46+V56=V66。
對(duì)子表5的語(yǔ)義分析:省略。
鄧敏等[15]基于CHENG[16]提出了準(zhǔn)確性、一致性、完整性語(yǔ)義質(zhì)量評(píng)價(jià)方法,孫翀等[17]提出了語(yǔ)義損失率的評(píng)價(jià)方法,還有基于語(yǔ)義擴(kuò)散距離的評(píng)價(jià)方法。這些方法都是在假定研究對(duì)象的語(yǔ)義已經(jīng)存在的前提下,進(jìn)行某種運(yùn)算(文獻(xiàn)[15]為綜合,文獻(xiàn)[16]為匯總)時(shí),對(duì)運(yùn)算前后語(yǔ)義的變化進(jìn)行質(zhì)量評(píng)價(jià),而針對(duì)中文表格到底應(yīng)該包含哪些語(yǔ)義尚未得到統(tǒng)一認(rèn)知的情況下(這正是本文的研究目標(biāo)之一),上述方法皆不可行。以下用本文中的四個(gè)實(shí)例來(lái)對(duì)比目前方法與本文方法所獲得的語(yǔ)義信息量,見(jiàn)表6所示。
表6 各種方法所獲得的語(yǔ)義信息量比較
在實(shí)際情況中,中文表格的分類(lèi)標(biāo)準(zhǔn)、語(yǔ)義范疇、是否領(lǐng)域相關(guān)等問(wèn)題的認(rèn)識(shí)并未得到統(tǒng)一,因此,面向常見(jiàn)的幾種表格類(lèi)型,基于結(jié)構(gòu)特征和元模型對(duì)中文表格進(jìn)行了語(yǔ)義分析,思路清晰,算法簡(jiǎn)單。較已有的方法,獲取了中文表格的表面語(yǔ)義(“值”和“非值”語(yǔ)義)、上下文語(yǔ)義、表附屬性的附加語(yǔ)義、主-子表之間的限制語(yǔ)義、表內(nèi)屬性值間的關(guān)系語(yǔ)義,擴(kuò)展了中文表格語(yǔ)義分析的范圍,豐富了語(yǔ)義信息量。
從本質(zhì)上說(shuō),構(gòu)建中文表格的結(jié)構(gòu)特征和元模型的過(guò)程就是表格概化的過(guò)程,可看成槽填充表示法[18]的擴(kuò)展,且具備對(duì)多層嵌套子表的遞歸分析能力。顯然,從結(jié)構(gòu)特征和元模型中獲取中文表格語(yǔ)義的過(guò)程對(duì)語(yǔ)義是無(wú)損的,結(jié)果是無(wú)歧義的。不難看出,該方法也可用于中文表格的信息抽取。
[1] 范莉婭,肖田元.自動(dòng)獲取HTML表格語(yǔ)義層次結(jié)構(gòu)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,47(10):1586-1590.
[2]LimSeungjin,NgYiukai.AnautomatedapproachforretrievinghierarchicaldatafromHTMLtables[C]//ProceedingsoftheEighthInternationalConferenceonInformationandKnowledgeManagement.KansasCity:ACM,1999: 466-474.
[3]LIUJiexue,AOZhuoyun,ParkHH,etal.AnXMLapproachtosemanticallyextractdatafromHTMLtables[C]//DatabaseandExpertSystemsApplications,DEXA2005,LectureNotesinComputerScience3588.Heidelberg:SpringerBerlin,2005:696-705.
[4]YoshidaM,TorisawaK,TsujiiJ.Extractingattributesandtheirvaluesfromwebpages[C]//AntonacopoulosA,HuJianying.WebDocumentAnalysis:ChallengesandOpportunities.Singapore:WorldScientificPublishing,2003: 179-200.
[5]HsiaoShuling,ChouShihchun,ChangLuping.InformationextractionfromHTMLtablesbaseondomainontology[C]//InternationalConferenceonInformationandKnowledgeEngineering-IKE’03.LasVegas:CSREAPress,2003: 70-78.
[6]KimYeonseok,LeeKyongho.ExtractingtableinformationfromtheWeb[C]//DocumentAnalysisSystemsVI. 6thInternationalWorkshop,DAS2004,LectureNotesinComputerScience3163,2004:438-441.
[7] 張凱.基于本體的web信息集成若干關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué),2004.
[8]LiShijun,PENGZhiyong,LIUMengchi.ExtractionandintegrationinformationinHTMLtables[C]//FourthInternationalConferenceonComputerandInformationTechnology.Nanjing,China,2004:315-320.
[9]TanakaM,IshidaT.Ontologyextractionfromtablesontheweb[C]//ProceedingsoftheInternationalSymposiumonApplicationsonInternetinSAINT-06.Washington:IEEEComputerSociety,2006:284-290.
[10] 楊海濤.復(fù)雜表頭表格的關(guān)系模式表示[J].計(jì)算機(jī)工程,2011,37(2):49-54.
[11] 賴(lài)中華. 基于本體的金融年報(bào)語(yǔ)義網(wǎng)自動(dòng)構(gòu)建方法[D].哈爾濱工業(yè)大學(xué),2008.
[12] 陳競(jìng)波.基于語(yǔ)義的報(bào)表系統(tǒng)模型的應(yīng)用研究[D].遼寧:遼寧工程技術(shù)大學(xué),2010.
[13] 馮曉晨,張曉輝,邸瑞華.基于本體的電子表格數(shù)據(jù)到語(yǔ)義數(shù)據(jù)的轉(zhuǎn)換[J].計(jì)算機(jī)科學(xué),2011,38(10):145-148.
[14] 尹文生.HTML表格語(yǔ)義脈絡(luò)分析方法:中國(guó),200910272408[P]. 2011-05-04.
[15] 鄧敏,劉揚(yáng),程濤,等.地圖綜合中語(yǔ)義質(zhì)量的度量方法研究[J].地理與地理信息科學(xué),2008,24(5):11-15.
[16]ChengT,LIZL.Quantitativemeasuresforsemanticqualityofpolygongeneralization[J].Cartographica,2006,41(2):135-148.
[17] 孫翀,盧炎生.基于層次空間聚類(lèi)的表語(yǔ)義匯總算法[J].計(jì)算機(jī)科學(xué),2012,39(3):163-169.
[18] 馮志偉.自然語(yǔ)言處理簡(jiǎn)明教程[M].上海:上海外語(yǔ)教育出版社,2012:516-517.
SEMANTICANALYSISMETHODFORTABLESINCHINESEBASEDONSTRUCTURALFEATURESANDMETA-MODEL
ZhangJiarui1ZhangHan2
1(Department of Computer Science and Technology,Hefei University,Hefei 230601,Anhui, China)2(Department of Life and Medical Science, University of Hertfordshire,Hatfield,AL10 9AB,UK)
InlightoftheactualityoflesscomprehensiveanalysisonsemanticsoftablesinChinesethecurrenttechniqueis,inthispaperwepresentthestructuralfeaturesandmeta-modelbasedsemanticsanalysismethod.Byusingthewell-knownfirst-orderpredicatecalculusfunctionsincludingValue(valuefunction)andNum(numberfunction),aswellascombiningpseudocode,weanalysethesemanticsofseveralkindsofthemostcommontablesinChineseandobtaintheirsurfacesemantics,contextsemantics,restrictsemanticsbetweenmastertableandsub-tables,additionalsemanticsofsubsidiarynatureoftableontabledata,andrelationshipsemanticsbehindtheattributevalue.Resultsofexampleverificationindicatethatthestructuralfeatureandmeta-modelaretheeffectivewayforanalysingthesemanticsoftablesinChinese,theacquiredinformationamountandcategoriesofsemanticsexceedfarthantheexistingmethods.
StructuralfeaturesMeta-modelFirstorderpredicatecalculusfunctionSurfacesemanticsContextsemanticsRestrictionsemanticsAdditionalsemanticsRelationshipsemantics
2014-10-08??萍疾恐行∑髽I(yè)創(chuàng)新基金項(xiàng)目(11C26 213401181);校人才科研基金項(xiàng)目(14RC08)。張家銳,高工,主研領(lǐng)域:軟件建模,信息集成,數(shù)據(jù)挖掘。張涵,本科生。
TP311
ADOI:10.3969/j.issn.1000-386x.2016.03.020