(中南大學(xué)地球科學(xué)與信息物理學(xué)院,湖南 長沙 410083)
隨著地質(zhì)調(diào)查工作的發(fā)展,海量的地質(zhì)文檔涌現(xiàn)。從不同角度對地質(zhì)文檔進(jìn)行處理可獲取不同價值的地質(zhì)數(shù)據(jù)和信息,以解決地質(zhì)工作中的認(rèn)知、決策等理論與實(shí)際問題(李朝奎等,2015;陳建平等,2017;Qiu et al.,2019;Zhuang et al.,2020;儲德平等,2021;劉文聰?shù)龋?021)。然而地質(zhì)文檔不僅包括文字資料,還包括表格、圖片、圖形等資料,存儲不同形式的地質(zhì)文檔需要不同的軟件,不僅耗時費(fèi)力,還影響地質(zhì)數(shù)據(jù)信息的挖掘,因此亟需解決以統(tǒng)一的數(shù)據(jù)格式存儲地質(zhì)文檔的問題(劉文毅等,2019)。
Markdown是用簡潔語法代替排版的一種輕量級標(biāo)記語言,具有文本格式體積小、通用性高、數(shù)據(jù)類型多樣的優(yōu)點(diǎn),能滿足地質(zhì)文檔存儲的需求。以Markdown格式存儲的文本化地質(zhì)資料通常有2種來源:一是直接遵循Markdown格式語法編寫而成,不經(jīng)文本轉(zhuǎn)換;二是由其他格式資料經(jīng)文本化處理后生成。受原始數(shù)據(jù)格式多樣、文本化技術(shù)限制、計(jì)算機(jī)資源有限等影響(Cheng et al.,2013),其他格式資料經(jīng)轉(zhuǎn)換處理后生成的資料出現(xiàn)數(shù)據(jù)格式多樣化、式樣信息多樣、句子不完整等問題,使得數(shù)據(jù)的讀取、管理和重用變得困難(Xiang et al.,2019)。
Markdown格式的地質(zhì)資料規(guī)范對地質(zhì)數(shù)據(jù)信息的快速、有效、準(zhǔn)確使用具有深刻影響(Munková et al.,2013;Uysal et al.,2014)。地質(zhì)資料信息化與地質(zhì)文本標(biāo)準(zhǔn)化尚處于起步階段,Markdown格式的地質(zhì)資料得到很好規(guī)范效果的研究鮮有報(bào)道。在其他領(lǐng)域,國內(nèi)外數(shù)據(jù)規(guī)范的理論研究和技術(shù)均發(fā)展較好,成果豐富。例如,基于特殊數(shù)據(jù)格式文本信息特點(diǎn)的文本規(guī)范化方法,可針對特定格式數(shù)據(jù),分析數(shù)據(jù)自身具有的文本特點(diǎn),抽取文本格式特征,根據(jù)規(guī)范目的對文本的內(nèi)容、格式等進(jìn)行規(guī)范化處理(Bloodgood et al.,2016;顧敏等,2017;張真等,2019;孟鑫淼,2020;沈亮等,2020);基于固定規(guī)范化模板的文本規(guī)范化方法,利用固定規(guī)范化模板,通過語義分析、信息抓取等技術(shù)將文本內(nèi)容整合到規(guī)范模板對應(yīng)位置,從而達(dá)到規(guī)范化處理的目的(張盈利等,2016);基于相似性數(shù)據(jù)檢測的規(guī)范化方法,針對特殊用途的文本,通過判斷文本內(nèi)容的相似性,消除重復(fù)記錄,從而生成無重復(fù)記錄的規(guī)范文本(劉一佳等,2013)。
針對Markdown格式地質(zhì)資料的文檔格式規(guī)范問題,以Markdown格式基本特征及該格式地質(zhì)資料的文檔格式特征為切入點(diǎn),對Markdown格式地質(zhì)資料的文檔格式問題進(jìn)行分析,以此定義文檔格式規(guī)范,將規(guī)則存儲于Excel表格中以便擴(kuò)充與完善,通過解析規(guī)則構(gòu)建文檔格式規(guī)范模型,對文檔格式規(guī)范結(jié)果進(jìn)行分析。
與傳統(tǒng)的文本格式資料相比,Markdown格式資料在文本內(nèi)容的基礎(chǔ)上附加了特定的格式標(biāo)記信息(即基本語法),以此體現(xiàn)文本各部分內(nèi)容的不同,同時也形成了特定的文檔格式信息,主要包括目錄、章節(jié)、表格和以超鏈接表示的圖片等。
Markdown格式地質(zhì)資料的原始格式具有多樣性,包括DOC、DOCX、PDF、HTML、XLS、XLSX等格式。Markdown格式地質(zhì)資料的多源性也決定了其文檔格式特征除包含自身的基本特征外,還包括封面、地質(zhì)剖面介紹等特征。
由于技術(shù)限制、語法標(biāo)準(zhǔn)及數(shù)據(jù)來源多樣、人為因素的影響,Markdown格式地質(zhì)資料存在文檔格式問題,主要表現(xiàn)在表格數(shù)據(jù)表現(xiàn)形式、文本內(nèi)容、圖名與超鏈接、標(biāo)記格式等方面。
表格數(shù)據(jù)在表體和表名的表現(xiàn)形式上具有多樣性。對比原始數(shù)據(jù)發(fā)現(xiàn):① 原始數(shù)據(jù)表名的加粗形式多樣(圖1),導(dǎo)致Markdown格式地質(zhì)資料的表名加粗形式多樣(圖2);② 由于原始數(shù)據(jù)的特殊性或轉(zhuǎn)換工具的原因,Markdown格式地質(zhì)資料在原有的Markdown標(biāo)準(zhǔn)表格形式基礎(chǔ)上,增加了3種表現(xiàn)形式,分別是單線表、多線表和HTML表格(圖2);③ 表名中序號之間的符號為單個“—”(圖1),經(jīng)文本化處理后的Markdown形式中,符號出現(xiàn)單個“—”和3個“-” 2種表現(xiàn)形式(圖2);④ 部分表名位于表體中(圖3)。
圖2 Markdown格式地質(zhì)資料Fig. 2 Geological texts in Markdown (a) Single-line table; (b) Multi-line table; (c) HTML table
圖3 Markdown格式地質(zhì)資料表名位于表體中Fig. 3 Geological textual data in Markdown format where the table name is contained in the table body(a) Primary data; (b) Data in Markdown format
文本內(nèi)容斷開包括受技術(shù)限制導(dǎo)致的文本內(nèi)容非自然斷開以及人為因素導(dǎo)致的文本內(nèi)容斷開。在Markdown格式地質(zhì)資料中,文本內(nèi)容斷開主要表現(xiàn)為相鄰斷開和非相鄰斷開2類。
2.2.1 相鄰斷開 指一個自然段落的內(nèi)容斷開為相鄰的兩行內(nèi)容且段落下一行不為單獨(dú)的換行符“ ”。在Markdown格式資料中,段落與段落之間以單獨(dú)的換行符“ ”為分割標(biāo)志,但部分資料出現(xiàn)了相鄰斷開(圖4)。
2.2.2 非相鄰斷開 指一個自然段落不是自然斷開而是由單獨(dú)的換行符“ ”隔開。相較于文本內(nèi)容的相鄰斷開,非相鄰斷開通常表現(xiàn)為以“,”“:” ““” “[”等符號結(jié)尾且下一行為單獨(dú)的換行符“ ”,同時,對于部分符合上述符號結(jié)尾的文本而言,也不一定是非相鄰斷開,因此識別難度較大,在計(jì)算機(jī)上需要借助相關(guān)的段落特征標(biāo)志才能發(fā)現(xiàn)。
除上述普通的非相鄰斷開外,還有一類常見于地質(zhì)剖面介紹的特殊情況(圖5)。在地質(zhì)剖面介紹中,以“序號+具體剖面詳述”為一行,此類數(shù)據(jù)的斷開與原始數(shù)據(jù)的編輯標(biāo)準(zhǔn)密切相關(guān)。
在Markdown格式地質(zhì)資料中,圖名與超鏈接問題主要包括下列3方面。
2.3.1 圖名與超鏈接相鄰 圖片與圖名超鏈接的表現(xiàn)形式為超鏈接在前,圖名在后,且由單獨(dú)一行“ ”隔開,但Markdown格式地質(zhì)資料中出現(xiàn)圖名與超鏈接混在一起且相鄰的情況(圖6a)。
2.3.2 多超鏈接與多圖名 DOC、DOCX、PDF等格式文檔常出現(xiàn)多張圖片與圖名共處一行的情況(圖6b),經(jīng)文本化處理后獲得的Markdown格式數(shù)據(jù)也沿襲原始的數(shù)據(jù)展示形式,2個圖名與2個超鏈接共處一行,且為緊鄰行。
2.3.3 圖名符號多樣 以“圖 序號 名稱”形式呈現(xiàn)的圖名的序號為“數(shù)字-數(shù)字”形式,數(shù)字之間應(yīng)為英文狀態(tài)下的“-”,但在Markdown格式地質(zhì)資料中圖名內(nèi)符號連接呈多樣性(圖6c)。
2.4.1 錯誤引用 指在原始數(shù)據(jù)并不存在引用的情況下,Markdown格式地質(zhì)資料中不存在引用的地方出現(xiàn)了引用符號“>”,產(chǎn)生大量失真文本,影響信息的連貫性與真實(shí)性(圖7a)。
2.4.2 多余空格 運(yùn)用計(jì)算機(jī)處理和獲取文檔信息內(nèi)容時,文字的連貫性與獲取信息的正確性有著密切的聯(lián)系。部分地質(zhì)資料在人員信息部分,由2個字構(gòu)成的姓名中間添加了空格,影響信息的正確性(圖7b)。
圖4 Markdown格式地質(zhì)資料相鄰斷開Fig. 4 Adjacent disconnection in geological textual data in Markdown format (a) Primary data; (b) Data in Markdown format
圖5 Markdown格式地質(zhì)剖面介紹Fig. 5 Geological section introduction in Markdown format(a) Primary data; (b) Data in Markdown format
2.4.3 標(biāo)記缺失 在文本化地質(zhì)資料中,受原始編輯操作、編寫標(biāo)準(zhǔn)、轉(zhuǎn)換技術(shù)等影響,可能出現(xiàn)各級標(biāo)題標(biāo)記缺失、遺漏等情況,經(jīng)文本化處理后獲得的Markdown格式也并未對其進(jìn)行標(biāo)題標(biāo)記(圖7c)。這類標(biāo)題標(biāo)記缺失問題的出現(xiàn),影響了標(biāo)題和文檔結(jié)構(gòu)的規(guī)范程度。
規(guī)范文檔格式是解決Markdown格式地質(zhì)資料文檔格式問題的主要手段。在總結(jié)Markdown格式地質(zhì)資料文檔格式問題特征的基礎(chǔ)上,建立文檔格式規(guī)范特征描述機(jī)制,規(guī)則化文檔格式特征及問題,通過規(guī)則解析,構(gòu)建Markdown格式地質(zhì)資料文檔格式規(guī)范模型(圖8),規(guī)范Markdown格式地質(zhì)資料的文檔格式。
Markdown格式地質(zhì)資料文檔格式特征或問題包含諸多格式控制字符與關(guān)鍵詞,可采用正則表達(dá)式對其進(jìn)行有效提取,但單一正則表達(dá)式不能通用于所有段落,還需借助段落位置信息以及多個特征進(jìn)行判別。文檔格式規(guī)范特征不僅需考慮文檔格式問題特征和文檔格式規(guī)范特征,還需考慮規(guī)范的先后順序,例如相鄰斷開的規(guī)范應(yīng)在非相鄰斷開規(guī)范前,否則會導(dǎo)致文檔混亂?;谏鲜隹紤],定義了由正則表達(dá)式、關(guān)聯(lián)特征描述語言、優(yōu)先級和規(guī)范化方法構(gòu)成的文檔格式規(guī)范特征描述語言。
3.1.1 正則表達(dá)式 又稱規(guī)則表達(dá)式,通常用于檢索或替換符合某個模式(規(guī)則)的文本,主要應(yīng)用對象是文本,在各種文本編輯中廣泛使用,根據(jù)文檔格式問題特征,基于正則表達(dá)式原則,使用普通字符與元字符對文檔格式問題特征進(jìn)行描述。
3.1.2 優(yōu)先級 規(guī)定了文檔格式問題識別的先后順序,以避免在文檔格式規(guī)范過程中出現(xiàn)錯誤內(nèi)容。定義優(yōu)先級描述語言有0~5級,0級為最優(yōu)級,其次為第1級,以此類推。
3.1.3 關(guān)聯(lián)特征描述語言 正則表達(dá)式能描述文檔格式規(guī)范中關(guān)鍵字、控制字符的特征,1個正則表達(dá)式可描述1個文檔格式規(guī)范特征。然而,有的文本化地質(zhì)資料的文檔格式規(guī)范特征是由多個特征構(gòu)成,例如一級標(biāo)題的文檔格式規(guī)范特征包含標(biāo)題特征和標(biāo)記特征,而單一的正則表達(dá)式無法描述多個特征,因此定義了包括多條件描述語言和方法標(biāo)識符的關(guān)聯(lián)特征描述語言。
圖6 圖名與超鏈接問題Fig. 6 Figure name and hyperlink problems (a) Figure names adjacent to hyperlinks (primary data in the figure above and data in Markdown format in the figure below); (b) Multiple hyperlinks and multiple figure names (primary data in the figure above and data in Markdown format in the figure below); (c) Figure names in various connectives (primary data in the figure above and data in Markdown format in the figure below)
圖7 標(biāo)記格式問題Fig. 7 Markup format problems(a) Misquotation (primary data in the figure above and data in Markdown format in the figure below); (b) Extra spaces; (c) Markup missing (primary data in the figure above and data in Markdown format in the figure below)
圖8 文檔格式規(guī)范模型Fig. 8 Text format specification model
多條件描述語言可描述多個特征構(gòu)成的文檔格式規(guī)范特征,借助連接詞將多個特征關(guān)聯(lián)起來,主要包括“和&&”“或||”以及“非NOT”。方法標(biāo)識符的形式為“/%name%/”,其中的name為方法包括:① until方法,查找符合條件的多行文本,方法前后跟隨開始特征與結(jié)束特征,具體表述為“開始特征 /%until%/結(jié)束特征”;② nextline方法,其后跟隨下一行的特征;nexttwoline方法(即下兩行的方法),其后跟隨下兩行的特征;③ LEN方法,計(jì)算匹配結(jié)果長度的特殊方法,格式為“LEN(正則名)<|>number”。
3.1.4 規(guī)范化方法 基于文檔格式問題特征構(gòu)建規(guī)范化方法,以規(guī)范化方法描述語言對方法進(jìn)行描述(表1),通過該語言調(diào)用規(guī)范化處理方法,對存在文檔格式問題的段落進(jìn)行規(guī)范。
表1 規(guī)范化處理方法
3.2.1 規(guī)則存儲 遵循定義的特征描述語言對文檔格式及問題特征進(jìn)行描述,即形成文檔格式規(guī)范規(guī)則。由于規(guī)則不可能覆蓋所有文檔,故采用Excel存儲文檔格式規(guī)范化規(guī)則(表2),便于在不同文檔應(yīng)用中對規(guī)則進(jìn)行擴(kuò)充,提高通用性和可遷移性。
3.2.2 規(guī)則解析 將規(guī)則解析為計(jì)算機(jī)能夠直接使用的語言,是文本化地質(zhì)資料文檔格式規(guī)范過程中的重要環(huán)節(jié)。
(1) 規(guī)則遍歷。 獲取文檔格式規(guī)范規(guī)則表Rlist,并根據(jù)優(yōu)先級級別按升序的形式獲取優(yōu)先級列表plist,按優(yōu)先級順序?qū)σ?guī)則進(jìn)行逐級遍歷處理。每次遍歷的當(dāng)前優(yōu)先級為CurPri,設(shè)每次遍歷的當(dāng)前規(guī)則為rule。逐級遍歷時,若當(dāng)前規(guī)則rule的優(yōu)先級與當(dāng)前優(yōu)先級CurPri相等,則直接對當(dāng)前規(guī)則rule進(jìn)行處理;遍歷一遍所有優(yōu)先級等于當(dāng)前優(yōu)先級CurPri的規(guī)則,即遍歷完當(dāng)前優(yōu)先級CurPri所含的規(guī)則;然后進(jìn)入下一優(yōu)先級的遍歷,直至遍歷完所有優(yōu)先級包含的規(guī)則。
表2 文本化地質(zhì)資料文檔格式規(guī)范規(guī)則存儲示意
(2) 多條件規(guī)則處理。指對包含多條件描述語言(“和&&”“或||”)的規(guī)則進(jìn)行處理。以多條件描述語言為特征,將規(guī)則分割為多個子規(guī)則,按順序遍歷子規(guī)則,對規(guī)則逐一進(jìn)行遍歷,直至子規(guī)則遍歷完畢。具體實(shí)現(xiàn)過程見下列算法1:多條件規(guī)則解析算法。
1 獲取多條件規(guī)則R
2 多條件規(guī)則處理
判斷多條件規(guī)則R包含的多條件控制字符是“和&&”、“或||”
以控制字符“和&&”、“或||” 為關(guān)鍵字符,分割多條件規(guī)則R為規(guī)則列表集Rlist
按順序遍歷規(guī)則列表集Rlist,依次讀取并處理各子規(guī)則r,直至結(jié)束
(3) 方法處理。指對含方法描述語言(如“/%.*%/”)的規(guī)則進(jìn)行處理。筆者定義的方法包含3類用途:多行內(nèi)容獲取、后續(xù)行內(nèi)容獲取和文本長度判斷。以方法描述語言“/%.*%/”為特征獲取具體方法,根據(jù)方法對規(guī)則進(jìn)行處理。方法包含直到方法(until)、下一行方法(nextline)、下兩行方法(nexttwoline)和LEN方法。
① 直到方法(until)??色@取多行文本以進(jìn)行文檔格式規(guī)范。文本化地質(zhì)資料中的表格、地質(zhì)剖面介紹等由多行文本構(gòu)成,其規(guī)范規(guī)則通常包含直到方法的描述語言(until),需解析后獲取多行文本并依據(jù)規(guī)范方法對文檔格式進(jìn)行規(guī)范處理。見算法2:直到方法算法。
1 獲取直到方法規(guī)則R,獲取當(dāng)前文本C
2 直到方法規(guī)則處理
以“/%until%/”為關(guān)鍵字符, 獲取關(guān)鍵字符“/%until%/”前后規(guī)則為S_R、E_R
IF當(dāng)前文本C符合規(guī)則S_R
獲取當(dāng)前文本C的位置索引號為Cinx
從索引號Cinx加1位置開始按順序遍歷整個文本資料,查詢符合規(guī)則E_R的行文本,記錄該行文本索引號為Einx,結(jié)束遍歷
② 后續(xù)行方法(nextline與nexttwoline)。部分文本格式的規(guī)范與其后續(xù)文本的特征相關(guān),依據(jù)定義解析定義的后續(xù)行是規(guī)則解析中的一環(huán)。定義的后續(xù)行方法包括下一行方法(nextline)和下兩行方法(nexttwoline)。處理過程見算法3:后續(xù)行方法處理算法。
1 獲取后續(xù)行方法規(guī)則R,獲取當(dāng)前文本C的位置索引號Cinx
2 后續(xù)行方法處理
判斷后續(xù)行方法規(guī)則R是下一行方法還是下兩行方法
以“/% nextline%/”或“/% nexttwoline %/” 為關(guān)鍵字符,獲取其后規(guī)則為R
判斷行文本是否符合規(guī)則R(若為/% nextline%/為Cinx加1位置的行文本,否則為Cinx加2位置的行文本)
③ LEN方法。描述定義為用于判斷實(shí)際規(guī)則匹配數(shù)是否符合預(yù)先規(guī)定的規(guī)則匹配數(shù)。具體過程見算法4:LEN方法處理算法。
1 獲取LEN方法規(guī)則R,獲取當(dāng)前文本C
2 LEN方法處理
以關(guān)鍵字符“LEN/((.*)/)”獲取子規(guī)則r
查詢文本C符合子規(guī)則r的個數(shù)n
判斷LEN方法規(guī)則R是包含的是“>”或“<”,并獲取“>”或“<”后跟的個數(shù)N
判斷符合子規(guī)則r的個數(shù)n是否“>”或“<”個數(shù)N
(4) 文檔格式規(guī)范。文檔格式規(guī)范是文本化地質(zhì)資料文檔格式規(guī)范的最后環(huán)節(jié)。文檔格式是否需要規(guī)范取決于文檔格式是否存在問題,需確定文檔格式是否符合文檔格式規(guī)范規(guī)則。在經(jīng)過多條件處理和方法處理后可獲取需要規(guī)范的文本,再調(diào)用該規(guī)則對應(yīng)的規(guī)范方法對文本進(jìn)行規(guī)范,即可完成文檔格式規(guī)范。見算法5:文檔格式規(guī)范算法。
1 獲取需要規(guī)范的文本T,解析規(guī)則R對應(yīng)的規(guī)范化方法Fun
2 規(guī)范文檔格式
調(diào)用規(guī)范方法Fun,對文本T進(jìn)行規(guī)范化處理,獲取規(guī)范文本
根據(jù)對文本化地質(zhì)資料文檔格式特征及文檔格式問題特征的歸納分析,確定了文檔格式規(guī)范方法,受篇幅限制,僅對單線表(圖4)的規(guī)范方法進(jìn)行詳細(xì)介紹。首先根據(jù)文檔格式規(guī)范識別規(guī)則獲取完整的單線表,然后對其進(jìn)行規(guī)范。單線表的規(guī)范方法表示為“sintomd”。規(guī)范過程見算法6:單線表的規(guī)范方法算法。
1 獲取需要規(guī)范文檔格式的單線表List
根據(jù)優(yōu)先級和文檔格式特征規(guī)則“^(*-+ (?![du4E00-u9FA5])){2,}/%until%/^(*-+ (?![du4E00-u9FA5])){2,}”獲取單線表內(nèi)容,解析規(guī)范化方法“sintomd”
2 單線表規(guī)范
設(shè)空列表resultList存儲最終結(jié)果
去除單線表List每個元素結(jié)尾的換行符“ ”
按順序遍歷單線表List
當(dāng)前遍歷數(shù)據(jù)為dataItem
IF 數(shù)據(jù)dataItem符合單線表開始特征
以英文空格為標(biāo)志,分割數(shù)據(jù)dataItem結(jié)果存儲于表頭列表handList
ELSE
IF 數(shù)據(jù)dataItem符合表名特征
賦予其表名標(biāo)記并存儲于resultList
ELSE
在dataItem數(shù)據(jù)中文字符后添加英文占位符“-”,根據(jù)表頭列表handList各元素長度,獲取每格數(shù)據(jù)開始與結(jié)束節(jié)點(diǎn),以此為據(jù)分割dataItem,轉(zhuǎn)換dataItem為字符串以“|”為標(biāo)記隔開相鄰的兩個列表元素,并存儲于resultList中
Markdown格式地質(zhì)資料的表格形式包括單線表、多線表、HTML表、Markdown格式表。其中Markdown格式表格形式的可讀性和標(biāo)準(zhǔn)型較高。選用Markdown格式表格作為Markdown格式地質(zhì)資料表格的規(guī)范形式,對單線表、多線表和HTML表格進(jìn)行文檔格式規(guī)范(圖9—圖11),同時對Markdown格式表格中存在的不規(guī)范格式進(jìn)行規(guī)范。
圖9 單線表格規(guī)范Fig. 9 Single-line table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
圖10 多線表格規(guī)范Fig. 10 Multiple-line table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
為便于識別,采用的所有標(biāo)題皆直接在標(biāo)題前加上與標(biāo)題等級數(shù)相匹配的“#”進(jìn)行標(biāo)記,對Markdown格式地質(zhì)資料的標(biāo)題進(jìn)行規(guī)范(圖12)。
對Markdown格式地質(zhì)資料標(biāo)題標(biāo)記缺失內(nèi)容的規(guī)范化處理(圖13)顯示,在原始數(shù)據(jù)中(圖13a)并未對具有章節(jié)標(biāo)題特征的“(3)年度資料整理”和“(4)野外驗(yàn)收前資料整理及野外驗(yàn)收”進(jìn)行特殊標(biāo)記,在文本化處理后獲得的Markdown格式地質(zhì)資料(圖13b)也未遵循Markdown格式語法對標(biāo)題進(jìn)行標(biāo)記,故需應(yīng)用文檔格式規(guī)范方法對其進(jìn)行規(guī)范標(biāo)記(圖13c)。
相鄰行斷開問題的規(guī)范化(圖14)結(jié)果顯示,Word中地質(zhì)資料的一個完整段落(圖14a)經(jīng)文本化處理后獲得了Markdown格式地質(zhì)資料(圖14b),但出現(xiàn)了斷開現(xiàn)象,為還原原始信息,調(diào)用文檔格式規(guī)范算法,獲得了完整的Markdown格式段落(圖14c)。
非相鄰行斷開問題的規(guī)范化(圖15)顯示,因地質(zhì)剖面介紹的一條記錄(圖15a)過長,超過了1行所能容納的文字?jǐn)?shù),故而以換行符將其分3行記錄,經(jīng)文本化處理獲得Markdown格式的地質(zhì)資料(圖15b),但不能展現(xiàn)完整的地質(zhì)剖面介紹信息,因此對其進(jìn)行規(guī)范(圖15c)。
圖11 HTML表格規(guī)范Fig. 11 HTML table format specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
圖12 Markdown格式地質(zhì)資料標(biāo)題標(biāo)記規(guī)范Fig. 12 Specification for title markup of geological data in Markdown format(a)Before specification; (b) After specification
圖13 標(biāo)題缺失規(guī)范Fig. 13 Missing title specification(a) Primary data; (b) Markdown format; (c) Specified in Markdown format
最典型且最易解決的錯誤是圖名與超鏈接部分的聯(lián)合,文本化地質(zhì)資料文檔格式規(guī)范模型能較好地規(guī)范該類錯誤,同時也能很好地規(guī)范多圖名與多超鏈接位置混亂的情況。規(guī)范結(jié)果見圖16。
(1) 以文本化地質(zhì)資料為研究對象,分析Markdown格式地質(zhì)資料的文檔格式特征,歸納總結(jié)文檔格式特征和問題。
(2) 定義由描述語言、規(guī)則存儲與解析共同構(gòu)成的文檔格式規(guī)范機(jī)制,構(gòu)建文檔格式規(guī)范模型,生成Markdown格式地質(zhì)資料的文檔格式規(guī)范方法。
(3) 基于文檔格式規(guī)范方法對Markdown格式地質(zhì)資料進(jìn)行文檔規(guī)范,能夠解決Markdown格式地質(zhì)資料格式不規(guī)范的問題。
圖14 文本內(nèi)容斷開規(guī)范Fig. 14 Text content disconnection specification(a) Primary data; (b) Markdown format; (c) Specification in Markdown format
圖15 非相鄰行斷開規(guī)范Fig. 15 Non-adjacent line disconnection specification (a) Primary data; (b) Markdown format; (c) Specification in Markdown format
圖16 多圖名與超鏈接規(guī)范Fig. 16 Specification for multigraph names and hyperlinks(a) Primary data; (b) Markdown format; (c) Specification in Markdown format