□王睿佳 劉 耀
面向科技文獻的多模態(tài)語義關聯(lián)特征提取與表達體系研究*
□王睿佳 劉 耀
科技文獻資源是一種多模態(tài)數(shù)據(jù),除文本信息外,還包含豐富的圖像、表格、公式、音頻、視頻等多種模態(tài)的信息,有利于用戶充分理解科技文獻資源中的知識。該文把多模態(tài)思想引入科技文獻的語義表示方面,對科技文獻中的圖像、表格和公式信息進行語義分析,與文本信息共同表示文獻語義內容,通過科技文獻中多種模態(tài)信息的語義表示及相互關系完善科技文獻內容的語義化表示,發(fā)展刻畫科技文獻對象多態(tài)性的表達體系。
多模態(tài) 科技文獻 語義相關性 語義關聯(lián)特征
* 本文得到國家科技支撐計劃項目(2011BAH10B04),國家社科基金項目(12BTQ006),中國科學技術信息研究所預研基金(YY-201125)的支持。
科技文獻資源是一種多模態(tài)數(shù)據(jù),具有多態(tài)性,往往包含著豐富的圖像、表格、公式、音頻、視頻等多種模態(tài)的信息,這些多模態(tài)的信息與占據(jù)主導地位的文本信息相互說明、互為補充,幫助用戶充分理解科技文獻資源中的知識。
具體來說,用戶通過“閱讀”圖像來理解所表達內容的速度比單純閱讀文字來理解相同內容的速度快,而且在某些情況下,圖像可以傳遞文字所不能表達的內容;表格和公式是科技文獻中不可缺少的部分,可以使內容的表達更加直觀、嚴謹;音頻和視頻資料使科技文獻資源中表達的知識具體化、可視化,有助于用戶的充分理解。
在科技文獻中,分析單模態(tài)信息與綜合多模態(tài)信息所產(chǎn)生的語義理解之間可能會存在偏差,因此可以利用不同模態(tài)的相容互補性,對圖像等多種模態(tài)的信息進行語義表示,發(fā)現(xiàn)不同模態(tài)的語義特征的潛在語義相關性,對于澄清僅考慮單模態(tài)難以明辨的語義可以起到積極的促進作用。因此,如何充分有效地對科技文獻中的多模態(tài)信息加以關聯(lián)利用,就成為了一個亟待解決的問題。
多模態(tài)(multi-modal)的概念是相對于單模態(tài)(unimodal or single-modality)而言的,多模態(tài)的研究一般指使用兩個或兩個以上不同模態(tài)的信息來解決一個特定的問題,目前還沒有形成一個明確的廣義上的定義。最早出現(xiàn)的關于多模態(tài)的文獻是1968年關于模式識別中的多模態(tài)測試的研究[1],之后在1970年關于多信號檢測的功能研究的論文中相對于單信號提出了雙信號的概念,即多模態(tài)的信號檢測[2],同時期也出現(xiàn)于醫(yī)學多模態(tài)治療方法、生物系統(tǒng)中的多模態(tài)學習等領域。20世紀90年代中后期,有關多模態(tài)的研究逐漸增多,應用領域也更加廣泛。
與多模態(tài)相似的是“多媒體”(multi-media)的概念,多媒體是指組合兩種或兩種以上媒體的一種人機交互式信息交流和傳播媒體,使用的媒體包含連續(xù)的媒體數(shù)據(jù)(如視頻、音頻等)和離散的媒體數(shù)據(jù)(如文本、圖形、圖像等)[3]。它不只是各種媒體的簡單復合,而是一種把文本、圖形、圖像、動畫和聲音等形式的信息結合在一起,并通過計算機進行綜合處理和控制,能支持完成一系列交互式操作的信息技術。目前,多媒體技術在科學數(shù)據(jù)檢索和處理、商業(yè)應用、教育和職業(yè)培訓、娛樂等領域有廣泛的應用,其研究大都是圍繞著如何為用戶提供更好的多媒體信息服務,也就是廣義的視聽覺服務來展開的[4]。而多模態(tài)的研究則側重于通過對同一個目標的不同特征或同一特征的不同信息的對比和融合來解決一個特定的問題,目前主要應用于圖像、音頻、視頻的處理和檢索、醫(yī)學圖像配準與融合、生物特征身份識別、話語分析等領域。
多模態(tài)是一個較新的研究領域,由于強調的是運用不同模態(tài)的信息解決問題的方法,并不局限于某個學科領域,因此國內外目前的研究涉及許多不同的模態(tài)因素,例如圖像、視頻、音頻、生物特征、話語表達等,研究領域較多,主要包括以下幾個方面。
3.1.1 多模態(tài)圖像自動標引和檢索
圖像對于人們理解信息有著重要的補充作用,對于圖像的標引和檢索可以追溯到20世紀70年代中期,人們對圖像庫中的每張圖像進行關鍵字的標注,然后利用人工標注的文本信息來檢索圖像。隨著科學技術的發(fā)展,根據(jù)圖像內容進行自動標引和檢索的技術已越來越受到關注。
3.1.2 多模態(tài)醫(yī)學圖像配準與融合
隨著醫(yī)學影像學和計算機技術的發(fā)展,醫(yī)學圖像在應用中的地位越來越重要。但是,從單一的圖像中無法得到全面的診斷信息,人為的空間構想又會影響結果的準確性,因此多模態(tài)醫(yī)學圖像配準與融合的研究得到了廣泛的關注,成為目前生物醫(yī)學工程中的一個熱點問題[5]。研究主要集中在對同一患者在不同時間、不同傳感器或不同條件下獲取的兩幅或多幅圖像進行配準和融合的方法和關鍵技術的討論和改進方面,涉及數(shù)字圖像處理、計算機圖形學和醫(yī)學領域的知識,是計算機圖形學和圖像處理在生物工程領域中的重要應用[6]。
3.1.3 多模態(tài)身份識別
多模態(tài)身份識別方面的研究包括多模態(tài)生物特征識別和音頻、視頻中的發(fā)言人身份識別。對于多模態(tài)生物特征識別的研究在2000年之前處于起步階段,之后便開始迅速發(fā)展。該研究通過結合多種生物特征(如指紋、虹膜、人臉、掌紋、靜脈等)來進行對于個人身份的鑒定,提高了識別的準確性,是生物特征識別技術研究領域的熱點之一[7]。音頻、視頻中的發(fā)言人身份識別通過分析發(fā)言人的音調等語音特征,結合同步畫面中的面部特征來確定發(fā)言人的身份[8],在視訊會議等應用中有著重要的作用[9]。
3.1.4 多模態(tài)視頻信息的分類與檢索
該研究主要應用于對于視頻事件的檢測、分類和檢索方面。視頻是沒有結構的數(shù)據(jù)流,主要包括圖像、音頻和文本三種媒質數(shù)據(jù),具有復雜性和難描述性,因此用單一特征進行查詢得到的結果并不能令人滿意。多模態(tài)信息融合可以針對視頻的多種媒質信息分別查詢,再進行有效的融合,能夠取得較好的效果。早期的視頻檢索是根據(jù)視頻的底層視覺特征(如圖像紋理特征等)進行分類和處理的[10],隨后逐漸發(fā)展到基于概念的視頻檢索[11]。
此外,多模態(tài)研究還包括多模態(tài)人機交互系統(tǒng)研究[12]、多模態(tài)話語分析[13]、機器人目標識別[14]、多模態(tài)情感識別[15]、多模態(tài)信息融合的一般功能模型設計[16]等方面。
科技文獻資源中涉及大量的圖像信息,對于圖像與文本信息的語義關聯(lián)特征提取與表示是研究的一個重點。目前國內外對于圖像語義特征的研究主要包括圖像自動標注和圖像檢索。
圖像自動標注的目的是讓計算機自動用關鍵字等文本信息進行圖像標注,通過標注在圖像的底層視覺特征與高層語義特征之間搭起一座橋梁。目前大多數(shù)圖像自動標注系統(tǒng)是結合統(tǒng)計學方法來確定圖像視覺特征和文本之間的關系,在一個訓練集中對圖像進行標注,之后該訓練集中已訓練過的視覺特征和文本之間的關系就可以用來標注該集以外的新的圖像[17]。目前計算機提取的視覺特征主要包括顏色特征、紋理特征和形狀特征等,研究主要集中在對更有效的自動標引方法和模型的開發(fā)方面[18][19]。
早期的圖像檢索使用的是基于文本的檢索方式,起源于20世紀70年代,當時圖像數(shù)量相對較少,圖像的標注工作可以完全由人工進行。但隨著數(shù)字攝影技術和互聯(lián)網(wǎng)技術的高速發(fā)展,手工標注所耗費的人力和時間太大,而且對于圖像的不同理解可能帶來不同的標注,因此基于文本的檢索方式已經(jīng)不能很好地適應龐大圖像庫圖像檢索。為了解決這一問題,20世紀90年代初,研究人員提出了基于內容的圖像檢索方式。對于基于內容的圖像檢索的討論起源于1992年美國國家科學基金會(NSF)組織的研討會,會議認為可視化信息管理系統(tǒng)可在科學、工業(yè)、醫(yī)學、環(huán)境、教育、娛樂等多方面得到應用,應該作為研究人員的主要研究領域。之后,美國伊利諾大學的 NCSA(National Center for Supercomputing Applications)組織在1993年發(fā)表了第一個可以顯示圖片的 Mosaic瀏覽器[20]。基于內容的圖像檢索是利用圖像的視覺特征信息進行檢索,用戶根據(jù)自己的檢索需求提供一張查詢圖像,系統(tǒng)從該圖像中提取出視覺特征,再在圖像庫中檢索與視覺特征相似的圖像提交給用戶。此外,圖像檢索還涉及圖像相似度的度量和學習問題,即如何判斷圖像庫中的圖像與用戶查詢圖像之間的相似度。對于相似度度量的方法也是研究的一個熱點問題,已提出的方法包括基于區(qū)域的相似度學習[21]、多模態(tài)相似性傳播方法[22]、基于區(qū)域的模糊特定匹配方法等[23]。目前已有的多模態(tài)圖像檢索系統(tǒng)包括QBIC圖像檢索系統(tǒng)、Virage圖像檢索引擎、Retrieval-Ware圖像檢索工具、Photobook圖像檢索工具和VisualSEEK圖像檢索工具等。
目前圖像語義研究的難點主要是語義鴻溝問題,即由于計算機獲取的底層視覺信息與用戶對圖像理解的高層語義信息不一致而導致的低層特征提取和高層檢索需求之間的距離。這是圖像語義理解面臨的根本障礙,其根源之一就是圖像本身所固有的多義性。研究人員試圖從不同的角度來解決這一問題,例如在圖像的更小區(qū)域內進行特征匹配、進行相關反饋來改善圖像檢索效果[24]等。
3.3.1 基于圖像的表格識別與處理研究
現(xiàn)代社會中,信息資源迅速膨脹,除了數(shù)字化信息資源外,還存在著大量的紙質文檔資源,為了更好地利用和管理這些紙質文檔資源,就需要利用計算機對大量的紙質文檔資料進行數(shù)字化處理和存儲,由此產(chǎn)生了光學字符識別技術(OCR)。OCR技術通過掃描和攝像等光學輸入方式獲取紙張上的文字圖像信息,然后利用各種模式識別算法分析文字形態(tài)特征,判斷出漢字的標準編碼,并按照通用格式存儲在文本文件中[25]。表格識別是光學字符識別技術重要的應用領域之一,由于掃描而成的圖像中存在的是像素點,因此最初的這種表格識別技術是基于圖像的[26]。目前,對于基于圖像的表格識別的研究主要集中在對其關鍵技術及系統(tǒng)的討論和改進方面。例如,文獻[27]重點討論了表格識別預處理技術與表格字符提取算法;文獻[28]研究并實現(xiàn)了一種手寫表格識別系統(tǒng),可以對紙質手寫表格圖像進行掃描,設置輸出規(guī)則,進行表格識別處理。
3.3.2 電子文檔中表格式信息的抽取
表格式信息抽取一般包括表格檢測、表格分解與處理兩個方面的工作。值得注意的是,表格檢測與處理的一個關鍵問題在于輸入的格式。我們可以把電子文檔中的表格分為兩類[29],一類是原始文本表格,使用ASCII等寬字型文本,用空格或特殊字符作為分隔符。另一類是多格式文本表格,包括基于LaTeX,PDF,HTML等格式的文本。目前大多數(shù)的研究是針對基于HTML格式的表格展開的[30][31]。
然而,大量的科技文獻是以PDF格式存在的,因此也有研究者對基于PDF格式的表格識別和數(shù)據(jù)抽取技術進行了研究,但此方面研究尚處于起步階段。PDF中的表格是基于視覺的,具有獨特的結構,被稱為“文字流”表格,用戶一般只能直觀地從顯示結果看到表格,而無法直接從文檔格式中獲取表格信息[32],因此其處理相比其他格式的表格處理更為困難。此方面的研究集中在對關鍵技術的探討和改進方面,例如文獻[33]提出了一種PDF表格的元數(shù)據(jù)抽取的算法,即基于定位分析和關鍵詞匹配技術,確定表格單元內容,識別表格結構的方法;文獻[34]提出了一種通過圖像線偵測PDF中表格位置的算法,通過對PDF文檔頁中的“稀疏線”(sparse line)進行探測,來判斷內容中標題、表格、腳注等具有“稀疏線”特征的文字的布局信息。也有研究者提出了先將 PDF 文 檔 通 過 pdftohtml工 具 (http://pdftohtml.sourceforge.net)轉換為 HTML 或 XML格式,再進行表格的識別和解析[35]。
1968年,Anderson在博士論文中首次提出了公式識別的問題[36],之后公式處理的研究進展比較緩慢,進入20世紀90年代,相關的研究才逐漸增多。前文提到的OCR系統(tǒng)對手寫、印刷體文本都有很高的識別率,已經(jīng)廣泛應用于辦公自動化、快速錄入等領域,但對于分析公式結構、識別出文檔中的數(shù)學公式還沒有很好的效果[37]。目前數(shù)學公式圖像處理方面的研究較多,提出了一些公式圖像識別系統(tǒng),如MatheReader[38],它可以處理包含數(shù)學公式的文檔圖像,實現(xiàn)公式定位、識別、分析、輸出的全過程。
此外,還有數(shù)學公式檢索方面的研究。目前大致有兩類檢索數(shù)學公式的方法:一種是首先生成公式的字符串表示,然后運用普通的信息檢索方法來檢索;另一種是利用內容表示中內在的結構進行檢索[39]。
4.1.1 多模態(tài)信息語義分析理論和方法研究
分析國內外多模態(tài)研究方向的主要研究范圍、研究進展和發(fā)展方向,整合相關領域的研究思想和方法,強調多學科交叉融合,突出原始創(chuàng)新的帶動作用。
4.1.2 多模態(tài)異構特征的內在規(guī)律及語義相關性研究
探討多模態(tài)與語義的關系,挖掘不同模態(tài)特征之間的語義相關性,構建面向科技文獻內容理解的以實體、關系和事件為核心的結構化語義描述體系,實現(xiàn)其內容表示的語義化。
4.1.3 單模態(tài)信息解析與特征提取技術研究
研究基于語義表達的多種模態(tài)的解析與提取技術的集成方法,實現(xiàn)科技文獻中所廣泛涉及的圖像、表格、公式、文本等多種模態(tài)的有效解析與提取。
4.1.4 多模態(tài)語義關聯(lián)特征的提取與表達研究
研究多模態(tài)語義關聯(lián)特征在內容特征上潛在的統(tǒng)計關系,建立多模態(tài)特征的共生矩陣,以生成包含不同類型數(shù)據(jù)的同構子空間來反映其關聯(lián),最終實現(xiàn)多模態(tài)語義特征之間關聯(lián)關系的表達。
4.1.5 基于上下文關聯(lián)的多模態(tài)融合與表達模型構建與實現(xiàn)研究
研究適用于多模態(tài)信息的融合機制和多模態(tài)協(xié)同分析的學習算法。實現(xiàn)基于上下文關聯(lián)的多模態(tài)語義特征融合,建立多模態(tài)高維異構數(shù)據(jù)的特征提取與描述的理論和方法。
研究旨在利用以自然語言處理技術為主的多種媒體處理理論與方法,結合基于半結構化文本輔助構建本體的技術與系統(tǒng),針對科技文獻中廣泛涉及的文字、圖像、表格、公式等多模態(tài)數(shù)據(jù),提出基于上下文關聯(lián)的多模態(tài)語義特征融合與表達的思路及方法,研究開發(fā)多種模態(tài)的解析與特征提取技術,挖掘多模態(tài)異構特征的內在規(guī)律,探索多模態(tài)數(shù)據(jù)間的相容互補性,構建面向科技文獻內容理解的以實體、關系和事件為核心的結構化語義描述體系,建立基于語義分析的多模態(tài)數(shù)據(jù)的特征提取與描述的理論和方法。為內容理解及知識服務提供理論與技術支持。
本文的研究方案及整體技術路線如圖1所示。
圖1 研究方案及整體技術路線
我們的研究旨在結合科技文獻中的文本、圖像、表格及公式等不同模態(tài)的語義特征來完善對科技文獻的語義理解,因此需要在各個模態(tài)的語義特征提取和表示方面分別開展研究,然后將不同模態(tài)的語義特征有效地關聯(lián)起來,構成一個完整的表達體系。目前,課題組在文本語義特征的分析方面取得了一定的進展[40-43]。我們針對醫(yī)學領域,基于現(xiàn)有的語言分析技術和語義資源,結合科學技術文獻的特征,研究了構建專業(yè)領域語義資源的關鍵技術、理論及方法,建立了理解科技文獻文本內容的多語言數(shù)據(jù)資源庫。在這項研究中,我們建立了一個多級別、全方位的語義標引系統(tǒng),具體來說,就是在科技文獻的詞、句、章三個層面上對文檔中的深層語義關系進行標記,并開發(fā)相關的標引工具來幫助實現(xiàn)對文本中深層語義關系的標引。其中,詞層面的標引不僅需要標引主題詞,還要對主題詞之間或主題詞與常用詞之間的關系進行標注。在語句層面的標引中,我們分析了語句在章節(jié)中的重要性,通過語義角色和謂詞邏輯的分析結果來進行標注。在章節(jié)層面的標引中,需要分析并標注句子之間的語義關系,再進行規(guī)范化處理和標引工作。該研究可以支持我們對科技文獻的文本內容進行深入的語義理解和分析,為下一步分析圖像、表格及公式等模態(tài)信息語義特征的工作提供了基礎。
在接下來的工作中,我們會在現(xiàn)有的相關研究的基礎上,對科技文獻資源中圖像、表格和公式等模態(tài)信息的語義特征進行分析和提取,同時利用文本語義分析技術來輔助研究,例如結合圖像、表格或公式的標題、上下文中的相關描述、腳注等文本信息來完善對非文本模態(tài)信息的語義表示。然后將不同模態(tài)的語義特征有效地關聯(lián)起來,構成一個完整的科技文獻多模態(tài)語義關聯(lián)特征表達體系,完善對科技文獻資源的語義理解與分析。
1 Cappon Daniel,Banks Robin,Ramsey Craig.Improvement of recognition on a multi-modal pattern discrimination test.Perceptual and Motor skills,1968,26(2):431-441
2 Fidell Sanford.Sensory function in multimodal signal detection.Journal of the acoustical society of America,1970,47(4B):1009-1015.
3 於志文等.普適個性化多媒體服務技術綜述.計算機應用研究,2006,23(10):6-10
4 欒悉道等.多媒體語義模型研究進展.計算機科學,2010,37(11):1-37
5 談泉.多模態(tài)醫(yī)學圖像融合技術的研究及評價體系的建立[碩士學位論文].華中科技大學,2006
6 劉慶輝.多模態(tài)醫(yī)學圖像的配準與融合[碩士學位論文].山東大學,2009
7 A.K.Jain,A.Ross.Multibiometric Systems.Communications of the ACM,Special Issue in Multimodal Interfaces,2004,47(1):34-40
8 Ivana Arsic,Roger Vilagut,Jean-Philippe Thiran.Automatic extraction of geometric lip features with application to multimodal speaker identification.IEEE international conference on multimedia and expo,Toronto,2006
9 Kammermeier P,Buss M.A human perception model for multimodal feedback in telepresence systems.IEEE international conference on systems,man and cybernetics,Japan,1999
10 萬華林等.圖像紋理特征及其在CBIR中的應用.計算機輔助設計與圖形學學報,2003,15(2):195-199
11 Cao J,Jing H F,Ngo C W,et al.Distribution-based concept selection for concept-based video retrieval.Proceedings of ACM International Conference on Multimedia,Beijing,2009
12 Hideo Shimazu,Yosuke Takashima.Multi-Modal-Method:a design method for building multi-modal systems.Proceedings of the 16th conference on computational linguistics,1996
13 朱永生.多模態(tài)話語分析的理論基礎與研究方法.外語學刊,2007(5):82-86
14 C.Mario Christoudias,Raquel Urtasun,Mathieu Salzmann,Trevor Darrell.Learning to recognize objects from unseen modalities.Lecture notes in computer science,2010,6311:677-691
15 Ze-Jing Chuang,Chung-Hsien Wu.Multi-Modal emotion recognition from speech and text.Computational linguistics and Chinese language processing,2004
16 潘巍等.多模態(tài)信息融合的一般功能模型設計——基于融合功能與信息層次.計算機工程與應用,2006,42(29):27-35
17 Vassilios Stathopoulos,Jana Urban,Joemon Jose.Semantic relationship in multimodal graphs for automatic image annotation.Lecture notes in computer science,2008,4956:490-497
18 王長虎.互聯(lián)網(wǎng)環(huán)境下大規(guī)模圖像的內容分析、檢索和自動標注的研究[博士學位論文].北京:中國科技大學,2009
19 張元清,包駿杰,況夯,鐘洪.基于貝葉斯理論的圖像標注和檢索.計算機科學,2008,35(8):229-231
20 Smeulders A W M,Worring M,Santini S,et al.Content-Based image retrieval at the end of the early years.IEEE Trans in Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380
21 Ardizzoni S,Bartolini I.Windsurf:region-based image retrieval using wavelets.In The Tenth International Workshop on Database and Expert Systems Applications,1999
22 Wang X-J,Ma W-Y,Xue G-R,et al.Multi-model similarity propagation and its application for Web image retrieval.Proceedings of the 12th ACM International Conference on Multi-media,2004
23 Y.Chen,J.Z.Wang.A region-based fuzzy feature matching approach to content-based image retrieval.IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(9)
24 S.Yu,D.Cai,J.R.Wen,et al.Improving pseudo-relevance feedback in web information retrieval using web page segmentation.Proceedings of the 12th World Wide Web Conference,2003
25 章毓晉.圖像處理和分析.北京:清華大學出版社,2001
26 Mori.S,Suen.C.Y,Yamamoto K.Historical review of OCR research and development.Proceedings of the IEEE,1992,80(7):1029-1058
27 謝亮.表格識別預處理技術與表格字符提取算法的研究[碩士學位論文].廣州:中山大學,2005
28 王行榮,應俊.手寫表格識別系統(tǒng)研究和實現(xiàn).計算機科學,2008,35(6):268-271
29 Wern Wong,David Martinez,Lawrence Cavedon.Extraction of Named Entities from Tables in Gene Mutation Literature.Proceeding of the Workshop in Current Trends in Biomedical Natural Language Processing,2009
30 潘小燕等.半結構化文本中的表格識別技術研究.微計算機信息,2008,24(18)
31 W.W.Cohen,M.Hurst,L.S.Jensen.A flexible learning system for wrapping tables and lists in html documents.Proceeding of the 11th International Conference on World Wide Web,2002
32 張伯.基于PDF文字流的表格識別技術的研究[碩士學位論文].北京:北京工業(yè)大學,2010
33 Ying Liu,PrasenjitMitra,C.Lee Giles,et al.Automatic extraction of table metadata from digital documents.Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries,2006
34 Ying Liu,PrasenjitMitra,C.Lee Giles.Identifying table boundaries in digital documents via sparse line detection.Proceeding of the 17th ACM conference on Information and knowledge management,2008
35 BurcuYildiz,Katharina Kaiser,Silvia Miksch.A method to extract table information from PDF files.Proceedings of the 2nd Indian International Conference on Artificial Intelligence,2005
36 R.H.Anderson.Syntax-directed recognition of hand-printed two-dimensional mathematics.Interactive Systems for Experimental Applied Mathematics,Academic Press,1968
37 吳俊飛.基于特征字符的印刷體公式識別研究[碩士學位論文].哈爾濱:哈爾濱工程大學,2006
38 靳簡明等.數(shù)學公式識別系統(tǒng):MatheReader.計算機學報,2006,29(11)
39 Michael Kohlhase,Loan A.Sucan.A search engine for mathematical formulae.Computer Science,2006,4120/2006:241-253
40 Yao Liu,Yazhen Zhao,Zhifang Sui.Research on Automatic Construction of Medical Ontology Based on a Multidimensional Model.Journal of Computational Information Systems,2009,5(6):1725-1733
41 劉耀等.中醫(yī)藥本體概念描述體系的自動構建研究.現(xiàn)代圖書情報技術,2008(5):21-26
42 Yao Liu,Yazhen Zhao.Research on Ancient Literature Corpus Creation and Development of Chinese Traditional Medicine.ICIC Express Letters– An Int.J.of Research and Surveys.2009,3(4):1227-1232
43 劉耀等.基于內容與形式交互的圖書館資源組織語義化方法研究.情報理論與實踐,2010(10):105-107
Study on the Feature Extraction and Expression System of Multi-Modal Semantic Information for Scientific and Technical Literature
Wang Ruijia Liu Yao
Scientific and technical literature contains images,tables,formulas,audio and video files besides the common text format,which will help the users to fully understand the knowledge presented in the literature.So the resource of scientific and technical literature can be taken as a kind of multi-modal information.This paper adopts the multi-modal approach to make the semantic presentation of the scientific and technical literature.To be specific,it analyzes the texts,images,tables and formulas in the literature on the semantic level,builds a system to present the semantic multi-modal features in the literature,and optimizes the semantic presentation of the literature with the semantic features and the relations between them.
Multi-Modal;Scientific and Technical Literature;Semantic Dependency;Semantic Feature
中國科學技術信息研究所,北京,100038
2011年11月21日