于文超天津美術(shù)學(xué)院圖書(shū)館 天津 300141
高校圖書(shū)館多媒體資源庫(kù)建設(shè)研究
于文超天津美術(shù)學(xué)院圖書(shū)館 天津 300141
利用多媒體搜集器搜集網(wǎng)絡(luò)中的多媒體資源,并從網(wǎng)頁(yè)中提取用于描述多媒體資源的文本信息,以構(gòu)建高校圖書(shū)館多媒體資源庫(kù),為師生提供多媒體資源檢索服務(wù)。
高校圖書(shū)館;多媒體;信息提取
AbstractUsing multimedia resource searcher to collect multimedia resources, extract text of Multimedia resource from webpage, and provide services of searching multimedia resources for teachers and students.
Key wordsacademic library; multimedia; information extraction
高校圖書(shū)館是高校師生獲取信息的重要來(lái)源,面對(duì)信息技術(shù)多媒體化的發(fā)展趨勢(shì),多媒體資源成為信息交流的主要途徑之一。Web中包含的大量多媒體資源分布過(guò)于分散且查找困難。常見(jiàn)的搜索引擎如Google、Baidu、Yahoo!等,都屬于通用搜索引擎,其超大規(guī)模的分布式數(shù)據(jù)源及信息的檢索質(zhì)量不高等問(wèn)題,使其無(wú)法直接為高校師生提供信息服務(wù)。
為了解決這一問(wèn)題,本文以高校圖書(shū)館多媒體數(shù)據(jù)庫(kù)的建設(shè)為出發(fā)點(diǎn),設(shè)計(jì)并開(kāi)發(fā)基于Web的高校圖書(shū)館多媒體數(shù)據(jù)庫(kù)建設(shè)系統(tǒng),用于構(gòu)建圖書(shū)館多媒體數(shù)據(jù)庫(kù),為用戶提供多媒體資源檢索服務(wù)。
該系統(tǒng)主要包括兩大步驟,首先對(duì)Web中存在的多媒體資源進(jìn)行搜索,并將其所在網(wǎng)頁(yè)存入相應(yīng)的網(wǎng)頁(yè)數(shù)據(jù)庫(kù);對(duì)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中的網(wǎng)頁(yè)進(jìn)行預(yù)處理與結(jié)構(gòu)分析,從多媒體所在的網(wǎng)頁(yè)中提取多媒體資源的相關(guān)文本,再對(duì)相關(guān)文本進(jìn)行處理,提取出用于描述、標(biāo)引多媒體資源的信息,形成對(duì)多媒體資源進(jìn)行描述的信息庫(kù)。
2.1 多媒體資源網(wǎng)頁(yè)的搜集
利用Web多媒體資源搜集器搜集Web中包含多媒體資源的網(wǎng)頁(yè),并將符合要求的網(wǎng)頁(yè)的HTML代碼存入多媒體資源網(wǎng)頁(yè)庫(kù),搜索器搜索時(shí)利用網(wǎng)頁(yè)
2.2 多媒體資源網(wǎng)頁(yè)分析及多媒體區(qū)域定位
有些網(wǎng)頁(yè)為UTF-8編碼,在網(wǎng)頁(yè)分析之前就需要對(duì)這類網(wǎng)頁(yè)進(jìn)行編碼轉(zhuǎn)換,完成從UTF-8編碼到GB2312編碼的轉(zhuǎn)化。然后生成網(wǎng)頁(yè)結(jié)構(gòu)圖,并判斷多媒體資源所在表格的區(qū)域,在多媒體主題區(qū)域中的文本內(nèi)容與該多媒體資源的描述是否顯著相關(guān)。另外,一個(gè)網(wǎng)頁(yè)還存在無(wú)關(guān)區(qū)域,通過(guò)區(qū)域識(shí)別排除這些區(qū)域,只保留多媒體主題區(qū)域文本。
2.3 多媒體資源相關(guān)文本信息提取
下面是在一個(gè)以多媒體為主題的網(wǎng)頁(yè)中,提取的用以描述多媒體資源的信息文本。
2)周圍文本。在網(wǎng)頁(yè)結(jié)構(gòu)分析及多媒體區(qū)域識(shí)別的基礎(chǔ)上提取多媒體的周圍文本,可以有效減少噪聲的干擾,提高文本提取精確度。本系統(tǒng)最多提取離多媒體資源最近的周圍文本,并且文本長(zhǎng)度最多為30個(gè)漢字字符。
3)多媒體資源導(dǎo)航文本。Web中很多多媒體主題網(wǎng)頁(yè)都提供了多媒體資源導(dǎo)航文本,如某個(gè)網(wǎng)頁(yè)的多媒體資源導(dǎo)航文本“您現(xiàn)在的位置:小學(xué)課堂在線>>在線動(dòng)畫(huà)>>語(yǔ)文課件>>守株待兔”,就可以判斷出該多媒體是一個(gè)語(yǔ)文課件,并且其主題為“守株待兔”。
根據(jù)上述方法得到的網(wǎng)絡(luò)中多媒體資源的相關(guān)文本還不能直接入庫(kù),需要進(jìn)行一系列的處理,直到提取出能描述多媒體資源的>關(guān)鍵詞,對(duì)所提取的文本做拼音及英文的翻譯轉(zhuǎn)換、中文分詞、分詞結(jié)果的消重過(guò)濾以及>關(guān)鍵詞提取等處理。
2.4 信息入庫(kù)
通過(guò)上面的工作,獲得所分析網(wǎng)頁(yè)中多媒體資源相關(guān)文本,并提取其中的關(guān)鍵詞,最后的工作是信息入數(shù)據(jù)庫(kù)。
本文利用多媒體資源搜集器對(duì)從10個(gè)網(wǎng)站中搜集包含教育資源的網(wǎng)頁(yè)進(jìn)行測(cè)試,該方法對(duì)Web中多媒體資源的相關(guān)文本提取效果較好。但由于部分網(wǎng)頁(yè)沒(méi)有使用表格來(lái)定位頁(yè)面元素,并且多媒體資源主題區(qū)域可能存在噪音,從而造成極少數(shù)的網(wǎng)頁(yè)影響結(jié)構(gòu)分析及文本提取效果。
進(jìn)行網(wǎng)絡(luò)中多媒體資源的搜索及其相關(guān)文本的提取,對(duì)描述網(wǎng)上多媒體資源的信息具有重要意義。將本文提出的方法與多媒體內(nèi)容分析相結(jié)合,能夠更有效地促進(jìn)多媒體資源更好地利用,從而為高校師生提供更好的多媒體資源檢索服務(wù)。
Research on Construction of Multimedia Resource Library in Academic Library//
Yu Wenchao
G258.6
B
1671-489X(2011)06-0088-01
10.3969 /j.issn.1671-489X.2011.06.088
Author’s address Tianjin Academy of Fine Arts, Tianjin, China 300141
作者:于文超,天津美術(shù)學(xué)院圖書(shū)館助理館員。