国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

德國e-Humanities項(xiàng)目TextGrid及其啟示

2009-09-02 08:09
關(guān)鍵詞:人文科學(xué)網(wǎng)格文本

曾 勤

摘要TextGrid是德國D-Grid應(yīng)用于人文科學(xué)的一個(gè)網(wǎng)格項(xiàng)目,目的是利用網(wǎng)格技術(shù),為人文學(xué)者提供一個(gè)處理、分析、注釋、編輯、鏈接和發(fā)布文本數(shù)據(jù)的網(wǎng)格工作平臺(tái),主要應(yīng)用于文獻(xiàn)編輯、語言學(xué)和辭典編纂等,并不斷拓展在其他領(lǐng)域的應(yīng)用。該文簡要概述TextGrid及其對我國網(wǎng)格發(fā)展的啟示。

關(guān)鍵詞網(wǎng)格德國TextGrid

1引言

“網(wǎng)格”一詞源于人們熟悉的電力網(wǎng)格,最初由研究并行計(jì)算和超級計(jì)算的學(xué)者提出,面向科學(xué)計(jì)算領(lǐng)域,被視為一種如電網(wǎng)那樣的基礎(chǔ)設(shè)施,希望像電力一樣,打開開關(guān)就在一種“無形”的虛擬環(huán)境中共享和充分利用超級計(jì)算資源。因特網(wǎng)實(shí)現(xiàn)了計(jì)算機(jī)硬件的連通,Web實(shí)現(xiàn)了網(wǎng)頁的連通,而網(wǎng)格是把整個(gè)因特網(wǎng)整合成一臺(tái)巨大的超級計(jì)算機(jī),實(shí)現(xiàn)各種資源的全面共享,徹底消除資源“孤島”,為用戶提供一體化信息和應(yīng)用服務(wù)(計(jì)算、存儲(chǔ)、訪問等)。目前全球代表性的重大網(wǎng)格項(xiàng)目包括:亞太地區(qū)的ApGfid網(wǎng)格,美國的TeraGrid網(wǎng)格,歐盟的DATA-Grid和EuroGrid,英國e-Science計(jì)劃,德國網(wǎng)格Deutschland Grid/D—Grid等。我國的代表項(xiàng)目有中國國家網(wǎng)格(CNGrid)和中國教育科研網(wǎng)格(China-Grid)等。這些網(wǎng)格項(xiàng)目主要是構(gòu)建重要科學(xué)領(lǐng)域的全球協(xié)作基礎(chǔ)設(shè)施,應(yīng)用于生物、醫(yī)學(xué)、物理、地理等自然科學(xué)領(lǐng)域。

e-Science作為一種新的全球性學(xué)術(shù)研究和協(xié)作環(huán)境,高性能計(jì)算資源、海量科學(xué)數(shù)據(jù)庫、科學(xué)數(shù)字圖書館、野外觀測臺(tái)站、大型科學(xué)裝置、計(jì)算模擬的軟件工具等通過高速的網(wǎng)絡(luò)聯(lián)接,組成e-Science的基礎(chǔ)設(shè)施與資源,實(shí)現(xiàn)資源集成共享,形成支撐科研人員大范圍交流協(xié)作的協(xié)同工作環(huán)境。在e-Science基礎(chǔ)設(shè)施支撐下,科研人員組成跨學(xué)科、跨組織、跨地域的虛擬組織,通過遠(yuǎn)程實(shí)驗(yàn)觀測、計(jì)算模擬、協(xié)同工作等新的科研方法和手段開展科學(xué)研究活動(dòng)。e-Science的基本特點(diǎn)是開放式的科學(xué)研究、大范圍的資源共享和廣泛的協(xié)同合作。而與e-Science相當(dāng)?shù)膃-Humanities則旨在為人文學(xué)者提供一個(gè)動(dòng)態(tài)而又虛擬的網(wǎng)絡(luò)和跨學(xué)科環(huán)境,讓人文學(xué)者能夠通過分布式資源、協(xié)同合作的方法和標(biāo)準(zhǔn)化的網(wǎng)格計(jì)算,進(jìn)行學(xué)術(shù)文本數(shù)據(jù)處理、分析、注釋、編輯和鏈接,開展跨學(xué)科、跨組織、跨地域的人文科學(xué)研究。但是與網(wǎng)格技術(shù)被廣泛應(yīng)用于自然科學(xué)領(lǐng)域相比,用于人文科學(xué)的網(wǎng)格項(xiàng)目較為少見。本文將根據(jù)文獻(xiàn)“TextGrid and eHumanities”簡要介紹德國Text-Grid項(xiàng)目,希望對我國同類項(xiàng)目的發(fā)展提供一點(diǎn)借鑒和啟示。

2TextGrid概述

德國Deutschland Grid(http://www.d-grid.de)簡稱D-Grid,由德國聯(lián)邦教育和研究部資助,致力于將網(wǎng)格計(jì)算應(yīng)用于科學(xué)研究。主要應(yīng)用領(lǐng)域包括氣象、高能物理、生物醫(yī)學(xué)研究、生命科學(xué)應(yīng)用和復(fù)雜工程解決方案等。作為D-Grid項(xiàng)目中唯一應(yīng)用于人文科學(xué)的TextGrid(http://www.textgrid.de)于2006年2月開始啟動(dòng),由六所德國大學(xué)圖書館和研究機(jī)構(gòu)(Goftingen State and University Library;Darm-stadt University of Technology;Insfitut far Deutsche Sprache.Mannheim;University of Trier;University of Applied Sciences,Worms;University of Wurzburg)以及兩個(gè)商業(yè)公司(DAASI International,Tubingen and Saphor,Tubingen)共同合作開發(fā),旨在創(chuàng)建一個(gè)虛擬研究圖書館,在支持TEI編碼的環(huán)境下開放源碼和接口,為人文科學(xué)學(xué)者提供處理、分析、注釋、編輯、鏈接和發(fā)布文本數(shù)據(jù)的網(wǎng)格工作平臺(tái),它的目標(biāo)是在一個(gè)動(dòng)態(tài)而又虛擬的網(wǎng)絡(luò)和跨學(xué)科環(huán)境下促進(jìn)學(xué)術(shù)研究。

人文科學(xué)學(xué)者運(yùn)用計(jì)算機(jī)技術(shù)的歷史可以追述到20世紀(jì)40年代末,Pater Roberto A.Busa首次使用IBM電腦,運(yùn)用計(jì)算機(jī)技術(shù)創(chuàng)建了一個(gè)完整的關(guān)于St.Thomas Aquinas作品的詞匯索引。從60年代以來,運(yùn)用計(jì)算機(jī)技術(shù)開發(fā)文本分析的應(yīng)用軟件工具大致有三種類型:1)針對具體問題、語言或項(xiàng)目的專門程序;2)通用軟件工具,如tustep提供高度可配置與操作的構(gòu)件模塊進(jìn)行文本處理和分析;3)自80年代發(fā)展起來的易于使用的腳本編程語言。在以文本為基礎(chǔ)的人文計(jì)算中,一個(gè)重要進(jìn)展就是由TEI(http://www.tei-c.org)發(fā)展起來的標(biāo)準(zhǔn)化文本編碼。它最初是在SGML框架內(nèi),現(xiàn)在轉(zhuǎn)換為XML(P4)和Schema(P5)。TEI使用標(biāo)示字體進(jìn)行數(shù)據(jù)交換和文本結(jié)構(gòu)理論交流,為廣泛的學(xué)科提供組合式標(biāo)簽集合。因此TEI不只是提供信息交換,而且還是幫助學(xué)者提高描述文本特征能力的數(shù)據(jù)描述語言。

為滿足e-Humanities發(fā)展,TextGfid以e-Science環(huán)境下的科學(xué)研究方法為基礎(chǔ),為人文科學(xué)研究提供一個(gè)人文計(jì)算基礎(chǔ)設(shè)施。首先在學(xué)術(shù)文本處理領(lǐng)域,運(yùn)用實(shí)證方法創(chuàng)建和使用數(shù)字文本,解決傳統(tǒng)的和新出現(xiàn)的問題;其次通過利用分布式資源,引進(jìn)合作方法和標(biāo)準(zhǔn)化工具提高文本數(shù)據(jù)處理水平。另外由于學(xué)科知識(shí)的局限性,有不少人文學(xué)者缺乏計(jì)算機(jī)科學(xué)知識(shí)的系統(tǒng)培訓(xùn)和對較復(fù)雜的網(wǎng)絡(luò)技術(shù)的了解,因此TextGfid還需要為研究者提供一個(gè)易于安裝和使用的圖形用戶界面和開放式接口、統(tǒng)一出版平臺(tái),以及允許用戶定義工作流程和數(shù)據(jù)結(jié)構(gòu)。TextGrid將自動(dòng)完成如符號標(biāo)記,創(chuàng)建索引,詞語分類,結(jié)構(gòu)分析,類型設(shè)置等一系列步驟。即使地理上相距遙遠(yuǎn)、操作系統(tǒng)不同、編程語言不同,TextGrid也能夠提供一個(gè)統(tǒng)一的平臺(tái),允許用戶對自己的模塊進(jìn)行擴(kuò)展,對不同模塊和數(shù)據(jù)進(jìn)行整合和無縫鏈接。并且提供訪問資源的透明度和安全性,為研究者創(chuàng)建開放式的科學(xué)研究、大范圍的資源共享和廣泛的異地協(xié)同合作的服務(wù)平臺(tái)。

3TextGrid具體應(yīng)用案例

TextGrid的應(yīng)用之一是要在統(tǒng)一的字符編碼標(biāo)準(zhǔn)、網(wǎng)絡(luò)服務(wù)及其他標(biāo)準(zhǔn)基礎(chǔ)上,為文字處理發(fā)展模塊化平臺(tái)。雖然最初重點(diǎn)是針對文獻(xiàn)編輯,但是現(xiàn)在項(xiàng)目組已經(jīng)在語言學(xué)和辭典編纂等方面開展工作并拓展它在其他領(lǐng)域的應(yīng)用。它的開放式和可擴(kuò)展的框架允許任何感興趣的組織加入。隨著一個(gè)活躍的TextGrid組織的逐步發(fā)展,它將會(huì)成為一個(gè)有生命的人文科學(xué)領(lǐng)域研究平臺(tái)。

3.1文獻(xiàn)編輯

TextGrid支持不同階段各個(gè)版本的創(chuàng)建,從對書目資源的最初收集、注釋、鏈接和整理進(jìn)行排序,

到對各種版本提供廣泛全面的檢索。主要是對歷史性的手稿和出版物通過高品質(zhì)掃描將其數(shù)字化,并將由此產(chǎn)生的大量圖像數(shù)據(jù)鏈接到存儲(chǔ)網(wǎng)格,從而允許研究者對如此大量的數(shù)據(jù)資源進(jìn)行存儲(chǔ)和訪問。原始資料的數(shù)字圖片和可被計(jì)算機(jī)處理的文本之間的鏈接,幫助用戶利用抄本的摘錄閱讀手稿中的圖片、印刷與原稿相似且更具可讀性的版本、從可檢索和已注釋的文本到掃描手稿相應(yīng)部分的導(dǎo)航。通過部分自動(dòng)操作(如分割原始圖像)和整合鏈接過程,TextGrid軟件工具可以大為簡化繁瑣的編碼任務(wù)。

由于德國出版物的版本非常復(fù)雜,有時(shí)一部著作出版發(fā)行了上百個(gè)版本,在創(chuàng)建不同評論版本時(shí),大量工作在于創(chuàng)建注釋和元數(shù)據(jù),對用于建立索引的人名或地名的標(biāo)注可以提高讀者對文本的理解程度。此外,網(wǎng)格中具有超強(qiáng)計(jì)算能力的軟件工具可以自動(dòng)整理和實(shí)時(shí)更新包括作品的起源以及各種評論的不同資源信息。TextGrid還提供一些易于使用的工具,支持編輯者共同創(chuàng)建注釋和統(tǒng)一的書目信息,并將它們應(yīng)用于全面檢索、生成網(wǎng)頁和自動(dòng)翻譯等進(jìn)一步處理過程中。TextGrid整合不同學(xué)術(shù)版本的目標(biāo),得到了由編輯者引入的鏈接的明確支持,而且終端用戶同樣能夠在所有鏈接的電子文本中執(zhí)行全面的檢索,包括使用文本的元數(shù)據(jù)限制搜索范圍,從而排除一般網(wǎng)絡(luò)搜索引擎所產(chǎn)生的大量不相干的結(jié)果。

3.2辭典編纂學(xué)和語言學(xué)的應(yīng)用

TextGrid的目標(biāo)之一是利用計(jì)算語言學(xué)、信息檢索和網(wǎng)格計(jì)算等尖端的技術(shù),基于可以被公開訪問的語義網(wǎng)格框架,提供一個(gè)支持德國歷史語言學(xué)和現(xiàn)代德語文集編輯的綜合平臺(tái)。此外,除了全文本檢索,增加智能服務(wù)來滿足不同語言學(xué)科的需求:如在語源學(xué)中用于搜索外來詞匯、方言學(xué)中搜索區(qū)域異體字、詞形學(xué)中在較大的復(fù)合單元中搜索詞位和單個(gè)詞素、句法中搜索適當(dāng)?shù)拿~和術(shù)語、語義學(xué)中搜索詞義(概念)以及相關(guān)語義的詞、篇章語言學(xué)中搜索特定的文本類型等。

首先,TextGfid整合了從中古高地德語到歌德時(shí)代的八部歷史語言字典和涵蓋大部分西日耳曼語的五部方言字典,隨后還會(huì)不斷增加,并且將界面定義為針對更多外語字典和詞匯資源的整合。其次,發(fā)展了不同時(shí)期的詞形學(xué)分析工具,將該工具整合到一個(gè)信息檢索系統(tǒng)中,可以自動(dòng)發(fā)現(xiàn)不同詞形的詞位。同時(shí)通過詞條、部分語句、地區(qū)和語言的形態(tài)句法信息豐富每個(gè)文集的標(biāo)號內(nèi)容。依據(jù)對稱和轉(zhuǎn)換,可擴(kuò)大詞匯入構(gòu)項(xiàng)之間由于原始的交叉參考詞匯所產(chǎn)生的詞群。雖然這些確定的語義關(guān)系在印刷文獻(xiàn)中沒有被明確地標(biāo)記,由于信息檢索技術(shù)產(chǎn)生了新的鏈接,它們可以自動(dòng)完成,由此產(chǎn)生的參考網(wǎng)絡(luò)也可以手動(dòng)地進(jìn)行標(biāo)注和擴(kuò)大,或者在必要時(shí)進(jìn)行限制。通過標(biāo)準(zhǔn)界面提供統(tǒng)一的搜索功能,如分類搜索中心詞(詞條),語法信息和其他內(nèi)容(依賴于具體的字典:引證,定義等)以及對不加限定的純文本、基于原有和新插人參考文獻(xiàn)的語義上相關(guān)術(shù)語的搜索,大大提高了字典的實(shí)用性。

TextGrid的未來發(fā)展戰(zhàn)略是建立一個(gè)能夠更好地展現(xiàn)和管理不同地區(qū)和時(shí)代的詞匯數(shù)據(jù)的辭典編纂者平臺(tái),能夠計(jì)算語義關(guān)聯(lián);生成同現(xiàn)矩陣;校正不同語言或方言文集;繼續(xù)擴(kuò)大和豐富為辭典的鏈接而創(chuàng)建的詞匯網(wǎng);增加新的詞素并對其標(biāo)注;為今后對不同時(shí)期意思相同的詞建立一個(gè)超詞條的目錄。

4對我國同類項(xiàng)目發(fā)展的啟示

網(wǎng)格作為國家教育信息化重要的基礎(chǔ)設(shè)施,其規(guī)模和應(yīng)用水平已成為衡量一個(gè)國家教育與科研綜合實(shí)力的一個(gè)重要標(biāo)志,是創(chuàng)辦世界一流大學(xué)、培養(yǎng)一流人才的重要物質(zhì)條件。中國教育科研網(wǎng)格(ChinaGrid)是教育部“十五”211工程公共服務(wù)體系建設(shè)的重大專項(xiàng),主要由生物信息學(xué)網(wǎng)格、圖像處理網(wǎng)格、遠(yuǎn)程教育網(wǎng)格、流體力學(xué)網(wǎng)格和海量信息處理網(wǎng)格這五大專業(yè)應(yīng)用網(wǎng)格構(gòu)成,充分利用中國教育科研網(wǎng)和高校的大量計(jì)算資源和信息資源,開發(fā)相應(yīng)的網(wǎng)格軟件和運(yùn)用網(wǎng)格技術(shù)將CERNET上分散、異構(gòu)、局部自治的海量資源整合起來,通過有序管理和協(xié)同計(jì)算,消除信息孤島,發(fā)揮綜合效能,實(shí)現(xiàn)資源的廣泛共享、有效聚合、充分釋放,形成高水平、低成本的計(jì)算服務(wù)平臺(tái)。它整合了全國20所高校的高性能計(jì)算資源、存儲(chǔ)資源、數(shù)據(jù)資源、知識(shí)資源、專家資源等,為前沿科學(xué)研究探索提供了必備手段和條件。

隨著我國ChinaGrid項(xiàng)目的不斷拓展,借鑒德國D-Grid的發(fā)展計(jì)劃與應(yīng)用,可否建立ChinaGrid項(xiàng)目下的“ChinaTextGrid”,開發(fā)相應(yīng)的TextGrid軟件和運(yùn)用網(wǎng)格技術(shù)為人文科學(xué)研究提供e-Humanities的基礎(chǔ)設(shè)施?

眾所周知我國幅員遼闊,歷史悠久,無論是國家圖書館還是各高校圖書館和研究機(jī)構(gòu)在人文科學(xué)領(lǐng)域都擁有豐富的館藏信息資源,內(nèi)容形式多種多樣,包括圖書、善本、珍貴資料、報(bào)刊、地圖、照片、手稿、影視音頻資料等。例如對我國古典文學(xué)名著《紅樓夢》的“紅學(xué)”研究,其相關(guān)文獻(xiàn)資源的內(nèi)容、形式和規(guī)模應(yīng)該不亞于德國對Jean Paul的研究。Wtirzburg大學(xué)圖書館對Jean Paul資源的整合案例“Jean-Paul—Portal”(http://www.jean-paul-portal.de)為我們提供了很好的借鑒:Jean Paul是公元1800年左右德語古典文學(xué)史上著名的領(lǐng)軍作家,他的作品及其研究評論著作和龐大的遺著(40,000頁的手稿)大約有4 TB的數(shù)據(jù)。Wtirzburg大學(xué)圖書館嘗試多媒體版本形式,用標(biāo)準(zhǔn)信息處理技術(shù)和TEI標(biāo)記將手稿材料圖像、抄本、所有印刷本圖像、打印文檔和評論版著作進(jìn)行整合,對文本進(jìn)行編碼,同時(shí)以紙本印刷和電子形式出版。

借鑒德國TextGrid對Jean Paul資源的整合案例,我們可以考慮研發(fā)中文信息處理技術(shù),將分布在世界各地圖書館或研究機(jī)構(gòu)的“紅學(xué)”資源,包括《紅樓夢》版本、曹雪芹研究、版本研究、主題研究、藝術(shù)研究、人物研究、語言研究、結(jié)構(gòu)研究、詩詞研究等海量文獻(xiàn)資源進(jìn)行整合,對不同版本的著作及評論、歷史性的手稿、抄本、圖片、影視音頻資料等,通過高品質(zhì)掃描技術(shù)將其數(shù)字化,將由此產(chǎn)生的大量圖像數(shù)據(jù)鏈接到存儲(chǔ)網(wǎng)格,利用各高校的校園網(wǎng)格在ChinaGrid提供的統(tǒng)一平臺(tái)和標(biāo)準(zhǔn)化工具基礎(chǔ)上,共同創(chuàng)建和統(tǒng)一書目信息,對《紅樓夢》相關(guān)的信息資源進(jìn)行編輯、注釋、鏈接、整理和排序,對各種版本提供廣泛全面的檢索,利用具有超強(qiáng)計(jì)算能力的網(wǎng)格軟件工具對作品的起源或各種評論的不同信息資源自動(dòng)整理和實(shí)時(shí)更新,提高文本數(shù)據(jù)處理水平,為“紅學(xué)”研究者提供海量的數(shù)據(jù)資源存儲(chǔ)和透明訪問,達(dá)到資源共享和異地學(xué)術(shù)研究合作。

ChinaGrid提高了211工程高校公共服務(wù)體系的整體水平,實(shí)現(xiàn)了高性能計(jì)算環(huán)境、大型儀器設(shè)備等方面的整合共享,避免了重復(fù)投資,提高了使用效率。在ChinaGrid廣泛應(yīng)用于科研、教學(xué)等自然科學(xué)領(lǐng)域的基礎(chǔ)上,為人文科學(xué)研究者提供全球性學(xué)術(shù)研究和協(xié)作的基礎(chǔ)設(shè)施,對豐富的人文資源進(jìn)行開放式的科學(xué)研究、大范圍的資源共享和廣泛的異地協(xié)同合作是未來e-Humanities的發(fā)展方向,值得我們進(jìn)一步的探索和研究。同時(shí)也是對高校數(shù)字圖書館建設(shè)應(yīng)用網(wǎng)格技術(shù)提供一體化平臺(tái)、實(shí)現(xiàn)資源全面共享、解決海量數(shù)據(jù)處理、進(jìn)行資源集成和知識(shí)管理的一個(gè)新挑戰(zhàn)。

猜你喜歡
人文科學(xué)網(wǎng)格文本
用全等三角形破解網(wǎng)格題
在808DA上文本顯示的改善
反射的橢圓隨機(jī)偏微分方程的網(wǎng)格逼近
基于doc2vec和TF-IDF的相似文本識(shí)別
在“實(shí)踐”中研究人
重疊網(wǎng)格裝配中的一種改進(jìn)ADT搜索方法
淺談創(chuàng)新人才培養(yǎng)視閾下醫(yī)學(xué)人文素質(zhì)教育
抓好四個(gè)滲透,全面提高歷史教學(xué)質(zhì)量
基于曲面展開的自由曲面網(wǎng)格劃分
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
焦作市| 麻栗坡县| 万安县| 上高县| 盐城市| 阿巴嘎旗| 德格县| 巴林左旗| 阿坝县| 彰化县| 芜湖县| 璧山县| 婺源县| 株洲县| 泾源县| 中阳县| 东山县| 福鼎市| 凤阳县| 牡丹江市| 徐汇区| 博客| 名山县| 临朐县| 台安县| 达尔| 贡嘎县| 祁阳县| 大同市| 余干县| 南木林县| 汤原县| 仪陇县| 建宁县| 德令哈市| 洪江市| 始兴县| 新密市| 微山县| 双辽市| 安塞县|