陳建平,郭莉,高燕萍,肖翠,馬克平
1.上海辰山植物園,上海 201602
2.中國科學(xué)院植物研究所,北京 100093
數(shù)字植物標本館是生物多樣性信息學(xué)中的一個重要發(fā)展方向[1],國內(nèi)外植物標本館的數(shù)字化工作已經(jīng)開展了十多年,也涌現(xiàn)了 iDigBio,NSII 等國家級數(shù)字標本平臺,以及 GBIF 等國際性數(shù)字標本平臺[2]。中國植物標本數(shù)據(jù)庫的建設(shè)成效顯著,已經(jīng)積累了大量的數(shù)字化資料,數(shù)字植物標本館建設(shè)也從大規(guī)模的數(shù)字化開始邁向數(shù)據(jù)挖掘與應(yīng)用階段[3-4]。根據(jù)科學(xué)研究的第四范式判斷,信息平臺建設(shè)應(yīng)該緊密結(jié)合科研工作的實際情況,通過專題性 e-Science 系統(tǒng)的研發(fā),滿足具體科研需求,實現(xiàn)標本數(shù)據(jù)價值的最大化[5-6]。
實際的植物資源調(diào)查與分類工作,往往是以行政區(qū)劃為單位進行,例如省級的植物志調(diào)查編撰、經(jīng)濟植物資源調(diào)查等,都受到地方政府經(jīng)濟發(fā)展需求以及科研發(fā)展計劃的驅(qū)動,區(qū)域性特點非常明確。中國數(shù)字植物標本館平臺包括三級結(jié)構(gòu),分別是國家標本資源共享平臺 (National Specimen Information Infrastructure,NSII)、中國數(shù)字植物標本館 (Chinese Virtual Herbarium,CVH) 和具體標本館的管理平臺。標本館是最終的數(shù)據(jù)源節(jié)點,標本數(shù)據(jù)層層向上集成。在這個體系當中,從具體的標本館開始,其采集區(qū)域雖各有重點,但收集目標往往都是越寬泛越好,實際的數(shù)據(jù)都是跨行政區(qū)劃的綜合數(shù)據(jù)。通過 CVH、NSII 匯總后,區(qū)域性的數(shù)據(jù)集就融入了全國的標本數(shù)據(jù)庫當中。對于地方性的植物調(diào)查與研究需求來講,標本查詢、修訂、在線科研協(xié)作都頗為不便。
因此國家標本資源共享平臺辦公室提出了 PVH 工作計劃,即在國家標本資源數(shù)據(jù)庫的基礎(chǔ)上,創(chuàng)建省級的數(shù)字標本館平臺 (Provincial Virtual Herbarium,簡稱 PVH),通過 NSII 的數(shù)據(jù) API 對標本數(shù)據(jù)進行篩選與集成,為省級用戶創(chuàng)建標本數(shù)據(jù)子集,將該省內(nèi)的用戶組建為在線社區(qū),實現(xiàn)數(shù)據(jù)庫的高效應(yīng)用,并提供 e-Science 工具集,為數(shù)據(jù)校對、修訂、新內(nèi)容創(chuàng)作提供實用工具,將具有非常多的優(yōu)點。例如:(1) 可以直接服務(wù)于以省為單位的植物資源調(diào)查、分類學(xué)研究、植物志的修訂編撰、自然保護區(qū)規(guī)劃與管理等具體工作,直接發(fā)揮 NSII 標本數(shù)據(jù)的價值。(2) 可以與省級的植物學(xué)會、研究機構(gòu)等直接對應(yīng),方便創(chuàng)建在線的研究社區(qū)。(3) 對 NSII 的標本數(shù)據(jù)資源按省級行政區(qū)劃分為數(shù)據(jù)子集,由對應(yīng)的省級 PVH 站點進行維護與修訂,改進數(shù)據(jù)質(zhì)量,可以實現(xiàn)分而治之,推動 NSII 標本數(shù)據(jù)質(zhì)量的持續(xù)性改進。
PVH 的工作思路是,首先通過創(chuàng)建省級網(wǎng)站,聚合該省的分類學(xué)者及植物學(xué)研究工作者,形成在線研究團隊,研究團隊根據(jù)該省的植物志、名錄、最新的分類學(xué)文獻、以及野外調(diào)查,整理出省級植物名錄,以名錄作為 PVH 省級子站的核心數(shù)據(jù)。然后根據(jù)植物名錄,通過調(diào)用 NSII 中的標本數(shù)據(jù) API,篩選出該省的標本數(shù)據(jù)子集,由在線專家團隊對標本進行修訂、審核,選出可信度較高的標本形成憑證標本數(shù)據(jù)集。其次,根據(jù)植物名錄,創(chuàng)建物種的形態(tài)描述、引證文獻,形成基于 wiki 編輯機制的在線的植物志。其次,創(chuàng)建在線圖像庫,由專家上傳野外考察拍攝的活體植物圖像,作為物種發(fā)現(xiàn)的照片憑證。最后,網(wǎng)站上線后,通過植物名錄集成標本、照片、植物志、文獻等資料,形成百科全書式的物種綜合數(shù)據(jù)庫體系,服務(wù)于網(wǎng)站的最終用戶。
通過對以上工作思路的分析,PVH 主要的數(shù)據(jù)產(chǎn)出包括六個方面:(1) 在線專家社區(qū);(2) 省級植物名錄;(3) 省級標本數(shù)據(jù)子集;(4) 在線植物志與物種文獻;(5) 活植物圖像庫;(6) 集成的物種百科服務(wù)。這也是 PVH 數(shù)據(jù)庫設(shè)計的主要依據(jù)。
PVH 的主要工作流程就是圍繞以上數(shù)據(jù)產(chǎn)品的加工處理過程,包括 (1) 在線虛擬社區(qū)管理流程:如用戶注冊、登錄與驗證、授權(quán)、創(chuàng)建群組、群組成員添加與注銷、群組成員角色分配,以及用戶積分、勛章等激勵機制。(2) 植物名錄管理流程:如名錄數(shù)據(jù)批量上傳、批量校對、名錄查詢、名錄編輯等。(3) 基于 Wiki 機制的植物志、物種文獻編輯流程:具備簡潔語法的編輯系統(tǒng)、附件上傳、歷史版本管理等。(4) 植物圖像庫管理流程:包括圖庫創(chuàng)建、照片批量上傳、快速鑒定、圖像在線瀏覽器等。(5) 物種信息的集成服務(wù)流程:包括物種數(shù)據(jù)的搜索、集成展示、API 服務(wù)等。
國家標本資源共享平臺 (NSII) 為了提供專題網(wǎng)站建設(shè),以及個性化、專題化數(shù)據(jù)庫項目的建設(shè)需要,開發(fā)了專題網(wǎng)站服務(wù)系統(tǒng),包括用戶群組管理體系和網(wǎng)站內(nèi)容管理體系兩大核心基礎(chǔ)框架?;诖讼到y(tǒng),可以創(chuàng)建自定義的專題網(wǎng)站。省級數(shù)字植物標本館 (PVH) 平臺基于 NSII 的專題網(wǎng)站服務(wù)開發(fā),功能體系包括:(1) 利用 NSII 的網(wǎng)站創(chuàng)建服務(wù)注冊新的 PVH 子站,所有的 PVH 子站都自動屬于 PVH 網(wǎng)站聯(lián)盟。(2) 每個 PVH 子站都可以利用 NSII 的用戶群組管理機制為網(wǎng)站用戶提供新用戶注冊、用戶加入群組、群組角色分配、驗證與授權(quán)等用戶管理服務(wù)。(3) 利用網(wǎng)站內(nèi)容管理體系,可以在網(wǎng)站內(nèi)創(chuàng)建網(wǎng)站菜單、欄目,并可以在線創(chuàng)建編輯網(wǎng)頁內(nèi)容。(4) PVH 特有的核心功能體系,以植物名錄管理為核心,包括活植物圖像庫、在線植物志、憑證標本數(shù)據(jù)庫、物種文獻數(shù)據(jù)庫等模塊。網(wǎng)站模塊關(guān)系如圖 1 所示。
根據(jù) PVH 網(wǎng)站的功能定位與需求分析,PVH 數(shù)據(jù)庫以物種名錄為核心,以憑證標本庫、活植物圖像庫、在線植物志數(shù)據(jù)庫、物種文獻數(shù)據(jù)庫為主要建設(shè)內(nèi)容。因此功能體系設(shè)計上,是以名錄管理作為系統(tǒng)的核心功能,要支持常用的 Excel 格式物種表格數(shù)據(jù)的批量上傳,以快速創(chuàng)建在線名錄,并輔以單條名錄的添加、修改、刪除作為補充,實現(xiàn)植物名錄的在線管理。通過名錄界面,實現(xiàn)兩種集成:(1) 物種信息的集成展示,包括名錄基本信息、植物志描述信息、活植物圖像信息、憑證標本信息等;(2) 物種相關(guān)的記錄編輯功能集成,即在一個物種頁面中,實現(xiàn)植物志描述記錄的編輯、圖像上傳、憑證標本審核、物種文獻添加等功能的集成。最終設(shè)計的 PVH 核心功能體系如圖 2 所示,功能列表如下:
F1 省級植物名錄 Provincial Plant Checklist
F1.1 名錄數(shù)據(jù)批量導(dǎo)入 Checklist Bulk Data Import
F1.2 名錄下載 Checklist Data Download
F1.3 名錄單條記錄的編輯 Record Edit
F1.4 物種查詢 Species Query
F1.5 基于物種的信息集成 Information Integration Based On Species
F2 省級在線植物志 Online Flora
F2.1 在線植物志編輯 Flora Online Edit
F2.2 Wiki式版本管理 Wiki Version Management
F2.3 附件管理機制 Attachment Files Management
F2.4 擴展的Markdown編輯語法 Extended Markdown Syntax
F3 憑證標本數(shù)據(jù)庫 Voucher Database
F3.1 NSII標本數(shù)據(jù)集成 NSII Specimen Data integration
F3.2 憑證編輯 Voucher Record Edit
F3.3 憑證查詢 Voucher Query
F3.4 憑證下載 Voucher Data Download
F4 活植物圖像庫 Living Plant Gallery
F4.1 圖像批量上傳 Bulk Image Uploader
F4.2 基于文件名的自動鑒定 Automatic Identification By Filename
F4.3 在線鑒定 Online Identification
F4.4 圖庫Web展示 Web Species Gallery
F5 物種文獻數(shù)據(jù)庫 Literature Database
F5.1 文獻記錄編輯 Literature Edit
圖2 PVH 功能體系Fig.2 PVH Website Function Architecture
F5.2 文獻附件上傳 Attachments Upload
F5.3 外部文獻關(guān)聯(lián) External Literature Integration
F5.4 文獻查詢API Literature Query API
PVH 在數(shù)據(jù)存儲上采用了 MySQL 數(shù)據(jù)庫,每一個核心數(shù)據(jù)產(chǎn)出都對應(yīng)著專用的表,主要包括植物名錄元數(shù)據(jù)表 (site_checklist_meta)、植物物種名錄表 (site_checklist)、網(wǎng)站內(nèi)容表 (site_content)、內(nèi)容附件表 (site_attachments)、相冊圖集表 (site_albums)、照片表 (site_photos)、鑒定信息表 (site_idents)、數(shù)字標本館信息表 (site_virtualherbarium)、憑證標本表 (site_vouchers)。植物志描述 (site_f lora) 及文獻內(nèi)容 (site_literature) 的數(shù)據(jù)結(jié)構(gòu)與網(wǎng)站內(nèi)容表一致 (site_content),實際保存于內(nèi)容表中,在邏輯上以視圖方式獨立存在。因為篇幅關(guān)系,每個表的數(shù)據(jù)字段的詳細設(shè)計不再贅述,數(shù)據(jù)表之間的邏輯關(guān)系如圖 3 所示。的.NET 平臺,以 C# 為后端服務(wù)開發(fā)語言,以 MySQL 作為主要數(shù)據(jù)存儲系統(tǒng),以 REST API 為后臺服務(wù)的應(yīng)用接口,JSON 作為 API 的主要數(shù)據(jù)格式。前端采用 jQuery、Html5、EChart 等 JS 技術(shù)進行用戶交互界面設(shè)計。
根據(jù)設(shè)計方案,系統(tǒng)采用了基于 Windows Server
以下以網(wǎng)站建設(shè)流程為主線,概要介紹 PVH 最終實現(xiàn)的功能。
(1)網(wǎng)站創(chuàng)建與自定義
網(wǎng)站基于模版技術(shù)創(chuàng)建,支持自定義網(wǎng)站的標題、版權(quán)聲明、Banner、配色、網(wǎng)站的菜單。需要特殊設(shè)計效果的子站,可以單獨設(shè)計模版。
(2)用戶注冊與群組管理
用戶信息包括了基本用戶注冊信息、個人檔案信息、用戶加入的群組列表與群組內(nèi)角色與群內(nèi)名片。群內(nèi)用戶包括管理員與普通用戶兩種基本級別,管理員具有群內(nèi)最高權(quán)限,并可以管理其他普通賬戶。用戶賬號還包括角色、優(yōu)先級等設(shè)置,由管理員負責設(shè)定。
(3)植物名錄管理
圖3 PVH 數(shù)據(jù)庫結(jié)構(gòu)Fig.3 PVH Database Architecture
圖4 PVH 網(wǎng)站配置Fig.4 PVH Website Config
圖5 PVH 用戶群組管理Fig.5 PVH User Group Management
圖6 PVH 植物名錄管理Fig.6 PVH Checklist Management
支持 Excel 格式的名錄數(shù)據(jù)表的上傳,名錄將被批量導(dǎo)入到 MySQL 格式數(shù)據(jù)庫中形成標準名錄記錄。名錄庫還支持以 Excel 格式下載。除了批量操作,名錄日常維護中可對錯誤記錄進行編輯修訂,以及增加新的物種記錄,刪除錯誤記錄等記錄級別操作。
(4)在線植物志編撰
植物志編輯基于擴展的 Markdown 語法,即在純文本的基礎(chǔ)上,通過添加簡單的語義標記符號,借以標明標題的層級,注釋、插入的圖像與網(wǎng)址、引用文本塊等關(guān)鍵語義,實現(xiàn)以純文本內(nèi)容為主的內(nèi)容編輯管理。簡單易用。Markdown 格式不會引入復(fù)雜的顯示樣式等多余編碼,即使在沒有轉(zhuǎn)換的情況下,也能保證可讀性,通過 Markdown 格式化器處理后,可以生成標準的網(wǎng)頁格式,具備更好的閱讀體驗。我們在 Markdown 語法的基礎(chǔ)上,添加了植物檢索表、物種名稱等擴展語法,可以非常方便地應(yīng)用于植物屬性性狀的描述。編輯頁面除了文本編輯外,也支持附件圖像的上傳與自動插入。為了支持多用戶協(xié)作編撰,系統(tǒng)引入了 Wiki 編輯機制,提供歷史版本保存與恢復(fù)的功能,保證內(nèi)容在被其他編輯者誤修改的情況下,還能輕易地實現(xiàn)版本恢復(fù)。
圖7 PVH 在線植物志Fig.7 PVH Online Flora
圖8 PVH 憑證標本管理Fig.8 PVH Voucher Specimen Management
(5)憑證標本管理
在物種信息頁面上,通過 NSII 的標本數(shù)據(jù)庫 API,PVH 可以調(diào)用 NSII 標本列表,提供給 PVH 子站用戶審核,PVH 用戶可以將質(zhì)量較好、鑒定準確、參考價值高的標本選作憑證標本,保存于子站的憑證標本庫當中。憑證標本可以嵌入物種頁面單獨瀏覽,也可以在憑證管理器中檢索、瀏覽,憑證管理器還提供了憑證數(shù)據(jù)的 Excel 格式下載,為數(shù)據(jù)的進行一步分析處理提供了方便。
(6)活植物圖像庫創(chuàng)建
PVH 子站內(nèi)建了圖像庫服務(wù),用戶可以在 web 界面上批量上傳植物圖像,上傳服務(wù)采用了最新的 Html5 上傳技術(shù),無需 Flash 等瀏覽器插件,適用于任意版本的現(xiàn)代瀏覽器。照顧一般分類學(xué)者的習慣,只要圖像文件名中包含了學(xué)名、中文名等物種名稱,在上傳到后臺時,系統(tǒng)自動分析,并根據(jù)網(wǎng)站的植物名錄進行自動匹配,匹配成功的,圖像會被自動鑒定,對應(yīng)的科屬種的學(xué)名、中名等信息會被一次性填充正確,無需用戶在頁面上逐項操作。當然,圖庫也支持在線互助鑒定、照片信息編輯等常規(guī)功能。有鑒定的照片,會被物種集成頁面自動集成和索引。
(7) 物種百科信息集成
以上是內(nèi)容編輯功能,對于網(wǎng)站的最終用戶來說,需要的是基于物種的集成信息瀏覽服務(wù)。PVH 通過物種名錄的物種樹瀏覽,引導(dǎo)用戶到達最終的物種頁面,物種頁面是以物種學(xué)名為關(guān)鍵索引,自動集成植物志、文獻、標本、圖像等內(nèi)容模塊,形成統(tǒng)一的最終瀏覽視圖。另外一種方式是物種檢索,PVH 支持中名、學(xué)名的模糊搜索,最終也會將用戶導(dǎo)向物種集成信息頁面。
PVH 子站已經(jīng)開通了上海站,完成了植物名錄、植物志等核心內(nèi)容建設(shè),包括了物種名錄 3652 條,活體植物圖像 7000 余張,也集成了 NSII 標本庫、上海辰山植物標本館 (CSH) 的館藏標本信息,目前上海 PVH 已經(jīng)移交分類學(xué)家團隊正式管理,網(wǎng)站處于內(nèi)容的持續(xù)建設(shè)中。通過半年時間的測試,結(jié)合上海 PVH 子站的內(nèi)容建設(shè),PVH 的系統(tǒng)框架與核心功能經(jīng)過了大量的改進,已經(jīng)基本穩(wěn)定,實現(xiàn)了 PVH 設(shè)計的主要目標。PVH 網(wǎng)站計劃也已經(jīng)進入推廣階段,江蘇、福建、天津、江西等站點已經(jīng)開始建設(shè)。PVH 也將隨著應(yīng)用的深入,不斷探索新的需求,持續(xù)改進。
圖9 PVH 活植物圖庫Fig.9 PVH Living Plant Gallery
圖10 PVH 物種信息集成頁Fig.10 PVH Integrated Species Information Species Information Integration Page
圖11 PVH 網(wǎng)站聯(lián)盟Fig.11 PVH Affiliate Program
PVH 實現(xiàn)了預(yù)期的功能體系建設(shè),也開始了正式的推廣。但要獲得真正的成功,成為分類學(xué)家愿意接受的日常工作平臺,還有很多問題需要深入探討,不斷研究最佳的解決方案。其中最為關(guān)鍵的問題是如何找到科研工作的真正需求和用戶的興趣點,打造活躍的在線社區(qū),形成自驅(qū)動的、自進化的系統(tǒng)。這就需要信息學(xué)與分類學(xué)兩個領(lǐng)域的密切合作,讓分類學(xué)者真正參與研發(fā),不斷提出改進意見。因此如何吸引用戶就成為信息平臺面臨的核心發(fā)展問題。
PVH 在實踐當中,對此也做了探索,包括 (1) 加強易用性,幫助用戶克服學(xué)習障礙。 使用新系統(tǒng)需要用戶付出一定的時間成本。因此 PVH 在設(shè)計上力求簡單明了,無須學(xué)習即可使用是設(shè)計理念,但總有一些概念和流程需要解釋,PVH 采用了屏幕錄像制作小視頻教程,比起說明書或圖解教程更快捷明了,收效非常好。(2) 增加信息集成,提高網(wǎng)站附加值。通過物種名錄,PVH 集成了站內(nèi)外的很多相關(guān)資料,通過技術(shù)集成一次性提供給用戶,提升了網(wǎng)站的吸引力。(3) 社區(qū)激勵機制的引入。核心用戶群的培養(yǎng)與網(wǎng)絡(luò)社區(qū)的形成,需要突破一定的規(guī)模,才能形成自激發(fā)的網(wǎng)絡(luò)效應(yīng),形成自我發(fā)展的良性科學(xué)社區(qū)。PVH 已經(jīng)創(chuàng)建了用戶積分、榮譽勛章機制,將在下一階段積極嘗試。
中國的生物多樣性信息學(xué)平臺,大部分都是由權(quán)威研究機構(gòu)和科研管理機構(gòu)主導(dǎo)創(chuàng)建和運行管理,由科學(xué)家群體維護管理的嚴肅 e-Science 平臺還很少見,而 PVH 則是基于 NSII 的二次開發(fā)性體系,每個 PVH 子站都將由科學(xué)家自主管理。這也是國家標本資源共享平臺的一次積極的探索和嘗試,希望能夠為中國 e-Science 的發(fā)展提供積極的發(fā)展經(jīng)驗。