張成麗
(南陽(yáng)文化藝術(shù)學(xué)校 河南南陽(yáng) 473000)
在數(shù)字人文觀念下,對(duì)人文學(xué)科進(jìn)行研究時(shí),更加強(qiáng)調(diào)對(duì)數(shù)據(jù)資源的管理,在整個(gè)研究過(guò)程中都可以利用數(shù)據(jù)將研究結(jié)果進(jìn)行呈現(xiàn)。而在現(xiàn)代化的圖書(shū)館系統(tǒng)建設(shè)過(guò)程中,對(duì)圖書(shū)館數(shù)據(jù)進(jìn)行管理,也需要積極貫徹落實(shí)數(shù)字人文觀念,在圖書(shū)館服務(wù)中,數(shù)據(jù)服務(wù)已經(jīng)成為關(guān)鍵的服務(wù)項(xiàng)目,因而從提高數(shù)字圖書(shū)館服務(wù)水平的角度來(lái)看,圖書(shū)館建設(shè)人員也要積極的對(duì)數(shù)字人文觀念進(jìn)行應(yīng)用,通過(guò)加強(qiáng)應(yīng)用實(shí)踐,促進(jìn)數(shù)字人文觀念與數(shù)字圖書(shū)館建設(shè)的深度融合。
(一)數(shù)據(jù)獲取。在獲取圖書(shū)館數(shù)據(jù)時(shí),數(shù)據(jù)處理人員要把握數(shù)據(jù)獲取的幾個(gè)層面。最簡(jiǎn)單的數(shù)據(jù)獲取方法為在成熟的數(shù)據(jù)庫(kù)中對(duì)數(shù)據(jù)進(jìn)行導(dǎo)出,此時(shí)主要應(yīng)用的是原始文獻(xiàn)。而要想獲取網(wǎng)絡(luò)深層結(jié)構(gòu)中的數(shù)據(jù)則要善于應(yīng)用各種社交媒體平臺(tái)。網(wǎng)絡(luò)深層結(jié)構(gòu)中的數(shù)據(jù)由于常常出現(xiàn)拒絕鏈接或未被鏈接的情況,因而會(huì)隱藏較多的數(shù)據(jù)。在對(duì)該類數(shù)據(jù)進(jìn)行獲取時(shí),需要數(shù)據(jù)處理人員借助專業(yè)的技術(shù)和操作頁(yè)面,確保獲取有價(jià)值的數(shù)據(jù)信息。在社交媒體平臺(tái)中,每天都會(huì)產(chǎn)生大規(guī)模的數(shù)據(jù),數(shù)據(jù)類型不一,包括用戶個(gè)人信息以及用戶使用社交媒體平臺(tái)產(chǎn)生的信息等,信息處理人員應(yīng)關(guān)注非結(jié)構(gòu)或半結(jié)構(gòu)頁(yè)面,并采取科學(xué)的手段從中獲取有用的數(shù)據(jù)信息;在獲取數(shù)據(jù)信息之后,要對(duì)其進(jìn)行轉(zhuǎn)化,要確保格式統(tǒng)一,最終轉(zhuǎn)化成結(jié)構(gòu)化資源并輸出。
(二)數(shù)據(jù)初步整理
1.數(shù)據(jù)標(biāo)注。在對(duì)獲取的數(shù)據(jù)進(jìn)行標(biāo)注時(shí),會(huì)使用到語(yǔ)義數(shù)據(jù)自動(dòng)標(biāo)注法,該方法會(huì)在計(jì)算機(jī)技術(shù)的支持下處理數(shù)據(jù)對(duì)象,具體處理的為數(shù)據(jù)對(duì)象的語(yǔ)義概念和語(yǔ)義關(guān)系,且整個(gè)處理過(guò)程的自動(dòng)化程度較高。當(dāng)前我國(guó)在人工智能領(lǐng)域已經(jīng)有了對(duì)Web資源自動(dòng)語(yǔ)義標(biāo)注的研究,但是現(xiàn)階段的自動(dòng)語(yǔ)義標(biāo)注還只是停留在對(duì)學(xué)習(xí)統(tǒng)計(jì)結(jié)構(gòu)以及專家經(jīng)驗(yàn)進(jìn)行學(xué)習(xí)的基礎(chǔ)上,因而其精確度難以得到保障。在具體應(yīng)用過(guò)程中,需要結(jié)合實(shí)際情況進(jìn)行適當(dāng)?shù)恼{(diào)整。而在對(duì)數(shù)據(jù)進(jìn)行標(biāo)注時(shí),還可以采用本體標(biāo)注法。在本體標(biāo)注法下,數(shù)據(jù)標(biāo)注人員要對(duì)現(xiàn)有的本體語(yǔ)義資源的文本結(jié)構(gòu)進(jìn)行預(yù)處理,要進(jìn)行本體識(shí)別、查詢、抽取,并進(jìn)一步對(duì)本體語(yǔ)義信息進(jìn)行擴(kuò)充,最終輸出RDF/OWL文檔。
2.數(shù)據(jù)比較。在對(duì)人文學(xué)科進(jìn)行數(shù)字化研究時(shí),數(shù)據(jù)處理人員需要對(duì)數(shù)據(jù)進(jìn)行全面的分析。而在傳統(tǒng)的研究動(dòng)中,人們?cè)诜治鰯?shù)據(jù)時(shí),對(duì)已掌握的文獻(xiàn)資料的依賴程度較大,整體的數(shù)據(jù)規(guī)模較小,且在技術(shù)限制下,對(duì)數(shù)據(jù)進(jìn)行分析時(shí),常使用隨機(jī)采樣的方式進(jìn)行數(shù)據(jù)分析。而在數(shù)字人文支持下,數(shù)據(jù)分析人員面對(duì)的數(shù)據(jù)規(guī)模較大,且面對(duì)的數(shù)據(jù)類型和結(jié)構(gòu)較為復(fù)雜,但是基于信息技術(shù)的支持,數(shù)據(jù)分析人員也可以借助相應(yīng)的平臺(tái)和技術(shù)對(duì)數(shù)據(jù)進(jìn)行全面的分析。而在數(shù)字人文觀念下進(jìn)行的數(shù)據(jù)分析,需要借助數(shù)字人文研究平臺(tái),而在該平臺(tái)下,可以對(duì)數(shù)據(jù)進(jìn)行比較。檢索者可以在平臺(tái)中對(duì)不同數(shù)據(jù)庫(kù)以及媒體平臺(tái)提供的不同內(nèi)容和格式的信息進(jìn)行比較,并形成可視化的比較結(jié)果。當(dāng)前出現(xiàn)的超星系統(tǒng)已經(jīng)可以滿足數(shù)據(jù)比較的需求,但是該系統(tǒng)還是需要進(jìn)一步完善,以滿足數(shù)據(jù)處理的其他需求。
3.數(shù)據(jù)取樣。在數(shù)據(jù)處理過(guò)程中,需要對(duì)數(shù)據(jù)庫(kù)中的系統(tǒng)信息進(jìn)行取樣,以判斷系統(tǒng)功能以及數(shù)據(jù)是否符合數(shù)據(jù)應(yīng)用。在數(shù)據(jù)取樣時(shí),要遵循隨機(jī)取樣原則,取樣完成后要對(duì)數(shù)據(jù)進(jìn)行分析,如數(shù)據(jù)標(biāo)注是否達(dá)成一致以及數(shù)據(jù)庫(kù)中是否有全面的關(guān)鍵詞、主題詞以及分類詞等。再進(jìn)一步,則要對(duì)研究深網(wǎng)數(shù)據(jù)的標(biāo)注是否符合要求等進(jìn)行分析。對(duì)于系統(tǒng)功能,也可以從數(shù)據(jù)取樣中進(jìn)行分析,可以對(duì)系統(tǒng)功能中的檢索結(jié)果可視化功能進(jìn)行分析,此外,還要判斷系統(tǒng)是否能夠?qū)虢Y(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化編碼等。
4.數(shù)據(jù)闡釋。對(duì)數(shù)據(jù)進(jìn)行初步處理時(shí),最后一個(gè)環(huán)節(jié)是數(shù)據(jù)闡述,即對(duì)數(shù)據(jù)進(jìn)行自動(dòng)摘要和語(yǔ)義數(shù)據(jù)的自動(dòng)標(biāo)注,而各異構(gòu)數(shù)據(jù)庫(kù)中標(biāo)注的關(guān)鍵詞和分類詞等也屬于數(shù)據(jù)闡述。在對(duì)數(shù)據(jù)進(jìn)行闡述處理時(shí),需要數(shù)據(jù)處理人員借助相應(yīng)的工具,常用的成熟詞表為《中國(guó)分類主題詞表》等。而在進(jìn)行數(shù)據(jù)闡述時(shí),還需要關(guān)注網(wǎng)絡(luò)上的常用詞匯,并使數(shù)據(jù)闡述與網(wǎng)絡(luò)詞匯的近義或同義建立映射關(guān)系。在進(jìn)行數(shù)據(jù)闡述時(shí),常用的分類法為關(guān)鍵詞(檢索詞)——主題詞(檢索詞)——學(xué)科屬性。而在數(shù)據(jù)闡述的匯總環(huán)節(jié),處理人員要建立數(shù)字人文系統(tǒng)的《智能標(biāo)引詞表》,在上述措施下,數(shù)據(jù)處理人員就借助軟件實(shí)現(xiàn)對(duì)數(shù)據(jù)的自動(dòng)化標(biāo)引。
在對(duì)圖書(shū)館數(shù)據(jù)進(jìn)行處理時(shí),數(shù)據(jù)整合為其核心環(huán)節(jié)。在具體的圖書(shū)館數(shù)據(jù)整合過(guò)程中,基于數(shù)字人文的研究角度,可以采用的數(shù)據(jù)整合模式主要有三種,即館藏?cái)?shù)據(jù)整合、科研數(shù)據(jù)收集和網(wǎng)絡(luò)開(kāi)放數(shù)據(jù)集采集挖掘。其中館藏?cái)?shù)據(jù)整合是較為常用的數(shù)據(jù)整合模式。在館藏?cái)?shù)據(jù)整合時(shí),需要對(duì)異構(gòu)數(shù)字資源進(jìn)行融合、聚類和重組,基于此,可以將資源從數(shù)據(jù)層的揭示與展現(xiàn)轉(zhuǎn)向更深層次的服務(wù),即到達(dá)信息層和知識(shí)層;而在當(dāng)前信息技術(shù)不斷更新的社會(huì)背景下,新型科研設(shè)備和研究方法不斷出現(xiàn),用戶在獲取資源時(shí),可以將資源進(jìn)行可視化的呈現(xiàn),即使用時(shí)間軸、地域軸等形成可視化的知識(shí)圖譜。科研數(shù)據(jù)收集強(qiáng)調(diào)的是對(duì)數(shù)據(jù)洪流的高效處理。在該模式下,數(shù)據(jù)整合人員能夠利用數(shù)據(jù)整合軟件進(jìn)行數(shù)據(jù)整合,從而幫助進(jìn)行更高效率的科研項(xiàng)目與科研創(chuàng)新;當(dāng)前的網(wǎng)絡(luò)環(huán)境具有較高的開(kāi)放程度,在獲取數(shù)據(jù)時(shí),開(kāi)放數(shù)據(jù)集已經(jīng)成為數(shù)據(jù)來(lái)源的重要渠道之一,且國(guó)家也形成了數(shù)據(jù)的公開(kāi)化制度,提供了具有更高質(zhì)量的官方數(shù)據(jù),基于此,可以進(jìn)行高質(zhì)量的數(shù)據(jù)整合。而在數(shù)字圖書(shū)館的數(shù)據(jù)整合過(guò)程中,數(shù)據(jù)整合人員可以借助以下四種途徑進(jìn)行高效的數(shù)據(jù)整合:第一種為數(shù)據(jù)源整合。要對(duì)獲取的數(shù)據(jù)源進(jìn)行格式處理,以形成統(tǒng)一化的數(shù)據(jù)資料。經(jīng)過(guò)處理后的數(shù)據(jù)要存儲(chǔ)在數(shù)據(jù)庫(kù)中,并積極構(gòu)建一站式的數(shù)據(jù)檢索查詢?nèi)肟?。這樣一來(lái),用戶可以脫離原有的各類異構(gòu)數(shù)據(jù)庫(kù)平臺(tái)的束縛,拓寬數(shù)據(jù)獲取空間;第二種為門(mén)戶整合。對(duì)于獲取的異構(gòu)數(shù)據(jù)門(mén)戶而言,要將其轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)門(mén)戶,通過(guò)對(duì)異構(gòu)數(shù)據(jù)的有機(jī)整合,可以為用戶提供統(tǒng)一的門(mén)戶檢索渠道,使其在該檢索渠道中獲得自己所需的數(shù)據(jù);第三種是數(shù)據(jù)庫(kù)整合。即對(duì)獲取的各類異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行整合,形成新的數(shù)據(jù)集合。在對(duì)數(shù)據(jù)進(jìn)行整合處理時(shí),要避免出現(xiàn)數(shù)據(jù)信息的重復(fù)現(xiàn)象;第四種是系統(tǒng)整合。在該整合模式下,數(shù)據(jù)處理人員不僅要對(duì)數(shù)據(jù)資源和應(yīng)用系統(tǒng)進(jìn)行集成,還應(yīng)該統(tǒng)一數(shù)據(jù)資源的結(jié)構(gòu)與呈現(xiàn)方式,積極構(gòu)建數(shù)據(jù)資源管理平臺(tái),實(shí)現(xiàn)一站式管理。在進(jìn)行數(shù)據(jù)的系統(tǒng)整合時(shí),也要關(guān)注與其他系統(tǒng)的集成,如資源調(diào)度、館際互借等,確保能夠提高數(shù)據(jù)整合后的數(shù)據(jù)共享度。
(一)深網(wǎng)數(shù)據(jù)提取技術(shù)。在對(duì)網(wǎng)絡(luò)深層次結(jié)構(gòu)中的數(shù)據(jù)進(jìn)行提取時(shí),數(shù)據(jù)處理人員需要使用深網(wǎng)數(shù)據(jù)提取技術(shù),具體包括兩種形式。一是基于半監(jiān)督順序回歸模型的爬蟲(chóng)算法。該算法首先要對(duì)深網(wǎng)頁(yè)面分類器進(jìn)行構(gòu)造,使用的為半監(jiān)督順序回歸法,要對(duì)主題網(wǎng)頁(yè)進(jìn)行精準(zhǔn)的層次定位。接著要在多線程法支持下,利用深網(wǎng)鏈接信息抽取器對(duì)有效的鏈接進(jìn)行抽取。最后數(shù)據(jù)處理人員要在深網(wǎng)頁(yè)面分類器分類結(jié)果的支持下對(duì)有效鏈接進(jìn)行自動(dòng)實(shí)時(shí)的提??;二是面向?qū)嶓w層Web的信息索引技術(shù)。在數(shù)據(jù)處理過(guò)程中,爬蟲(chóng)工具會(huì)對(duì)Web數(shù)據(jù)庫(kù)中存儲(chǔ)的本地?cái)?shù)據(jù)進(jìn)行抽取和索引。在具體的信息索引過(guò)程中,處理人員需要首先生成簡(jiǎn)單的頁(yè)面索引,在抽取屬性信息時(shí),要以反饋條件隨機(jī)域模型為基準(zhǔn)。在搜索時(shí),要對(duì)所有能夠滿足條件的頁(yè)面進(jìn)行索引,常用的索引法為快速排序和深度搜索方法。接著要在用戶交互定義下,對(duì)所有待抽取頁(yè)面快速分隔,在進(jìn)行迭代抽取時(shí),也要以實(shí)體模型為依據(jù),對(duì)所有的數(shù)據(jù)結(jié)果進(jìn)行集合,最終形成可信的信息實(shí)體。
(二)社交網(wǎng)絡(luò)數(shù)據(jù)提取技術(shù)。社交網(wǎng)絡(luò)平臺(tái)在日常管理過(guò)程中對(duì)異常狀況會(huì)進(jìn)行跟蹤監(jiān)測(cè),一般會(huì)采用封號(hào)或屏蔽IP的方式,因而在利用爬蟲(chóng)工具時(shí),也會(huì)受到限制。此時(shí),數(shù)據(jù)處理人員就要在對(duì)社交平臺(tái)進(jìn)行數(shù)據(jù)提取的過(guò)程中,對(duì)瀏覽器測(cè)試組件進(jìn)行充分應(yīng)用。在瀏覽器測(cè)試組件支持下,用戶在啟動(dòng)瀏覽器時(shí),會(huì)在JavaScript庫(kù)中注入信息?;诖?,可以實(shí)現(xiàn)與客戶端的代碼通訊,并對(duì)客戶端的信息進(jìn)行精準(zhǔn)翻譯,數(shù)據(jù)處理人員可以對(duì)JavaScript庫(kù)函數(shù)獲取頁(yè)面DOM樹(shù)進(jìn)行調(diào)用。此時(shí),數(shù)據(jù)處理人員可以對(duì)頁(yè)面數(shù)據(jù)和元素進(jìn)行更為直觀的了解,從而能夠進(jìn)一步獲取與分析數(shù)據(jù)。在分析數(shù)據(jù)的過(guò)程中則可以對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化標(biāo)注。
(三)整合工具及服務(wù)平臺(tái)構(gòu)建。第一,整合工具。在數(shù)據(jù)整合過(guò)程中,數(shù)據(jù)處理人員可以使用相應(yīng)的工具構(gòu)建數(shù)據(jù)庫(kù),如oracle關(guān)系型數(shù)據(jù)庫(kù)。而在具體數(shù)據(jù)整合時(shí),數(shù)據(jù)處理人員可以借助XML技術(shù)(工具)處理各種異構(gòu)數(shù)據(jù),并使其轉(zhuǎn)換成標(biāo)準(zhǔn)格式,在數(shù)據(jù)轉(zhuǎn)換過(guò)程中,各個(gè)系統(tǒng)都需要進(jìn)行多次數(shù)據(jù)轉(zhuǎn)換,以此來(lái)實(shí)現(xiàn)系統(tǒng)間的數(shù)據(jù)交流。第二,服務(wù)平臺(tái)構(gòu)建。在對(duì)圖書(shū)館數(shù)據(jù)服務(wù)平臺(tái)進(jìn)行構(gòu)建時(shí),相關(guān)人員要確保平臺(tái)功能的完整。要構(gòu)建完善的門(mén)戶系統(tǒng),以便于用戶進(jìn)行數(shù)據(jù)檢索、數(shù)據(jù)分析、學(xué)術(shù)交流、教學(xué)支持以及個(gè)性化推送等。在上述前提下,用戶之間還能夠?qū)崿F(xiàn)高頻率的交互。在構(gòu)建服務(wù)平臺(tái)時(shí),要從用戶層、服務(wù)層、數(shù)據(jù)層以及資源層四個(gè)層面進(jìn)行。不同的服務(wù)層對(duì)應(yīng)著不同的數(shù)據(jù)種類以及服務(wù)種類,平臺(tái)構(gòu)建人員要基于用戶需求,結(jié)合信息技術(shù),提升服務(wù)平臺(tái)的服務(wù)水準(zhǔn)。
數(shù)字圖書(shū)館已經(jīng)成為當(dāng)前圖書(shū)館建設(shè)的主要形式,在數(shù)字人文觀念下,數(shù)字圖書(shū)館遇到了關(guān)鍵的發(fā)展機(jī)遇。針對(duì)數(shù)字圖書(shū)館的發(fā)展要求,建設(shè)人員需要關(guān)注圖書(shū)館的數(shù)據(jù)處理,而通過(guò)應(yīng)用與數(shù)字人文相關(guān)的技術(shù),則可以實(shí)現(xiàn)對(duì)圖書(shū)館數(shù)據(jù)的高效處理,包括數(shù)據(jù)獲取、初步處理和整合處理等。作為圖書(shū)館數(shù)據(jù)的處理人員,要積極更新數(shù)據(jù)處理理念,創(chuàng)新基于數(shù)字人文觀念的圖書(shū)館數(shù)據(jù)處理技術(shù),不斷提高圖書(shū)館數(shù)據(jù)的處理效率。