王夢怡
浙大寧波理工學(xué)院 浙江 寧波 315100
據(jù)前人調(diào)查表明,我國自20世紀(jì)80年代初期開始將計算機技術(shù)引入古籍整理與研究領(lǐng)域,1987年彭昆侖先生與南京工學(xué)院合作發(fā)布《紅樓夢》檢索系統(tǒng),是國內(nèi)古籍整理領(lǐng)域引入計算機技術(shù)的開始?!肮偶?dāng)?shù)字化”的概念最早由上博研究員劉煒提出,毛建軍進一步做出了定義,并闡釋了其具體內(nèi)涵與目標(biāo);2005年,李明杰強調(diào)了古籍?dāng)?shù)字化本質(zhì)上是為了保存和傳播傳統(tǒng)文化,最終目標(biāo)是以知識服務(wù)學(xué)術(shù)研究。2006年,毛建軍探究了古籍?dāng)?shù)字化的理論構(gòu)建,指出我國古籍?dāng)?shù)字化理論研究相對滯后,古籍整理學(xué)界參與古籍?dāng)?shù)字化的實際工作較少,還針對古籍書目數(shù)據(jù)庫的標(biāo)準(zhǔn)進行了研究。黃瑋夏在分析古籍資源特點和數(shù)字化需求的基礎(chǔ)上,指出了古籍?dāng)?shù)字化的優(yōu)越性和建設(shè)方法;孫顯斌結(jié)合古籍?dāng)?shù)據(jù)庫建設(shè)的經(jīng)驗進行了更深層次的知識挖掘研究,探討了古籍“本體化”的相關(guān)問題[1];李明杰對數(shù)字環(huán)境下古籍整理范式的傳承和創(chuàng)新進行了研究,并闡釋了新范式將對古籍相關(guān)領(lǐng)域帶來的影響[2]。
據(jù)文獻記載,我國古籍?dāng)?shù)字化初期主要依靠人工手動錄入,20世紀(jì)90年代中期之后,古籍?dāng)?shù)字化在我國迅速發(fā)展,OCR技術(shù)逐漸被應(yīng)用于古籍整理,但由于其掃描錄入較為費時,2000年王桂平提出用數(shù)碼相機進行拍攝,減少OCR技術(shù)的局限性,古籍?dāng)?shù)字化從手動錄入發(fā)展為高效率的圖文采集。除全文檢索外,可視化檢索和知識庫等技術(shù)也逐漸發(fā)展起來。馬少平曾探討過古籍?dāng)?shù)據(jù)庫系統(tǒng)建設(shè)的方法,設(shè)計并實現(xiàn)運行;李璐介紹了古籍全文數(shù)據(jù)庫的錄入、存儲、掃描、識別、校對等技術(shù)與方式。柳長華教授在分析中醫(yī)古籍語義關(guān)系、解析語義間關(guān)聯(lián)的基礎(chǔ)上,提出了知識元的概念,構(gòu)建語料庫,實現(xiàn)了基于內(nèi)容的檢索技術(shù)。王振國對中醫(yī)古籍的行文特點與信息結(jié)構(gòu)進行了探討,提出了一種自底向上的信息構(gòu)建方法:IA。南京農(nóng)業(yè)大學(xué)的常娥在其碩士論文中對古籍?dāng)?shù)字化相關(guān)技術(shù)作了整體的歸納總結(jié),包括用字、字符集問題,加工存儲、檢索瀏覽和智能化處理技術(shù)等,并對農(nóng)業(yè)古籍的編纂進行了專門細(xì)致的研究;林欽分析了Unicode在古籍?dāng)?shù)字化應(yīng)用中的優(yōu)勢及具體應(yīng)用方法;為解決傳統(tǒng)古籍?dāng)?shù)據(jù)存儲標(biāo)準(zhǔn)不一,不同格式文件檢索與傳播不便,饒俊學(xué)研究了漢文古籍標(biāo)準(zhǔn)化元數(shù)據(jù)轉(zhuǎn)換問題,完成了標(biāo)準(zhǔn)化元數(shù)據(jù)轉(zhuǎn)換的軟件工具。郭偉玲論述了古籍信息檢索問題,探討了如何利用先進的技術(shù)手段從古籍的加工整理方面提高檢索效率與質(zhì)量[3]。
美國學(xué)者Wilson是信息行為研究領(lǐng)域的權(quán)威,他對信息行為的定義與內(nèi)涵進行了深入的研究,認(rèn)為信息行為是與信息來源和渠道有關(guān)的人類行為的總和,包括主動和被動的信息搜尋和使用,其相關(guān)研究成果被業(yè)內(nèi)廣泛認(rèn)可。Wilson還對信息行為研究的發(fā)展歷程進行了探索和總結(jié),以1948年和20世紀(jì)80年代前后為界將其分為3大階段,并詳細(xì)闡釋了信息行為研究在不同階段的重要轉(zhuǎn)變和特點。
我國信息行為研究領(lǐng)域的專家武漢大學(xué)的胡昌平教授也對信息行為的定義與內(nèi)涵進行了探索,在借鑒國外理論的基礎(chǔ)上,做了更加具體的闡釋,他認(rèn)為信息行為是人類特有的,人類為滿足某種信息需求,所采取的查詢、獲取、交流傳播、加工及利用信息的行為,也廣受國內(nèi)專家學(xué)者的認(rèn)可[4]。1994年胡昌平教授以20世紀(jì)80年代和90年代為界將用戶信息行為的相關(guān)研究劃分為3個階段,總結(jié)了每個階段研究的主要內(nèi)容、方法和成果。此外,他還指出情報用戶的研究應(yīng)當(dāng)與社會信息現(xiàn)象研究緊密結(jié)合,信息技術(shù)和用戶管理都將成為重要的課題。張衛(wèi)群曾對圖書館用戶信息行為的相關(guān)研究進行了歸納整理,總結(jié)出研究用戶信息行為的方法大致分為兩類:一類是認(rèn)知科學(xué)與社會調(diào)查統(tǒng)計,另一類是利用計算機技術(shù)的方法。他指出隨著數(shù)據(jù)挖掘技術(shù)更多地應(yīng)用于用戶數(shù)據(jù)的深度分析,這將成為用戶信息行為領(lǐng)域的重要研究方法。
對于信息行為模型的研究,國外大約起源于20世紀(jì)初期,Wilson是這個領(lǐng)域的先驅(qū),他從信息需求和信息過程出發(fā),于1981年提出了第一代信息行為模型,隨后又于1991年提出了信息行為的一般模型;2003年Nied、Wiedzka進一步提出了信息行為的一體化模型;2006年Jeonghyun Kim提出了任務(wù)導(dǎo)向的信息查詢模型,闡明了任務(wù)和信息查詢行為、任務(wù)執(zhí)行者和情境間的關(guān)系。
目前國內(nèi)在信息行為模型研究方面影響較大的有靖繼鵬教授,他對Wilson、Dervin、Ellis和Kuhlthau的信息行為模型均做了詳細(xì)的介紹和評述;何曉陽分析了Bates采集模型、Saracevic信息檢索與交互分層模型以及Markey與Atherton的珠形增長模型的內(nèi)容和特征。張輯哲則基于信息行為主體,提出了包括個體、群體和社會的信息行為模式。宋雪雁、王萍分別從信息行為的概念、理論模型和研究范式3個方面,梳理了信息行為相關(guān)研究的發(fā)展成果,提出信息行為研究將會以文化為中心,研究方法和思路將會多元化,研究對象也將逐漸發(fā)展為團隊協(xié)作[5]。
從目前國內(nèi)外已有的信息行為相關(guān)研究來看,還有相當(dāng)一部分是將理論應(yīng)用于實踐的研究,理論只有在服務(wù)實踐時才能發(fā)揮出更大的價值。S.SeraP Kur-banoglu等學(xué)者通過自我信息能力的問卷調(diào)查,測試了用戶自身的信息素養(yǎng)。賴茂生等人通過調(diào)查大學(xué)生在檢索信息時使用的工具及其結(jié)果,評估了現(xiàn)今大學(xué)生的信息素養(yǎng)[6]。Reijo Savolainen等學(xué)者搜集了9個搜索引擎內(nèi)用戶自發(fā)話題的數(shù)據(jù),根據(jù)用戶在網(wǎng)上進行搜索和超鏈接選擇時的行為,發(fā)現(xiàn)了其瀏覽網(wǎng)頁的偏好;Christine Urqubart根據(jù)英國繼續(xù)教育學(xué)院數(shù)字圖書館提供的用戶資料構(gòu)建了用戶行為模型,改進了學(xué)校的教育活動。沙勇忠等人通過網(wǎng)絡(luò)計量工具對所選科研機構(gòu)的網(wǎng)站日志進行處理,獲取了機構(gòu)科研人員的相關(guān)信息行為指標(biāo),發(fā)掘了處于網(wǎng)絡(luò)環(huán)境下科研人員信息行為的時空分布特征與偏好。
2.4.1 數(shù)字圖書館用戶信息行為研究。國外的數(shù)字圖書館很早便使用大規(guī)模網(wǎng)絡(luò)日志數(shù)據(jù)分析本館用戶的信息行為特征,用來優(yōu)化系統(tǒng)設(shè)計。Mahoui、Cunningham和Jones等人通過對數(shù)字圖書館網(wǎng)絡(luò)日志的分析,探索了用戶使用查詢語句的復(fù)雜程度,發(fā)現(xiàn)大多數(shù)用戶的查詢方式都比較簡單,均使用默認(rèn)系統(tǒng)設(shè)置,而非根據(jù)自己的需求自主設(shè)定,并且直接在系統(tǒng)的主搜索頁面開始檢索,極少數(shù)將引文或文獻查詢作為起始。
國內(nèi)的相關(guān)研究成果也有很多。如任立肖通過對數(shù)字圖書館的網(wǎng)絡(luò)日志進行分析,比較了高校館、公共館和科研館用戶的信息行為差異,證明了用戶在信息需求,信息行為頻次、目的與時間偏好等方面均有顯著差異。姜婷婷等人對武漢大學(xué)圖書館OPAC系統(tǒng)的用戶日志進行分析,發(fā)現(xiàn)大多數(shù)用戶所輸入的查詢式都比較短,查詢詞中頻率較高的主要出現(xiàn)在數(shù)學(xué)、社會學(xué)和管理學(xué)等領(lǐng)域。
2.4.2 網(wǎng)絡(luò)搜索引擎用戶信息行為研究。關(guān)于搜索引擎的用戶信息行為研究,起源于20世紀(jì)90年代,主要以用戶信息處理、點擊信息、網(wǎng)絡(luò)信息檢索、網(wǎng)絡(luò)日志挖掘等方面為主。早期數(shù)據(jù)主要來源于Lycos、Excite、Inktomi等系統(tǒng)。如Jansen等對Excite系統(tǒng)用戶的查詢會話、查詢式、查詢術(shù)語等行為特征、偏好進行了細(xì)致的分析討論。Smyth和Balfe根據(jù)用戶的重復(fù)查詢判斷其選擇偏好,構(gòu)建了基于用戶查詢?nèi)罩镜膮f(xié)同查詢。用戶在查詢信息時主題會不斷變化,因此首先要精準(zhǔn)分析用戶查詢時間的特征與規(guī)律,才能為其提供有效的信息服務(wù)。這些研究從時間維度,利用網(wǎng)絡(luò)數(shù)據(jù)探究了用戶信息查詢行為的特征。還有學(xué)者根據(jù)搜索引擎的日志數(shù)據(jù),對用戶的點擊路徑、檢索式、停留時間等進行了深入分析,建立了用戶查詢行為過程模型。
2.4.3 社交媒體用戶信息行為研究。隨著社交媒體的日益發(fā)展,關(guān)于社交網(wǎng)站、微信、微博、論壇等用戶信息行為的研究越來越多,社交媒體用戶信息行為研究更多側(cè)重于用戶間的知識分享與情感交流。邱林等人則從用戶情感出發(fā),對100多位微博用戶1個月內(nèi)發(fā)表的博文進行細(xì)致分析,發(fā)現(xiàn)外向型的用戶更習(xí)慣于正向的情感表達(dá)。國外學(xué)者還將用戶位置信息、人格特質(zhì)與社交媒體數(shù)據(jù)進行關(guān)聯(lián)分析,構(gòu)建了不同的用戶信息行為預(yù)測模型。Fabricio等在對Orkut系統(tǒng)用戶點擊流數(shù)據(jù)進行分析的基礎(chǔ)上,發(fā)現(xiàn)社交媒體用戶在獲取信息時以瀏覽為主,其次是搜索與提問。Zwol則基于Flickr系統(tǒng)的用戶日志數(shù)據(jù),分別從時間、空間和社交3個維度分析了用戶瀏覽行為發(fā)生的時間、地點和動機等問題。Younus等人為解決微博個性化搜索問題,運用語言模型對用戶獲取與利用信息的行為進行建模,提供了解決方案。Aral等人基于對Facebook用戶信息行為數(shù)據(jù)的分析發(fā)現(xiàn),如果用戶之間有相似的興趣愛好,便會更容易互相轉(zhuǎn)發(fā)互動。Romero等研究了用戶相互轉(zhuǎn)發(fā)的時間與概率關(guān)系,發(fā)現(xiàn)在大多數(shù)社交媒體發(fā)布信息之后,在每小時被轉(zhuǎn)發(fā)2~4次時,該信息被轉(zhuǎn)發(fā)的概率達(dá)到最大值,隨后關(guān)注度便呈下降趨勢。
經(jīng)過研究,目前國內(nèi)外針對古籍?dāng)?shù)據(jù)庫的研究主要集中在技術(shù)與實踐方面,對于理論的研究比較缺乏。尤其是國外,對于古籍?dāng)?shù)據(jù)庫的研發(fā)可謂碩果累累,開發(fā)了很多實用技術(shù),建設(shè)了很多高效的數(shù)據(jù)庫資源,但理論文獻卻寥寥無幾,國內(nèi)的理論研究也主要集中在古籍?dāng)?shù)字化資源整合、標(biāo)準(zhǔn)體系、建設(shè)機制等方面。此外,國內(nèi)對于用戶信息行為的研究也相對較少,涉及的主要內(nèi)容包括對國外用戶信息行為研究理論、模型的轉(zhuǎn)譯介紹、高校用戶信息行為的調(diào)查研究以及聯(lián)合醫(yī)學(xué)、經(jīng)濟學(xué)等跨學(xué)科研究。無論在理論還是實踐上都與國外的研究相距甚遠(yuǎn)。
古籍?dāng)?shù)據(jù)庫建設(shè)的根本目的和最終目標(biāo)是服務(wù)用戶,用戶應(yīng)當(dāng)是建設(shè)的首要依據(jù),也應(yīng)當(dāng)是評價和完善的根本因素,因此,對于古籍?dāng)?shù)據(jù)庫用戶信息行為的研究具有重要意義,能夠為改進和完善古籍?dāng)?shù)據(jù)庫建設(shè)提供參考與借鑒,未來期待更多有識之士加入到本領(lǐng)域研究中來。