江 波,張?jiān)牛ǎ只W(xué)院信息與控制工程學(xué)院;.吉林醫(yī)藥學(xué)院圖書館)
?
基于讀者行為的手機(jī)圖書館文獻(xiàn)推送系統(tǒng)構(gòu)建探討
江波1,張?jiān)?(1.吉林化工學(xué)院信息與控制工程學(xué)院;2.吉林醫(yī)藥學(xué)院圖書館)
摘要:在手機(jī)圖書館的使用過程中,讀者對(duì)文獻(xiàn)的操作行為在一定程度上反映出其對(duì)文獻(xiàn)的需求。以此為研究的出發(fā)點(diǎn),首先通過文獻(xiàn)標(biāo)題和關(guān)鍵詞層次的比較,在讀者已下載操作的文獻(xiàn)中,選擇詞頻最高的標(biāo)題和關(guān)鍵詞作為檢索詞,在讀者瀏覽操作的文獻(xiàn)中,選擇詞頻最低的標(biāo)題和關(guān)鍵詞作為排除詞,通過手機(jī)圖書館的數(shù)據(jù)庫檢索文獻(xiàn)。之后選擇讀者已下載且打開次數(shù)最多的文獻(xiàn)作為目標(biāo)文獻(xiàn),將檢索返回的文獻(xiàn)與目標(biāo)文獻(xiàn)進(jìn)行知識(shí)元組織層面的比較,過濾掉差異較大的文獻(xiàn)。以上各步驟可以人為進(jìn)行調(diào)整,以使文獻(xiàn)推送更加個(gè)性化且具有實(shí)用性。
關(guān)鍵詞:讀者行為;手機(jī)圖書館;文獻(xiàn)推送
智能手機(jī)作為手機(jī)圖書館的終端使用設(shè)備,具有便攜性,因此得到快速普及,手機(jī)圖書館成為未來圖書館事業(yè)的發(fā)展重心之一。在此背景下,許多電子數(shù)據(jù)庫服務(wù)商,如CNKI、萬方等紛紛推出了手機(jī)圖書館,部分傳統(tǒng)的實(shí)體圖書館如首都圖書館等,也構(gòu)建了掌上圖書閱讀平臺(tái),使手機(jī)圖書館與讀者拉近了距離。與傳統(tǒng)基于計(jì)算機(jī)的數(shù)字圖書館一樣,在海量的信息面前,如何快速、有效地獲取信息?筆者認(rèn)為,構(gòu)建基于讀者行為的手機(jī)圖書館文獻(xiàn)推送系統(tǒng),是解決該問題的有效途徑。
文獻(xiàn)推送屬于信息推送的一個(gè)服務(wù)分支,信息推送就是通過定期傳送用戶所需的信息,檢索信息的一種技術(shù),簡單的說,就是實(shí)現(xiàn)信息找人的功能。[1]文獻(xiàn)推送就是將信息推送概念中的“信息”二字替換為“文獻(xiàn)”,提高讀者文獻(xiàn)檢索的效率和質(zhì)量。
隨著情報(bào)學(xué)和計(jì)算機(jī)學(xué)等學(xué)科的高速發(fā)展,信息推送服務(wù)已經(jīng)由傳統(tǒng)的人工信息推送向智能化、個(gè)性化信息推送轉(zhuǎn)變,成為現(xiàn)階段情報(bào)學(xué)等學(xué)科研究的熱點(diǎn)和難點(diǎn)。如,張靜將用戶情景感知技術(shù)與數(shù)據(jù)挖掘技術(shù)相互結(jié)合,構(gòu)建了基于二者的泛在信息推送服務(wù)體系;[2]高俊峰將研究方向相似的用戶自動(dòng)聚類,結(jié)合用戶的瀏覽興趣,設(shè)計(jì)一種基于概念格的信息推送方法;[3]陳誠為了解決用戶合理分類和興趣更新等關(guān)鍵性問題,提出了信息三維具象化及其量化的方法,以此構(gòu)建出用戶分類和用戶興趣管理模型[4]等。
以上各種信息推送的方法,在技術(shù)層面日益成熟,較好地滿足了用戶的信息獲取需求。由于受到用戶使用工具的制約,即在智能手機(jī)普及之前,計(jì)算機(jī)是用戶瀏覽和下載信息的主要終端設(shè)備,用戶與計(jì)算機(jī)并沒有嚴(yán)格的所屬關(guān)系,只與賬號(hào)存在著一對(duì)一的關(guān)系,增加了信息推送服務(wù)的復(fù)雜性和不準(zhǔn)確性。復(fù)雜性表現(xiàn)在:用戶注冊(cè)的個(gè)人信息和研究方向涉及個(gè)人的隱私,使讀者個(gè)人信息的保護(hù)成為信息推送服務(wù)中不得不考慮的一個(gè)問題,如楊清蘭為了有效保護(hù)用戶的個(gè)人信息,將數(shù)字簽名和對(duì)稱加密等技術(shù)結(jié)合,以提高信息推送服務(wù)過程的安全性;[5]王福為了使用戶的信息和行為不受他人監(jiān)控、盜取和買賣,提出了基于可信第三方的圖書情報(bào)機(jī)構(gòu)個(gè)性化信息推送模式等;[6]不準(zhǔn)確性表現(xiàn)在:許多現(xiàn)有的信息推送技術(shù),即使用戶不輸入個(gè)人信息和研究方向,也能夠根據(jù)用戶的行為進(jìn)行推送。但用戶與計(jì)算機(jī)往往是多對(duì)一或一對(duì)多的關(guān)系,在用戶或計(jì)算機(jī)變化的條件下,系統(tǒng)不可能判斷出以上情況的發(fā)生,使信息推送錯(cuò)誤,且無法對(duì)推送的信息進(jìn)行系統(tǒng)的記錄和后期調(diào)整,降低了信息推送服務(wù)的效率和質(zhì)量。
筆者于2015年6月30日,在CNKI數(shù)據(jù)庫中以(手機(jī)圖書館or掌上圖書館or移動(dòng)圖書館)and(信息推送or文獻(xiàn)推送)為檢索詞進(jìn)行主題檢索,僅得到6條檢索結(jié)果,進(jìn)一步對(duì)文獻(xiàn)內(nèi)容判斷,發(fā)現(xiàn)僅有一篇文獻(xiàn)與檢索詞密切相關(guān),可見基于手機(jī)終端的信息推送相關(guān)研究仍然停留在理論階段。近年來,以資源為主要服務(wù)內(nèi)容的手機(jī)圖書館已經(jīng)從理論研究走向?qū)嶋H應(yīng)用。總體來說,一方面智能手機(jī)已經(jīng)具備計(jì)算機(jī)的基本功能,可將基于計(jì)算機(jī)端的個(gè)性化信息推送服務(wù)的理論和方法,與手機(jī)圖書館讀者的操作行為相互結(jié)合,提高文獻(xiàn)推送的質(zhì)量;另一方面手機(jī)圖書館以手機(jī)作為終端設(shè)備,手機(jī)是讀者個(gè)人必備的通信工具,與讀者間是嚴(yán)格一對(duì)一的關(guān)系,可以完全跳過使用計(jì)算機(jī)時(shí)用戶身份注冊(cè)和驗(yàn)證的環(huán)節(jié),降低了文獻(xiàn)推送系統(tǒng)構(gòu)建的復(fù)雜性。
2.1 Agnet技術(shù)的引入
在系統(tǒng)的構(gòu)建過程中,引入Agent的概念和技術(shù)可以解決封閉系統(tǒng)局限性的問題。Agent具有如下特性。(1)自治性。Agent能夠根據(jù)周圍環(huán)境的變化,調(diào)整自身的行為和狀態(tài)。(2)反應(yīng)性。Agent能對(duì)外界的刺激作出相應(yīng)的反應(yīng)。(3)主動(dòng)性。Agent可以主動(dòng)的采取措施和方法,以適應(yīng)環(huán)境的變化。(4)社會(huì)性。不同的Agent間,可以彼此相互學(xué)習(xí)、協(xié)同合作。(5)進(jìn)化性。Agent類似于人的大腦,通過不斷的學(xué)習(xí)加以進(jìn)化。[7,8]在手機(jī)圖書館文獻(xiàn)推送系統(tǒng)的構(gòu)建方面,根據(jù)讀者對(duì)文獻(xiàn)不同的操作行為,將A-gent的反應(yīng)性、自治性等特性相互結(jié)合,能夠保證和提高文獻(xiàn)推送的靈活性和準(zhǔn)確性。
2.2整體結(jié)構(gòu)
筆者借鑒CNKI、萬方等數(shù)據(jù)庫中信息推送系統(tǒng)構(gòu)建方面的文獻(xiàn),設(shè)計(jì)基于讀者行為的手機(jī)圖書館文獻(xiàn)推送系統(tǒng)的基本結(jié)構(gòu),然后采用專家調(diào)查法,向計(jì)算機(jī)學(xué)、情報(bào)學(xué)等專業(yè)領(lǐng)域的專家進(jìn)行咨詢和調(diào)整,最終設(shè)計(jì)出系統(tǒng)的簡明結(jié)構(gòu)(見圖)。由于系統(tǒng)是基于讀者手機(jī)端運(yùn)行,因此系統(tǒng)的開發(fā)采取Java和C#語言,面向Android系統(tǒng)、Windows Phone和蘋果的OS系統(tǒng)開發(fā)應(yīng)用程序。
2.3系統(tǒng)具體設(shè)計(jì)
2.3.1讀者閱讀行為分析Agent層
讀者閱讀行為分析Agent層的構(gòu)建目的是對(duì)讀者文獻(xiàn)操作的情況進(jìn)行記錄,分析和掌握讀者的閱讀興趣,為文獻(xiàn)推送服務(wù)指明方向。[9]具體過程如下。按讀者對(duì)文獻(xiàn)的操作情況分類。在手機(jī)圖書館的使用方面,讀者的行為主要包括瀏覽文獻(xiàn)、下載文獻(xiàn)兩種情況,從文獻(xiàn)對(duì)讀者的使用價(jià)值和需求角度分析,顯然下載文獻(xiàn)的重要性更高。以冊(cè)為單位排序,對(duì)每冊(cè)文獻(xiàn)來說,讀者每次打開的情況能進(jìn)一步反映出其重要程度,如重要的文獻(xiàn)往往要反復(fù)閱讀,因此在上一級(jí)分類中,按文獻(xiàn)打開次數(shù)的多少進(jìn)行詳細(xì)的排序。
圖 基于讀者行為的手機(jī)圖書館文獻(xiàn)推送系統(tǒng)
2.3.2文獻(xiàn)差異分析Agent層
2.3.2.1文獻(xiàn)差異分析Agent層的作用
比較不同文獻(xiàn)間的差異是非常必要的。如,以A、B和C三冊(cè)圖書為例,經(jīng)過讀者閱讀行為Agent層分析后,排序結(jié)果為C、B和A;但若僅對(duì)C圖書進(jìn)行分析,只能得到C圖書的作者、題目等相關(guān)細(xì)節(jié)信息,這些都是C圖書自身固有的特征,對(duì)所有讀者來說都是相同的。而文獻(xiàn)與讀者的需求是相互對(duì)應(yīng)的關(guān)系,只有在讀者的個(gè)性化需求與圖書的固有信息相互吻合的情況下,才能建立起需求關(guān)系。因此需要從文獻(xiàn)差異的角度出發(fā),分析出哪些文獻(xiàn)是讀者需求的,以便推送的文獻(xiàn)更具有個(gè)性化。
2.3.2.2設(shè)計(jì)文獻(xiàn)差異的比較標(biāo)準(zhǔn)
文獻(xiàn)所屬的組織情況可以反映出文獻(xiàn)的自身特點(diǎn),不同的組織分類,也可以反映出文獻(xiàn)的差異。目前,手機(jī)圖書館主要的知識(shí)組織方式為信息元組織方式,但信息元的知識(shí)組織粒度過大,如題目相同或相近的文獻(xiàn),其部分內(nèi)容可能并不相同,因此為了使文獻(xiàn)差異的比較更為合理,采取信息元與知識(shí)元相結(jié)合的組織方法來確定比較標(biāo)準(zhǔn)。
信息元組織方式包括題目、關(guān)鍵詞、摘要、作者和參考文獻(xiàn)等,其中文獻(xiàn)的題目和關(guān)鍵詞與其他組織方式比較,更加簡單直接表述了文獻(xiàn)論述的主要內(nèi)容,因此在現(xiàn)有信息元的組織背景下,提取文獻(xiàn)的標(biāo)題和關(guān)鍵詞,作為第一級(jí)和第二級(jí)比較標(biāo)準(zhǔn)。
提取文獻(xiàn)的知識(shí)元,將知識(shí)元組織方式作為第三級(jí)比較標(biāo)準(zhǔn),彌補(bǔ)信息元知識(shí)組織粒度過大的缺陷。知識(shí)元提取的過程如下。分詞環(huán)節(jié)采取ICTCLAS 2014分詞系統(tǒng)實(shí)現(xiàn)。ICTCLAS分詞系統(tǒng)的1.0版本,在國內(nèi)973位專家組組織的評(píng)測活動(dòng)中獲得第一名,加之掌上圖書館的文獻(xiàn)資源均由紙質(zhì)文獻(xiàn)數(shù)字化轉(zhuǎn)換而來,文獻(xiàn)在審稿和編輯過程中經(jīng)過多人嚴(yán)格的審校,最大限度的避免了錯(cuò)別字、歧義詞的出現(xiàn),進(jìn)一步保證了分詞的質(zhì)量和效率。在關(guān)鍵詞提取環(huán)節(jié),采取改良TFIDF算法實(shí)現(xiàn)。改良TFIDF算法就是在傳統(tǒng)TFIDF算法基礎(chǔ)上,增加關(guān)鍵詞所處位置的權(quán)重系數(shù)K,改善傳統(tǒng)TFIDF算法只計(jì)算詞頻,未考慮詞語所處位置的缺陷。經(jīng)過多次計(jì)算和修改,最終詞語出現(xiàn)的位置與系數(shù)K的對(duì)應(yīng)關(guān)系如表1所示。若相同詞語出現(xiàn)在多個(gè)位置,按最大值計(jì)算。算法設(shè)計(jì)完成后,筆者在CNKI數(shù)據(jù)庫中隨機(jī)下載200篇文獻(xiàn),分別采取傳統(tǒng)TFIDF算法和改良TFIDF算法提取關(guān)鍵詞進(jìn)行比較,傳統(tǒng)TFIDF算法的計(jì)算精度、召回率和結(jié)果分別為18.12%、35.79%和22.77%,改良TFIDF算法計(jì)算結(jié)果分別為37.91%、83.66%和48.82%,可見改良TFIDF算法計(jì)算結(jié)果更為理想。在關(guān)鍵詞的數(shù)量確定上,由于不同類型的文獻(xiàn)字?jǐn)?shù)差異非常明顯,如博碩論文多達(dá)數(shù)萬字,而短篇報(bào)道只有1000字左右,制定統(tǒng)一的關(guān)鍵詞標(biāo)準(zhǔn)并不可行。因此根據(jù)文章內(nèi)容字?jǐn)?shù)的不同,按文章字?jǐn)?shù)除以200,靈活的確定關(guān)鍵詞數(shù)量。提取關(guān)鍵句的步驟較為簡單,就是將確定的關(guān)鍵詞返回在其所在的句子中,對(duì)句子進(jìn)行特征分析,判斷其是否是一個(gè)完整的句子等。最后是標(biāo)引知識(shí)元,即根據(jù)文獻(xiàn)推送系統(tǒng)實(shí)際工作需求,以標(biāo)識(shí)、作者、所屬文獻(xiàn)、知識(shí)元內(nèi)容、關(guān)鍵句所含關(guān)鍵詞等屬性設(shè)計(jì)知識(shí)元的結(jié)構(gòu),將定義好的知識(shí)元結(jié)構(gòu)對(duì)關(guān)鍵句進(jìn)行描述,就完成了知識(shí)元標(biāo)引的過程。
表1 詞語文中所處位置與系數(shù)K對(duì)應(yīng)關(guān)系
2.3.2.3比較方法
主要針對(duì)讀者手機(jī)圖書館已下載和瀏覽的文獻(xiàn)進(jìn)行比較,分為三個(gè)比較層次。
(1)標(biāo)題比較。第一層次從標(biāo)題角度出發(fā),粗略的比較相關(guān)文獻(xiàn)的差異。即以確定的關(guān)鍵詞作為字典,采取基于詞表的字符串匹配算法提取文獻(xiàn)標(biāo)題所含有的重點(diǎn)詞語,簡單的說,就是將標(biāo)題的句子轉(zhuǎn)化為數(shù)個(gè)詞語,以便于對(duì)不同文獻(xiàn)標(biāo)題進(jìn)行比較。如以《基于Agent的信息推送技術(shù)的研究》和《基于Agent 和LBS的信息推送服務(wù)研究》兩篇文章為例,轉(zhuǎn)化的結(jié)果為“Agent”、“信息推送”和“Agent”、“LBS”“信息推送”。通過比較發(fā)現(xiàn),兩篇文獻(xiàn)的共同點(diǎn)為“Agent”和“信息推送”;不同點(diǎn)為“LBS”,是后者文獻(xiàn)特有的詞語。
(2)關(guān)鍵詞比較。第二層次對(duì)文獻(xiàn)的關(guān)鍵詞進(jìn)行比較,在標(biāo)題比較的基礎(chǔ)上,進(jìn)一步分析文獻(xiàn)的差異。文獻(xiàn)的關(guān)鍵詞本身就是以詞語為單位的,因此比較過程較為容易實(shí)現(xiàn),對(duì)提取的關(guān)鍵詞直接進(jìn)行比較即可。關(guān)鍵詞語義相近,判斷為相同,反之則為不同。
(3)知識(shí)元比較。在文獻(xiàn)的細(xì)節(jié)比較方面,從第三層次即知識(shí)元層面分析和挖掘文獻(xiàn)間的差異。知識(shí)元是依附在文獻(xiàn)提取的關(guān)鍵句中的,關(guān)鍵句在某種程度上可以直接表示為知識(shí)元的本體,因此知識(shí)元的比較可通過關(guān)鍵句即知識(shí)元的內(nèi)容屬性值比較來實(shí)現(xiàn)。
關(guān)鍵句是以句子為組織單位的,其中存在較為復(fù)雜的邏輯關(guān)系和很多無意義的詞語,比較起來非常困難,因此需要將句子轉(zhuǎn)化為詞語進(jìn)行比較。為了提高知識(shí)元比較的效率,采取主題詞語比較的方法,分別從關(guān)鍵句中提取核心詞語和功能詞語組成主題詞語進(jìn)行比較。
以關(guān)鍵句為“文獻(xiàn)差異比較模型……”和“文獻(xiàn)差異的比較……”兩個(gè)知識(shí)元A、B為例,具體過程如下。第一步是提取核心詞語。直接從知識(shí)元的結(jié)構(gòu)中,提取出關(guān)鍵句所含有的關(guān)鍵詞屬性值作為核心詞語,實(shí)現(xiàn)句子向詞語的初步轉(zhuǎn)換。以上兩個(gè)知識(shí)元的關(guān)鍵句所含關(guān)鍵詞的屬性值均為“文獻(xiàn)差異”,可見兩者比較結(jié)果是相同的。當(dāng)然在很多知識(shí)元中,關(guān)鍵句所含關(guān)鍵詞的屬性值并不唯一。筆者按上文設(shè)計(jì)的知識(shí)元提取方法,在200篇文獻(xiàn)中總計(jì)提取出4355個(gè)知識(shí)元,其關(guān)鍵句所含關(guān)鍵詞數(shù)量為1個(gè)、2個(gè)、3個(gè)、4個(gè)及以上,所占比例分別為40.58%、40.85%、15.89%和2.68%,可見關(guān)鍵詞數(shù)量因文章而異。這就需要設(shè)定一個(gè)閾值,以便于知識(shí)元之間的比較。本文定義閾值的計(jì)算機(jī)方法為兩個(gè)關(guān)鍵句中含有相同關(guān)鍵詞的數(shù)量,與被比較對(duì)象關(guān)鍵詞數(shù)量的比值。通過上文分析,關(guān)鍵句所包含關(guān)鍵詞的數(shù)量以1個(gè)和2個(gè)為主,3個(gè)和4個(gè)及以上次之。對(duì)于含有1個(gè)關(guān)鍵詞的情況,顯然將閾值設(shè)置為1;對(duì)含有2個(gè)關(guān)鍵詞的情況,可選閾值為0.5和1,通過系統(tǒng)計(jì)算和人工驗(yàn)證比對(duì),將閾值也設(shè)為1;對(duì)于含有3個(gè)關(guān)鍵詞的情況,可選閾值為0.33%、0.67和1,通過系統(tǒng)計(jì)算和人工驗(yàn)證比較分析,得出0.67更為合理;4個(gè)及4個(gè)以上關(guān)鍵詞同樣設(shè)定為0.67??偨Y(jié)以上計(jì)算結(jié)果,設(shè)定最終的比較閾值為0.67。第二步是收集文獻(xiàn)中表明句子作用、功能的詞語,組成知識(shí)元功能字典。這類詞語主要包括如作用、原理、模型、流程、概念、差異、步驟和方法等,數(shù)量并不多,獨(dú)立組建字典具有可行性。然后在知識(shí)元的內(nèi)容屬性也就是關(guān)鍵句中,通過字符串匹配算法提取該類詞語。同樣以A、B兩個(gè)知識(shí)元為例,進(jìn)一步提取的知識(shí)元功能詞語分別為“模型”和“原理”。在比較過程中,首先對(duì)不同知識(shí)元的核心詞語進(jìn)行比較,若核心詞語不同,則判斷為知識(shí)元不同。若核心詞語相同,再通過知識(shí)元用途字典進(jìn)行比較,若語義相同或包含,則判斷為知識(shí)元相同,反之則判斷為不同。
2.3.3文獻(xiàn)主動(dòng)檢索Agent層
2.3.3.1文獻(xiàn)主動(dòng)檢索Agent層作用
文獻(xiàn)主動(dòng)檢索Agent層作用是根據(jù)以上兩層的分析結(jié)果,設(shè)計(jì)檢索方法,對(duì)手機(jī)圖書館的數(shù)據(jù)庫進(jìn)行檢索,以完成文獻(xiàn)推送的前期資源收集環(huán)節(jié)。在設(shè)計(jì)檢索方法上,從比較標(biāo)題和關(guān)鍵詞相似性的角度入手,首先以讀者已下載文獻(xiàn)作為分析對(duì)象,判讀讀者需要哪類文獻(xiàn),確定檢索詞;再以讀者瀏覽的文獻(xiàn)作為分析對(duì)象,判斷讀者不需要哪類文獻(xiàn),以確定排除詞語。將二者結(jié)合,實(shí)現(xiàn)對(duì)文獻(xiàn)個(gè)性化、智能化的檢索。
2.3.3.2確定檢索詞語
(1)確定檢索文獻(xiàn)的標(biāo)題和關(guān)鍵詞。在讀者閱讀興趣Agent層中,提取讀者下載操作文獻(xiàn)的打開次數(shù)信息,在文獻(xiàn)差異分析Agent層中提取由標(biāo)題轉(zhuǎn)化為詞的詞語,將兩者相乘,再以詞語為單位,統(tǒng)計(jì)每個(gè)詞語的計(jì)算數(shù)值。如某作者下載了6篇文獻(xiàn),系統(tǒng)分析結(jié)果如表2所示,按以上方法,以詞語為單位的計(jì)算結(jié)果為Agent=3+5+2+0+0+0=10次,信息推送=3+5+2+0+0+5=15次,自主學(xué)習(xí)=3+0+0+0+0+0=3次等,逐詞進(jìn)行排序。其中詞語計(jì)算的數(shù)值越高,表明對(duì)讀者的作用也就越大,為了保證文獻(xiàn)檢索的查全率,初始條件下,選擇排序前2位的詞語作為檢索詞。如在本次下載的文獻(xiàn)中,確定的檢索詞語為A-gent和信息推送。若標(biāo)題中多個(gè)詞語出現(xiàn)的頻率相同,按在文獻(xiàn)知識(shí)元提取過程中,采取改良TFIDF算法計(jì)算關(guān)鍵詞的數(shù)值結(jié)果由大至小排序。
確定檢索文獻(xiàn)關(guān)鍵詞的作用是有效縮小文獻(xiàn)檢索的范圍,即在檢索過程中,采取標(biāo)題和關(guān)鍵詞關(guān)聯(lián)的方式進(jìn)行檢索。確定檢索關(guān)鍵詞與確定檢索標(biāo)題的方法基本一致,不再贅述。同樣默認(rèn)檢索關(guān)鍵詞為排序靠前的2個(gè)詞語。
表2 讀者下載文獻(xiàn)經(jīng)系統(tǒng)前2層分析后的結(jié)果對(duì)照
(2)確定排除詞語。在讀者閱讀興趣Agent層中,讀者瀏覽操作類的文獻(xiàn),打開次數(shù)越少,表示對(duì)讀者的借鑒和參考意義越小,因此過濾掉參考價(jià)值較低的標(biāo)題和關(guān)鍵詞,能夠有效提高文獻(xiàn)檢索精度。確定排除文獻(xiàn)標(biāo)題和關(guān)鍵詞的方法,與確定檢索標(biāo)題和關(guān)鍵詞的方法大體相同,只是排除詞語的確定順序按著詞頻由少至多排序。默認(rèn)將詞頻小于等于2的標(biāo)題和關(guān)鍵詞進(jìn)行排除。若排除詞與檢索詞重復(fù),則按檢索詞計(jì)算。
(3)檢索詞語的動(dòng)態(tài)調(diào)整。在系統(tǒng)實(shí)際的工作中,由于讀者的研究層次參差不齊,下載和瀏覽的文獻(xiàn)數(shù)量并不固定,因此經(jīng)系統(tǒng)分析后,若為基礎(chǔ)性的詞語,檢索返回的結(jié)果數(shù)量可能數(shù)以百計(jì);反之確定的檢索詞和排除詞若為高端前沿的詞語,可能僅得到數(shù)個(gè)檢索結(jié)果。顯然檢索結(jié)果數(shù)量過多或過少,都會(huì)降低文獻(xiàn)推送系統(tǒng)的意義和價(jià)值。因此在文獻(xiàn)主動(dòng)檢索Agent層中,設(shè)置檢索返回文獻(xiàn)數(shù)量為100篇。若檢索文獻(xiàn)數(shù)量大于100篇,按文獻(xiàn)發(fā)表時(shí)間排序,取前100篇文獻(xiàn)作為檢索結(jié)果;若檢索文獻(xiàn)數(shù)量小于100篇,如僅得到30篇檢索結(jié)果,余下的70篇文獻(xiàn)則從確定檢索詞和排除詞環(huán)節(jié)進(jìn)行調(diào)整,具體過程如下。將上步由詞頻和改良TFIDF算法確定檢索標(biāo)題和關(guān)鍵詞的排序結(jié)果,減少檢索標(biāo)題和關(guān)鍵詞詞語的數(shù)量。如標(biāo)題排序結(jié)果為A、B,關(guān)鍵詞排序結(jié)果為C、D。先從省略檢索關(guān)鍵詞角度入手,依次減少D、C和CD進(jìn)行檢索。再從省略檢索標(biāo)題詞語角度入手,依次減少B和A,并在減少檢索標(biāo)題詞語時(shí),逐詞嵌套插入減少關(guān)鍵詞的環(huán)節(jié),直至1個(gè)檢索標(biāo)題詞,0個(gè)關(guān)鍵詞為止。若系統(tǒng)通過以上調(diào)整后,文獻(xiàn)檢索結(jié)果仍然較少,則再按以上方法,先逐個(gè)減少排除的關(guān)鍵詞,再減少排除的標(biāo)題詞語,直至排除0個(gè)關(guān)鍵詞和0個(gè)標(biāo)題詞為止。若結(jié)果仍然不滿足條件,則直接返回最終的檢索結(jié)果。
2.3.4文獻(xiàn)過濾Agent層
2.3.4.1文獻(xiàn)過濾Agent層的作用
在文獻(xiàn)過濾Agent層中,通過知識(shí)元組織層面的比較,對(duì)文獻(xiàn)主動(dòng)檢索Agent層返回的檢索結(jié)果進(jìn)行過濾。之所以在文獻(xiàn)主動(dòng)檢索層中未采取知識(shí)元比較的方法檢索文獻(xiàn),其原因在于知識(shí)元的提取過程較為復(fù)雜,直接面向數(shù)據(jù)庫內(nèi)所有文獻(xiàn)提取和比較知識(shí)元,工作量十分巨大,不具有實(shí)踐的可行性。因此將知識(shí)元比較的環(huán)節(jié)用于檢索文獻(xiàn)之后,即僅對(duì)檢索結(jié)果提取知識(shí)元,然后與讀者已下載和瀏覽文獻(xiàn)的知識(shí)元比較,過濾掉差異較大的文獻(xiàn),提高手機(jī)圖書館文獻(xiàn)推送的準(zhǔn)確率。
2.3.4.2過濾方法
不同文獻(xiàn)間,相同知識(shí)元的數(shù)量越多,說明兩者越相似,從此角度出發(fā)過濾掉相似性較低的文獻(xiàn)。具體過程如下。在讀者下載操作類的文獻(xiàn)中,以讀者打開次數(shù)最多的文獻(xiàn)作為目標(biāo)文獻(xiàn),將其包含的知識(shí)元作為比較模板,如讀者打開次數(shù)最多的A文獻(xiàn),含有18個(gè)知識(shí)元。提取讀者所有下載文獻(xiàn)的知識(shí)元,與A文獻(xiàn)的知識(shí)元進(jìn)行比較,初始值為0,若含有相同的知識(shí)元,初始值加1。如B文獻(xiàn)與A文獻(xiàn)比較,相同知識(shí)元的數(shù)量為12個(gè),C文獻(xiàn)為7個(gè)等。然后計(jì)算平均值,以此作為過濾標(biāo)準(zhǔn)值。按以上步驟,在文獻(xiàn)主動(dòng)檢索Agent層返回文獻(xiàn)中,逐一提取知識(shí)元并以A文獻(xiàn)的知識(shí)元為模板,計(jì)算兩者含相同知識(shí)元的數(shù)值。最后將計(jì)算結(jié)果低于過濾標(biāo)準(zhǔn)值的文獻(xiàn)過濾。所有過濾后的文獻(xiàn)按比較數(shù)值由大至小排序。
2.3.4.3過濾方法的動(dòng)態(tài)調(diào)整
由于讀者的科研能力、下載和瀏覽的文獻(xiàn)數(shù)量各異,過濾后的文獻(xiàn)仍然存在較大差異,尤其當(dāng)過濾后文獻(xiàn)數(shù)量過少時(shí),系統(tǒng)的服務(wù)質(zhì)量將大打折扣,因此設(shè)置推送文獻(xiàn)最少的數(shù)量為20篇。若經(jīng)文獻(xiàn)過濾A-gent層過濾后文獻(xiàn)數(shù)量少于20篇,則調(diào)整過濾方法,增加推送文獻(xiàn)的數(shù)量。具體調(diào)整方法為逐次降低用于知識(shí)元比較的過濾標(biāo)準(zhǔn)值,直至過濾結(jié)果大于20篇時(shí),返回過濾結(jié)果。
2.3.5讀者人工干預(yù)Agent層
2.3.5.1讀者人工干預(yù)Agent層的作用
讀者人工干預(yù)Agent層是文獻(xiàn)推送系統(tǒng)的擴(kuò)展層,正常情況下系統(tǒng)的運(yùn)行不需要該層的參與。但由于讀者的閱讀習(xí)慣和對(duì)文獻(xiàn)的需求因人而異,系統(tǒng)本身的設(shè)計(jì)也必然存在缺陷,在某些情況下,推薦的文獻(xiàn)可能無法滿足讀者對(duì)文獻(xiàn)獲取的需求。另外,文獻(xiàn)推送系統(tǒng)默認(rèn)是將與讀者目前學(xué)習(xí)關(guān)系最為緊密的文獻(xiàn)作為主要分析對(duì)象,讀者某些時(shí)候也可能需要一些參考價(jià)值相對(duì)較低的文獻(xiàn),系統(tǒng)無法判斷這一情況。因此設(shè)立讀者人工干預(yù)Agent層,增加文獻(xiàn)推送系統(tǒng)的靈活性和實(shí)用性。
2.3.5.2工作方法
讀者人工干預(yù)Agent層中,整合文獻(xiàn)推送系統(tǒng)各個(gè)層次的分析結(jié)果信息,如讀者閱讀行為分析Agent層中讀者目前文獻(xiàn)的操作狀態(tài),文獻(xiàn)主動(dòng)檢索層確定的檢索的標(biāo)題和關(guān)鍵詞信息等。若讀者有特殊的文獻(xiàn)獲取需求,可直接人工調(diào)整。如在讀者閱讀行為分析Agent層中,指定某一瀏覽的文獻(xiàn)作為參考價(jià)值最大的文獻(xiàn);在文獻(xiàn)主動(dòng)檢索層中,更換檢索標(biāo)題和關(guān)鍵詞。當(dāng)人工參與后,文獻(xiàn)推送系統(tǒng)后續(xù)的工作環(huán)節(jié)以人工調(diào)整后的結(jié)果為依據(jù),繼續(xù)完成文獻(xiàn)推送步驟。
[參考文獻(xiàn)]
[1]廖軼宸.基于移動(dòng)網(wǎng)絡(luò)的混合型信息推送系統(tǒng)的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012(8):3268-3272.
[2]張靜.基于情境感知和數(shù)據(jù)挖掘的泛在信息推送服務(wù)研究[J].現(xiàn)代情報(bào),2014(9):97-100.
[3]高俊峰.基于概念格的數(shù)字圖書館信息推送服務(wù)方法研究[J].圖書情報(bào)工作,2012(17):122-125.
[4]陳誠.個(gè)性化信息推送服務(wù)的用戶模型研究[J].情報(bào)科學(xué),2014(11):71-76.
[5]楊清蘭.密碼技術(shù)在圖書館信息推送服務(wù)中的應(yīng)用[J].河南圖書館學(xué)刊,2014(6):126-128.
[6]王福.基于可信第三方的圖書情報(bào)機(jī)構(gòu)個(gè)性化信息推送研究[J].圖書情報(bào)工作,2015(3):85-89.
[7]毛新軍.面向Agent程序設(shè)計(jì)的研究[J].軟件學(xué)報(bào),2012(11):2885-2904.
[8]金淳.基于Agent的顧客行為及個(gè)性化推薦仿真模型[J].系統(tǒng)工程理論與實(shí)踐,2013(2):463-472.
[9]鄧志文.面向社交網(wǎng)的圖書館信息主動(dòng)推送方法研究——以“人人網(wǎng)”為例[J].圖書館雜志,2015(3):84-89.
Construction of Literature Pushing System for Mobile Library Based on Reader Behavior
Jiang Bo1,Zhang Zeng-yu2
Abstract:The behavior of readers while utilizing mobile library can reflect their requirements of literature. Based on this point of view, this article selects the most-cited title and keywords as retrieval term among the literature that the readers have already downloaded. It selects the lowest-cited title and keywords as excluded terms among the literature that the reader have browsed. Based on above selection, this paper compares the literature that has both been downloaded and been browsed most frequently in the library database with the target literature to excluded and adjust certain literature, which can help improving the utilization of mobile library.
Keywords:Reader Behavior;Mobile Library;Literature Pushing
[收稿日期]2015-07-22[責(zé)任編輯]呂曉佩
[作者簡介]江波(1980-),女,碩士,吉林化工學(xué)院信息與控制工程學(xué)院講師,研究方向:模式識(shí)別與智能系統(tǒng);張?jiān)牛?981-),男,吉林醫(yī)藥學(xué)院圖書館館員,研究方向:圖書館學(xué)、情報(bào)學(xué)。
[基金項(xiàng)目]本文系2012年吉林省教育廳“十二五”社會(huì)科學(xué)研究項(xiàng)目“新形勢下高校圖書館創(chuàng)新管理模式研究”(項(xiàng)目編號(hào):吉教科文合字[2012]第460號(hào))研究成果之一。
中圖分類號(hào):G250.76
文獻(xiàn)標(biāo)志碼:B
文章編號(hào):1005-8214(2016)03-0084-06