張 賀
(商丘市科技情報(bào)研究所,河南 商丘 476000)
現(xiàn)階段各個(gè)行業(yè)的科技交流和信息傳播都離不開網(wǎng)絡(luò),網(wǎng)絡(luò)在人們生產(chǎn)和生活中占據(jù)的地位也越來越重要。尤其是在科研領(lǐng)域,網(wǎng)絡(luò)是實(shí)現(xiàn)對(duì)外信息發(fā)布的重要渠道,比如一些科研活動(dòng)、科技戰(zhàn)略、科技成果等都需要借助網(wǎng)絡(luò)來宣布。情報(bào)機(jī)構(gòu)一項(xiàng)非常重要的任務(wù)就是在網(wǎng)絡(luò)科技信息支持下,實(shí)現(xiàn)對(duì)科技動(dòng)態(tài)的實(shí)時(shí)監(jiān)測(cè),并對(duì)其所制定的戰(zhàn)略決策進(jìn)行分析,確保從繁多的網(wǎng)絡(luò)科技信息資源中發(fā)現(xiàn)有高情報(bào)價(jià)值的信息資源。因此,情報(bào)機(jī)構(gòu)如何提高自身探索情報(bào)價(jià)值信息資源的工作效率是工作人員關(guān)注的重點(diǎn)。相關(guān)資料顯示,網(wǎng)絡(luò)科技信息情報(bào)價(jià)值歸屬于網(wǎng)絡(luò)信息資源評(píng)價(jià)研究,借助科學(xué)有效的評(píng)價(jià)方法可以選擇并評(píng)估眾多網(wǎng)絡(luò)信息。
對(duì)網(wǎng)絡(luò)資源相關(guān)信息進(jìn)行自動(dòng)搜集并整理的統(tǒng)計(jì)方法為定量評(píng)價(jià)方法,定量評(píng)價(jià)方法是按數(shù)量來進(jìn)行統(tǒng)計(jì)分析的,具有較強(qiáng)的客觀性。定量評(píng)價(jià)方法在早期選用的指標(biāo)較為簡(jiǎn)單,存在訪問量波動(dòng)性大、耗費(fèi)人力和時(shí)間較多等問題。此外,訪問量的大小與網(wǎng)絡(luò)資源情報(bào)價(jià)值并不是高度相符的,惡意刷訪問量的情況也會(huì)存在。定量評(píng)價(jià)方法作為一種數(shù)學(xué)分析方法,帶有一定的科學(xué)性、系統(tǒng)性、規(guī)范性以及客觀性,應(yīng)用該方法得出的評(píng)價(jià)結(jié)果更具說服力[1]。
定性評(píng)價(jià)方法就是結(jié)合評(píng)價(jià)目的和評(píng)價(jià)服務(wù)對(duì)象自身需求,以此為依據(jù)構(gòu)建相應(yīng)的規(guī)范和準(zhǔn)則,確立評(píng)價(jià)標(biāo)準(zhǔn)、構(gòu)建評(píng)價(jià)體系的評(píng)價(jià)方法。定性評(píng)價(jià)方法中不少研究學(xué)者是基于不同角度做出不同假設(shè)來制定網(wǎng)絡(luò)信息資源評(píng)價(jià)指標(biāo)的。這些指標(biāo)的獲取存在高度的間接性,受外部特征衍生指標(biāo)的影響,難以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)科技信息資源情報(bào)價(jià)值更為準(zhǔn)確的判斷。此外,定性指標(biāo)中主觀色彩較強(qiáng),所產(chǎn)生的分析結(jié)果差異性較大,因此,說服力和科學(xué)性均較低。
定性和定量評(píng)價(jià)方法都帶有一定的不足,因此,不少學(xué)者開始將兩者結(jié)合在一起形成綜合評(píng)價(jià)方法。綜合評(píng)價(jià)方法可以將定性評(píng)價(jià)方法中成熟、細(xì)致、全面的優(yōu)勢(shì)體現(xiàn)出來,又能落實(shí)定量評(píng)價(jià)方法中規(guī)范、客觀、科學(xué)、系統(tǒng)的優(yōu)勢(shì),以此滿足網(wǎng)絡(luò)信息綜合完整性的評(píng)價(jià)需求。張智雄等[2]對(duì)網(wǎng)絡(luò)科技信息的特點(diǎn)進(jìn)行了分析,總結(jié)出了情報(bào)來源、情報(bào)主題對(duì)象、情報(bào)類型以及情報(bào)科技相關(guān)度等有關(guān)指標(biāo),并進(jìn)一步細(xì)化上述指標(biāo),將其分為31個(gè)二級(jí)指標(biāo),既包括定性指標(biāo),又包括定量指標(biāo)。細(xì)化后的指標(biāo)可以綜合評(píng)價(jià)資源外在屬性和資源內(nèi)容特征等內(nèi)容,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)科技信息價(jià)值的判斷。這兩名學(xué)者的研究對(duì)后人產(chǎn)生了深遠(yuǎn)的影響。陸寶益在參考了國(guó)內(nèi)外學(xué)者的研究資料后,也一直認(rèn)為網(wǎng)絡(luò)科技信息情報(bào)價(jià)值的評(píng)價(jià)需要將定量指標(biāo)和定性指標(biāo)結(jié)合在一起,在構(gòu)建評(píng)價(jià)指標(biāo)體系時(shí),不僅要具備定性指標(biāo),還要具備定量指標(biāo),如網(wǎng)絡(luò)信息資源的外部特征、網(wǎng)頁格式、外觀設(shè)計(jì)、讀者對(duì)象、引文等。綜合評(píng)價(jià)法與定性和定量評(píng)價(jià)方相比,結(jié)合了以上兩種方法的優(yōu)點(diǎn),可以有效克服定性評(píng)價(jià)方法中主觀性強(qiáng)、客觀性及可操作性差等問題,因此,評(píng)價(jià)效果是非常理想的[2]。
個(gè)性化信息搜索可以結(jié)合用戶的興趣、偏好以及特殊目的等優(yōu)化檢索結(jié)果,此種信息搜索方法便于用戶在最短時(shí)間內(nèi)發(fā)現(xiàn)自己所需要的信息資源。Price首次提出了準(zhǔn)確性和特殊性均較高的信息組織和檢索方法,此種組織和檢索方法是面向各個(gè)領(lǐng)域內(nèi)專家的。此種算法下,結(jié)合不同類型的信息將特定領(lǐng)域的文檔分成不同部分,這些不同部分被稱作語義組件。一個(gè)或者多個(gè)語義組件中相關(guān)信息文檔片段則被稱為語義組件實(shí)例,將語義組件和語義組件實(shí)例結(jié)合在一起可以進(jìn)一步優(yōu)化檢索結(jié)果,最終形成一種特殊的檢索引擎,該檢索引擎主要是面向領(lǐng)域的專家們[3]。Danoud等則為所有的檢索會(huì)話構(gòu)建了加權(quán)圖,加權(quán)圖可以對(duì)用戶興趣模型進(jìn)行描述。一旦用戶需要檢索新的內(nèi)容,則可以結(jié)合用戶的興趣模型將檢索出來的結(jié)果重新排序,并在同一個(gè)會(huì)話用戶模型中納入相應(yīng)的檢索詞。TSoi對(duì)用戶定制的網(wǎng)頁檢索排序算法進(jìn)行了研究,該算法允許用戶調(diào)用他們自己感興趣的頁面實(shí)例。此外,該算法還對(duì)用戶制定了一些限制規(guī)則,比如頁面j的重要性遠(yuǎn)遠(yuǎn)低于頁面i;站點(diǎn)B頁面的重要性遠(yuǎn)遠(yuǎn)低于站點(diǎn)A頁面;頁面i的重要程度與PageRank算法計(jì)算出來的重要程度相比,前者比后者多出兩倍。
上述算法一旦被調(diào)用,可以滿足特定用戶的信息需求。Han則充分挖掘了用戶某些特定的查詢習(xí)慣、搜索引擎訪問的頁面以及訪問頻率等內(nèi)容,在對(duì)用戶感興趣的資源進(jìn)行全面了解的基礎(chǔ)上,依照用戶的偏好構(gòu)建了模型,由此滿足了用戶個(gè)性化檢索信息的需求。個(gè)性化搜索是建立在用戶行為和偏好上的,此種搜索評(píng)價(jià)模式在一定程度上可以解決傳統(tǒng)搜索引擎帶來的“認(rèn)知過載”等問題,但是要想在網(wǎng)絡(luò)科技信息情報(bào)價(jià)值評(píng)價(jià)中更好地應(yīng)用,還需進(jìn)一步改進(jìn)。在對(duì)用戶興趣、偏好以及檢索信息等進(jìn)行充分挖掘的基礎(chǔ)上構(gòu)建模型,并對(duì)檢索出來的結(jié)果結(jié)合用戶興趣進(jìn)行排序,此種檢索方法是對(duì)傳統(tǒng)檢索方法的進(jìn)一步優(yōu)化。但是優(yōu)化后的檢索方法具有較強(qiáng)的特殊性,是依據(jù)用戶具體場(chǎng)景而設(shè)置的專門算法,因此,該算法的移植性較差,難以實(shí)現(xiàn)對(duì)戰(zhàn)略情報(bào)人情報(bào)關(guān)注的建模。此外,情報(bào)價(jià)值較高的資源并不都是與用戶關(guān)鍵詞匹配度高的資源,還需要情報(bào)人員進(jìn)一步挖掘數(shù)據(jù)資源的語義,對(duì)其進(jìn)行深層次解析,才能進(jìn)一步提升情報(bào)資源信息判斷的準(zhǔn)確性[4]。
解決網(wǎng)絡(luò)信息過載最有效的技術(shù)就是信息搜索和信息過濾。兩種技術(shù)具有高度的相似性,但不同的是,信息搜索技術(shù)需要按照信息的重要性進(jìn)行排序,信息過濾則不會(huì)。信息過濾技術(shù)主要有兩類,分別是協(xié)同過濾和內(nèi)容過濾。網(wǎng)絡(luò)科技信息情報(bào)價(jià)值評(píng)價(jià)方法中信息過濾占據(jù)非常重要的地位。
(1)在信息過濾系統(tǒng)中融入了網(wǎng)頁內(nèi)容、質(zhì)量以及用戶的喜好,并構(gòu)建了信息過濾模型。(2)領(lǐng)域本體納入了過濾模型,該模型適用于邏輯性推理較為復(fù)雜的語義層次,是對(duì)傳統(tǒng)過濾技術(shù)的改進(jìn)。(3)將用戶興趣模型進(jìn)一步分解,將其分解成多個(gè)子模型和興趣片段,其中,不同子模型代表的用戶喜好、背景、任務(wù)以及情緒等是不一樣的。多個(gè)子模型組成了用戶興趣模型,可結(jié)合用戶的興趣及其社會(huì)背景等選擇性地過濾信息。(4)敏感性信息在過濾時(shí)要考慮的內(nèi)容較多,如敏感信息彼此組合產(chǎn)生的相互作用,因此,在信息過濾上提出了敏感詞組合信息的概念,目的是將過濾敏感信息的作用進(jìn)一步增強(qiáng)。(5)在過濾敏感信息問題上將核算法納入其中,在理論上可以明顯提升敏感信息過濾的有效性。(6)為了提高信息過濾的效能,可以立足于頁面特征來考慮,頁面特征是指詞本身的長(zhǎng)度、融合次出現(xiàn)的頻率、文本中詞的屬性以及具備的語法特征。在此基礎(chǔ)上,在特征模型構(gòu)建上融入了訓(xùn)練集中的特性,確保了信息過濾的有效性。(7)在處理詞時(shí)納入用戶興趣模型,在處理過程中可以找出該次的同義詞并在信息過濾時(shí)將其過濾出去。用戶興趣模型中的詞是非常重要的,代表了用戶對(duì)所推薦資源的接受程度。此外,在信息過濾的過程中,也可以結(jié)合網(wǎng)頁中該詞出現(xiàn)的具體位置,對(duì)其賦予不同的權(quán)值?,F(xiàn)階段不少領(lǐng)域的專家將用戶反饋機(jī)制融入了信息過濾,可以將用戶的信息過濾結(jié)果反饋出來,但是此種方法并不適合所有的用戶。
綜上所述,網(wǎng)絡(luò)科技信息情報(bào)價(jià)值自動(dòng)判斷可以明顯減輕工作人員的負(fù)擔(dān),保證所獲取的信息資源具有較高的價(jià)值。文章對(duì)網(wǎng)絡(luò)科技信息情報(bào)價(jià)值評(píng)價(jià)方法的分析,希望對(duì)該領(lǐng)域的研究有一定的參考價(jià)值。