毛一雷 曹 燕 李琳珊 孫 潔
(中國科學(xué)技術(shù)信息研究所,北京 100038)
科技查新是以反映查新項目主題內(nèi)容的查新點為依據(jù),以計算機檢索為主要手段,以獲取密切相關(guān)文獻為檢索目標,運用綜合分析和對比方法,對查新項目的新穎性作出文獻評價的情報咨詢服務(wù)[1]??萍疾樾伦鳛榭蒲泄芾磉^程中的一個重要環(huán)節(jié),不僅能夠引導(dǎo)科技創(chuàng)新過程,為立項、鑒定、成果獎勵等提供參考,而且能夠幫助科研人員了解行業(yè)現(xiàn)狀,拓寬研發(fā)思路。國務(wù)院發(fā)布的《關(guān)于加快科技服務(wù)業(yè)發(fā)展的若干意見》中明確提出“加強科技信息資源的市場化開發(fā)利用,支持發(fā)展競爭情報分析、科技查新和文獻檢索等科技信息服務(wù)”[2]。在加快實施創(chuàng)新發(fā)展戰(zhàn)略的大背景下,我國科技查新工作面臨著來自市場的嚴峻考驗,科技查新的服務(wù)模式也發(fā)生了相應(yīng)的變化。在技術(shù)研發(fā)、產(chǎn)品開發(fā)過程中,技術(shù)或產(chǎn)品的指標參數(shù)是其技術(shù)水平或產(chǎn)品性能的直接反映,如何充分利用各類查新資源,借助傳統(tǒng)查新手段建立起支撐科技決策和產(chǎn)業(yè)創(chuàng)新的精準查新服務(wù)模式是本文要解決的主要問題。
我國科技查新可追溯到20世紀80年代,其本質(zhì)是專業(yè)化的信息檢索[3]。在發(fā)達國家,查新(Novelty Search)一般只與專利文獻檢索相聯(lián)系。隆新文等[4]將科技查新工作定義為以社會科學(xué)研究方法為基礎(chǔ),依靠期刊、報紙、會議論文、學(xué)位論文等公開文獻信息資源,以文獻檢索和綜合評述法等定性分析方法為主的信息服務(wù)方式。曹建勇[5]認為科技查新工作的核心就是對項目與成果等要素的創(chuàng)新性進行評價,而這一評價的本質(zhì)就是信息分析的過程。從定義上看,依靠各類公開的文獻資源,采用專業(yè)化的信息檢索手段實現(xiàn)對各類創(chuàng)新要素的評價是科技查新服務(wù)的核心內(nèi)容。
科技查新服務(wù)模式的發(fā)展主要分為粗放式查新階段、精準查新服務(wù)階段、定制化查新服務(wù)階段3個階段。在傳統(tǒng)的粗放式查新階段,主要以文獻檢索為核心,圍繞用戶的查新檢索需求,開展以查新點為依據(jù)的定題檢索,最終以查新報告的形式提供給用戶。由于科技查新用戶存在很強的異質(zhì)性,不同類型的查新用戶對查新服務(wù)的要求存在顯著差異,傳統(tǒng)的粗放式查新模式已經(jīng)不能滿足查新用戶的實際需求,查新服務(wù)逐漸轉(zhuǎn)向精準查新服務(wù)[6]。在精準查新服務(wù)階段,主要聚焦于查新流程的精準化改進。邢春國等[7]指出“精準查新”是將“精準”的理念應(yīng)用于從查新委托受理至查新報告撰寫、審核的整個查新過程;梅梅等[8]將科技查新數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進行結(jié)合,以豐富的數(shù)據(jù)資源為基礎(chǔ),綜合利用大數(shù)據(jù)技術(shù)為查新用戶提供精準服務(wù) ;馬蘭夢等[9]建立了一套“數(shù)據(jù)維度-需求特征-精準服務(wù)”的查新流程,基于研究領(lǐng)域、時間序列和服務(wù)對象揭示了查新用戶特征,并從團隊建設(shè)、資源配置、合作互聯(lián)、宣傳推送、評價反饋的角度制定精準查新策略。在定制化查新服務(wù)階段,科技查新服務(wù)模式更多地將服務(wù)主體納入查新服務(wù)過程,針對不同的服務(wù)場景開展定制化的查新服務(wù)。王紅等[10]將知識服務(wù)的理念引入科技查新,在開展常規(guī)科技查新以外開發(fā)專題/定題服務(wù)、競爭情報分析和決策輔助研究等;王欣等[11]將科技查新工作嵌入并應(yīng)用到創(chuàng)新主體創(chuàng)新活動的整個鏈條,提出了科技創(chuàng)新服務(wù)于“創(chuàng)新活動前期、創(chuàng)新活動中期、創(chuàng)新活動后期”的“科技查新+”服務(wù)模式;陳峰等[12]將技術(shù)盡職調(diào)查的理念引入傳統(tǒng)科技查新,從服務(wù)側(cè)和用戶需求側(cè)的雙重視角構(gòu)建了基于技術(shù)盡職調(diào)查的科技查新服務(wù)模式。
從查新現(xiàn)有業(yè)務(wù)來看,當前我國查新機構(gòu)的查新業(yè)務(wù)主要包括立項查新、專利查新、成果查新、產(chǎn)品查新等[13],多數(shù)查新機構(gòu)服務(wù)模式的多樣性和主動性都有待提升。針對現(xiàn)階段用戶差異化、定制化的查新需求,從查新資源層面出發(fā),探討利用專業(yè)化的查新檢索能力,將原有的粗粒度查新內(nèi)容進行細化,推出以指標查新為核心的新型查新業(yè)務(wù),對改進傳統(tǒng)查新服務(wù)、提高查新業(yè)務(wù)的市場價值和應(yīng)用價值、滿足用戶的個性化需求具有一定的實用價值和現(xiàn)實意義。
指標查新在標準研究中應(yīng)用較為廣泛。在標準研究中常用產(chǎn)品/技術(shù)指標對比分析的方法,如對比分析國內(nèi)外指定領(lǐng)域內(nèi)的產(chǎn)品指標,助推我國產(chǎn)品走向國際市場[14-15],并且指標對比分析后建立的關(guān)鍵技術(shù)指標清單[16]也能為行業(yè)研發(fā)人員提供參考。又如姚靈等[17]針對水表產(chǎn)品標準關(guān)鍵性能指標進行對比分析,幫助水表企業(yè)更好地理解新國標的基本要求和標準貫徹中的重難點,為技術(shù)人員的方案設(shè)計提供參考。在標準研究領(lǐng)域,國內(nèi)已有機構(gòu)開始探索指標查新在標準服務(wù)中的應(yīng)用。如河北省標準化研究院建立的標準指標數(shù)據(jù)庫,用戶可以通過產(chǎn)品名稱、指標名稱等進行標準指標檢索[18];中國標準化研究院標準信息研究所推出標準內(nèi)容指標對比服務(wù),提供國內(nèi)外標準的技術(shù)指標提取和對比分析服務(wù)[19]。雖然標準研究的技術(shù)指標對比分析涉及文獻類型僅包含標準文獻,但標準研究中的指標對比、指標檢索等方法為科技查新提供了新的思路。在科技查新過程中納入更細粒度的指標對比,完善傳統(tǒng)的科技查新服務(wù)思路,探究如何為用戶提供更客觀、更細粒度的主動科技查新服務(wù)具有一定的現(xiàn)實意義。
從業(yè)務(wù)流程上來講,指標查新與傳統(tǒng)查新大致相同,但在具體操作的側(cè)重點上仍有所不同。表1從查新目的、查新內(nèi)容、查新點、數(shù)據(jù)庫資源、檢索字段、檢索策略和查新結(jié)果等方面將“傳統(tǒng)查新”與“指標查新”的特點進行對比。
根據(jù)指標查新與傳統(tǒng)查新在業(yè)務(wù)流程上的區(qū)別,參考科技查新的定義,本文認為指標查新是指以公開數(shù)據(jù)為查新依據(jù),以計算機檢索為主要手段,以獲取技術(shù)或產(chǎn)品的參數(shù)、指標相關(guān)的文獻為檢索目標,提供與參數(shù)、指標相關(guān)的技術(shù)分析、技術(shù)監(jiān)測、技術(shù)預(yù)警、決策咨詢等產(chǎn)品的情報咨詢服務(wù)。與傳統(tǒng)查新相比,指標查新在數(shù)據(jù)源、查新過程和查新結(jié)論上具有多源性、協(xié)同性和精準性的特征。
(1)數(shù)據(jù)的多源性。指標查新所利用的數(shù)據(jù)不僅包含傳統(tǒng)的論文、專利、標準、成果等數(shù)據(jù),還包含產(chǎn)品庫、企業(yè)網(wǎng)站、科普文章、科技新聞、科技論壇等數(shù)據(jù)資源,而基于各類文獻資源加工得到的指標數(shù)據(jù)庫能夠大大提高指標查新效率。從數(shù)據(jù)類型上看,這些數(shù)據(jù)源包含的數(shù)據(jù)類型有數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),還有從網(wǎng)頁等提取到的文本、圖片、表格等類型的數(shù)據(jù)。而從這些數(shù)據(jù)里對所需指標信息進行抽取加工,以更全面地發(fā)現(xiàn)有價值的情報,是科技服務(wù)工作面臨的新挑戰(zhàn)。在字段選擇上,數(shù)值、指標信息多出現(xiàn)在論文正文、專利說明書中,因此更強調(diào)數(shù)據(jù)庫中的全文、專利說明書等字段的選擇。
(2)過程的協(xié)同性。在指標查新過程中,查新員不僅僅充當信息檢索的角色,更多地是由知識服務(wù)者向知識交流者轉(zhuǎn)變。查新員根據(jù)自己的查新經(jīng)驗和初步檢索結(jié)果與需求方、領(lǐng)域?qū)<?、情報專家等相關(guān)方進行交流溝通,并及時根據(jù)反饋意見調(diào)整下一階段的查新策略,提高查新產(chǎn)品與用戶需求的適配度。
(3)結(jié)論的精準性。傳統(tǒng)查新中查新結(jié)論是核心,查新結(jié)論中著重以技術(shù)特征對比的方式強調(diào)查新點中技術(shù)特征與相關(guān)文獻技術(shù)特征的差異性,涉及指標層面的較少。指標查新結(jié)論涉及技術(shù)或產(chǎn)品的具體參數(shù)指標,對指標值、參數(shù)值的數(shù)據(jù)精準性較傳統(tǒng)查新要求相對較高,尤其是數(shù)值大小、數(shù)量單位。因此,在指標查新的產(chǎn)品內(nèi)容上,用戶需要得到關(guān)于這個技術(shù)領(lǐng)域、產(chǎn)品性能等更詳細的刻畫描述,從而更準確地了解這個領(lǐng)域的發(fā)展概況和前沿進展,以保證情報服務(wù)能夠正確、科學(xué)、有效地輔助決策過程。
基于指標查新的科技查新服務(wù)模式由需求感知層、查新資源層、方法工具層和產(chǎn)品服務(wù)層構(gòu)成(圖1)。需求感知體現(xiàn)在情報服務(wù)的全過程,需要將服務(wù)對象納入整個服務(wù)體系中,根據(jù)反饋意見修正和完善查新服務(wù)過程。查新資源層、方法工具層、產(chǎn)品服務(wù)層之間通過對底層數(shù)據(jù)的采集、組織等過程形成由“資源-信息-知識-情報”的完整鏈條,有效地為各類用戶提供情報決策支撐。
圖1 基于指標檢索的查新服務(wù)模式
精確感知不同類型查新用戶的需求是提供精準查新服務(wù)的關(guān)鍵。指標查新的服務(wù)對象包括企業(yè)、科研人員、政府決策機構(gòu)等,不同類型的用戶在指標查新的需求上各有側(cè)重。①對于企業(yè),除了常規(guī)的政策、市場、法律等信息外,產(chǎn)品的技術(shù)參數(shù)對企業(yè)進行技術(shù)研發(fā)、明確市場地位、開拓新市場尤為重要。如在進入市場前,企業(yè)可根據(jù)產(chǎn)品的技術(shù)參數(shù)數(shù)據(jù),識別和發(fā)現(xiàn)同類型產(chǎn)品的競爭對手,從而為企業(yè)做好市場布局、制定并購策略提供決策支撐。②對于科研人員,指標參數(shù)信息是了解當前科技前沿、明確技術(shù)國際定位的重要參考。在產(chǎn)品研發(fā)階段,指標查新可以獲取同類型產(chǎn)品的技術(shù)參數(shù),可以通過同類型產(chǎn)品的產(chǎn)學(xué)研合作加快產(chǎn)品研發(fā)進程。此外,指標查新作為技術(shù)萌芽階段的一種早期探測方法,指標查新監(jiān)測到的一些技術(shù)研發(fā)過程中的早期跡象對科研人員研發(fā)方向的確定具有一定的指導(dǎo)意義。③對于政府決策部門,指標查新作為技術(shù)監(jiān)測的一種方式和手段,依據(jù)指標查新建立起關(guān)鍵核心技術(shù)的“卡脖子”指標清單可以為政府部門做好項目布局的頂層設(shè)計提供決策支持。對項目管理等類型的政府機構(gòu)來講,客觀、科學(xué)、公正地評估科技項目,已經(jīng)成為科技項目管理工作的當務(wù)之急。早期的科研評審過程中多采用同行評議法,邀請領(lǐng)域?qū)<覍椖砍晒岢鲆庖姾团卸ǎ朔椒ㄔ谠u審過程中受專家先驗知識的影響較大,評估結(jié)果的主觀性較強。文獻計量被引入科研評價后,可以通過既定的文獻計量指標,對項目產(chǎn)出論文、專利等成果的數(shù)量和質(zhì)量進行評估,但這類評價尚未深入到技術(shù)內(nèi)容層面。從這個角度來看,以項目涉及的技術(shù)參數(shù)、產(chǎn)品參數(shù)等指標來衡量項目產(chǎn)出,為科技進步、解決科技問題等貢獻提供良策。
3.2.1 數(shù)據(jù)資源組織體系
數(shù)據(jù)資源是指標查新的保障,數(shù)據(jù)資源組織體系主要包含數(shù)據(jù)資源采集和數(shù)據(jù)資源組織兩個過程。其中,數(shù)據(jù)資源采集的主要目標是從各類數(shù)據(jù)庫及互聯(lián)網(wǎng)資源上獲得指標數(shù)據(jù)。在數(shù)據(jù)類型上,傳統(tǒng)查新以中國知網(wǎng)、萬方數(shù)據(jù)、Web of Science、EI、Dialog等綜合性文獻數(shù)據(jù)庫為主,指標查新所依賴的文獻資源除了現(xiàn)有的論文數(shù)據(jù)庫、專利數(shù)據(jù)庫等科技文獻數(shù)據(jù)庫外,更依賴全源性的情報采集工作,包括政府、企業(yè)、智庫的各類統(tǒng)計數(shù)據(jù)、標準數(shù)據(jù)庫、新聞媒體報道等。數(shù)據(jù)資源組織是對獲得的指標數(shù)據(jù)進行再加工,包括指標數(shù)據(jù)抽取、標引、鏈接等,構(gòu)建服務(wù)于指標查新的指標庫。從技術(shù)實現(xiàn)的角度來講,一是根據(jù)基于本體的邏輯推理等技術(shù)構(gòu)建起各項指標數(shù)據(jù)之間的關(guān)系,二是通過按照特定的元數(shù)據(jù)管理規(guī)則建立指標數(shù)據(jù)的元數(shù)據(jù)管理體系,以實現(xiàn)對指標的準確檢索,保證指標查新過程的準確率。
(1)指標管理體系
對于大多數(shù)專業(yè)領(lǐng)域來講,指標的定義是統(tǒng)一的,但指標名稱不同其實質(zhì)含義卻相同的情況依然存在,所以對于描述或表達不一致但指向的指標相同、描述或表達重復(fù)但指標名稱不同等情況應(yīng)加以處理,構(gòu)建起包含描述對象的各項指標、指標間的層級關(guān)系、所屬領(lǐng)域等信息的指標管理體系。指標管理體系以指標描述對象為主體(圖2),即指標I={ID,Name,Definition,When,Who,What,Where}。其中,ID為指標的唯一標識符;Name是指標名稱;Definition是指標的定義及計算方法、計量單位等描述特征;When是指標值公開報道的具體日期;Who是該指標值對應(yīng)的機構(gòu)或研究人員;What是該指標對應(yīng)的指標值;Where是該指標值公開報道的來源,包括新聞、專利、論文等。需要指出的是,指標和指標值之間存在一對一、一對多等不同關(guān)系,如指標I和指標值What之間存在著一對多的關(guān)系,即一個指標對應(yīng)多個指標值。多個指標構(gòu)成指標描述對象,指標描述對象在參考專家領(lǐng)域知識的基礎(chǔ)上實現(xiàn)對描述對象的分類分級,各節(jié)點的描述對象共同刻畫出這個技術(shù)領(lǐng)域的主要產(chǎn)品/技術(shù)特征;根據(jù)樹狀結(jié)構(gòu)的層級關(guān)系,根節(jié)點往往代指的是整個技術(shù)領(lǐng)域,最深層節(jié)點是指標數(shù)據(jù)的最小描述單元。
圖2 指標及描述對象的樹狀結(jié)構(gòu)
(2)指標數(shù)據(jù)的鏈接關(guān)系構(gòu)建
指標數(shù)據(jù)之間的鏈接網(wǎng)絡(luò)由指標和指標間的關(guān)系構(gòu)成,可以表示為S=(I,L,R),其中I表示指標節(jié)點集合,L表示指標之間的鏈接關(guān)系,R表示指標鏈接規(guī)則。具體的鏈接規(guī)則包括R={同一機構(gòu)、同一時間、同一描述對象}。如指標1和指標2之間屬于同一描述對象,可記為即i1表示指標1,i2表示指標2,指標1和指標2之間存在鏈接關(guān)系,鏈接的規(guī)則為r1,r1表示i1和i2隸屬于同一描述對象。指標之間的鏈接關(guān)系如圖3所示,具體分為指標層和數(shù)據(jù)層,指標層包括指標及其屬性信息,數(shù)據(jù)層包含文獻庫、機構(gòu)庫、國家?guī)?、期刊庫等各類?shù)據(jù)資源。
圖3 指標數(shù)據(jù)鏈接網(wǎng)絡(luò)
3.2.2 人才資源協(xié)同體系
人才資源體系是指標查新走向精準服務(wù)的關(guān)鍵,人才體系主要包含查新專家、情報專家和領(lǐng)域?qū)<遥▓D4)。查新專家即科技查新人員,在精準抓住用戶需求、快速提煉主題,將用戶所關(guān)注的領(lǐng)域問題轉(zhuǎn)化成檢索問題上具有長期的經(jīng)驗積累。情報專家在情報服務(wù)工作中積累了豐富的情報信息搜集、加工、分析等經(jīng)驗,能夠廣泛開展情報研究工作,真正打破情報問題和以政府、企業(yè)為代表的決策者之間的“語境鴻溝”。領(lǐng)域?qū)<邑灤┯谇閳蠓?wù)的整個過程,在前期指標庫建立、后續(xù)指標數(shù)據(jù)的分析過程中,都需要領(lǐng)域?qū)<乙揽孔陨淼慕?jīng)驗知識實現(xiàn)指標準確性的判斷和指標數(shù)據(jù)的快速解讀,從而將抽取出的指標數(shù)據(jù)與專家的經(jīng)驗知識相結(jié)合形成準確可靠的情報服務(wù)成果。查新專家、情報專家和領(lǐng)域?qū)<以谡麄€情報服務(wù)過程中溝通協(xié)同,最終形成以科技查新人員和情報分析人員為主,以領(lǐng)域?qū)<覟檩o的協(xié)同服務(wù)網(wǎng)絡(luò),最大程度地發(fā)揮科技查新人員、情報分析人員和領(lǐng)域?qū)<业膶I(yè)價值,真正形成以科技查新人員、情報分析人員和領(lǐng)域?qū)<夜餐瑯?gòu)成的“科學(xué)共同體”,通過指標數(shù)據(jù)的“采集-抽取-整理-序化-推理”等全鏈條,實現(xiàn)精準化的查新服務(wù)。
圖4 人才資源網(wǎng)絡(luò)
3.3.1 領(lǐng)域詞表輔助構(gòu)建技術(shù)
領(lǐng)域詞表的構(gòu)建是為了滿足查新人員在指標檢索過程中盡可能完整、正確地選用檢索詞,以便保證檢索的查全率和查準率。作為指標所在技術(shù)領(lǐng)域的專用詞典,領(lǐng)域詞表羅列了這個領(lǐng)域內(nèi)的簡要技術(shù)清單,為指標查新后續(xù)開展技術(shù)演化、循證檢索和知識問答等產(chǎn)品服務(wù)提供支撐和鋪墊。具體來講,領(lǐng)域詞表構(gòu)建過程包含指標詞匯抽取、詞間關(guān)系識別、詞表更新和完善等過程。從詞表結(jié)構(gòu)來看,領(lǐng)域詞表應(yīng)包含指標總表、技術(shù)領(lǐng)域表和中英文對照表。指標總表在結(jié)構(gòu)上包含指標詞匯的全部信息,包含詞間關(guān)系(同義詞、相關(guān)詞等),以及所屬學(xué)科領(lǐng)域、技術(shù)領(lǐng)域、中英文形式等。其中詞間關(guān)系之所以是指標總表中的重要內(nèi)容,是因為在查新檢索過程中各類規(guī)范詞、同義詞和縮寫詞、相關(guān)詞等經(jīng)常使用,通過詞間關(guān)系對檢索詞進行擴充能夠大大提升檢索效率。技術(shù)領(lǐng)域表的構(gòu)建主要是考慮同一指標描述詞匯在不同的技術(shù)領(lǐng)域有不同的解釋含義,方便查新人員從技術(shù)分類的角度實施檢索。如在食品檢測領(lǐng)域,F(xiàn)值是指在一定的致死溫度下將一定數(shù)量的某種微生物全部殺死所需的時間;在光學(xué)領(lǐng)域,F(xiàn)值表示鏡頭的最大光圈;在機器學(xué)習領(lǐng)域,F(xiàn)值表示是精確率和召回率的加權(quán)調(diào)和平均。中英文對照表在檢索國外資源時可以大大提升檢索效率,保證檢索的查全率和查準率。
3.3.2 指標詞匯自動標注技術(shù)
指標查新要想實現(xiàn)精準檢索離不開對各類數(shù)據(jù)資源的細粒度描述,充分利用上下文信息,為進一步的知識關(guān)聯(lián)和推理作準備,以滿足查新人員和普通用戶對資源的個性化需求。在指標詞匯的自動標注上,采用基于詞典和條件隨機場(CRF)算法相結(jié)合的方式,提高待標注文本的識別精度。根據(jù)指標查新需求,標注的主要對象為指標詞匯及與指標詞匯相關(guān)的所屬機構(gòu)、所屬時間、描述對象3種關(guān)系。標注過程分為人工標注和模型標注兩個部分。首先,針對訓(xùn)練文檔進行人工各自標注和雙人交叉審核,對有異議的標注進行討論,形成一份較為完善的標注規(guī)范,作為后續(xù)訓(xùn)練集的豐富語料,完成標注語料庫的構(gòu)建。根據(jù)得到的標注語料庫,另一部分作為訓(xùn)練集用于訓(xùn)練CRF實體識別模型,其余部分作為測試集用于測試模型效果。然后,以不同來源采集得到的數(shù)據(jù)作為目標文檔,對目標文檔進行過濾、分詞、去停用詞等預(yù)處理后,根據(jù)已有的領(lǐng)域詞典庫采用字符串匹配的方式進行初步識別,利用訓(xùn)練得到的CRF模型進一步對待標注文檔進行識別。最后,人工完成對標注后文檔審核,根據(jù)人工審核后的標注文本,及時更新領(lǐng)域詞典,完成對CRF訓(xùn)練模型的迭代更新,形成指標詞匯及其關(guān)系的自動標注模塊。
3.3.3 基于語義的查新檢索技術(shù)
傳統(tǒng)的查新檢索過程是根據(jù)文獻資源的元數(shù)據(jù)特征完成底層索引庫的構(gòu)建,根據(jù)查新員的檢索式,通過標題、摘要、關(guān)鍵詞、主題詞等從文獻檢索系統(tǒng)中獲取相關(guān)文獻。通過語義擴展和推理技術(shù),借助推理規(guī)則,利用自動標注、信息抽取、關(guān)系發(fā)現(xiàn)等技術(shù)從目標文檔中發(fā)現(xiàn)更細粒度的指標信息,從而完善現(xiàn)有的文獻檢索系統(tǒng),將符合用戶檢索需求的信息傳遞給用戶。基于語義的查新檢索技術(shù)能夠在傳統(tǒng)檢索系統(tǒng)的基礎(chǔ)上,根據(jù)上文提出的領(lǐng)域詞表輔助構(gòu)建技術(shù)和指標詞匯自動標注技術(shù)對檢索詞進行概念擴展、關(guān)系推理和語義匹配,實現(xiàn)對目標文檔中隱性知識的抽取,得到更加豐富的指標、關(guān)系和屬性映射,從而能夠形成以指標為中心的語義檢索模型,得到具有更高檢索性能以及更高查全率和查準率的檢索結(jié)果返回給用戶。
根據(jù)情報服務(wù)過程與獲取用戶需求的先后順序,可將情報服務(wù)產(chǎn)品分為被動型服務(wù)產(chǎn)品和主動型服務(wù)產(chǎn)品。被動型產(chǎn)品以傳統(tǒng)的科技查新報告、檢索分析報告、技術(shù)分析報告為主,是在充分了解用戶真實需求的基礎(chǔ)上,圍繞查新主題展開檢索分析后得到的具有結(jié)論性的分析報告。主動型產(chǎn)品在整個情報服務(wù)鏈條中將服務(wù)過程前置,通過對技術(shù)領(lǐng)域的主動性監(jiān)測、掃描等過程實現(xiàn)前置性的情報服務(wù)。根據(jù)指標查新的主要特征,產(chǎn)品服務(wù)的類型可以包括技術(shù)演化時間軸分析、基于指標的循證檢索、基于指標的知識問答等。
3.4.1 技術(shù)演化時間軸分析
通過各項指標數(shù)據(jù)的統(tǒng)計、關(guān)聯(lián)、分析后進行可視化展示,可以發(fā)現(xiàn)趨勢變化及各指標的關(guān)聯(lián)關(guān)系。以光刻機為例,常見的描述指標有工藝節(jié)點、分辨率、投影物鏡、光源波長、產(chǎn)率等??v向?qū)Ρ雀鱾€參數(shù)值的演化趨勢,可以發(fā)現(xiàn)企業(yè)在每一代產(chǎn)品革新過程中的演化特征和核心技術(shù)研發(fā)方向;橫向?qū)Ρ雀黜椫笜?,可以看出各研發(fā)企業(yè)在不同技術(shù)上的優(yōu)缺點。產(chǎn)率是指光刻機在單位時間內(nèi)可完成曝光的晶圓數(shù)量,是衡量光刻機產(chǎn)業(yè)化及經(jīng)濟效益的重要指標。圖5展示了當前光刻機廠商的產(chǎn)率。產(chǎn)率最高的光刻機是ASML采用ArF光源的TWINSCAN NXT:1470光刻機,產(chǎn)率達到300 wph。EUV光刻機雖然在分辨率和最小工藝節(jié)點等技術(shù)指標上取得了明顯的進步,但是現(xiàn)有的產(chǎn)率還停留在170 wph,未來仍有很大的發(fā)展空間。
圖5 光刻機產(chǎn)率的發(fā)展趨勢
3.4.2 基于指標的循證檢索
在循證研究中,一些隨機對照試驗的Meta分析往往被納入循證分析的高質(zhì)量證據(jù)資源。在這個過程中檢索質(zhì)量的高低將直接影響被納入的證據(jù)資源是否具備全面性、客觀性和真實性,并最終影響Meta分析的有效性。在一項維生素D對多囊卵巢綜合征代謝及內(nèi)分泌指標影響的Meta分析中[20],筆者在證據(jù)選取階段主要以包含25羥維生素D水平、內(nèi)分泌指標(胰島素敏感性檢測指數(shù)、胰島素抵抗指數(shù)、甲狀旁腺激素、空腹胰島素、總睪酮、睪酮、脫氫異雄酮硫酸鹽、代謝指標(總膽固醇、低密度脂蛋白膽固醇、甘油三酯、超敏C反應(yīng)蛋白、高密度脂蛋白膽固醇、空腹血糖)等指標的文獻作為Meta分析證據(jù)來源,在這類循證研究中,檢索的準確性對提高證據(jù)的可靠性有著至關(guān)重要的作用。針對領(lǐng)域指標庫中包含的指標及其鏈接關(guān)系,可以根據(jù)用戶循證研究中對目標證據(jù)的需求,快速定位到與證據(jù)選擇中所包含指標相關(guān)的目標文獻,并獲取與指標相關(guān)的機構(gòu)、國家等相關(guān)信息,形成指標相關(guān)的語義鏈接網(wǎng)絡(luò),幫助用戶發(fā)現(xiàn)與循證證據(jù)相關(guān)的指標及其關(guān)聯(lián)關(guān)系。
3.4.3 基于指標的知識問答
基于指標數(shù)據(jù)的知識問答模塊主要包含問題理解、指標數(shù)據(jù)檢索和答案生成3個模塊。知識問答的核心是對問題的理解,根據(jù)用戶提問對問題進行分解,通過系統(tǒng)接口獲取用戶輸入的問題語句,對問題語句進行預(yù)處理,獲取問題語句中的疑問詞和中心詞,根據(jù)領(lǐng)域詞表建立起中心詞與指標名稱的映射關(guān)系,并匹配相應(yīng)的問題模板。隨后將模板信息傳送至指標數(shù)據(jù)檢索模塊。根據(jù)指標名稱在現(xiàn)有的指標數(shù)據(jù)庫中進行檢索,借助預(yù)設(shè)的答案生成模板生成自然語言的回復(fù)語句,將檢索得到的數(shù)據(jù)結(jié)果傳入預(yù)先定義的答案回復(fù)模板。最后把通俗易懂的答案語句反饋給用戶,并將歷史問答內(nèi)容存儲到后臺數(shù)據(jù)庫,以便進一步提升問答系統(tǒng)的準確率。
科技查新始于查新而不應(yīng)止于查新。隨著我國建設(shè)創(chuàng)新型國家的快速推進,對查新服務(wù)內(nèi)容和服務(wù)形式都提出了更高的要求。本文基于科技查新實踐,構(gòu)建了基于指標檢索的科技查新服務(wù)模式,涵蓋了指標查新的數(shù)據(jù)資源建設(shè)、方法工具建設(shè)等多方面內(nèi)容,充分發(fā)揮了查新人員、情報人員和領(lǐng)域?qū)<蚁嗷ト谕ǖ臎Q策支持體系和能力,進而推動傳統(tǒng)經(jīng)驗范式驅(qū)動下的查新服務(wù)向精準型、主動型查新服務(wù)轉(zhuǎn)變。高質(zhì)量的指標數(shù)據(jù)庫是指標查新服務(wù)體系建設(shè)的核心,未來將進一步結(jié)合查新用戶的實際需求,對指標查新的數(shù)據(jù)資源組織方式、指標查新分析工具和方法進行更加深入的研究,最大限度地發(fā)揮指標查新在查新工作發(fā)展轉(zhuǎn)型中的積極作用。同時,努力推動以指標查新為核心的制度、標準等保障機制建設(shè),以確保指標查新服務(wù)體系的正常運行,從而能夠充分發(fā)揮科技查新工作在我國創(chuàng)新鏈條中的推動作用,為我國科技創(chuàng)新貢獻力量。