賈冰
關(guān)鍵詞:科技查新;專用語料庫;石墨烯
摘要:文章針對當前科技查新工作,尤其是國內(nèi)外課題查新中存在的英文文獻查找、中英文檢索詞轉(zhuǎn)換、英文文獻分析等方面存在的問題,提出將專用語料庫技術(shù)應(yīng)用于查新工作中,并以構(gòu)建石墨烯類專業(yè)術(shù)語語料庫為例,通過語料庫分析建立領(lǐng)域?qū)S迷~庫,以期使上述問題得到解決。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2018)03-0109-03
科技查新是高校圖書館開展的一項重要的信息咨詢業(yè)務(wù),在科學研究、技術(shù)開發(fā)及促進科技成果轉(zhuǎn)化等方面都發(fā)揮著重要的作用。然而在查新過程中,尤其是進行國內(nèi)外課題查新時,查新人員往往需要找全、找準檢索詞,進而編制合理的檢索式,找到相關(guān)文獻,并對相關(guān)文獻進行準確理解和把握,才能提高科技查新的查全率和查準率。
1高??萍疾樾碌摹捌款i”
查新是科技查新的簡稱,是指查新機構(gòu)的查新人員根據(jù)查新委托人提供的需要查證其新穎性的科學技術(shù)內(nèi)容,按照一定的操作規(guī)范,做出查新結(jié)論并出具查新報告的信息咨詢業(yè)務(wù),為科研立項、成果鑒定、專利申報等提供了客觀依據(jù)[1]。現(xiàn)階段,各查新機構(gòu)開展的查新業(yè)務(wù)主要分為國內(nèi)科技查新和國內(nèi)外科技查新,而查新人員普遍認為國內(nèi)外課題查新的難度較大,歸結(jié)起來主要包括:①文獻查找。盡管當前許多查新員具備一定的外語能力,但由于查新工作往往針對的是學術(shù)性、專業(yè)性較強的領(lǐng)域,查新課題中涵蓋繁雜晦澀的科技術(shù)語,查新員想要在龐大的外文數(shù)據(jù)庫中找到所需的文獻絕非易事。②檢索策略。編制合理的檢索式是科技查新的前提,而檢索式又是由若干檢索詞組合而成,所以準確地提煉檢索詞成為提高查新質(zhì)量的關(guān)鍵。在進行國內(nèi)外查新時,查新員需根據(jù)提煉的中文檢索詞編制中文檢索式,然后將所提煉的中文檢索詞翻譯成對應(yīng)的英文檢索詞,再進行英文檢索式的編制。在中英文檢索詞的對等轉(zhuǎn)換過程中,查新員通過采用一些英漢互譯常用工具(見表1),找出與中文檢索詞對應(yīng)的英文檢索詞。而查新員僅借助這些翻譯工具,往往難以將中文檢索詞相對應(yīng)的英文表述找準、找全。
例如“多層石墨烯”,谷歌給出的翻譯是“Multilayer graphene”,而事實上其英文表述還可以是“Multilayered graphene或Multilayer stacked graphene”;再如“石墨烯薄膜”,谷歌和有道在線翻譯詞典均譯為“Graphene films”,而查新員通過查找一些國外文獻,會發(fā)現(xiàn)其英文表述還有“Graphene sheets”與“Graphene membranes”。由此可見,借助英漢互譯工具對中文檢索詞進行英譯,往往會造成對應(yīng)英文檢索詞的缺失,進而導(dǎo)致難以查全相關(guān)英文文獻。③信息分析。信息分析是指查新員將檢索出的相關(guān)文獻進行對比分析和綜合判斷,并撰寫查新結(jié)論。這一階段更需要查新員具備扎實的外文功底,通過對所查找外文文獻的準確解讀,提煉出與查新點可比對的那部分內(nèi)容,進而做出以客觀文獻為事實依據(jù)的分析和判斷。
在現(xiàn)階段國內(nèi)外科技查新工作中,查新員往往過分依賴英漢互譯工具,而這些翻譯工具缺少相關(guān)語境信息和相關(guān)領(lǐng)域知識,從而使翻譯結(jié)果并不盡如人意。如果能建立一種面向查新員的科技術(shù)語專用詞庫,將會極大地提高查新員的工作效率。
2專用語料庫的建立
2.1專用語料庫的概念
專用語料庫又稱專題語料庫(Special Purpose Corpus),是指人們出于某種特定的研究目的,只收集某特定領(lǐng)域的語料樣本建成語料庫,用于分析特定領(lǐng)域內(nèi)語言的特點。專用語料庫相較于雙語語料庫、多語語料庫等其他類型的語料庫而言,更適合作為編制專門領(lǐng)域工具書的理想語料[2]。
2.2專用語料庫的構(gòu)建意義
目前,越來越多的學者嘗試將語料庫技術(shù)應(yīng)用于高校圖書館工作中,如:劉日升、楊振力提出以圖書館為主導(dǎo)的語料庫資源共享平臺建設(shè)構(gòu)想[3],屈鵬指出圖書館應(yīng)在研究開放環(huán)境下建成一套具有代表性、規(guī)模性、正確性、穩(wěn)定性和開放性的科技語料庫[4],王傳英提出圖書館應(yīng)積極構(gòu)建基于雙語平行語料庫的信息服務(wù)平臺以改善信息服務(wù)的質(zhì)量和功能[5],田長斌指出應(yīng)將智能語料庫技術(shù)應(yīng)用于智慧圖書館建設(shè)[6]。筆者認為,構(gòu)建科技查新專用語料庫有助于查新員快速查找中英文檢索詞,能夠更加準確地分析、解讀相關(guān)文獻。
3構(gòu)建專用語料庫——以“石墨烯”為例
3.1語料來源
摘要作為一篇論文概要性的陳述,包含了大量該學科領(lǐng)域內(nèi)的術(shù)語,因此筆者選用英文文獻的摘要部分作為語料的來源。
3.2構(gòu)建方法
3.2.1原始數(shù)據(jù)采集。語料庫原始數(shù)據(jù)通過Clarivate Analytics公司運營的Web of ScienceTM平臺獲取。筆者以石墨烯的英文表述“graphene”為檢索詞,限定檢索范圍是摘要和標題,限定文獻發(fā)表時間為2017年度進行檢索(如果想獲得更全面的結(jié)果,可以將時間范圍設(shè)置得更大一些),共檢索出目標文獻12,424篇,并通過Web of ScienceTM平臺導(dǎo)出工具將目標文獻的摘要部分導(dǎo)出成txt格式文件,以此作為語料庫生文本。
3.2.2生文本整理。生文本需要進行整理才可以進行語料庫構(gòu)建。筆者借助PowerGREP軟件中正則表述式的編寫和批量處理功能,對生文本中的多余空格、段首段尾空格、段落間空行、多余跳格、全角標點、全角字母和數(shù)字、全角空格等非標準字符進行刪除或者替換。
3.2.3分詞。英文書寫中縮寫的情況會使原本獨立的兩個詞連接為一個詞(如I am縮寫為Im),在語料庫分析過程中會將這兩個詞當作一個詞進行處理,影響分析的可靠性。筆者采用梁茂成等人編寫的《語料庫應(yīng)用教程》中提供的自動分詞工具Tokenizer進行分詞[2],拆分文本中的縮寫,保證統(tǒng)計結(jié)果的準確性。完整的語料庫建庫過程還包括在分詞之后進行的詞性還原和詞性賦碼。由于筆者只是利用語料庫技術(shù)構(gòu)建查新專用詞庫,因此可以省略這兩個步驟。
3.2.4語料庫分析。筆者采用AntConc軟件進行語料庫分析,將建立好的語料庫文本導(dǎo)入軟件中,以選定的“graphene”作為中心詞,在“Word List”選項卡中進行詞表檢索,檢索前勾選“Search Term”選項中的Regex復(fù)選框,以便在檢索中獲得“graphene”的各種變形。AntConc詞表檢索結(jié)果顯示,除了功能詞“the”“of”“and”等,“graphene”是出現(xiàn)頻率最高的實詞,這說明建立的專用語料庫具有可用性。筆者仍然以“graphene”為中心詞,在“Collocates”選項卡中進行左右鄰近詞的檢索,左右跨度均設(shè)置為1(1L和1R),即表示檢索中心詞左側(cè)和右側(cè)最鄰近的一個詞所構(gòu)成的詞表,最小出現(xiàn)頻率設(shè)置為1,得到AntConc鄰近詞檢索結(jié)果。從該結(jié)果中選取有意義的實詞進行分析,除了可以獲得那些與“graphene”最常搭配的鄰近詞信息,還可以通過羅列詞語搭配情況找出同一中文含義下的不同英文表述。為了進一步提高分析的全面性,筆者在“Clusters”選項卡下以“graphene”為中心詞,設(shè)置詞簇長度在2~4范圍內(nèi)進行詞簇表的檢索,得出AntConc的詞簇檢索結(jié)果,從中可以看出仍然有很多無意義的詞簇搭配,筆者只選取其中有意義的實詞搭配進行分析。結(jié)合該結(jié)果與上文中的鄰近詞分析結(jié)果可以進一步完善與“graphene”有關(guān)的檢索專業(yè)詞庫。表2為最終構(gòu)建的石墨烯類材料專業(yè)詞庫(因篇幅所限,表2展示的僅為所建詞庫的一部分),可應(yīng)用于“石墨烯”相關(guān)領(lǐng)域的課題查新中,查新員可借助該詞庫進行檢索詞查找、檢索式編制、相關(guān)文獻分析等工作。與其他英漢互譯工具相比,該詞庫儲備的詞匯更完整,釋義更準確。
4結(jié)語
筆者通過分析現(xiàn)階段國內(nèi)外課題查新中存在的問題,尤其是英文檢索詞查找、英文文獻解讀等難題,提出將專用語料庫技術(shù)應(yīng)用于查新工作中,并以構(gòu)建石墨烯類材料專業(yè)術(shù)語詞庫為例,旨在輔助查新員更加高效、準確、全面地檢索及解讀專業(yè)領(lǐng)域英文文獻,進而提高科技查新的查全率和查準率,最終向查新委托人出具一份準確、高質(zhì)量的查新報告。
參考文獻:
[1]霍仲厚,劉胡波.醫(yī)藥衛(wèi)生科技查新教程[M].北京:軍事醫(yī)學科學出版社,2005:3.
[2]梁茂成,李文中,徐家金.語料庫應(yīng)用教程[M].北京:外語教學與研究出版社,2010:4.
[3]劉日升,楊振力.語料庫資源共享平臺建設(shè)構(gòu)想[J].大學圖書情報學刊,2012(2):46-49.
[4]屈鵬.開放環(huán)境科技語料庫質(zhì)量評價研究[J].情報理論與實踐,2016(5):79-85.
[5]王傳英.基于雙語平行語料庫的信息服務(wù)平臺建設(shè)[J].圖書館工作與研究,2010(12):79-82.
[6]田長斌.智慧圖書館中的智能技術(shù)應(yīng)用研究[J].河南圖書館學刊,2017(9):62-64.
(編校:崔萌)