——面向開(kāi)放獲取、數(shù)字標(biāo)識(shí)及實(shí)用型漢日雙向機(jī)器翻譯系統(tǒng)"/>
□ 李穎 朱禮軍 張鈞勝 張婧 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
張秀梅 楊公亮 / 萬(wàn)方醫(yī)學(xué)網(wǎng) 北京 100038
“第四屆中日韓科技信息機(jī)構(gòu)聯(lián)合研討會(huì)”概述*
——面向開(kāi)放獲取、數(shù)字標(biāo)識(shí)及實(shí)用型漢日雙向機(jī)器翻譯系統(tǒng)
□ 李穎 朱禮軍 張鈞勝 張婧 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
張秀梅 楊公亮 / 萬(wàn)方醫(yī)學(xué)網(wǎng) 北京 100038
文章首先簡(jiǎn)要介紹“第四屆中日韓科技信息機(jī)構(gòu)聯(lián)合研討會(huì)”的整體情況,其次,圍繞會(huì)議設(shè)立的新議題,即開(kāi)放獲取、數(shù)字標(biāo)識(shí),以及實(shí)用型漢日雙向機(jī)器翻譯系統(tǒng)進(jìn)行重點(diǎn)介紹,最后,簡(jiǎn)述會(huì)議專(zhuān)題討論的議題以及第五屆會(huì)議的計(jì)劃。
開(kāi)放獲取,數(shù)字標(biāo)識(shí),漢日與日漢機(jī)器翻譯,ISTIC,KISTI,JST
2013年9月9-10日,繼第一、二、三屆會(huì)議之后[1-3],日本科學(xué)技術(shù)振興機(jī)構(gòu)(JST)、中國(guó)科學(xué)技術(shù)信息研究所(ISTIC)、韓國(guó)科技信息研究院(KISTI)在日本東京成功地召開(kāi)了“第四屆中日韓科技信息機(jī)構(gòu)聯(lián)合研討會(huì)”。這是新一輪的交流盛會(huì),本輪會(huì)議在交流內(nèi)容與形式上都進(jìn)行了新的嘗試,是收獲更多的會(huì)議。
除三機(jī)構(gòu)之外,日本文部科學(xué)?。∕EXT)官員、日本情報(bào)通訊研究機(jī)構(gòu)(NICT)、日本國(guó)立信息學(xué)研究所(NII)、日本國(guó)立國(guó)會(huì)圖書(shū)館(NDL),以及北京萬(wàn)方數(shù)據(jù)有限公司的代表也參與了本屆聯(lián)席會(huì)。會(huì)議在JST現(xiàn)任理事大竹暁(見(jiàn)照片2左一,原文部科學(xué)省MEXT大臣官房審議官研究開(kāi)發(fā)負(fù)責(zé)人)熱忱的致辭后,參會(huì)代表進(jìn)行了暢所欲言的發(fā)言與討論。
本次會(huì)議的議題包括:(1)Evaluation and Analysis Based on STI;(2)Open Access;(3)Digital Identifiers;(4)e-journal;(5)New STI(科技信息)Services & Technologies;(6)Other。會(huì)議新設(shè)了半天專(zhuān)題討論會(huì):(1)Policy Oriented Session;(2)Technical Oriented Session and Service Oriented Session。詳細(xì)信息可參見(jiàn)附錄會(huì)議日程。
前三屆會(huì)議,發(fā)言人以母語(yǔ)發(fā)言,通過(guò)專(zhuān)業(yè)口譯者進(jìn)行交流。為了直接傳遞各自的思想與主張,節(jié)省發(fā)表時(shí)間,本次交流以英語(yǔ)發(fā)言為主,并輔以口譯。盡管大部分的中日韓三國(guó)代表還算不上英語(yǔ)的“達(dá)人”,但在共同興趣與合作愿望的驅(qū)動(dòng)下,交流的傳遞性達(dá)到了意想不到的良好效果,深化了代表們主動(dòng)參與的意識(shí),激情得以釋?xiě)选?/p>
有關(guān)會(huì)議內(nèi)容,除了延續(xù)性的議題之外,新增了開(kāi)放獲取、數(shù)字標(biāo)識(shí)、漢日雙向機(jī)器翻譯等話題。同時(shí),還新增了開(kāi)放獲取政策、信息技術(shù)與服務(wù)兩個(gè)專(zhuān)題討論。圍繞這些新議題以及專(zhuān)題討論,下文具體闡述。
2.1 開(kāi)放獲取
(1)Akira Nishi's “Open Access Policy”(JST)
JST代表Akira Nishi發(fā)表的開(kāi)放獲取政策包括三部分內(nèi)容:1)科技信息所處環(huán)境——全球開(kāi)放獲取的趨勢(shì);2)論文的開(kāi)放獲取——國(guó)外狀況/日本國(guó)內(nèi)狀況;3) 擴(kuò)展開(kāi)放獲取——科研數(shù)據(jù)的開(kāi)放獲取,國(guó)外狀況/日本國(guó)內(nèi)狀況。
1) 科技信息所處環(huán)境——全球開(kāi)放獲取的趨勢(shì)
見(jiàn)圖1全球開(kāi)放獲取狀況。其中,歐美國(guó)家基金機(jī)構(gòu)促進(jìn)論文的開(kāi)放獲取已有十余年;科研數(shù)據(jù)的開(kāi)放獲取也在加速。
2) 論文的開(kāi)放獲取——國(guó)外狀況/日本國(guó)內(nèi)狀況
就論文開(kāi)放獲取現(xiàn)狀而言,歐美領(lǐng)導(dǎo)基金機(jī)構(gòu)制定了相關(guān)政策,并采取了具體行動(dòng),見(jiàn)表1。
日本開(kāi)放獲取路線:2012年7月,科技審議會(huì)建議對(duì)學(xué)術(shù)成果實(shí)行開(kāi)放獲取[4];2012年12月,JSPS與JST聯(lián)合舉辦GRC(Global Research Council,全球研究委員會(huì))[5]亞太地區(qū)分會(huì);2013年4月,作為日本第一個(gè)基金機(jī)構(gòu),JST制訂了開(kāi)放獲取政策,并指定在CREST、Sakigake(戰(zhàn)略創(chuàng)新研究推進(jìn)事業(yè))項(xiàng)目中適用[6];2013年5月,在RCG的第二次年會(huì)上,一致同意對(duì)公共研究資金資助的研究論文實(shí)施開(kāi)放獲取行動(dòng)方案。
作為基金機(jī)構(gòu),JST支持開(kāi)放獲取,其行動(dòng)如下:
論文開(kāi)放獲取平臺(tái)J-STAGE:J-STAGE是JST研發(fā)的論文傳播系統(tǒng),為日本最大的電子期刊平臺(tái)之一。從1999年起,JST對(duì)一些學(xué)會(huì)論文的全文實(shí)施了開(kāi)放獲取[7-8]。
3) 擴(kuò)展開(kāi)放獲取——科研數(shù)據(jù)的開(kāi)放獲取
圖1 全球開(kāi)放獲取狀況
圖2 J-STAGE定位
表1 論文開(kāi)放獲取出版的具體行動(dòng)
表2 全球科研數(shù)據(jù)的開(kāi)放獲取行動(dòng)
除了論文之外,科研數(shù)據(jù)開(kāi)放獲取也在增長(zhǎng),如表2右欄所示。
目前,全球都在努力推進(jìn)科研數(shù)據(jù)開(kāi)放獲取。在發(fā)達(dá)國(guó)家,科研數(shù)據(jù)開(kāi)放獲取的手段不斷增多,比如:美國(guó)、歐盟、英國(guó)及其澳大利亞等是主要的促進(jìn)機(jī)構(gòu):
■ RDA(Research Data Alliance):成立于2012年8月的國(guó)際機(jī)構(gòu),由NSF、歐盟iCORDI(科研數(shù)據(jù)基礎(chǔ)設(shè)施國(guó)際合作)及澳大利亞ANDS資助。
■ iCORDI:創(chuàng)立于2012年9月的國(guó)際論壇,由歐盟委員會(huì)第七框架計(jì)劃投資。
■ WDS(World Data System):ICSU于2008年10月創(chuàng)立的旨在推進(jìn)全球科學(xué)數(shù)據(jù)(庫(kù))開(kāi)放的項(xiàng)目。
■ CODATA(Committee on Data for Science and Technology):ICSU科技數(shù)據(jù)委員會(huì)1966年創(chuàng)立。
■ GRC(Global Research Council):2012年5月成立,響應(yīng)美國(guó)NSF的要求,由遍布世界各國(guó)的代表性研究基金機(jī)構(gòu)組成。
有關(guān)科研數(shù)據(jù)最新動(dòng)態(tài),2013年6月12日,在G8會(huì)議上,日本科技大臣與科學(xué)院負(fù)責(zé)人聯(lián)合聲明提出了科研數(shù)據(jù)的開(kāi)放獲取[9]。
值得一提還有全球環(huán)境信息集成項(xiàng)目DIAS(Global environment information Integration program)。它將先進(jìn)的信息科學(xué)技術(shù)與全球環(huán)境有關(guān)的各種科學(xué)技術(shù)相結(jié)合,有效整合地球觀測(cè)數(shù)據(jù)、數(shù)值模型和社會(huì)經(jīng)濟(jì)數(shù)據(jù),建立了數(shù)據(jù)基礎(chǔ)設(shè)施,創(chuàng)造知識(shí),從而引導(dǎo)全球環(huán)境問(wèn)題的解決,并產(chǎn)出公共利益。
日本科研數(shù)據(jù)開(kāi)放與共享途徑:文部科學(xué)省、JST及NII的eRad-Read&Researchmap數(shù)據(jù)庫(kù)集中收集全日本的研究者信息,但目前還沒(méi)有跨部門(mén)應(yīng)用,參見(jiàn)表3。
JST創(chuàng)新情況:生命科學(xué)領(lǐng)域科研數(shù)據(jù)的開(kāi)放獲?。▏?guó)家生物科學(xué)數(shù)據(jù)中心,NBDC):
為實(shí)現(xiàn)在生物科學(xué)領(lǐng)域研究者之間共享研究成果,促進(jìn)社團(tuán)數(shù)據(jù)庫(kù)的整合,切實(shí)有效地推進(jìn)研究,NBDC提供該領(lǐng)域的數(shù)據(jù)庫(kù)目錄信息、橫向檢索、長(zhǎng)期保存等服務(wù)。其運(yùn)行的門(mén)戶網(wǎng)站為“integbio.jp”。同時(shí),進(jìn)行跨部門(mén)合作(MEXT、MHLW、MAFF、METI),提供大約4個(gè)部的1300種數(shù)據(jù)庫(kù)信息。
日本其他重要領(lǐng)域的數(shù)據(jù)開(kāi)放:材料數(shù)據(jù)庫(kù)(MatNavi)——建筑材料數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)組成為聚合物、無(wú)機(jī)材料、金屬材料、擴(kuò)散和超導(dǎo)材料等。大量的數(shù)據(jù)從出版的學(xué)術(shù)文獻(xiàn)中抽取。
總之,JST在改變信息項(xiàng)目的方向:作為研究機(jī)構(gòu),嘗試發(fā)布研發(fā)結(jié)果,從封閉模式向開(kāi)放模式轉(zhuǎn)變;整合日本的科技信息,構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò);緊隨開(kāi)放獲取的趨勢(shì),建立將科技信息與不同領(lǐng)域信息結(jié)合的體系,實(shí)現(xiàn)從信息的提供者向信息流通的運(yùn)行者轉(zhuǎn)變(changes from an information provider to information circulatory operator)。
(2)Tae-Sul Seo:開(kāi)放獲取活動(dòng)方面的新進(jìn)展(KISTI):
KISTI代表Tae-SulSeo發(fā)言的主要內(nèi)容:1) OA政策;2) OA期刊;3) 機(jī)構(gòu)知識(shí)庫(kù)(Institutional Repository,IR)。
1) OA政策
政策研究:
■ 從2010到2011年的2年內(nèi),研究開(kāi)放獲取,以利于研討政府資助成果的處置。調(diào)研韓國(guó)在公共獲取研究成果方面的政策及立法機(jī)制;調(diào)研國(guó)外公共獲取政策;分析包含研究者、大學(xué)、學(xué)術(shù)團(tuán)體、數(shù)據(jù)庫(kù)公司在內(nèi)的所有干系人之間的利益關(guān)系;準(zhǔn)備起草韓國(guó)公共獲取法案。
■ 然而,此項(xiàng)研究沒(méi)能持續(xù),理由是韓國(guó)開(kāi)放獲取意識(shí)的不成熟,以及數(shù)據(jù)庫(kù)公司反對(duì)立場(chǎng)的不妥協(xié)。
有關(guān)會(huì)議及論壇:
■ 自2010年起,KISTI每年都舉辦開(kāi)放獲取會(huì)議(Open Access Korea,OAKconferences):2010,主題是科學(xué)與學(xué)術(shù)信息的開(kāi)放獲取。特邀發(fā)言為Max Plank Library、NII、Seoul Univ.、KISTI;2011年,主題是開(kāi)放獲取的金色與綠色道路。特邀發(fā)言為中科院、NII和KISTI;2012/13年,參與韓國(guó)圖書(shū)館協(xié)會(huì)會(huì)議。
■ KISTI組織開(kāi)放獲取專(zhuān)家論壇:有來(lái)自政府、研究機(jī)構(gòu)、大學(xué)及數(shù)據(jù)庫(kù)公司20~30個(gè)成員;舉辦開(kāi)放獲取方面的研討會(huì)與講座。
開(kāi)放獲取項(xiàng)目:
■ KISTI參與了SCOAP3項(xiàng)目:SCOAP3是通過(guò)重新定向訂購(gòu)費(fèi)用來(lái)促進(jìn)高能物理領(lǐng)域開(kāi)放獲取出版的聯(lián)盟;KISTI代表韓國(guó)科學(xué)圖書(shū)館參與SCOAP3項(xiàng)目,提升韓國(guó)高能物理期刊的獲取性。
■ KISTI協(xié)助韓國(guó)的期刊出版社發(fā)行開(kāi)放獲取期刊:為了適用于韓國(guó)的開(kāi)放獲取期刊,開(kāi)發(fā)生命周期型期刊出版模式與平臺(tái);提供如何出版開(kāi)放獲取期刊的指引。
2) OA期刊
開(kāi)放獲取期刊的技術(shù)支持:
■ 構(gòu)建XML格式全文:包含25種同行評(píng)議的開(kāi)放獲取期刊中的2960篇文章;基于PMC DTD 3.0描述全文;開(kāi)發(fā)管理工具、PDF文檔轉(zhuǎn)化為XML文檔的半自動(dòng)化工具。
■ 運(yùn)行開(kāi)放獲取期刊的門(mén)戶網(wǎng)站:OAK中心、韓國(guó)開(kāi)放獲取期刊的門(mén)戶。圖形界面與各種服務(wù),利用XML全文,可進(jìn)行章節(jié)瀏覽與圖表的獨(dú)立窗口瀏覽等。網(wǎng)址為http:// central.oak.go.kr。
3) 機(jī)構(gòu)知識(shí)庫(kù)IR
機(jī)構(gòu)知識(shí)庫(kù)的技術(shù)支持:
■ IR的擴(kuò)展:已擴(kuò)展到25所大學(xué)、研究機(jī)構(gòu);基于Dspace;開(kāi)發(fā)開(kāi)源版軟件。
表3 日本科研數(shù)據(jù)開(kāi)放獲取情況
■ 運(yùn)行IR門(mén)戶:OAK門(mén)戶,韓國(guó)IR門(mén)戶;利用OAI-PMH協(xié)議收割I(lǐng)R內(nèi)容;網(wǎng)址為http://www.oak. go.kr。
(3)Sang-Ho Lee's KISTI Digital human Project and Medical Repository(KISTI)
Sang-Ho Lee發(fā)言的題目是KISTI數(shù)字人類(lèi)項(xiàng)目與醫(yī)學(xué)知識(shí)庫(kù)。
韓國(guó)人類(lèi)信息的需求:韓國(guó)人類(lèi)信息缺乏,而醫(yī)療、科學(xué)、生物醫(yī)學(xué)、安全、法醫(yī)、體育等多方面對(duì)人類(lèi)信息的需求在增多。如果利用其他國(guó)家的人類(lèi)信息,這些信息與韓國(guó)有別。
在此背景下,KISTI實(shí)施了數(shù)字韓國(guó)項(xiàng)目。項(xiàng)目期間為2003年到現(xiàn)在。主要任務(wù)是數(shù)據(jù)的加工與發(fā)布。加工由Dept. of Anatomy, Catholic University Medical College(天主教大學(xué)醫(yī)學(xué)院解剖學(xué)部)擔(dān)當(dāng),發(fā)布與維護(hù)是KISTI。
數(shù)據(jù)內(nèi)容包含:男女各50具尸體的整套CT圖像、合計(jì)100組男女3D骨骼圖像、一組韓國(guó)男女平均骨骼3D圖像、6組韓國(guó)男女3D皮膚圖像、韓國(guó)人的手腳以及牙齒的微CT圖像、骨頭機(jī)理特性評(píng)測(cè)數(shù)據(jù)。網(wǎng)站是http://dk.kisti.re.kr。
醫(yī)學(xué)數(shù)據(jù)知識(shí)庫(kù)構(gòu)建內(nèi)容:醫(yī)學(xué)圖像;骨骼機(jī)理特性;形狀測(cè)定值;人類(lèi)動(dòng)作分析;醫(yī)療教育視頻;人類(lèi)仿真模型;其他。
知識(shí)庫(kù)元數(shù)據(jù)為DataCite元數(shù)據(jù)Ver. 3.0,包括必要屬性(5個(gè)字段),即Identifier、Creator、Title、Publisher、Publication Year;推薦和可選屬性(13個(gè)字段),即Subject、Contributor、Date、Language、Resource Type、Alternate Identifier、Related Identifier、Size、Format、Version、Rights、Description、GeoLocation;附加屬性,即Sample Data、Measured Value Data、Property Data、Motion Data、Human Model Data、Disease Data。
KISTI構(gòu)建的醫(yī)學(xué)數(shù)據(jù)知識(shí)庫(kù)包含所有數(shù)字韓國(guó)與可視化韓國(guó)數(shù)據(jù)的元數(shù)據(jù)目錄,將上述項(xiàng)目的元數(shù)據(jù)上載到醫(yī)學(xué)數(shù)據(jù)知識(shí)庫(kù),采用開(kāi)放數(shù)據(jù)向公眾開(kāi)發(fā),使用P-CUBE[10]作為醫(yī)藥數(shù)據(jù)編目和數(shù)據(jù)管理系統(tǒng)。
下一步計(jì)劃:
■ 收集數(shù)據(jù),支持學(xué)會(huì)團(tuán)體:調(diào)查國(guó)家資金支持的醫(yī)學(xué)研究項(xiàng)目;收集可向公眾開(kāi)放的醫(yī)學(xué)數(shù)據(jù);建立元數(shù)據(jù)并通過(guò)P-CUBE上載數(shù)據(jù);對(duì)那些可自主增加數(shù)據(jù)的知識(shí)庫(kù)團(tuán)隊(duì)予以支持。
■ 與韓國(guó)NIH合作:韓國(guó)NIH與KISTI的開(kāi)放數(shù)據(jù)政策基本一致,也是醫(yī)學(xué)研究項(xiàng)目的基金機(jī)構(gòu)。
圖3 JaLC定位
2.2 數(shù)字標(biāo)識(shí)符
(1)Takafumi KATO's Renewal of JaLC Project and Its Updates(JST)
JST代表Takafumi KATO介紹的“JaLC項(xiàng)目與新進(jìn)展”包含的內(nèi)容有:日本學(xué)術(shù)信息傳播、JaLC項(xiàng)目、JaCL組織、業(yè)務(wù)模式及技術(shù)路線、進(jìn)展。
JST的核心工作之一是促進(jìn)科技信息的傳播,這與其支持創(chuàng)新的使命相一致。通過(guò)提供綜合信息基礎(chǔ)設(shè)施,聚焦于數(shù)據(jù)庫(kù)的易訪問(wèn)性,JST力圖為日本以及全世界的創(chuàng)新作出貢獻(xiàn)[11,12]。
在文獻(xiàn)數(shù)據(jù)庫(kù)方面的考慮:JST構(gòu)建與維護(hù)各種科學(xué)與學(xué)術(shù)數(shù)據(jù)庫(kù),比如二次文獻(xiàn)數(shù)據(jù)庫(kù)、研究者與生物技術(shù)數(shù)據(jù)庫(kù);這些數(shù)據(jù)庫(kù)中,最重要的是J-GLOBAL與J-STAGE;J-GLOBAL是將這些數(shù)據(jù)庫(kù)互鏈的系統(tǒng),由于其高利用性,深受研究者認(rèn)可;需要通過(guò)促進(jìn)出版社的電子出版,改善期刊的流通狀況,尤其是日語(yǔ)期刊。需要內(nèi)容所有者的參與;元數(shù)據(jù)的整合對(duì)網(wǎng)絡(luò)獲取的改善非常必要;作為元數(shù)據(jù),必須考慮多字節(jié)語(yǔ)種、出版類(lèi)型的兼容性。
在此背景下,JST啟動(dòng)了“Japan Link Center,即JaLC”[1],來(lái)解決這些問(wèn)題。
JST與其他大量?jī)?nèi)容的持有者參與了JaLC。JaLC是公共信息服務(wù)整合的國(guó)家項(xiàng)目,它是DOI的RA,通過(guò)DOI來(lái)促進(jìn)內(nèi)容之間的鏈接,拓寬傳播,并利用內(nèi)容。見(jiàn)圖3。
JaLC的功能:對(duì)學(xué)術(shù)期刊、博士論文、紀(jì)要、報(bào)告等內(nèi)容注冊(cè)DOI;通過(guò)DOI及PubMed ID,在數(shù)據(jù)庫(kù)之間提供互鏈(比如引用與被引);提供DOI在日本的注冊(cè)服務(wù)、各種類(lèi)型數(shù)字內(nèi)容全國(guó)范圍內(nèi)的解析服務(wù)、兼容多字節(jié)的元數(shù)據(jù)查詢服務(wù)。通過(guò)JaCL,促進(jìn)DOI在日本的應(yīng)用,促進(jìn)全球用戶獲取日本出版的學(xué)術(shù)信息,并與IDF及其他DOI RA合作。
進(jìn)展情況與挑戰(zhàn):重復(fù)內(nèi)容的處理;機(jī)構(gòu)知識(shí)庫(kù)vs出版社、機(jī)構(gòu)知識(shí)庫(kù)vs機(jī)構(gòu)知識(shí)庫(kù)(具有多個(gè)作者的論文);作者自有版本的論文處理;科學(xué)數(shù)據(jù)或圖書(shū)DOI注冊(cè);接受作者ID的注冊(cè),比如ORCIR;科學(xué)數(shù)據(jù)注冊(cè)方面的問(wèn)題:范圍、粒度;元數(shù)據(jù)政策;可擴(kuò)展性等等。
(2)Takashi HORIE's Comprehensive Identification System - Improved Identification for Author Affiliation and Bibliographic Records(JST)
JST的Takashi HORIE發(fā)言題目是綜合標(biāo)識(shí)系統(tǒng)——促進(jìn)作者機(jī)構(gòu)與二次文獻(xiàn)記錄的標(biāo)識(shí)。
參見(jiàn)圖4,在促進(jìn)科技信息傳播方面,JST提供的J-GLOBAL系統(tǒng)中,對(duì)科技基礎(chǔ)元數(shù)據(jù)進(jìn)行了組織與關(guān)聯(lián),以利于產(chǎn)業(yè)創(chuàng)新。該系統(tǒng)的目標(biāo)是“JST知識(shí)基礎(chǔ)設(shè)施”。它更新頻繁,是更為先進(jìn)和對(duì)公眾開(kāi)放的系統(tǒng),用于國(guó)家與企業(yè)的戰(zhàn)略決策。為此需要進(jìn)行如下工作:
首先構(gòu)建作者標(biāo)識(shí)系統(tǒng)。各類(lèi)科技作者,包含專(zhuān)利的申請(qǐng)人,即使他們具有相同的姓名或有不同的表記方式,都要與其他作者加以區(qū)別。見(jiàn)圖5。
圖4 綜合標(biāo)識(shí)體系的發(fā)展路線
圖6 作者標(biāo)識(shí)所需數(shù)據(jù)的整合方法
第二個(gè)項(xiàng)目是作者機(jī)構(gòu)標(biāo)識(shí)系統(tǒng)。通過(guò)機(jī)構(gòu)歷史數(shù)據(jù)等,即使持有相同名稱(chēng)的機(jī)構(gòu)、同一機(jī)構(gòu)具有不同的表記(名稱(chēng))、或者名稱(chēng)有變更,也可以唯一標(biāo)識(shí)(同定)。目前,JST正在開(kāi)發(fā)綜合標(biāo)識(shí)系統(tǒng),也就是作者與機(jī)構(gòu)標(biāo)識(shí)系統(tǒng)的組合,它將提供更加先進(jìn)的標(biāo)識(shí)符。本發(fā)言主要介紹綜合標(biāo)識(shí)系統(tǒng)。
目前,科技數(shù)據(jù)應(yīng)用于國(guó)家和企業(yè)戰(zhàn)略決策時(shí),主要任務(wù)之一是分析技術(shù)趨勢(shì)。該方法著重于研究人員和從屬機(jī)構(gòu)。它將從事某一領(lǐng)域、從屬某一研究機(jī)構(gòu)的某一人的數(shù)據(jù)進(jìn)行整合與可視化,并基于研究論文與專(zhuān)利文獻(xiàn),而其中使用了不同的表記。例如,日本研究者的名字可以采用相同讀音的漢字、不同字符或僅包含首字母等方式。如果用普通的關(guān)鍵詞進(jìn)行檢索,具有完全或部分相同姓名的不同研究者都會(huì)命中,導(dǎo)致結(jié)果中含有不需要的數(shù)據(jù)。作者標(biāo)識(shí)系統(tǒng)要實(shí)現(xiàn)只包含必要的數(shù)據(jù),去除噪音。
圖6展示了作者標(biāo)識(shí)系統(tǒng)中所用數(shù)據(jù)的整合方法:具有相同或相似姓與名的人可能為同一個(gè)人。表記的不同,比如漢字、字母及首字母等,都要考慮;具有相同的姓與名以及合作者或共同研究者可能是同一人;具有相同的姓與名以及機(jī)構(gòu)可能為同一人;具有相同的姓與名以及相近的研究題目與專(zhuān)利申請(qǐng)可能是同一人。
圖7 作者標(biāo)識(shí)流程
圖8 作者機(jī)構(gòu)標(biāo)識(shí)的原型機(jī)制
圖9 綜合標(biāo)識(shí)系統(tǒng)的整合機(jī)制
JST的作者標(biāo)識(shí)系統(tǒng)考慮了不同的姓名表記形式,合作者也包括在處理過(guò)程中。除了姓名,他們的機(jī)構(gòu)、研究題目和專(zhuān)利申請(qǐng)等也考慮在其中,這些有助于更準(zhǔn)確地標(biāo)識(shí)。作者標(biāo)識(shí)處理過(guò)程如圖7所示。
作者標(biāo)識(shí)系統(tǒng)的精度為98.6%,召回率90.8%。以下闡述作者標(biāo)識(shí)的過(guò)程,它大致分為兩步:準(zhǔn)備和標(biāo)識(shí)。準(zhǔn)備,構(gòu)建一個(gè)大的群簇cluster,包含了所有可能的作者,它們都可能是需要檢索的人。確定其姓名或機(jī)構(gòu)的所有不同表記,比如,不同的字母或縮寫(xiě)等。接下來(lái)確定科技術(shù)語(yǔ)的出現(xiàn)或共現(xiàn)頻率。在收集E-mail或參考文獻(xiàn)之際,利用Scopus;標(biāo)識(shí),該過(guò)程分為兩步,第一步是查找日語(yǔ)和英語(yǔ)的同一人。作者和機(jī)構(gòu)名稱(chēng),要考慮術(shù)語(yǔ)及合作者。同樣的步驟再用于專(zhuān)利申請(qǐng)。最后,在兩個(gè)數(shù)據(jù)庫(kù)間進(jìn)行標(biāo)識(shí)。
作者機(jī)構(gòu)標(biāo)識(shí)的原型機(jī)制如圖8所示。步驟一,收集每6年的論文;步驟二,給組中的作者作標(biāo)識(shí),賦予ID;步驟三,聚焦于作者機(jī)構(gòu)再收集論文;步驟四,聚類(lèi)作者機(jī)構(gòu)數(shù)據(jù),基于作者ID和機(jī)構(gòu)名稱(chēng)相似度進(jìn)行標(biāo)識(shí);步驟五,對(duì)過(guò)去6年所有群簇進(jìn)行組合;最后,對(duì)所有與J-GLOBAL數(shù)據(jù)相匹配的數(shù)據(jù)給出標(biāo)簽。作者機(jī)構(gòu)標(biāo)識(shí)系統(tǒng)的精度為95.3%、召回率95.0%。
綜合標(biāo)識(shí)系統(tǒng)的開(kāi)發(fā)。JST的開(kāi)發(fā)團(tuán)隊(duì)認(rèn)為,作者標(biāo)識(shí)與機(jī)構(gòu)標(biāo)識(shí)整合的綜合標(biāo)識(shí)系統(tǒng)會(huì)更有效和有用。作者機(jī)構(gòu)標(biāo)識(shí)系統(tǒng)應(yīng)類(lèi)似地采用作者名稱(chēng)、術(shù)語(yǔ)和分類(lèi)范疇。需要利用任何可獲得的數(shù)據(jù)和手工修正。作者機(jī)構(gòu)標(biāo)識(shí)系統(tǒng)的結(jié)果應(yīng)當(dāng)用于作者標(biāo)識(shí)系統(tǒng)以獲得較好的精度。整合機(jī)制如圖9所示。
綜合標(biāo)識(shí)系統(tǒng)機(jī)制:目標(biāo)是論文與專(zhuān)利數(shù)據(jù)庫(kù),整合作者和作者機(jī)構(gòu)系統(tǒng)的共通部分,不同部分分別處理。步驟1和2是整合處理。論文與專(zhuān)利按照年代被分成不同的組,并對(duì)這些組中的數(shù)據(jù)進(jìn)行規(guī)范。步驟3~5為各個(gè)不同處理。規(guī)范化的數(shù)據(jù)按照作者或機(jī)構(gòu)被再次分組。然后被聚類(lèi)、整合,確定所有的沖突。整合論文群簇和專(zhuān)利群簇,確定沖突。最后,賦予ID,研究者數(shù)據(jù)將與J-GLOBAL ID的既有數(shù)據(jù)關(guān)聯(lián)。需要時(shí),適當(dāng)進(jìn)行手工修正。
本年度末JST將實(shí)現(xiàn)的目標(biāo)為:論文與專(zhuān)利數(shù)據(jù)庫(kù)中作者標(biāo)識(shí),加權(quán)平均精度大于98%、加權(quán)平均召回率大于90%;論文與專(zhuān)利數(shù)據(jù)庫(kù)中機(jī)構(gòu)標(biāo)識(shí),加權(quán)平均精度大于95%、加權(quán)平均召回率大于95%。
(3)Seok-Hyoung Lee's Author Identification and Author Name Authority Control Project of KISTI(KISTI)
Seok-Hyoung Lee發(fā)言題目是KISTI作者標(biāo)識(shí)與作者名稱(chēng)規(guī)范控制項(xiàng)目。主要內(nèi)容包含:1)引言;2)作者標(biāo)識(shí)的戰(zhàn)略;3)規(guī)范控制系統(tǒng)。
1) 引言
作者標(biāo)識(shí):作者標(biāo)識(shí)是現(xiàn)實(shí)世界中,出現(xiàn)在學(xué)術(shù)信息中的作者與其他人的對(duì)應(yīng),從強(qiáng)化信息檢索精度的角度,作者標(biāo)識(shí)是一個(gè)重要的問(wèn)題。主要工作是作者消歧:區(qū)別相同姓名的不同作者;解決同一人的名稱(chēng)不一致問(wèn)題。
KISTI的作者標(biāo)識(shí),目的:提高基于作者名稱(chēng)的學(xué)術(shù)信息檢索精度;范圍:韓國(guó)出版學(xué)術(shù)期刊中出現(xiàn)的作者。其中,韓國(guó)人占95%,中國(guó)人、日本人、東南亞、中亞、英美等占5%。還要考慮在國(guó)際期刊中出現(xiàn)的韓國(guó)人。
考慮事項(xiàng):
◆ 大規(guī)模聯(lián)機(jī)數(shù)據(jù)庫(kù)
◇ 韓國(guó)出版的超過(guò)1,000,000篇的論文
◇ 國(guó)際期刊中大約100,000,000篇論文(韓國(guó)作者為100,000篇)
◇ 大約需要處理3,500,000作者,標(biāo)識(shí)每一作者
◆ 成本
◇ 回溯數(shù)據(jù)的快速與準(zhǔn)確處理
◇ 自動(dòng)標(biāo)識(shí)處理的限度
◇ 新增論文作者信息的更新
◆ 研討
◇ 作者標(biāo)識(shí)的戰(zhàn)略
◇ 規(guī)范數(shù)據(jù)的管理系統(tǒng)——規(guī)范控制系統(tǒng)
◇ 應(yīng)用
2) 作者標(biāo)識(shí)系統(tǒng)的戰(zhàn)略
目標(biāo):快速、準(zhǔn)確地解決在大規(guī)模聯(lián)機(jī)數(shù)據(jù)庫(kù)中出現(xiàn)的具有完全相同名稱(chēng)的不同人及其同一人的不一致名稱(chēng)的問(wèn)題。
作者標(biāo)識(shí)的重要屬性:
◇ 作者名稱(chēng)字符串a(chǎn)uthor's name string
◇ 作者機(jī)構(gòu)affiliations of author
◇ e-mail地址e-mail address
◇ 合著者名稱(chēng)與機(jī)構(gòu)coauthor's name and affiliations
◇ 作者關(guān)鍵詞keywords by authors
◇ 期刊名稱(chēng)journal titles
◇ 主題分類(lèi)subject classifications
◇ 出版年published year
◇ 合著者順序co-author's order
作者標(biāo)識(shí)系統(tǒng)的流程如圖10所示。
3) 規(guī)范控制系統(tǒng)
圖10 作者標(biāo)識(shí)的流程
參見(jiàn)圖11規(guī)范控制過(guò)程。KISTI規(guī)范控制系統(tǒng)的功能如下(圖12):
◇ 驗(yàn)證作者簇群
→2-phase驗(yàn)證(構(gòu)建者,管理員)
→論文驗(yàn)證、Web檢索(利用機(jī)構(gòu)網(wǎng)頁(yè)、Web門(mén)戶)
◇ 從作者簇群到規(guī)范數(shù)據(jù)的轉(zhuǎn)換
→FRAD(規(guī)范數(shù)據(jù)的功能需求)概念模式的應(yīng)用
→采用MADS(Metadata Authority Data Scheme)2.0描述
◇ 檢索與規(guī)范數(shù)據(jù)的更新
(4)ZHANG Xiumei's From Information Service to Intelligence Service-Practice of Wanfang Med Online(Wanfang Data)
作為科技信息行業(yè)唯一的企業(yè)代表,萬(wàn)方醫(yī)學(xué)網(wǎng)張秀梅經(jīng)理的發(fā)言題目是“從信息服務(wù)到情報(bào)服務(wù)——萬(wàn)方醫(yī)學(xué)網(wǎng)的實(shí)踐”。包含的內(nèi)容主要有:萬(wàn)方醫(yī)學(xué)網(wǎng)的發(fā)展路線(圖13);萬(wàn)方醫(yī)學(xué)網(wǎng)體系結(jié)構(gòu)(圖14);萬(wàn)方醫(yī)學(xué)網(wǎng)的現(xiàn)在——基于DOI的應(yīng)用(圖15與16)。
圖11 規(guī)范控制過(guò)程
圖12 規(guī)范控制系統(tǒng)的功能
圖13 萬(wàn)方醫(yī)學(xué)網(wǎng)的發(fā)展路線圖
圖14 萬(wàn)方醫(yī)學(xué)網(wǎng)體系結(jié)構(gòu)
2.3 實(shí)用型漢日雙向機(jī)器翻譯
(1)Kenichi SUMIMOTO's Promoting Science and Technology Exchange using Machine Translation(JST)[13,14]
見(jiàn)圖17,英語(yǔ)科技信息一直處于統(tǒng)治地位。然而,其他語(yǔ)種論文的增加也不容忽視。中文論文快速成長(zhǎng)、日語(yǔ)論文的份額在非英語(yǔ)的語(yǔ)種中處于前列。
機(jī)器翻譯項(xiàng)目的背景:
■ 牛頓說(shuō)過(guò):如果我看得更遠(yuǎn),是因?yàn)檎驹诰奕说募绨蛏?/p>
■ 科技發(fā)展依賴(lài)于研究成果的共享
■ 科研工作需要克服語(yǔ)言障礙,來(lái)直接獲取有價(jià)值的外文文獻(xiàn)
■ 機(jī)器翻譯的重要性在增高,中日實(shí)用化機(jī)器翻譯重要性凸顯
■ 機(jī)器翻譯項(xiàng)目的成果將極大地促進(jìn)科技的進(jìn)步
項(xiàng)目計(jì)劃見(jiàn)圖18,本年度的目標(biāo):中日數(shù)據(jù)詞典的構(gòu)建。從關(guān)鍵詞列表中收集雙語(yǔ)術(shù)語(yǔ),采用受限隱馬爾可夫模型和中間語(yǔ)言。
如圖19詞典構(gòu)建原理所示,英語(yǔ)為中間語(yǔ)言,需要建立日-英資源。首先利用CiNii(NII的學(xué)術(shù)信息導(dǎo)航系統(tǒng)),獲得有關(guān)數(shù)據(jù):
◇ 利用論文、圖書(shū)及雜志的數(shù)據(jù)庫(kù)檢索服務(wù)
圖15 萬(wàn)方醫(yī)學(xué)網(wǎng)的現(xiàn)在
圖16 萬(wàn)方醫(yī)學(xué)網(wǎng)的未來(lái)
圖17 世界研究論文[*基于Web of Science的數(shù)據(jù)]
圖18 項(xiàng)目計(jì)劃
圖19 詞典構(gòu)建原理
◇ 從關(guān)鍵詞一覽中抽取有關(guān)字段
◇ 應(yīng)用JST科技術(shù)語(yǔ)詞典
◇ 手工修正
應(yīng)用LCAS(中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心)數(shù)據(jù):
■ LCAS向JST免費(fèi)提供中文文獻(xiàn)數(shù)據(jù)庫(kù)
◇ 目前為921K文獻(xiàn)(since 2007)
■ 每一文獻(xiàn)記錄中包含
◇ journal name
◇ keyword list
◇ title
◇ abstract
■ 大約80%的文檔有中英文,其他僅為中文或英文
■ JST為所有文檔的文摘建立了日文翻譯,可用于平行語(yǔ)料
開(kāi)發(fā)實(shí)用化機(jī)器翻譯系統(tǒng)需要做的工作:
■ 提高對(duì)齊質(zhì)量,需要考慮
◇ 基于實(shí)例的翻譯系統(tǒng)對(duì)對(duì)齊錯(cuò)誤非常敏感
◇ 功能詞、虛詞如日語(yǔ)情態(tài)表達(dá)式容易引起對(duì)齊誤差
■ 中文句法分析錯(cuò)誤的魯棒性
◇ 中文句法分析困難極大(詞切分、詞性標(biāo)注與依存分析)
◇ 需要魯棒的方法處理句法分析錯(cuò)誤
■ 構(gòu)建一個(gè)“生態(tài)系統(tǒng)”
◇ 國(guó)家、機(jī)構(gòu)與人之間的合作
◇ 共享知識(shí)、資源與技術(shù)
◇ 推出通用的服務(wù),獲得反饋,改進(jìn)產(chǎn)品
(2)ZHANG Junsheng's Towards Multilingual Scientific and Technical Information Service: Machine Translation and Cross-lingual Information Retrieval(ISTIC)
張鈞勝博士介紹了ISTIC機(jī)器翻譯與跨語(yǔ)言檢索工作的使命:為科技信息服務(wù)提供技術(shù)支持;擔(dān)負(fù)的任務(wù):支持多語(yǔ)言科技信息檢索、支持多語(yǔ)言科技信息的理解、支持多語(yǔ)言科技科技信息的翻譯。目標(biāo)是實(shí)現(xiàn)多語(yǔ)言科技信息的服務(wù)。目前,ISTIC多語(yǔ)言科技信息服務(wù)有:機(jī)器翻譯、跨語(yǔ)言信息檢索。
正在進(jìn)行的工作:
☆ 日中機(jī)器翻譯與跨語(yǔ)言信息檢索
■ 構(gòu)建日中翻譯引擎
◆ 結(jié)合統(tǒng)計(jì)與實(shí)例機(jī)器翻譯技術(shù)
◆ 建立實(shí)用化的日中跨語(yǔ)言檢索系統(tǒng)
◆ 在幾個(gè)研究研究采用更多的雙語(yǔ)術(shù)語(yǔ)
■ 基于NSTL數(shù)據(jù)圖書(shū)館系統(tǒng)進(jìn)行開(kāi)發(fā)
☆ 多語(yǔ)言科技敘詞表
■ 語(yǔ)種:日-英-中
■ 條目:大約60,000條;大約250,000個(gè)關(guān)系。
有關(guān)OA政策分組討論的主題:變化與新發(fā)展,在科技信息領(lǐng)域和其相關(guān)領(lǐng)域適應(yīng)新政府的管理;科技信息領(lǐng)域的開(kāi)放獲取。
有關(guān)技術(shù)與服務(wù)的分組討論的主題:科技信息的標(biāo)識(shí)系統(tǒng);RDF與Linked Open Data;本體。
1)舉辦時(shí)間/場(chǎng)所
2014年,中國(guó)。主辦方:ISTIC。
2)舉辦方式
基本沿襲第四屆會(huì)議的方式,并考慮有所創(chuàng)新。希望通過(guò)邀請(qǐng)國(guó)內(nèi)相關(guān)機(jī)構(gòu)的參與,擴(kuò)大合作的深度和廣度。
[1] 李穎,劉靜波.基于DOI RAs機(jī)制的科學(xué)數(shù)據(jù)管理與共享:“第一屆中日韓DOI項(xiàng)目合作討論會(huì)”概述[J].數(shù)字圖書(shū)館論壇,2013(8).
[2] 李穎,徐碩,朱禮軍,等.面向技術(shù)創(chuàng)新服務(wù)與DOI應(yīng)用的國(guó)際合作:“第三屆中日韓科技信息機(jī)構(gòu)聯(lián)合研討會(huì)”概述[J].數(shù)字圖書(shū)館論壇,2012(11):51-60. [3] 李穎,梁冰,喬曉東."第二屆中日韓科技信息機(jī)構(gòu)聯(lián)合會(huì)議"綜述[J].數(shù)字圖書(shū)館論壇,2011(6).
[4] 文部科學(xué)省科技與學(xué)術(shù)審議會(huì)[EB/OL]. [2013-09-12]. http://www.mext.go.jp/b_menu/shingi/gijyutu/gijyutu4/toushin/attach/1323861.htm.
[5] Open and shared access to scientiflc information [EB/OL]. [2013-09-12]. http://www.jst.go.jp/report/2012/121211_4_e.html.
[6] オープンアクセスに関するJST の方針[EB/OL]. [2013-09-12]. http://www.jst.go.jp/pr/intro/pdf/policy_openaccess.pdf.
[7] 李穎,等.“科技期刊開(kāi)放存取服務(wù)國(guó)際研討會(huì)”綜述[J].數(shù)字圖書(shū)館論壇,2010(6).
[8] 李穎,等.日本學(xué)術(shù)信息的OA出版和機(jī)構(gòu)倉(cāng)儲(chǔ)共建項(xiàng)目的概述及啟示[J].數(shù)字圖書(shū)館論壇,2009(11).
[9] G8科技大臣聲明[EB/OL]. [2013-09-12]. http://www.g8.utoronto.ca/science/130613-science.html.
[10] 劉靜波,李穎.科學(xué)數(shù)據(jù)整合與管理開(kāi)放平臺(tái)P-CUBE[J].數(shù)字圖書(shū)館論壇,2013(8).
[11] 李穎,等.基于DOI系統(tǒng)的中日韓三國(guó)之間科技信息共享[J].中國(guó)科技資源導(dǎo)刊,2012(6).
[12]李穎,喬曉東,深澤信之.日本科學(xué)技術(shù)振興機(jī)構(gòu)縱覽及其科技信息流通促進(jìn)體系[J].數(shù)字圖書(shū)館論壇,2011(3).
[13] 李穎,于薇,張鈞勝.“中日兩國(guó)機(jī)器翻譯技術(shù)合作研討會(huì)”綜述[J].數(shù)字圖書(shū)館論壇,2011(12).
[14] 李穎,吳琳.從跨語(yǔ)言信息檢索論日本國(guó)日中·中日機(jī)器翻譯研發(fā)前沿[J].數(shù)字圖書(shū)館論壇,2008(9).
作者簡(jiǎn)介
李穎,信息系統(tǒng)專(zhuān)業(yè)博士。研究方向:知識(shí)工程,知識(shí)服務(wù)系統(tǒng)。E-mail: liying@istic.ac.cn
Open Access and Digital Identiflers - Review for "the 4th China-Japan-Korea Joint Seminar"
Li Ying, Zhu Lijun, Zhang Junsheng, Zhang Jing / Institute of Scientiflc and Technical Information of China, Beijing, 100038
Zhang Xiumei, Yang Gongliang / Wanfang Med Online, Beijing, 100038
First, this article briefly introduces "the 4th Japan-China-Korea S&T Information Institutes Joint Seminar" generally. Then, focusing the newly set up agendas, namely, open access, digital identiflcation, as well as the Practical Chinese-Japanese Machine Translation System are introduced. Finally, the article gives the topics of Parallel Session, as well as the plan of the 5th Seminar.
Open access, Digital identiflcation, Chinese-Japanese Machine Translation, ISTIC, KISTI, JST
10.3772/j.issn.1673—2286.2013.11.007
2013-10-09)
*項(xiàng)目:獲得中國(guó)科學(xué)技術(shù)信息研究所科研項(xiàng)目預(yù)研資金“基于DITA標(biāo)準(zhǔn)的語(yǔ)義知識(shí)系統(tǒng)框架設(shè)計(jì)及應(yīng)用研究”、“十二五”科技支撐計(jì)劃項(xiàng)目科技知識(shí)組織體系共享服務(wù)平臺(tái)建設(shè)(編號(hào):2011BAH10B03)的支持。