陳秀剛/編譯
●科學家想要讓機器讀取學術期刊網中的論文,出版商顯然不樂意,兩方正在激烈交鋒。
科研工作者們在過去的一年里,普遍抱怨出版商不讓他們使用計算機程序下載和閱讀論文。他們認為出版商阻礙了他們的學術研究。
由于擔心文章內容可能會被隨意重新分配,出版商一旦發(fā)現機器在閱讀全文,通常會立即阻止程序運行,就算用戶支付費用也不能破例。他們只把權限給那些在逐案基礎上訪問和使用的協議客戶?,F在,歐洲委員會(ECC)和出版商財團正試圖創(chuàng)建更清晰的規(guī)則。但從不久前出版商給歐洲委員會組的投訴來看,討論文本數據挖掘的分歧依然存在。
“如果數據和文本挖掘技術繼續(xù)受到目前法律的限制,……下一個醫(yī)學突破將被封殺?!睔W盟委員會委員副總裁尼莉 克羅斯(Neelie Kroes)在去年九月的布魯塞爾知識產權峰會上如是說。
●text2genome項目從300萬篇研究論文中提取出DNA序列鏈接,創(chuàng)造出了在線基因組圖譜,其中每個區(qū)域與一篇研究論文相鏈接。
●NeuroSynth網站從近4 400篇研究文章中提取了腦掃描數據,允許用戶將人類大腦中的位置與相關研究術語和主題相鏈接。
●化學數據。SureChem網站成功從約20萬項專利中提取免費的分子數據。
●研究人員在論文數據庫中從兩千余萬篇文章中搜查摘要,發(fā)現了上皮細胞鈣粘蛋白(細胞粘附分子)和帕金森氏癥之間的間接聯系。
出版商說,到目前為止,幾乎沒有研究人員提出挖掘文件的要求。盡管如此,阿姆斯特丹的出版商愛思唯爾說,2012年,電腦機器人在其SCIENCEDIRECT網站平臺上爬行的流量占據網絡總流量的4%,幾乎是2011年的兩倍。不管初衷是什么,這一數字表明,不只是人類,機器也越來越會閱讀文章。
勞爾·羅德里格斯·埃斯特班,是康涅狄格州里奇菲爾德市勃林格殷格翰制藥公司的一名計算生物學家,他說,他在2012年進行了160項文本挖掘查詢。在其中一項里,他搜索了23 000余篇文章,挑選出數百蛋白質,可以減輕多發(fā)性硬化癥的小鼠模型。然后,他勾勒出網絡中相關的其他蛋白質,并發(fā)現了新的潛在的藥物目標。學術研究人員希望能獲得這種能力,但需要數月或數年談判協議才能獲得。位于加利福尼亞州的圣克魯斯大學的馬克思·霍伊斯勒(Max Haeussler),花了三年時間獲得下載3萬篇文章的權利,他從這些文章中提取DNA數據,并在人類基因組在線地圖中進行了標注。
今年下半年,英國將在非商業(yè)用途方面豁免文本挖掘的版權,從而使科學家在挖掘之前獲取他們需要付費的任何內容。文本挖掘人員希望歐盟也能這樣做?!澳壳坝脩糸g熱傳的口號是:‘我們應該有閱讀的權利’”英國曼徹斯特大學國家中心文本挖掘副主任約翰·麥克諾特說道。
但歐共體的工作組在今年討論文本和數據挖掘時產生了分歧。今年2月4日會后,研究人員和圖書館管理員都抱怨說,歐共體小組討論的只是如何在有文本挖掘許可證的情況下進行數據挖掘,而不是如何豁免文本挖掘版權?!爸粫岣卟捎眠@種技術的壁壘,并使得計算機基礎研究在很多情況下無法進行。”他們在2月26日給克羅斯和其他三位歐盟專員的信中這樣寫道,但這封信至今尚未得到答復。
英國巴斯大學的羅斯莫斯,目前正在使用文本挖掘從文獻中提取進化關聯的樹狀圖。他說,3月8日的第二次會議,歐盟也很難保證會認真考慮文本挖掘的豁免權事宜。歐共體工作組希望在年底能得出一致的結論和觀點。
●相關鏈接●
文本挖掘有時也被稱為文字探勘、文本數據挖掘等,大致相當于文字分析,一般指文本處理過程中產生高質量的信息。高質量的信息通常通過分類和預測來產生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(分析,同時加上一些衍生語言特征以及消除雜音,隨后插入到數據庫中),產生結構化數據,并最終評價和解釋輸出。典型的文本挖掘方法包括文本分類,文本聚類,概念/實體挖掘,生產精確分類,觀點分析,文檔摘要和實體關系模型。 [摘自維基百科]
美國的情況比較明朗,一些律師認為文本挖掘在 “合理使用”的情況下可以被允許進行,能夠自由復制一些文字片段。但是,沒有人對此了解的很確切,許多研究人員擔心這是對法律的灰色地帶的邊緣性挑戰(zhàn)。
一些出版商認為,無限制的文本挖掘會使他們的服務器使用過度,何時及如何下載文章還需再著重研究一下。 CrossRef網站是個非盈利組織,它擁有數以千計的學術出版物,目前他們正在開發(fā)一個系統,在這個系統里,研究人員可以點擊出版商網站的按鈕,以示同意標準文本挖掘條款。CrossRef的杰夫比德爾表示該系統有望在今年年底推出。
馬薩諸塞州丹弗斯的版權結算中心(CCC)的主要工作就是與出版商協商版權問題,目前它正努力為用戶尋求更多利益。版權結算中心的研究人員羅伊·考夫曼說,版權結算中心作為中介,會收集出版商的條款內容,并將其存儲在網站上。目前他們正與六個出版商(包括《自然》出版集團)及急于挖掘文獻的藥物化學品公司進行合作。
希瑟布魯爾達勒姆來自北卡羅萊納州的國家進化綜合中心,專門研究搜索人員如何使用數據,他認為,只允許像谷歌這樣的大企業(yè)挖掘文本內容是不公平的——然而迄今為止,科學家們都沒有權限使用數據?!肮雀柚浪谧鍪裁?,但我們其余的人卻沒有信用等級去挖掘數據,這說法是站不住腳的,”她在博客中寫道,“我肯定不希望是這樣的結局?!?/p>