徐麗芳 駱雙麗 湛青
2011年二三月間,全球出版業(yè)的研究智囊之一出版研究協(xié)會(huì)(PBC)委托兩位荷蘭研究者Eefke Smit和Maurits van der Graaf進(jìn)行了一項(xiàng)有關(guān)期刊論文內(nèi)容挖掘的研究工作。項(xiàng)目訪談了29位內(nèi)容挖掘研究專家并針對(duì)學(xué)術(shù)出版商展開問卷調(diào)查,最終就內(nèi)容挖掘的發(fā)展現(xiàn)狀、利益相關(guān)者、政策和趨勢(shì)等問題做出了回答。
所謂內(nèi)容挖掘(content mining)是指為滿足信息檢索、信息提取或薈萃分析的需要而采用自動(dòng)化的工具、技巧和技術(shù)來處理大量非結(jié)構(gòu)化或非均一結(jié)構(gòu)的數(shù)字內(nèi)容。內(nèi)容挖掘的應(yīng)用范圍很廣,受到了從早期信息科學(xué)家和藥物研發(fā)人員到近來市場(chǎng)營銷人員、廣告從業(yè)人員、商業(yè)分析師和法律從,業(yè)人員的歡迎。舉例來說,藥物學(xué)家可以通過挖掘記載藥物副作用的文獻(xiàn)來發(fā)現(xiàn)藥物的新用途;市場(chǎng)人員可以通過情感分析等挖掘技術(shù)來處理臉書、推特等社交媒介上的信息,從而了解人們對(duì)于產(chǎn)品或服務(wù)的真實(shí)態(tài)度。
內(nèi)容挖掘經(jīng)過了幾個(gè)演化階段(見圖1):一開始主要通過識(shí)別書目數(shù)據(jù)來促進(jìn)信息檢索;當(dāng)前的主流是通過與數(shù)據(jù)庫相連的語義標(biāo)簽來完成實(shí)體識(shí)別;下一步關(guān)注的熱點(diǎn)是實(shí)現(xiàn)信息提取,以揭示文獻(xiàn)內(nèi)(間)和內(nèi)容庫內(nèi)(間)實(shí)體之間的關(guān)系;新興的綜合內(nèi)容分析可根據(jù)應(yīng)用目的和領(lǐng)域集聚不同形式的相關(guān)內(nèi)容;而最有前景的應(yīng)用,則是利用人工智能來發(fā)掘隱含的知識(shí),即完成知識(shí)發(fā)現(xiàn)功能。專家們對(duì)于數(shù)據(jù)挖掘的態(tài)度并不相同:悲觀者認(rèn)為內(nèi)容挖掘技術(shù)應(yīng)用領(lǐng)域有限且高度分化,另外許多自動(dòng)化工具都離不開人工干預(yù);樂觀者認(rèn)為過去5—10年間標(biāo)準(zhǔn)術(shù)語集和識(shí)別工具等都有了長(zhǎng)足發(fā)展,而且領(lǐng)域化有助于提升所獲取信息的準(zhǔn)確性和可重用性,因此反而是優(yōu)勢(shì)所在。
作為原始內(nèi)容提供商,出版商對(duì)于內(nèi)容挖掘可謂一則以喜、一則以懼。喜的是內(nèi)容挖掘作為有用的工具,出版商同樣可以利用它來提升自己產(chǎn)品和服務(wù)的質(zhì)量。全球最大的幾家學(xué)術(shù)出版集團(tuán),如愛思唯爾的SciVal、施普林格的SpringerMaterials數(shù)據(jù)庫和湯森一路透的科學(xué)網(wǎng)平臺(tái)等,都是利用數(shù)據(jù)挖掘技術(shù)來豐富自身信息產(chǎn)品和服務(wù)并提高其可獲得性的典范。而在回復(fù)調(diào)查問卷的190位受訪學(xué)術(shù)出版商中,也有50%-60%打算挖掘自家內(nèi)容以改善信息導(dǎo)航,25%-30%擬提供語義標(biāo)簽,30%-45%計(jì)劃藉此開發(fā)新產(chǎn)品。懼的則是第三方利用挖掘技術(shù)生成的衍生信息產(chǎn)品很有可能成為原始內(nèi)容的替代品,從而將出版商置于信息產(chǎn)業(yè)鏈的底端,收窄其贏利和生存空間。事實(shí)上,77%受訪者曾收到第三方的內(nèi)容挖掘請(qǐng)求,其中年出版期刊1000種以上者更有88%收到了此類請(qǐng)求;其中絕大部分收到的請(qǐng)求在每年10次以下,但數(shù)量呈上漲趨勢(shì)。請(qǐng)求大部分來自文摘和索引服務(wù)提供商,還有少量來自公司客戶以及科研機(jī)構(gòu)和個(gè)人??傮w而言,出版商們的態(tài)度相當(dāng)開放。90%以上受訪者曾同意出于研究目的的挖掘請(qǐng)求;32%允許各種挖掘請(qǐng)求而無需專門批準(zhǔn),其中28%實(shí)行了開放存取政策;14%公開發(fā)布了正式的數(shù)據(jù)挖掘政策,21%則正在制定。69%受訪者逐件受理請(qǐng)求;80%會(huì)要求說明意圖和目的,如果結(jié)果會(huì)導(dǎo)致替代和競(jìng)爭(zhēng),53%受訪者會(huì)拒絕請(qǐng)求。
出版商在將來如何優(yōu)化通用的內(nèi)容挖掘解決方案上意見仍有分歧。30%出版商認(rèn)為開放存取是內(nèi)容挖掘的前提條件,50%則不同意此觀點(diǎn)。人氣指數(shù)(PI)排前3位的措施分別是:更加標(biāo)準(zhǔn)化的便于挖掘的內(nèi)容形式(56PI),共享的內(nèi)容平臺(tái)(37PI)和得到普遍認(rèn)可的內(nèi)容挖掘許可規(guī)則(34PI)。但是除了第一條外,其他兩條并未得到內(nèi)容挖掘研究者的認(rèn)可。另外,出版商和專家都不贊成由圖書館來實(shí)行數(shù)據(jù)挖掘。
綜上,受訪出版商清醒地意識(shí)到了第三方內(nèi)容挖掘所帶來的機(jī)遇和威脅,如何抓住機(jī)遇、應(yīng)對(duì)威脅將是全球出版商下一步需要深思和探索的迫切課題。(本文資料來自PBC的調(diào)查報(bào)告《期刊文章挖掘》)
(作者單位系武漢大學(xué)數(shù)字出版研究所)