国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

內(nèi)容挖掘的機(jī)遇和威脅

2013-04-29 21:34:23徐麗芳駱雙麗湛青
出版參考 2013年8期
關(guān)鍵詞:出版商受訪者數(shù)據(jù)挖掘

徐麗芳 駱雙麗 湛青

2011年二三月間,全球出版業(yè)的研究智囊之一出版研究協(xié)會(huì)(PBC)委托兩位荷蘭研究者Eefke Smit和Maurits van der Graaf進(jìn)行了一項(xiàng)有關(guān)期刊論文內(nèi)容挖掘的研究工作。項(xiàng)目訪談了29位內(nèi)容挖掘研究專家并針對(duì)學(xué)術(shù)出版商展開問卷調(diào)查,最終就內(nèi)容挖掘的發(fā)展現(xiàn)狀、利益相關(guān)者、政策和趨勢(shì)等問題做出了回答。

所謂內(nèi)容挖掘(content mining)是指為滿足信息檢索、信息提取或薈萃分析的需要而采用自動(dòng)化的工具、技巧和技術(shù)來處理大量非結(jié)構(gòu)化或非均一結(jié)構(gòu)的數(shù)字內(nèi)容。內(nèi)容挖掘的應(yīng)用范圍很廣,受到了從早期信息科學(xué)家和藥物研發(fā)人員到近來市場(chǎng)營銷人員、廣告從業(yè)人員、商業(yè)分析師和法律從,業(yè)人員的歡迎。舉例來說,藥物學(xué)家可以通過挖掘記載藥物副作用的文獻(xiàn)來發(fā)現(xiàn)藥物的新用途;市場(chǎng)人員可以通過情感分析等挖掘技術(shù)來處理臉書、推特等社交媒介上的信息,從而了解人們對(duì)于產(chǎn)品或服務(wù)的真實(shí)態(tài)度。

內(nèi)容挖掘經(jīng)過了幾個(gè)演化階段(見圖1):一開始主要通過識(shí)別書目數(shù)據(jù)來促進(jìn)信息檢索;當(dāng)前的主流是通過與數(shù)據(jù)庫相連的語義標(biāo)簽來完成實(shí)體識(shí)別;下一步關(guān)注的熱點(diǎn)是實(shí)現(xiàn)信息提取,以揭示文獻(xiàn)內(nèi)(間)和內(nèi)容庫內(nèi)(間)實(shí)體之間的關(guān)系;新興的綜合內(nèi)容分析可根據(jù)應(yīng)用目的和領(lǐng)域集聚不同形式的相關(guān)內(nèi)容;而最有前景的應(yīng)用,則是利用人工智能來發(fā)掘隱含的知識(shí),即完成知識(shí)發(fā)現(xiàn)功能。專家們對(duì)于數(shù)據(jù)挖掘的態(tài)度并不相同:悲觀者認(rèn)為內(nèi)容挖掘技術(shù)應(yīng)用領(lǐng)域有限且高度分化,另外許多自動(dòng)化工具都離不開人工干預(yù);樂觀者認(rèn)為過去5—10年間標(biāo)準(zhǔn)術(shù)語集和識(shí)別工具等都有了長(zhǎng)足發(fā)展,而且領(lǐng)域化有助于提升所獲取信息的準(zhǔn)確性和可重用性,因此反而是優(yōu)勢(shì)所在。

作為原始內(nèi)容提供商,出版商對(duì)于內(nèi)容挖掘可謂一則以喜、一則以懼。喜的是內(nèi)容挖掘作為有用的工具,出版商同樣可以利用它來提升自己產(chǎn)品和服務(wù)的質(zhì)量。全球最大的幾家學(xué)術(shù)出版集團(tuán),如愛思唯爾的SciVal、施普林格的SpringerMaterials數(shù)據(jù)庫和湯森一路透的科學(xué)網(wǎng)平臺(tái)等,都是利用數(shù)據(jù)挖掘技術(shù)來豐富自身信息產(chǎn)品和服務(wù)并提高其可獲得性的典范。而在回復(fù)調(diào)查問卷的190位受訪學(xué)術(shù)出版商中,也有50%-60%打算挖掘自家內(nèi)容以改善信息導(dǎo)航,25%-30%擬提供語義標(biāo)簽,30%-45%計(jì)劃藉此開發(fā)新產(chǎn)品。懼的則是第三方利用挖掘技術(shù)生成的衍生信息產(chǎn)品很有可能成為原始內(nèi)容的替代品,從而將出版商置于信息產(chǎn)業(yè)鏈的底端,收窄其贏利和生存空間。事實(shí)上,77%受訪者曾收到第三方的內(nèi)容挖掘請(qǐng)求,其中年出版期刊1000種以上者更有88%收到了此類請(qǐng)求;其中絕大部分收到的請(qǐng)求在每年10次以下,但數(shù)量呈上漲趨勢(shì)。請(qǐng)求大部分來自文摘和索引服務(wù)提供商,還有少量來自公司客戶以及科研機(jī)構(gòu)和個(gè)人??傮w而言,出版商們的態(tài)度相當(dāng)開放。90%以上受訪者曾同意出于研究目的的挖掘請(qǐng)求;32%允許各種挖掘請(qǐng)求而無需專門批準(zhǔn),其中28%實(shí)行了開放存取政策;14%公開發(fā)布了正式的數(shù)據(jù)挖掘政策,21%則正在制定。69%受訪者逐件受理請(qǐng)求;80%會(huì)要求說明意圖和目的,如果結(jié)果會(huì)導(dǎo)致替代和競(jìng)爭(zhēng),53%受訪者會(huì)拒絕請(qǐng)求。

出版商在將來如何優(yōu)化通用的內(nèi)容挖掘解決方案上意見仍有分歧。30%出版商認(rèn)為開放存取是內(nèi)容挖掘的前提條件,50%則不同意此觀點(diǎn)。人氣指數(shù)(PI)排前3位的措施分別是:更加標(biāo)準(zhǔn)化的便于挖掘的內(nèi)容形式(56PI),共享的內(nèi)容平臺(tái)(37PI)和得到普遍認(rèn)可的內(nèi)容挖掘許可規(guī)則(34PI)。但是除了第一條外,其他兩條并未得到內(nèi)容挖掘研究者的認(rèn)可。另外,出版商和專家都不贊成由圖書館來實(shí)行數(shù)據(jù)挖掘。

綜上,受訪出版商清醒地意識(shí)到了第三方內(nèi)容挖掘所帶來的機(jī)遇和威脅,如何抓住機(jī)遇、應(yīng)對(duì)威脅將是全球出版商下一步需要深思和探索的迫切課題。(本文資料來自PBC的調(diào)查報(bào)告《期刊文章挖掘》)

(作者單位系武漢大學(xué)數(shù)字出版研究所)

猜你喜歡
出版商受訪者數(shù)據(jù)挖掘
今天,你休閑了嗎?
小康(2022年28期)2022-10-21 02:35:38
關(guān)于安全,需要注意的幾件小事
小康(2022年19期)2022-07-09 10:41:00
低碳生活從我做起
小康(2022年16期)2022-06-13 05:05:44
五成受訪者認(rèn)為自己未養(yǎng)成好的閱讀習(xí)慣
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
歐盟對(duì)谷歌新聞?wù)鞫惡翢o意義
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
七成軟件出版商轉(zhuǎn)向云服務(wù)
基于GPGPU的離散數(shù)據(jù)挖掘研究
梨树县| 南岸区| 洛宁县| 谢通门县| 嘉义县| 衡水市| 都江堰市| 临泉县| 勃利县| 舟曲县| 开鲁县| 易门县| 通河县| 济阳县| 祁东县| 万州区| 兴文县| 望谟县| 武功县| 宽甸| 玛沁县| 兴海县| 金塔县| 那坡县| 永春县| 房产| 临武县| 长垣县| 北宁市| 通渭县| 邹平县| 仁布县| 桂林市| 图木舒克市| 交城县| 玉环县| 万盛区| 固原市| 志丹县| 拉萨市| 清水县|