国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)在選題策劃中的應(yīng)用

2014-11-11 15:02胡育峰
出版參考 2014年20期
關(guān)鍵詞:選題策劃圖書

胡育峰

據(jù)全球權(quán)威的IT研究與咨詢公司Gartner于2013年9月發(fā)布的大數(shù)據(jù)分析報告顯示,全球范圍內(nèi)的媒體和通信行業(yè)以及銀行金融業(yè)站在了大數(shù)據(jù)投資的最前沿。相比之下,出版業(yè)作為文化產(chǎn)業(yè),承載著文化傳播與文化傳承的社會功能,然而在利用大數(shù)據(jù)洞悉讀者需求上表現(xiàn)欠佳,所以,如何借助不斷增長的大數(shù)據(jù)進行信息和知識的搜集、組織和傳播,成為出版企業(yè)亟待解決的問題。

出版企業(yè)可利用的大數(shù)據(jù)的具體形式

對于“大數(shù)據(jù)”(Big Data),研究機構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。舉個例子,1分鐘的時間內(nèi),新浪發(fā)送2萬條微博,蘋果下載4.7萬次應(yīng)用,淘寶賣出6萬件商品,人人網(wǎng)發(fā)生30萬次訪問,百度產(chǎn)生90萬次搜索查詢。由此可見,數(shù)據(jù)規(guī)模的急劇膨脹,各行業(yè)累積的數(shù)據(jù)量越來越巨大,數(shù)據(jù)類型也越來越多、越來越復(fù)雜,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)、處理模式的能力范圍,于是“大數(shù)據(jù)”這樣一個“無窮大”的概念才會應(yīng)運而生。大數(shù)據(jù)的特點可以被歸納為:數(shù)量巨大、類型多樣、實時快速、價值高但密度低。正式基于這樣的特點,出版企業(yè)可以結(jié)合產(chǎn)業(yè)的優(yōu)勢對大數(shù)據(jù)進行充分的挖掘和利用。

(1)Web文本挖掘。大數(shù)據(jù)的核心是挖掘龐大數(shù)據(jù)庫的獨有價值。面對因為網(wǎng)絡(luò)的飛速發(fā)展而帶來的信息膨脹,尤其是以半結(jié)構(gòu)化或非結(jié)構(gòu)化為主的文本信息,人們迫切需要研究出方便有效的工具去從中提取符合需要的“簡潔的”“精煉的”“可理解的”知識,Web文本挖掘技術(shù)由此產(chǎn)生。而利用Web文本挖掘發(fā)現(xiàn)大數(shù)據(jù)的價值也成為可能。

文本挖掘是近幾年來數(shù)據(jù)挖掘領(lǐng)域的一個新興分支。文本挖掘也稱為文本數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大量文本的集合或語料庫中抽取事先未知的“可理解的”有潛在實用價值的模式和知識。而隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,特別是Web應(yīng)用的不斷普及,網(wǎng)絡(luò)信息急劇增加,信息類型也越來越復(fù)雜。如何從這些大量自由、非結(jié)構(gòu)化或半結(jié)構(gòu)化的信息中獲得所需求的知識,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)已不適用,解決問題的一個途徑就是將傳統(tǒng)的文本挖掘技術(shù)和Web綜合起來,進行Web文本挖掘。Web文本挖掘就是以萬維網(wǎng)上的數(shù)據(jù)為分析對象,以抽取有用知識為目標(biāo),把傳統(tǒng)文本挖掘技術(shù)和萬維網(wǎng)相結(jié)合的研究技術(shù)。

(2)出版企業(yè)可利用的Web文本數(shù)據(jù)。網(wǎng)絡(luò)上圖書評論的數(shù)量極為龐大,有些暢銷書可能包含成千上萬的評論,借助Web文本挖掘技術(shù)能自動地對圖書評論進行分析和處理,挖掘出有用的信息。通過對圖書在線評論的挖掘管理,出版企業(yè)可以用較低的成本收集、整理讀者對于各類圖書的關(guān)注興趣和欣賞特點,同時也可以獲得暢銷圖書迎合市場需求的關(guān)鍵因素。在此過程中,企業(yè)獲得了知識資源,同時培育了持續(xù)的競爭優(yōu)勢。因此,可以將各大圖書銷售網(wǎng)站的讀者評論作為出版企業(yè)可利用的大數(shù)據(jù)分析的首要來源。

在企業(yè)的銷售網(wǎng)站或其借助的其他互聯(lián)網(wǎng)銷售平臺上,通過建立在線評論客戶知識管理系統(tǒng),收集、整理和分析客戶評論,將客戶評論轉(zhuǎn)化為企業(yè)的知識,從而為企業(yè)價值鏈的各個環(huán)節(jié)提供客戶的信息和知識的共享,并將客戶知識延伸到企業(yè)的決策制定中,為企業(yè)有效開展客戶知識管理提供有效的解決方案。同時,基于評論挖掘構(gòu)建的客戶知識管理系統(tǒng),具有與用戶需求同步的快速響應(yīng)能力,即具有將用戶需求迅速轉(zhuǎn)向圖書的策劃和印制的能力。這就使得出版企業(yè)以響應(yīng)市場需求為中心,實時挖掘客戶知識,提高優(yōu)化客戶關(guān)系的決策能力,準(zhǔn)確及時地向客戶提供所需的圖書產(chǎn)品。

大數(shù)據(jù)在選題策劃中的應(yīng)用

信息收集和預(yù)處理

相對于傳統(tǒng)數(shù)據(jù)庫中的完全結(jié)構(gòu)化的數(shù)據(jù)而言,Web數(shù)據(jù)的最大特點就是半結(jié)構(gòu)化。從評論挖掘的角度來看,Web上的網(wǎng)頁包含的信息并不都是有用的,體現(xiàn)網(wǎng)頁的主題信息的是“主題”內(nèi)容;與主題內(nèi)容無關(guān)的導(dǎo)航條、廣告信息等內(nèi)容則是“噪音”內(nèi)容。網(wǎng)頁凈化過程就是去掉包含噪音內(nèi)容的內(nèi)容塊,只保留網(wǎng)頁中包含主題內(nèi)容的內(nèi)容塊。因此在評論挖掘的數(shù)據(jù)預(yù)處理階段,首要任務(wù)就是完成Web網(wǎng)頁凈化過程,去除網(wǎng)頁內(nèi)容中的音頻、視頻、圖片等其他非文本信息,還有各種網(wǎng)頁本身的標(biāo)記語言,最后僅剩下網(wǎng)頁中的文字評論內(nèi)容,從Web頁面中提取出文本評論信息。

評論頁面的下載可以采用聚焦爬蟲技術(shù),所謂聚焦爬蟲,是能實現(xiàn)自動下載網(wǎng)頁功能的程序,它根據(jù)指定的抓取目標(biāo),有選擇地獲取萬維網(wǎng)上的網(wǎng)頁及其相關(guān)的鏈接,抓取所需要的信息。通過對Web頁面的語義結(jié)構(gòu)進行描述,產(chǎn)生適合計算機自動處理的描述文件和指令文件,實現(xiàn)持續(xù)地、大批量地提取Web信息。

圖書特征提取和情感分析

評論內(nèi)容是中文語句,要從中提取詞語,進而獲得讀者關(guān)注的圖書特征,首先需借助中文分詞技術(shù)。中文分詞技術(shù)屬于自然語言處理技術(shù)領(lǐng)域,它通過詞性標(biāo)注將一個漢字序列切分成相互獨立的詞,文本挖掘的基礎(chǔ)是中文分詞,一段中文要使得計算機自動識別語句語義,必須通過準(zhǔn)確的中文分詞處理。在中文分詞和詞性標(biāo)注的基礎(chǔ)上,使用漢語分詞軟件的關(guān)鍵詞提取功能提取評論內(nèi)容中的關(guān)鍵詞,按照權(quán)重排序找出高頻名詞或名詞性短語作為候選詞匯,通過人工定義和篩選,得到讀者評論中的圖書屬性特征詞集合。

挖掘出的圖書的讀者關(guān)注特征,是讀者圖書評論中最集中和最熱點的特征,但每項特征具體的評價傾向性還需進一步分析和處理,即通過提取讀者對每項關(guān)注特征所持有的褒貶態(tài)度,分析其評價情感傾向性。情感詞可以細(xì)分為情感特征詞匯和情感強度詞匯??蛻粼u論中的情感特征詞是客戶表明自身觀點和態(tài)度的詞匯,而情感強度詞是指評論中用于加強語氣的程度副詞,如“最”“非?!焙鸵恍┓穸ㄔ~。這些詞的修飾會加強或減弱,甚至改變原來詞匯的情感傾向,在判斷評論的情感時要考慮這些強度詞語的作用。

利用信息完成選題策劃

采用Web文本挖掘技術(shù),從海量的讀者評論中挖掘出的圖書特征和其情感傾向,為圖書的選題策劃提供了充分的信息資料,這將為圖書選題的市場前景分析提供保障,最大限度地降低圖書出版的風(fēng)險.使出版社的圖書在市場競爭中始終處于有利地位。利用挖掘出的信息完成圖書選題策劃主要分為以下幾個階段:

(1)篩選正向評價的圖書特征。選題策劃應(yīng)該從挖掘出的讀者關(guān)注特征中篩選其正向評價,從而確定目前市場中讀者主要感興趣的圖書特征。例如,假設(shè)從亞馬遜圖書網(wǎng)站的少兒圖書銷售排行榜的前2本圖書的讀者評論中挖掘出了讀者關(guān)注的圖書特征為“百科,科學(xué),繪畫,配圖,價格,拼音,習(xí)慣,動物,紙質(zhì),圖案,常識”,然后可以利用軟件技術(shù)篩選其中正向評價的特征,假設(shè)篩選出的是“百科,科學(xué),繪畫,價格,拼音,習(xí)慣,動物”。那么這些正向評價的特征就是選題策劃中應(yīng)該重點考慮在圖書題目和設(shè)計中的要素。

(2)建立圖書選題策劃概念層次樹。雖然正向評價的圖書特征已經(jīng)找到,但并不是都能在最終的題目中展示的,一部分可以稍作修改列入圖書題目,另一部分則只能體現(xiàn)在圖書的裝幀設(shè)計環(huán)節(jié),例如紙張、配圖、拼音和價格等。所以需要為圖書建立選題策劃概念層次樹。經(jīng)過嚴(yán)格劃分層次的樹狀結(jié)構(gòu)是圖書選題策劃概念樹的結(jié)構(gòu)形式,圖書選題策劃的總概念作為根節(jié)點,較小或最小子概念作為葉子節(jié)點,圖書特征屬于葉子節(jié)點。上層概念名稱概括的是其包含的所有子概念屬性,子概念名稱是詳細(xì)劃分父概念后從不同的角度描述的父概念。兄弟概念指同一個父概念所包含的所有子概念,它們屬于平等關(guān)系。用產(chǎn)品評價概念樹表示的概念層次有兩個特性:第一,樹的節(jié)點表示概念,樹枝表示有序關(guān)系;第二,有序關(guān)系包括了包含關(guān)系、屬性關(guān)系、部分整體關(guān)系。例如,圖1就是一個圖書選題策劃的概念層次樹,主要分為選題內(nèi)容設(shè)計和裝幀設(shè)計兩個分支,設(shè)計者可以根據(jù)選題策劃的領(lǐng)域知識和工作經(jīng)驗進行概念層次樹的完善和更新。

圖1 圖書選題策劃的概念層次樹

(3)確定圖書題目和裝幀設(shè)計要素。將篩選出的圖書正向評價特征,對照圖書選題策劃概念層次樹,確定圖書題目要素和裝幀設(shè)計要素。例如,延續(xù)前面在亞馬遜網(wǎng)站評論中篩選出的正向特征,能夠列為圖書題目要素的是“百科,科學(xué),習(xí)慣,動物”,而列為圖書裝幀設(shè)計要素的是“繪畫,拼音,價格”,這就為圖書選題策劃提供了迎合市場需求的準(zhǔn)確決策信息,可以有效地幫助出版企業(yè)識別和判斷選題的市場價值,并實時捕捉讀者的心理期望和偏好。

選題策劃基于數(shù)據(jù)更高于數(shù)據(jù)

大數(shù)據(jù)能說話,借助數(shù)據(jù)處理技術(shù),能將海量數(shù)據(jù)中存在的有價值信息傳遞給每位需要它的用戶。但作為一個出版人,我們要做到基于數(shù)據(jù)更高于數(shù)據(jù),也就是在數(shù)據(jù)反映的有價值信息面前,充分發(fā)揮我們的創(chuàng)新性思維,不只局限于數(shù)據(jù)。圖書選題策劃除了捕捉讀者的需求外,還需綜合考慮其他各種信息,例如,政策和法律信息、經(jīng)濟與社會文化發(fā)展信息、科學(xué)技術(shù)信息、同行(競爭者)信息、作者信息等。

選題策劃是一個非常復(fù)雜的系統(tǒng)工程,需要編輯在工作過程中不斷地總結(jié)、實踐、再總結(jié),逐步積累經(jīng)驗,逐步完善。本文給出的大數(shù)據(jù)在選題策劃中的應(yīng)用只是涉及其中部分環(huán)節(jié),其他環(huán)節(jié)如何對大數(shù)據(jù)進行有效利用將是今后研究工作的方向。 (作者單位系氣象出版社)

猜你喜歡
選題策劃圖書
圖書推薦
歡迎來到圖書借閱角
本期策劃
揭西县| 广德县| 鹤壁市| 定边县| 改则县| 乐安县| 广水市| 万载县| 阿荣旗| 玛沁县| 宜昌市| 景谷| 德化县| 巴塘县| 万全县| 邵阳市| 青川县| 武宣县| 得荣县| 苏尼特右旗| 都兰县| 轮台县| 高邑县| 凌海市| 锦州市| 光山县| 新泰市| 贵溪市| 武川县| 永德县| 双桥区| 张北县| 长顺县| 贵溪市| 原平市| 冷水江市| 九台市| 博白县| 安泽县| 茌平县| 云浮市|