謝丹玫 陳 麓 金 蕾 翁淳光
(1.上海電機(jī)學(xué)院圖書館 上海 200045;2.重慶醫(yī)科大學(xué)圖書館 重慶 400016)
·資源建設(shè)·
基于數(shù)據(jù)挖掘的圖書訂購預(yù)測
謝丹玫1陳 麓2金 蕾2翁淳光2
(1.上海電機(jī)學(xué)院圖書館 上海 200045;2.重慶醫(yī)科大學(xué)圖書館 重慶 400016)
用相關(guān)分析和回歸分析方法,挖掘圖書館的圖書流通數(shù)據(jù)與圖書訂購數(shù)據(jù)的聯(lián)系,建立該聯(lián)系的數(shù)學(xué)模型,并提出一種以建立的模型為工具由流通數(shù)據(jù)的分布預(yù)測圖書訂購資金分配的方法。
數(shù)據(jù)挖掘 相關(guān)分析 曲線擬合 數(shù)學(xué)模型 圖書流通
數(shù)據(jù)挖掘是挖掘隱含于數(shù)據(jù)中的知識和數(shù)據(jù)間的聯(lián)系。本文將用相關(guān)分析和回歸分析方法,挖掘圖書館圖書流通數(shù)據(jù)與圖書訂購數(shù)據(jù)之間的聯(lián)系,建立該聯(lián)系的數(shù)學(xué)模型。圖書館圖書流通反映了讀者對圖書的需求,圖書的訂購相當(dāng)于供給。圖書流通與圖書訂購的關(guān)系,相當(dāng)于需求與供給的關(guān)系。需求決定供給,這是商品經(jīng)濟(jì)的規(guī)律。圖書流通分析的重要方向是分析圖書流通與訂購的關(guān)系,也就是要挖掘圖書流通數(shù)據(jù)與訂購數(shù)據(jù)的關(guān)系(聯(lián)系),由流通指導(dǎo)訂購。
研究圖書流通與圖書采購的關(guān)系,用圖書流通的分布指導(dǎo)采購資金的分配,使采購資金的分配建立在更加科學(xué)合理的基礎(chǔ)上,避免圖書采購的主觀性和片面性,最大限度地滿足讀者需求,是圖書館圖書采購工作應(yīng)該追求的目標(biāo)。
近年來張亮等研究者提出了“圖書館預(yù)測學(xué)”的概念[1,2],還對“流通-采購-剔舊”提出了灰色預(yù)測模型[3]。本文的研究屬于圖書館預(yù)測學(xué)的范疇,以重慶醫(yī)科大學(xué)圖書館的圖書流通與采購數(shù)據(jù)為例,挖掘流通數(shù)據(jù)與采購數(shù)據(jù)的關(guān)系,提出以流通導(dǎo)向采購的觀點(diǎn)。
1.1 數(shù)據(jù)處理工具
數(shù)據(jù)處理工具為SPSS13.0中文漢化版。原始數(shù)據(jù)由金盤圖書集成管理系統(tǒng)4.015版導(dǎo)入。
1.2 數(shù)據(jù)來源
原始數(shù)據(jù)來自重慶醫(yī)科大學(xué)圖書館的中文圖書流通數(shù)據(jù)與訂購數(shù)據(jù)。統(tǒng)計(jì)時間為2001年至2010年。原始數(shù)據(jù)由金盤圖書集成管理系統(tǒng)4.015版,按中國圖書館圖書分類法逐類統(tǒng)計(jì)輸出。流通數(shù)據(jù)由其中的流通控制模塊輸出。訂購數(shù)據(jù)由典藏管理模塊和采購編目管理模塊輸出?;A(chǔ)數(shù)據(jù)(一次數(shù)據(jù)或原始數(shù)據(jù))如表1 A、B、D和F列。由基礎(chǔ)數(shù)據(jù)通過SPSS計(jì)算出的二次數(shù)據(jù)如表1 C、E、G和J列。
表1 原始數(shù)據(jù)及二次數(shù)據(jù)
① 流通率指圖書流通(借閱)冊數(shù)的百分率,即該類圖書流通冊數(shù)與流通圖書的總冊數(shù)之比的百分?jǐn)?shù)表示。C(i)= 100*B(i)/ΣB(i)。下同。
② 訂購率指圖書訂購冊數(shù)的百分率: E(i)= 100*D(i)/ΣD(i)。下同。
③ 訂金率是指圖書訂購金額的百分率: G(i)= 100*F(i)/ΣF(i)。下同。
④ 平均書價(jià)是指將流通圖書的價(jià)格統(tǒng)一換算成統(tǒng)計(jì)年代內(nèi)平均書價(jià): H(i)= F(i)/D(i)。下同。
⑤ 流通價(jià)值是指將流通書籍的冊數(shù)按統(tǒng)計(jì)時間內(nèi)平均書價(jià)折算成價(jià)值的流通,流通價(jià)值計(jì)算為: I(i)=B(i)*H(i)。下同。
⑥ 流通價(jià)值率即流通價(jià)值的百分率:J(i)=100*I(i)/ΣI(i)。下同。
1.3 數(shù)據(jù)預(yù)處理
(1)圖書均價(jià)計(jì)算
由于不同種類圖書的均價(jià)不同,同樣流通一冊的流通價(jià)值是不同的。因此我們把流通冊數(shù)按10年的訂購均價(jià)(由訂購金額(F)/訂購冊數(shù)(D)算出)作為流通圖書的平均價(jià)格:
H(i)=F(i)/D(I)
(1)
式中,H(i), F(i), D(i)列向量見表1至表4。
(2)流通價(jià)值的計(jì)算
以流通冊數(shù)計(jì)算效益不很合理,因?yàn)橛械念愋偷臅鴥r(jià)低(如語言類,均價(jià)<20元,文學(xué)類,均價(jià)<26元,見表1中的I列),有些類型的書價(jià)高(如醫(yī)學(xué)類,均價(jià)>46元)。就流通價(jià)值來講,一本醫(yī)學(xué)書的流通就價(jià)值約相當(dāng)于兩本文學(xué)類圖書的流通,因此折算成以流通冊數(shù)×圖書均價(jià)的流通價(jià)值(即表1的J列的流通金額)比較合理。這樣,圖書的流通相當(dāng)于價(jià)值的流通。流通價(jià)值I(i)的計(jì)算如下:
I(i)=B(i)*H(i)
(2)
式中,I(i), B(i), H(i)列向量見表1至表4。
表2 按投入率和流通價(jià)值率的排序結(jié)果
注 * 投入率G(i)即訂金率。
(3)流通價(jià)值率
流通價(jià)值率J(i)是指流通價(jià)值的百分率。J(i)計(jì)算如下:
J(i)=100*I(i)/ΣI(i)
(3)
(4)排序分析
表2給出了按流通價(jià)值率J(i)和按投入(訂金)率G(i)的降序排序結(jié)果??梢钥闯?,醫(yī)藥衛(wèi)生類都是排第一,這同本校是醫(yī)學(xué)類院校相吻合。
一般來說,沒有讀者借閱因而沒有流通率的圖書是不需要再訂購的,因此訂購與流通應(yīng)該有線性相關(guān)性。相關(guān)性好,說明訂購符合流通的需求;否則可改進(jìn)訂購資金分配以符合流通需求。表1所列例子的流通價(jià)值率J(i)列與訂金率(投入率)G(i)列的百分比的相關(guān)系數(shù)rJG按下式計(jì)算[4-6]:
(4)
對于去除了均值的數(shù)據(jù),有
(5)
如果rJG>0.95,則評價(jià)為極高度相關(guān);如果0.95≥rJG≥0.80,則評價(jià)為高度相關(guān);如果0.80≥rJG≥0.50,則評價(jià)為中度相關(guān);如果0.50≥rJG≥0.30,則評價(jià)為低度相關(guān);如果rJG<0.30,則評價(jià)為極弱相關(guān);rJG=0,則評價(jià)為不相關(guān),或相互獨(dú)立,或相互正交。用SPSS分析流通價(jià)值率J(i)與訂金率G(i)的相關(guān)性的結(jié)果摘要如表3,相關(guān)系數(shù)rJG=0.8862,表明J(i)與G(i)接近高度相關(guān)。
表3 流通價(jià)值率J(i)與訂金率G(i)的相關(guān)分析結(jié)果摘要
相關(guān)分析只是從總體上評價(jià)了流通價(jià)值率J(i)與訂金率G(i)的線性相關(guān)性。為了解決由流通預(yù)報(bào)投入(訂購)的問題,必須要知道流通與訂購的定量關(guān)系,即建立由流通預(yù)報(bào)訂購的數(shù)學(xué)模型。我們假定流通價(jià)值率與訂購率的線性相關(guān)關(guān)系是通過原點(diǎn)(0,0)的一條直線,可建立一種特殊的線性預(yù)報(bào)數(shù)學(xué)模型,即正比模型*見EXCEL軟件包的LINEST()函數(shù)的幫助文檔[6]:
(6)
(β*J(i)-G(i))2=ε
(7)
的值最小。根據(jù)求極值方法可得:
(8)
由表1的對應(yīng)數(shù)據(jù)可算得,β=1.0329,故(7)式變?yōu)椋?/p>
(9)
(10)
表(4)中的RES(i)列表示相對殘差,RES(23)=7.1667為相對殘差平方和。應(yīng)該注意的是,相對殘差平方和與樣本數(shù)有關(guān),故可以認(rèn)為,采用平均相對殘差平方和估計(jì)擬合優(yōu)度更為恰當(dāng),因?yàn)樵搮?shù)既不與樣本大小有關(guān),也不與樣本的數(shù)值大小有關(guān),只與擬合的優(yōu)劣有關(guān)。表4中,RES(24)=0.3258即表示平均相對殘差平方和。
表4 正比回歸方程的預(yù)測值及其方差和相對殘差
(11)
則
(12)
W(i)的計(jì)算結(jié)果列于表4的W(加權(quán)系數(shù))列??梢杂?jì)算出Max(W(i))=W(20):航空航天=2.8749,Min(W(i))=W(9):文學(xué)=0.3722。有了加權(quán)系數(shù)W(i)后,就能使我們能明顯看出,加權(quán)是否合理,使圖書訂購人員能更科學(xué)地、更主動地調(diào)整加權(quán)系數(shù),以使圖書訂購建立在更加合理和科學(xué)的基礎(chǔ)上。應(yīng)該指出的是:這些都是假定投入分配應(yīng)與流通成正比的條件下得到的。該模型壓低了文學(xué)類具有高流通的圖書的權(quán)重系數(shù)是合理的。
圖書館具有圖書資源綜合利用的優(yōu)點(diǎn),閑置更少。我們使用投入(訂購)效益來量化這種優(yōu)點(diǎn)。投入效益定義為流通價(jià)值率J(i)與訂金率G(i)之比。投入效益X(i)計(jì)算如下:
X(i)=J(i)/G(i)
(13)
對于原始數(shù)據(jù)G(i),投入效益列于表4的Xo(i)列,對于預(yù)測數(shù)據(jù) ,投入效益列于表4的Xp(i)列??梢钥闯?,平均預(yù)測效益Xp(24)(=0.9681)大于平均原始效益Xo(24)(=0.8580)??傮w預(yù)測效益Xp(23)(=21.2993)大于平均原始效益Xo(23)(=18.8770),這意味著按統(tǒng)計(jì)預(yù)測優(yōu)化投入(訂購金額)分配提高了效益。對于分項(xiàng)目的效益增減情況,列于表4的Δ(i)列,“+”號表示預(yù)測效益大于原始效益,“-”號表示預(yù)測效益小于原始效益。由表4可見效益減少的有5項(xiàng),效益增加的有17項(xiàng)。表4的預(yù)測效益的均值表明,流通價(jià)值率略低于投入(金額)率,原始效益更低一些。這項(xiàng)指標(biāo)可以客觀評價(jià)圖書館參加流通圖書的利用效率。
(1)原始數(shù)據(jù)的選取
本文中選取來進(jìn)行分析的成對數(shù)據(jù)是由原始數(shù)據(jù)流通價(jià)值I(i)與訂購金額F(i)經(jīng)歸一化后導(dǎo)出的二次數(shù)據(jù)流通價(jià)值率J(i)和訂金率G(i),皆是百分值。這樣做的優(yōu)點(diǎn)是預(yù)測的結(jié)果也是百分值。如果假定未來一年的流通率不會改變,就可以由式(10)確定下一年的訂購金額分配,與下一年整體投入多少無關(guān)。不過應(yīng)該首先使歸一化,但是歸一化的結(jié)果就是J(i)。這個結(jié)果正可由(10)式說明。
(2)加權(quán)系數(shù)的使用
增大加權(quán)系數(shù),意味著加大投入。如醫(yī)藥衛(wèi)生,現(xiàn)有的加權(quán)系數(shù)為1.351 0,流通價(jià)值率為37.395 1。如果我們將加權(quán)系數(shù)調(diào)到原系數(shù)的2倍:2.702 0,則投入應(yīng)調(diào)為:新加權(quán)系數(shù)*正比系數(shù)(公式(8)的β)*流通價(jià)值率=2.7020*1.0329*37.3951=104.3658,就是說要提高投入2倍。由于某種原因(如館藏?cái)?shù)據(jù)[6]、專業(yè)傾向等)調(diào)整了加權(quán)系數(shù)后,要重算與流通有關(guān)的數(shù)據(jù),包括流通金額和流通價(jià)值率,因?yàn)檫@時流通有關(guān)的數(shù)據(jù)分布將有變化。
(3)流通數(shù)據(jù)的預(yù)測
以現(xiàn)有流通數(shù)據(jù)預(yù)測未來一年的訂購數(shù)據(jù),隱含下一年的流通數(shù)據(jù)與現(xiàn)有的流通數(shù)據(jù)在統(tǒng)計(jì)上是相同的。這樣做也有一定的合理性:流通數(shù)據(jù)一般比較穩(wěn)定。但是,下一年的流通數(shù)據(jù)一般與現(xiàn)有數(shù)據(jù)不完全相同。更細(xì)致一些的做法是選擇適合的預(yù)測模型,用過去的流通數(shù)據(jù)預(yù)測未來的流通數(shù)據(jù)。只要客觀環(huán)境沒有劇烈變化,這種預(yù)測有一定的合理性。但預(yù)測畢竟是預(yù)測,再好的預(yù)測模型也不會與實(shí)際結(jié)果完全相同。 本文研究流通與訂購的關(guān)系是為了使訂購計(jì)劃建立在更加科學(xué)合理的基礎(chǔ)上,更有效地使用資金,使訂購與流通的關(guān)系更加符合市場經(jīng)濟(jì)規(guī)律。
[1] 張 亮,宮 宇. 試論圖書館預(yù)測學(xué)[J].圖書館界,2006(3):33-36.
[2] 張 亮. 圖書館預(yù)測學(xué)論綱[J]. 現(xiàn)代情報(bào),2010(5):18-20.
[3] 陶 然,張 亮. 圖書館文獻(xiàn)相對平衡流動系統(tǒng)灰預(yù)測模型構(gòu)建[J]. 情報(bào)探索,2011(10):23-26.
[4] 王 璐. SPSS-統(tǒng)計(jì)分析基礎(chǔ)、應(yīng)用與實(shí)踐[M]. 北京:化學(xué)工業(yè)出版社,2010:170-217.
[5] 薛 薇. 統(tǒng)計(jì)分析與SPSS應(yīng)用[M]. 北京:中國人民大學(xué)出版社,2001:185-217.
[6] 向 陽,謝邦昌. 統(tǒng)計(jì)學(xué)方法與應(yīng)用[M]. 北京:中國人民大學(xué)出版社,2009:118-150.
(責(zé)任編校 駱雪松)
Data-mining-basedPredictionoftheBookOrderingofLibraries
Xie Danmei1, Chen Lu2, Jin Lei2, Weng Chunguang2
1. Shanghai Dianji University Library, Shanghai 200045, China; 2. Chongqing Medical University Library, Chongqing 400016, China
The relationship between the data of book circulation and that of book ordering was mined by means of correlation and regression analysis and a mathematical model of the relationship was built. And a fund allocation method was proposed for the prediction of book ordering by the built model and the distribution of the circulation data.
data mining; correlation analysis; curve fit; mathematical model; book circulation
G253
謝丹玫,女,1968年生,副研究館員,發(fā)表論文16篇;陳 麓,男,1971年生,館員,發(fā)表論文2篇;金 蕾,女,1972年生,館員,發(fā)表論文4篇;翁淳光,女,1953年生,研究館員,發(fā)表論文39篇。