耿強
摘? 要: 傳統(tǒng)的圖書館檔案信息分類系統(tǒng)存在不平衡數(shù)據(jù)分類精度低的問題,為此,設(shè)計基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)。在硬件設(shè)計上,使用單塊電路芯片構(gòu)成的單片機與傳輸芯片相連,設(shè)計相應(yīng)的數(shù)據(jù)傳輸電路,實現(xiàn)數(shù)據(jù)的發(fā)送與接收;在軟件設(shè)計上,引用關(guān)聯(lián)法規(guī)則,根據(jù)支持率和信任度確定分類關(guān)聯(lián)規(guī)則。以此為依據(jù),比較數(shù)據(jù)類的判別函數(shù)值完成檔案信息分類,利用程序代碼將結(jié)果顯示在系統(tǒng)界面上。測試結(jié)果表明,在使用相同的不平衡數(shù)據(jù)集的情況下,與傳統(tǒng)的分類系統(tǒng)相比,設(shè)計的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)分類精度更高,說明該系統(tǒng)適合應(yīng)用在圖書館檔案信息分類中。
關(guān)鍵詞: 圖書館; 檔案信息分類; 系統(tǒng)設(shè)計; 關(guān)聯(lián)法規(guī)則; 數(shù)據(jù)傳輸; 系統(tǒng)測試
中圖分類號: TN911?34; TP391? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)18?0143?03
Abstract: As the traditional library archival information classification system has unbalanced data and low classification accuracy, a library archival information classification system based on association rule is designed. In the hardware design, a single?chip microcomputer composed of a single circuit chip is connected to the transmission chip, and the corresponding data transmission circuit is designed to realize the sending and receiving of data. In the software design, the association rules are cited, and the classification rule is determined according to the support rate and credibility. On this basis, the discrimination function values of the data class are compared to complete the classification of the archival information, and the program code is used to display the results on the system interface. The testing results show that, in the case of using the same imbalanced data set, in comparison with the traditional classification system, the designed library archival information classification system based on association rule has higher classification accuracy, which indicates that the system is suitable for the classification of library archives information.
Keywords: library; archival information classification; system design; association rule; data transmission; system testing
0? 引? 言
圖書館內(nèi)大規(guī)模檔案信息的不斷涌現(xiàn),需要利用相應(yīng)的技術(shù)管理這些信息,將其按照一定的規(guī)則分類,方便快速、全面地查找用戶所需的檔案信息[1?3]。傳統(tǒng)的圖書館檔案信息分類系統(tǒng)是基于決策樹法實現(xiàn)檔案信息分類,該系統(tǒng)由于數(shù)據(jù)規(guī)模、數(shù)據(jù)類分布和數(shù)據(jù)屬性缺失的影響,出現(xiàn)大量不平衡數(shù)據(jù),對系統(tǒng)的分類精度影響較大[4]。因此引用關(guān)聯(lián)法規(guī)則,設(shè)計基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)。不平衡數(shù)據(jù)是指具有不均衡分布的數(shù)據(jù),其中具有少量樣本的類稱為少數(shù)類,具有樣本量比較多的類為多數(shù)類[5]。對于該類數(shù)據(jù)的分類,使用關(guān)聯(lián)法規(guī)則生成檔案信息分類關(guān)聯(lián)規(guī)則,完成檔案信息分類。利用關(guān)聯(lián)法規(guī)則的解釋說明強的特點,提高系統(tǒng)對于不平衡數(shù)據(jù)的分類精度,解決傳統(tǒng)分類系統(tǒng)中存在的問題。
1? 基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)設(shè)計
根據(jù)圖書館檔案信息分類實際需求,設(shè)計基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)各個模塊,具體內(nèi)容如圖1所示。用戶主要通過系統(tǒng)界面實現(xiàn)與系統(tǒng)的交互,將單片機與傳輸芯片相連,實現(xiàn)數(shù)據(jù)的傳輸,以此實現(xiàn)檔案信息的錄入。檔案信息經(jīng)過錄入傳輸至分類模塊,在分類模塊中封裝了檔案信息分類算法,利用關(guān)聯(lián)法規(guī)則獲得檔案信息分類關(guān)聯(lián)規(guī)則庫,實現(xiàn)檔案信息分類,并通過顯示模塊展示在用戶面前。
1.1? 圖書館檔案信息分類系統(tǒng)硬件設(shè)計
選擇由單塊電路芯片構(gòu)成的單片機,通過單片機與傳輸芯片接口連接,以此實現(xiàn)信號的發(fā)送與接收[6]。其指令接收模塊與發(fā)送模塊如圖2所示。
x
圖中,TXD引腳與DOUT和DIN引腳相連,實現(xiàn)數(shù)據(jù)的發(fā)送與接收;由P0.0控制PLAYE端,實現(xiàn)高電平與低電平之間的轉(zhuǎn)換,觸發(fā)數(shù)據(jù)發(fā)送或接收狀態(tài);P2.2控制TXEN端,當輸出為“1”時,進入數(shù)據(jù)發(fā)送狀態(tài);當輸出位“0”時,進入數(shù)據(jù)接收狀態(tài)[7]。
1.2? 圖書館檔案信息分類系統(tǒng)軟件設(shè)計
假設(shè)[Q=q1,q2,…,qn]表示圖書館檔案數(shù)據(jù)庫,[qn]表示在數(shù)據(jù)庫[Q]中的第[n]個記錄,[w=w1,w2,…,wn]表示數(shù)據(jù)屬性集,設(shè)置屬性集[w]內(nèi)均為類別型屬性,有[e]個類標簽,表示記錄的檔案信息中所有的類[8?10]。將數(shù)據(jù)屬性劃分為若干個三角集合,用[fr]表示。將記錄在類別型屬性[wn]上的取值放在一起,作為樣本點的集合[R],假設(shè)[R]中共有[n]個樣本點。將所有的樣本點根據(jù)最大隸屬原則歸類,從類中找出位于類中心兩側(cè)的隸屬度最小的樣本點,設(shè)左側(cè)隸屬度最小的樣本點為[r′],隸屬度為[fr′],右側(cè)隸屬度最小的樣本點為[rε],隸屬度[11]為[frε],則[fr]表示:
式中,[p]表示類的中心點。類別型數(shù)據(jù)分別被劃分為不同的三角集合,當記錄所屬類的標簽與屬性對應(yīng)的類標簽一致時,記值為1,反之為0。將集合中所有得到的類標簽屬性的集合整合為新的數(shù)據(jù)庫,在此數(shù)據(jù)庫基礎(chǔ)上確定檔案信息關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的支持率和信任度為:
式中:[Sup]表示關(guān)聯(lián)規(guī)則的支持率;[Conf]表示關(guān)聯(lián)規(guī)則的信任度;[L]表示所有類標簽屬性的集合。根據(jù)以上關(guān)聯(lián)規(guī)則的支持率和信任度,得到檔案信息分類關(guān)聯(lián)規(guī)則,形成的規(guī)則形式為:If? w1 is [D1] and … and wn is [Dn],then L is [g1]。其中,[D]表示由類別型屬性所取的規(guī)則組成的分類系統(tǒng)的分類規(guī)則庫。在進行檔案信息分類時,對于一個待分類的樣本,取其屬性上的值,計算樣本對各個類的判別函數(shù)值,比較各類的判別函數(shù)值,將最大的值對應(yīng)的類標簽作為樣本的分類結(jié)果。
將結(jié)果保存至數(shù)據(jù)庫中,用戶成功登錄系統(tǒng)后,通過相應(yīng)的程序代碼將檔案信息分類結(jié)果展示在系統(tǒng)界面中。通過rs_reader.open sql.conn.adopenkeyset打開數(shù)據(jù)庫,利用SQL語言中的select*from data查詢語句將分類結(jié)果展示在界面上。
至此,基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)設(shè)計完成。
2? 圖書館檔案信息分類系統(tǒng)性能仿真測試
2.1? 數(shù)據(jù)集選取
從UCI數(shù)據(jù)庫中選擇12個不平衡數(shù)據(jù)集,數(shù)據(jù)集種類為圖書館所有藝術(shù)類圖書分類數(shù)據(jù),其中包括數(shù)據(jù)屬性值域、數(shù)據(jù)樣本數(shù)以及類分布??紤]不同的類分布可能會對測試結(jié)果產(chǎn)生影響,為了更加全面地進行研究,得到可靠的結(jié)論,選擇在不同平衡度的數(shù)據(jù)集上進行測試。根據(jù)均勻變化的不平衡度對原始數(shù)據(jù)進行采樣,并設(shè)置不同的數(shù)據(jù)不平衡度,以5%,10%,15%,20%,25%,30%,35%,40%,45%,50%的比例對數(shù)據(jù)進行采樣。
2.2? 數(shù)據(jù)屬性值抽樣
通過數(shù)據(jù)屬性值抽樣抽取不平衡數(shù)據(jù)集中的少樣類樣本和多類樣本,用于后續(xù)分類精度測試。確定數(shù)據(jù)集中數(shù)據(jù)類的屬性值,判斷數(shù)據(jù)與其對應(yīng)的類的相關(guān)性強弱,根據(jù)數(shù)據(jù)類的屬性值,增加少數(shù)類數(shù)據(jù)中與類相關(guān)性強的數(shù)據(jù)樣本,減少多數(shù)類中與類相關(guān)性弱的樣本。數(shù)據(jù)屬性值抽樣后的數(shù)據(jù)類分布為如圖3所示。
從圖中明顯看出,經(jīng)過抽樣后的數(shù)據(jù)類樣本中有效信息被增強,將經(jīng)過屬性值抽樣后的數(shù)據(jù)用于后續(xù)測試中,保證測試結(jié)果的全面和可靠。
2.3? 系統(tǒng)分類精度測試結(jié)果及分析
使用設(shè)計的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)的同時,引用傳統(tǒng)的基于決策樹法的圖書館檔案信息分類系統(tǒng),對相同的不平衡數(shù)據(jù)集進行分類,測試不同分類系統(tǒng)的分類精度。將使用的基于關(guān)聯(lián)法規(guī)則的分類系統(tǒng)定義為系統(tǒng)1,傳統(tǒng)的基于模糊集法的分類系統(tǒng)定義為系統(tǒng)2,利用第三方軟件統(tǒng)計測試結(jié)果。測試結(jié)果如表2所示。
表中,Iris表示隨機選取的不平衡數(shù)據(jù)集。觀察表中數(shù)據(jù),在Iris不平衡數(shù)據(jù)集中,對于不同平衡程度的數(shù)據(jù),系統(tǒng)1的分類精度基本在90%以上,只有極個別測試的分類精度在90%以下;在相同環(huán)境下,系統(tǒng)2測試的分類精度在30%~70%之間,分類精度較低且穩(wěn)定相較差。兩者相比,系統(tǒng)1的分類精度明顯高于系統(tǒng)2的分類精度,說明設(shè)計的基于關(guān)聯(lián)法規(guī)則的圖書館檔案信息分類系統(tǒng)優(yōu)于傳統(tǒng)的分類系統(tǒng)。
3? 結(jié)? 語
近年來,圖書館從傳統(tǒng)的紙質(zhì)管理轉(zhuǎn)換為數(shù)字智能管理模式,館內(nèi)的檔案信息與日俱增,用戶從海量的信息中搜索到自己需要的信息越來越困難。因此,相關(guān)專業(yè)人員設(shè)計了圖書館檔案信息分類系統(tǒng),提高搜索效率。但是對于不平衡數(shù)據(jù)的分類,傳統(tǒng)的分類系統(tǒng)分類精度較低。通過引用關(guān)聯(lián)法規(guī)則,生成檔案信息分類關(guān)聯(lián)規(guī)則庫,以此為依據(jù)實現(xiàn)檔案信息分類,有效地解決了傳統(tǒng)分類系統(tǒng)中存在的問題。
參考文獻
[1] 林澤斐,孟雪梅.基于關(guān)聯(lián)數(shù)據(jù)的地方文獻地名規(guī)范控制[J].圖書館雜志,2017,36(10):55?62.
[2] 黃容,何楊煜琪,王忠義,等.數(shù)字圖書館數(shù)值知識元檢索系統(tǒng)設(shè)計[J].圖書情報工作,2018,62(14):125?132.
[3] 吳飛翔,趙桂清.海量圖書信息采集中的掃描器抗連續(xù)擺動干擾設(shè)計[J].科技通報,2018,34(5):154?157.
[4] 張棟,李壽山,王晶晶.基于問題與答案聯(lián)合表示學習的半監(jiān)督問題分類方法[J].中文信息學報,2017,31(1):1?7.
[5] 甘俊英,戚玲,項俐,等.輕量化多特征融合的指紋分類算法研究[J].信號處理,2019,35(5):888?896.
[6] 余鷹,王樂為,吳新念,等.基于改進卷積神經(jīng)網(wǎng)絡(luò)的多標記分類算法[J].智能系統(tǒng)學報,2019,14(3):566?574.
[7] 李占芳,李慧云,劉新為.分類稀疏低秩表示的子空間聚類方法[J].系統(tǒng)科學與數(shù)學,2018,38(8):852?865.
[8] 王偉偉,魏婷,楊曉燕,等.基于信息關(guān)聯(lián)分析的設(shè)計線索構(gòu)思方法[J].機械設(shè)計,2017,34(11):117?122.
[9] 李振霞,羅萬和,李超,等.獸用藥物生物藥劑學分類系統(tǒng)(BCS)的研究進展[J].中國獸藥雜志,2018,52(6):72?79.
[10] 楊澤宇,王培良,葉曉豐.基于SSAE的非線性系統(tǒng)故障分類方法[J].控制工程,2018,25(11):2003?2009.
[11] 崔超,呂丹,姜淑鳳.貝頁斯垃圾郵件分類系統(tǒng)成本參數(shù)調(diào)整對系統(tǒng)精度的影響[J].北京理工大學學報,2019,39(2):142?146.