摘要:社會的進步和科學(xué)技術(shù)的迅猛發(fā)展,各類研究成果以前所未有的高速度增長。擬采用稀疏表示模型,使用稀疏重建算法,通過重建實現(xiàn)對學(xué)者信息的采集。
關(guān)鍵詞:信息采集;稀疏模型;重建算法;高效
1 引言
隨著學(xué)術(shù)交流活動的日益活躍,研究人員通過圖書出版的形式將研究過程中形成的對某一問題的總結(jié)性思想、某一領(lǐng)域取得的前沿成果等進行記錄和傳播。這些圖書一般具有較高的學(xué)術(shù)水平和原創(chuàng)性,在某種程度上體現(xiàn)了作者的學(xué)術(shù)積累并以“學(xué)術(shù)著作”的名稱為學(xué)術(shù)界所認(rèn)同和使用,逐漸成為日益重要的學(xué)術(shù)文獻,對這種承擔(dān)重要功能和作用的學(xué)術(shù)文獻進行數(shù)據(jù)采集和分析具有重要的意義。
社會的進步和科學(xué)技術(shù)的迅猛發(fā)展,各類研究成果以前所未有的高速度增長,直接導(dǎo)致了相關(guān)文獻數(shù)量的急劇增長。僅以科技文獻為例:據(jù)統(tǒng)計,全世界每年出版的圖書有80萬種以上。學(xué)術(shù)信息的爆炸式增長,研究人員和研究管理人員面臨選擇的難題,如何從浩如煙海的文獻中獲取最有效的信息資源無疑是一項嚴(yán)峻而重要的課題。
一方面,相對期刊論文而言,學(xué)術(shù)著作通常篇幅大、出版和使月周期長、電子化程度低。這些因素造成對學(xué)術(shù)著作數(shù)據(jù)的采集和分析都比較困難。另一方面,相對期刊論文而言,有關(guān)著者的基本信息包括姓名、所在單位、項目支持情況、學(xué)者類型等基本情況不能直接從著作本身準(zhǔn)確獲取。因此,如何有效獲取學(xué)術(shù)著作的數(shù)據(jù)是亟待解決的問題。
本文多維度分析學(xué)術(shù)著作相關(guān)特征,創(chuàng)新性提出基于稀疏模型的采集方法,實現(xiàn)對學(xué)者信息、學(xué)術(shù)著作的匹配,建立稀疏模型,有選擇地聯(lián)動高校機構(gòu)知識庫(科研管理系統(tǒng))的數(shù)據(jù),從而實現(xiàn)對學(xué)術(shù)著作相關(guān)信息的采集和分析。
2 基于稀疏模型的學(xué)術(shù)著作信息采集模型
立足于信號本身就具有稀疏性或可壓縮性的先驗特性。Donoho[1],Candès [2]等提出信號采樣和重建的理論—壓縮感知??紤]到學(xué)者信息與學(xué)術(shù)著作的匹配問題的實際情況,即相對于著作信息,學(xué)者的信息--學(xué)者的姓名和單位具有稀疏性,因此提出將稀疏重建模型引入到學(xué)術(shù)著作信息采集,公式如(1)所示:
subject to?(1)
其中待重建的為N個學(xué)者信息,表示為待重建的未知信號,那么可以通過求解一個最小平方的問題重建信號,即存在最優(yōu)支撐集的索引和滿足,其中是矩陣的第J列。通過最小化誤差函數(shù)實現(xiàn)對學(xué)者信息的獲取。
3 結(jié)果分析
采用待重建的信號維度是1024,對應(yīng)數(shù)據(jù)庫里有1024個學(xué)者信息,稀疏度K的范圍為100至150,即有100至150名學(xué)者信息需要采集。仿真結(jié)果如表1所示,模型所使用的觀測矩陣為滿足約束等距性質(zhì)的貝努利隨機矩陣矩陣,在稀疏度范圍的100至150的情況下,成功重建的概率為99%以上。
4 結(jié)語
隨著通信和電子技術(shù)的飛速發(fā)展, 人類對信息量的需求與日俱增。與此對應(yīng)的大量數(shù)據(jù)產(chǎn)生。如何有效提取和采集有用信息是亟待解決的問題,特別是各類研究成果如何有效與學(xué)者信息配對??紤]到信息本身的特點,從稀疏的角度出發(fā)解決問題是一個實用高效的方法。
參考文獻
[1] Y. Tsaig, D.L. Donoho. Extensions of compressed sensing. Signal Processing.2006, 86(3): 533-548
[2] E. J. Candès, J. Romberg, and T. Tao. Robust uncertainty principles: Exact signal recognition from highly incomplete frequency information. IEEE Transactions on Information Theory.2006, 52(2): 489-509
[3]練秋生,陳書貞. 基于解析輪廓波變換的圖像稀疏表示及其在壓縮傳感中的應(yīng)用. 電子學(xué)報. 2010, 38(6): 1-6
[4]劉亞新,趙瑞珍.用于壓縮感知信號重建的正則化自適應(yīng)匹配追蹤算法. 電子與信息學(xué)報. 2010,32(11):2713-2717
畢雪,助理研究員,項目資助編號:SCAA16B10,四川學(xué)術(shù)成果分析與應(yīng)用研究中心,西華大學(xué)重點項目資助Z1520908,四川省教育廳資助項目17ZB0416,教育部春暉計劃項目資助Z2017075
1西華大學(xué)電氣與電子信息學(xué)院;2四川學(xué)術(shù)成果分析與應(yīng)用研究中心