王漢元 姜英
摘? 要:為了對高??蒲许椖壳熬斑M行有效預(yù)測,進一步提升科研成果轉(zhuǎn)化率,本文提出了基于神經(jīng)網(wǎng)絡(luò)結(jié)合科研項目共享的網(wǎng)絡(luò)平臺,構(gòu)建可靠的科研項目前景預(yù)測系統(tǒng)。通過將各類大量科研項目的特征參數(shù)化,利用BP(反向傳播)神經(jīng)網(wǎng)絡(luò)的非線性映射能力、自適應(yīng)能力和對離散數(shù)據(jù)的泛化能力生成模型后,用于從多維度對一個新項目生成可靠的前景預(yù)測。實驗表明,BP神經(jīng)網(wǎng)絡(luò)算法在大量學習經(jīng)過預(yù)處理的樣本后所產(chǎn)生的預(yù)測結(jié)果是具有較高準確性的,且能夠隨著新的樣本輸入不斷更新和適應(yīng),因此該方法具有較強的可行性。
關(guān)鍵詞:高??蒲许椖?前景預(yù)測;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP183? ? ?文獻標識碼:A
Abstract: This paper proposes to build a reliable prospect forecast system for scientific research projects in order to effectively predict prospects of scientific research projects in universities and further improve conversion rate of scientific research results. The system is based on neural networks and a network platform shared by scientific research projects. A model is generated by parameterizing characteristics of a large number of various scientific research projects, using the non-linear mapping ability, adaptive ability and generalization ability of BP (Back Propagation) neural network. Then, the model is used for reliable forecast of a new project from multiple dimensions. Experiments show that the prediction results, produced by the BP neural network algorithm after learning a large number of pre-processed samples, have high accuracy, and can be updated and adapted with new sample input. Therefore, this method is highly feasible.
Keywords: university scientific research projects; prospect prediction; neural network
1? ?引言(Introduction)
在我國,科研成果轉(zhuǎn)化率低已是老生常談的話題,2018年4月18日國務(wù)院常務(wù)會議確定了“加大對科技成果轉(zhuǎn)化的政策激勵”的政策方針并提出了若干辦法。但由于科研評價機制不合理、選題立項重復(fù)度高、科研資金管理存在漏洞[1]等問題,導(dǎo)致科研成果轉(zhuǎn)化率低的現(xiàn)象至今依然存在。提高科研成果轉(zhuǎn)化率,企業(yè)的參與是至關(guān)重要的,然而企業(yè)為了規(guī)避風險很注重項目的成熟度,偏向于投資前景已清晰的項目。這樣便導(dǎo)致很多優(yōu)秀的項目由于找不到投資者止步在“原始創(chuàng)新成果”階段,失去了產(chǎn)業(yè)化、商品化的機會。而各個高校的科研項目展示頁面更注重展示本??蒲许椖康膭?chuàng)新性和技術(shù)高度,而忽略了展示方案的實現(xiàn)成本及產(chǎn)業(yè)化的難度[2],這讓企業(yè)難以理解其價值。
本文中所研究的采用SSM+MongoDB技術(shù)搭建的基于BP神經(jīng)網(wǎng)絡(luò)(反向傳播神經(jīng)網(wǎng)絡(luò))算法的高??蒲许椖壳熬邦A(yù)測系統(tǒng),可實現(xiàn)對科研項目進行可靠的前景預(yù)測,幫助正在進行中的科研項目更直觀地展示自身價值,降低企業(yè)投資風險,提高科研成果的轉(zhuǎn)化率[3]。
2? ?技術(shù)簡介(Technical brief)
基于BP神經(jīng)網(wǎng)絡(luò)算法的高??蒲许椖壳熬邦A(yù)測系統(tǒng)的技術(shù)選型使用SSM框架,數(shù)據(jù)庫采用MySQL+MongoDB的形式,核心功能的實現(xiàn)使用了BP神經(jīng)網(wǎng)絡(luò)算法。
2.1? ?BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是19世紀80年代由David Runelhart等科學家提出的概念,是一種對感知機網(wǎng)絡(luò)的改進算法,解決了簡單感知器不能解決的異或(Exclusive OR, XOR)和非線性學習等問題。BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中通過反復(fù)調(diào)整系統(tǒng)中各種參數(shù)的值形成自己的學習能力,并將這種能力應(yīng)用于更多樣本的分類,因此被廣泛應(yīng)用于分類和識別領(lǐng)域。從收集到的資料可以得知:神經(jīng)網(wǎng)絡(luò)算法是一種對績效評價比較理想的方法,而且很多開發(fā)者在不同領(lǐng)域中應(yīng)用這種方法,如企業(yè)績效評價、動態(tài)供應(yīng)鏈績效評價、高校院系績效評價等。其學習流程可簡單概括為:
(1)輸入經(jīng)過預(yù)處理的樣本數(shù)據(jù)。
(2)乘以權(quán)重,增加偏置并激活,逐層傳遞。
(3)得到預(yù)測值并對比真實值得到損失值。
(4)利用損失值對偏置和權(quán)重求偏導(dǎo)。
(5)利用梯度下降的方法更新參數(shù)。
(6)循環(huán)以上流程直到損失值達到標準。
(7)訓(xùn)練完成。
BP神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于:(1)非線性映射能力:BP神經(jīng)網(wǎng)絡(luò)實質(zhì)上實現(xiàn)了一個從輸入到輸出的映射功能,數(shù)學理論證明三層的神經(jīng)網(wǎng)絡(luò)就能夠以任意精度逼近任何非線性連續(xù)函數(shù)。這使得其特別適于求解內(nèi)部機制復(fù)雜的問題。(2)容錯能力:BP神經(jīng)網(wǎng)絡(luò)在其局部的或者部分的神經(jīng)元受到破壞后,對全局的訓(xùn)練結(jié)果不會造成很大的影響,也就是說即使系統(tǒng)在受到局部損傷時還是可以正常工作的,即BP神經(jīng)網(wǎng)絡(luò)具有一定的容錯能力。但是BP神經(jīng)網(wǎng)絡(luò)仍有一些缺陷,比如:容易陷入局部極小值;神經(jīng)網(wǎng)絡(luò)收斂速度緩慢;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇沒有統(tǒng)一的解決方案,只能憑經(jīng)驗判斷;神經(jīng)網(wǎng)絡(luò)預(yù)測能力和訓(xùn)練能力的矛盾,可能導(dǎo)致“過擬合”的情況。這些缺陷有的已經(jīng)有了解決方案,而有些缺陷的解決方案還有待探索。
2.2? ?SSM框架
SSM框架是一種常用且經(jīng)典的以MVC模式搭建網(wǎng)站的框架組合,其中包含三個框架:Spring、SpringMVC、MyBatis。Spring負責管理集成的框架、呈現(xiàn)切面、管理事務(wù)處理和Bean的生命周期;SpringMVC負責轉(zhuǎn)發(fā)請求、傳遞頁面中動態(tài)數(shù)據(jù)和業(yè)務(wù)處理;MyBatis負責和MySQL數(shù)據(jù)庫的交互,將表轉(zhuǎn)換成類,將字段轉(zhuǎn)換成類的屬性以方便程序員對數(shù)據(jù)庫的CRUD[4]。
2.3? ?MongoDB數(shù)據(jù)庫
MongoDB是一個非關(guān)系型數(shù)據(jù)庫,在數(shù)據(jù)的存儲結(jié)構(gòu)上卻與關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫都有相似之處。即使之前對NoSQL的概念知之甚少的開發(fā)者也能快速上手。其優(yōu)勢在于清晰、便于理解的表結(jié)構(gòu),松散的存儲方式可以方便地存儲一些關(guān)系復(fù)雜的數(shù)據(jù),而其作為非關(guān)系型數(shù)據(jù)庫也具有大數(shù)據(jù)量處理、高性能讀寫的先天特性[5]。
3 BP神經(jīng)網(wǎng)絡(luò)在核心功能模塊中的應(yīng)用(Application of BP neural network in core function module)
使用BP神經(jīng)網(wǎng)絡(luò)進行前景預(yù)測的原因在于,通過研究發(fā)現(xiàn),在特定類別的科研項目中,最終成功轉(zhuǎn)化的科研項目在某些特征上具有共性,而不甚成功的科研項目同樣在某些特征上具有另一些共性[6]。這種數(shù)據(jù)關(guān)系與BP神經(jīng)網(wǎng)絡(luò)的工作模式非常符合,因此選用BP神經(jīng)網(wǎng)絡(luò)來完成前景預(yù)測功能。
由于神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)需要經(jīng)過預(yù)處理,而計算機難以實現(xiàn)對科研項目的特征進行評估,因此在設(shè)計時增加了評論功能,通過這個功能的設(shè)計幫助富有經(jīng)驗的用戶以規(guī)范的格式對項目進行全面且理性的評價。在經(jīng)過一段時間,取得評論達到一定數(shù)量后,對評論取均值即得到一個項目信息較為準確客觀的特征數(shù)據(jù)(取得了樣本的特征值);而在項目結(jié)束后,會有合作的企業(yè)或者專業(yè)的測評人員按照評分標準給項目進行最終評分(取得了樣本的真實值)。這樣便收集到了訓(xùn)練神經(jīng)網(wǎng)絡(luò)所需樣本的所有數(shù)據(jù),經(jīng)過預(yù)處理后的部分樣本數(shù)據(jù)如表1所示。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)時輸入數(shù)據(jù)必須格式統(tǒng)一,因此經(jīng)過研究設(shè)定了描述一個科研項目的五項特征:“選題”“經(jīng)費”“人員”“可行性”“市場需求”。從這些角度評價可以全面地概括一個科研項目的各項特征,這五項特征的值對應(yīng)BP神經(jīng)網(wǎng)絡(luò)輸入層的五個神經(jīng)元。
由于采用上述特征值收集方式使得特征值相差并不大,因此BP神經(jīng)網(wǎng)絡(luò)的傳播方式采用Log-Sigmoid激活函數(shù),如公式(1)所示:
Math.exp為Java內(nèi)用于返回自然數(shù)底數(shù)e的參數(shù)次方。而為了避免出現(xiàn)由于神經(jīng)網(wǎng)絡(luò)層數(shù)過深,在反向傳播時出現(xiàn)梯度消失的情況,隱含層(Hidden-layer)采用三層神經(jīng)元。隱含層的神經(jīng)元個數(shù)由輸入層和輸出層神經(jīng)元個數(shù)決定,具體公式如公式(2)所示:
Math.sqrt()為Java內(nèi)獲取參數(shù)正平方根的方法,hdNum為隱含層神經(jīng)元個數(shù),inNum為輸入層神經(jīng)元個數(shù),outNum為輸出層神經(jīng)元個數(shù),ADJUST為節(jié)點調(diào)節(jié)常數(shù),這樣的設(shè)計保證了在特征數(shù)量增加時程序的可擴展性。
在確定了神經(jīng)網(wǎng)絡(luò)的形狀之后是規(guī)定隱含層神經(jīng)元的計算規(guī)則,如公式(3)所示:
其中,為l層神經(jīng)元的輸出值,為激活函數(shù),為層神經(jīng)元的權(quán)重,為層神經(jīng)元的輸出值,為層的偏置值。在得到最終輸出值后與真實值比較取得損失值的損失函數(shù),如公式(4)所示:
其中,為預(yù)測值,為真實值,為樣本個數(shù)。隨后使用梯度下降的方式更新網(wǎng)絡(luò)中各節(jié)點的權(quán)值與偏置,并再次訓(xùn)練,重復(fù)直至損失值達到預(yù)設(shè)的標準[7]。
4? ?系統(tǒng)設(shè)計(System design)
整個網(wǎng)站平臺在SSM的框架下搭建,在此介紹用于實現(xiàn)科研項目前景預(yù)測的主要功能模塊的設(shè)計。
4.1? ?功能模塊結(jié)構(gòu)
系統(tǒng)所涉及的主要功能模塊包含科研項目信息模塊、評論模塊和評分模塊。科研項目模塊主要包含的功能為創(chuàng)建和修改科研項目信息、查看項目詳情和項目前景預(yù)測。評論模塊和評分模塊包含的功能為記錄用戶對科研項目各項特征的描述,這些數(shù)據(jù)將為科研項目信息模塊使用BP神經(jīng)網(wǎng)絡(luò)進行前景預(yù)測提供重要的數(shù)據(jù)支撐。
4.2? ?核心模塊的工作流程
首先,高??蒲腥藛T用戶會使用平臺上傳科研項目信息,科研項目信息模塊會對這些信息進行整理,之后存入數(shù)據(jù)庫,然后其他用戶在瀏覽科研項目信息后留下評論,這些評論由若干標簽構(gòu)成。這些標簽被預(yù)先設(shè)置好放在編寫評論界面的下方備選,標簽的內(nèi)容為科研項目在若干特征上的表現(xiàn),如描述項目“經(jīng)費”特征的標簽有“經(jīng)費不足”“經(jīng)費合適”“過分充裕”;描述項目“選題”特征的標簽有“意義重大”“價值一般”“毫無意義”。此外還有描述其他多個特征的若干標簽。標簽界面設(shè)計如圖1所示。
這些標簽被賦予不同的分值以衡量項目在若干特征上的表現(xiàn)。采用這種標簽的評論方式可以借助評論者的知識對項目給出相對客觀、全面且標準化的描述。項目與企業(yè)進行合作后,企業(yè)用戶會根據(jù)評分標準給出一個科研項目的最終評價。一個項目在收集若干評論數(shù)據(jù)后,這些評論將取均值作為該項目的特征值,而最終評價則作為項目的真實值。在獲得足夠的樣本后,這些數(shù)據(jù)被用于訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)和測試其準確度。BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后就可以通過一個科研項目的評論數(shù)據(jù)預(yù)測其前景。
4.3? ?系統(tǒng)測試結(jié)果
在測試中使用的訓(xùn)練集包含160條樣本,測試集包含40條樣本,訓(xùn)練完成后的BP神經(jīng)網(wǎng)絡(luò)預(yù)測準確率最高可達到95.0%,該次訓(xùn)練結(jié)果如圖2所示。
4.4? ?數(shù)據(jù)存儲
由于MySQL作為關(guān)系型數(shù)據(jù)庫能夠保證數(shù)據(jù)的ACID特性,因此用于存儲用戶的賬戶相關(guān)信息;而MongoDB則用于存儲科研項目的相關(guān)信息,如科研項目的介紹、附件、其他用戶的評論等需要頻繁進行CURD操作的數(shù)據(jù)。
5? ?結(jié)論(Conclusion)
由于系統(tǒng)所需數(shù)據(jù)需要平臺正式上線并在具有相當影響力后才能取得,真實數(shù)據(jù)難以收集,且本文中對科研項目前景預(yù)測的設(shè)計僅為給相關(guān)工作者提供參考思路,因此在測試設(shè)計有效性時使用了模擬數(shù)據(jù)。這樣的結(jié)果說明BP神經(jīng)網(wǎng)絡(luò)在理想的條件下并不能百分之百的實現(xiàn)對實驗樣本的準確分類,但是實驗結(jié)果中該算法展現(xiàn)較高的準確率已然表明,在高校科研信息共享平臺的開發(fā)中,BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于前景預(yù)測是具有較高可行性的。
參考文獻(References)
[1] 趙紅梅.基于新形勢下的高新技術(shù)企業(yè)科研經(jīng)費管理探究[J].財經(jīng)界(學術(shù)版),2018(4):84-86.
[2] 于曉棠.簡述高校科研成果轉(zhuǎn)化存在的問題及對策[J].科技資訊,2020,18(12):217-218.
[3] 高敏.基于BP神經(jīng)網(wǎng)絡(luò)的績效評價應(yīng)用研究[D].蘭州:西北師范大學,2016.
[4] 王燕貞,沈毅波.基于SSM框架的高校學生綜合測評系統(tǒng)設(shè)計與實現(xiàn)[J].通化師范學院學報,2020,41(04):58-63.
[5] 黃承明.基于MongoDB文檔模型的教學資源數(shù)據(jù)的建模研究[J].軟件工程,2020,23(05):46-49.
[6] 李言榮.科研評價要減少“人”的因素[N].中國科學報,2020-06-03(001).
[7] D. J. C. MacKay. A practical Bayesian framework for back-propagation networks[J]. Advances in Neural Information Processing Systems, 1992, 4(3):448-472.
作者簡介:
王漢元(1998-),男,本科生.研究領(lǐng)域:軟件工程,Java.
姜? ?英(1978-),女,碩士,副教授.研究領(lǐng)域:軟件工程.