黨雪寧 李明,2
(1.廣西科技大學經濟與管理學院 廣西柳州 545000;2.廣西科技大學廣西工業(yè)高質量發(fā)展研究中心 廣西柳州 545000)
近年來,互聯網產業(yè)迅猛發(fā)展,數據資源比重不斷提高,同時數據挖掘、數據分析技術的發(fā)展加快了數據資源價值的評估,從而能夠最大程度地發(fā)揮數據資產的效用。數據資產評估研究存在數據資源龐大難以有效利用、數據資產不能合理評估造成互聯網行業(yè)發(fā)展緩慢、數據資產本身特性造成評估困難等問題。因此,我們需要觀察行業(yè)發(fā)展現狀,充分考慮衡量數據資產價值的因素,構建適用于數據資產價值的評估模型,從而提高數據資產價值評估的精確性。
孟小峰、慈祥(2013)[1]提出大數據具有規(guī)模大、多樣性、高速性的特點;張興旺等(2019)[2]認為數據資源經過加工處理實現價值增值后形成數據資產。具體特征包括:控制、可變現、可計量、可估值、可流通?;诖?,將數據資產的特征歸納為非實體性、類型多樣性、可變性、權屬不清晰等四個方面。對不同行業(yè)來說,影響數據資產價值的因素也不同;黃萃(2014)[3]提出不同的定價策略及定價方法的選擇會受到獲取公共信息的目的、價值估算、成本及融資、市場競爭狀況及社會信息公平等五個因素的影響;吳江(2015)在探討數據交易時,數據產權、數據的有用性數據交易成本、交易機制等會對數據資產價值造成影響。通過總結不同學者的觀點,本文認為數據資產與質量、稀缺性、效用等息息相關。
BP神經網絡由三部分構成,分別是輸入層、隱藏層、輸出層。神經網絡的每一層由若干個神經元組成,神經元作為BP神經網絡的感知器,經過激活函數的處理完成傳播過程。BP神經網絡由輸入、權重、偏置、激活函數、輸出等組成。BP神經網絡包含正向傳播和反向反饋。BP神經網絡的正向傳播通過激活函數來實現,將訓練樣本作為輸入層,與權重計算加上偏置,經過激活函數的處理,得到的輸出結果作為下一次節(jié)點的輸入,將輸出結果與期望值進行比較,結果達不到期望值,不斷調整迭代得到滿意的結果,將最終的結果進行測試,并應用于適用領域。
遺傳算法優(yōu)化BP神經網絡分為BP神經網絡結構確定、遺傳算法優(yōu)化和BP神經網絡預測3個部分。其中,BP神經網絡的結構確定部分根據擬合函數的輸入輸出參數個數確定BP神經網絡結構,進而確定遺傳算法個體的長度。遺傳算法優(yōu)化BP神經網絡的權值和閾值,種群中的每個個體都包含一個網絡所有的權值和閾值,每個個體通過適應度函數計算適應度值,遺傳算法通過選擇、交叉、變異操作找到最優(yōu)的適應度值對應的個體。
百度公司于2000年1月1日由李彥宏攜“超鏈分析”搜索引擎專利技術在中關村科技園創(chuàng)建,這一技術專利使百度成為國內高科技企業(yè),掌握了世界尖端科學核心技術,也使中國躋身于全球包括美國、俄羅斯、韓國在內僅有的4個具有搜索引擎核心技術的國家之列。百度互聯網服務用戶達10億,每天響應數十億次搜索請求,已成為100余個國家和地區(qū)上網民眾接收中文信息和服務的重要途徑。
百度搜索引擎價值受網站內在技術、用戶角度等多方面影響,通過搜索引擎統計網站,我們盡可能較多的搜集影響搜索引擎數據資產價值的因素,從網站了解到用戶因素占了較大的部分,因此本文主要從用戶角度出發(fā)對搜索引擎價值進行預測,以流量指標作為評價標準,選取瀏覽量、訪客數、IP數、跳出率、平均訪問時長、轉換次數6個指標作為百度搜索引擎數據資產的價值影響因素。
本文將百度搜索引擎包括瀏覽量、訪客數、IP數、跳出率、平均訪問時長、轉換次數6個指標作為百度搜索引擎數據資產的價值影響因素,將6個指標數值歸一化處理作為神經網絡輸入層。搜集了百度搜索引擎一個月的股票單價,根據股票單價和股數計算預測值,將預測值作為神經網絡輸出層的訓練樣本,價值預測計算表達式如下:
其中:
V:百度搜索引擎市場價值;
C:百度搜索引擎價值預測當日股數;
Smax:百度日最高股價;
Smin:百度日最低股價;
T:美元與人民幣換算匯率。
本文從百度統計網站統計了百度搜索引擎相關指標樣本值,選取2021年10月—11月共計32天的數據,確定了3216個自變量樣本數據和32個因變量數據值進行后續(xù)的處理。
3.4.1 傳遞函數
神經網絡的傳遞函數一般選purelin、tansig、logsig三種傳遞函數,將其組合成9種不同形式,經過程序處理得到相對應的均方誤差,均方誤差越小,BP神經網絡學習的效果最優(yōu),因此選擇均方誤差最小的tansig、purelin的組合作為神經網絡的傳遞函數。
3.4.2 神經網絡層數
神經網絡隱藏層個數決定了其結構的復雜程度,本文選擇一個相同的網絡結構,訓練迭代50次,比較網絡運行時間和結果精度,通過預測結果得出在誤差百分比相近的情況下,雙層網絡結構均方誤差和訓練時間最為合適。
3.4.3 各層神經元節(jié)點數
本文選取了瀏覽量、訪客數、IP數、跳出率、平均訪問時長、轉換次數6個指標作為神經網絡輸入層,即輸入層神經元節(jié)點數為6。被解釋變量為百度輸出層節(jié)點數為1,表示百度搜索引擎數據資產的市值。神經元隱藏層節(jié)點的多少決定了神經網絡模型擬合的效果,因此確定合適的隱藏層節(jié)點數至關重要。最優(yōu)的隱藏層節(jié)點數確定方式公式如下:
其中:
l:隱藏層節(jié)點數;
m:輸出單元神經元數;
n:輸入單元神經元數;
a:0~10的調節(jié)常數;
本文經過查閱相關文獻及測試,將第一層隱藏層神經元個數設置為10,第二層神經元個數設置為1。
3.4.4 學習率
本文將學習率初始值確定為0.001,在神經網絡學習過程中,用梯度下降法不斷調整,直至收斂達到局部最優(yōu),得到最終的學習率。
3.5.1 聲明全局變量
(1)確定訓練集輸入數據p和訓練集輸出數據t
訓練集輸入數據選取樣本數據中前29組數據,即確定一個629的矩陣p。訓練集輸出數據也就是預測的百度搜索引擎的市值,確定一個129的矩陣t。
(2)輸入層、隱藏層、輸出層神經元的個數
輸入神經元個數R=6,隱藏層神經元個數S1=10,輸出神經元個數S2=1。
(3)編碼長度
3.5.2 數據歸一化
根據歸一化數學原理,在Matlab R2018a中運用premnmx()函數進行初始數值的歸一化。表達如下:
其中:
3.5.3 確定種群個數并初始化種群
設定種群個數popu=50,初始化種群借用功能函數確定過程如下:
通過運行上述程序,得到最優(yōu)的權值和閾值如下:
3.5.8 計算隱藏層和輸出層的輸出
用A1表示隱藏層的輸出,A2表示輸出層的輸出
隱藏層tansig函數表達式為:
輸出層purelin函數表達式為:
將上述計算的具體數值帶入求解,即可得到輸出層的輸出值。
上述計算在Matlab中表示為:
運行后得出:A1為由1和-1組成的1029的矩陣,A2為129的矩陣。
3.5.9 計算誤差平方和
在Matlab中表示為:
運行得誤差平方和SE=5.7460*106。
3.5.10 計算適應度值
在matlab中運行得val=1.7403*10-7,適應度值越小,說明尋出來的結果越好,因此用遺傳算法優(yōu)化神經網絡評估出來的值是可信的。
在Matlab中用postmnmx()函數將輸出的數據反歸一化得到預測數據,同時輸出測試數據作為真實值,表示如下:
得出的預測值和真實值匯總如表1所示。
表1 預測值和真實值對比
通過表1中預測值和真實值的比較,計算的誤差百分比大部分在5%以內,說明GA-BP神經網絡模型擬合效果良好,預測的結果可信,因此用該模型預測的結果作為百度搜索引擎數據資產的價值是可行的。
根據設置的參數,在軟件MATLABR2018a中進行模型的構建和訓練,得出遺傳算法優(yōu)化神經網絡的預測值與實際值效果如圖1所示。
圖1 GA-BP神經網絡數據擬合圖
圖1反映兩種模型預測結果的大體走勢,本文給出了GA-BP神經網絡模型評估百度搜索引擎31組數據資產價值的預測值和真實值,因百度公司目前市場份額及財務狀況較為穩(wěn)定,可將31組數據的平均值作為最終確定的搜索引擎數據資產預測的價值,最終計算確定的百度搜索引擎數據資產的價值為452.6萬元。通過計算我們可以看出最終確定的預測值與真實值的平均值差值較小,說明模型訓練的預測值和真實值的曲線圖的擬合效果較好,得出的結論真實可靠,具有較大的參考性。