(西安天和防務技術(shù)股份有限公司 陜西 西安 710075)
學術(shù)性[1]是學術(shù)性網(wǎng)頁的基本屬性,也是學術(shù)性的網(wǎng)頁所應具有的鮮明特征。而如如何判斷網(wǎng)頁的學術(shù)性,要從學術(shù)網(wǎng)頁本身的內(nèi)容來分析,一般從創(chuàng)新性、實驗性、理論性三點來分析網(wǎng)頁[2]。
首先創(chuàng)新性,網(wǎng)頁所表達的學術(shù)內(nèi)容是否具備創(chuàng)新性,創(chuàng)新性是學術(shù)性論文的核心,學術(shù)性論文的創(chuàng)新性最集中地體現(xiàn)為它在多大程度上消除了不確定性。因為創(chuàng)新性可以反應出該論文是否是是作者的原創(chuàng)的學術(shù)工作,而不是對他人的論文的抄襲或者重復的機械工作。
其次實驗性,因為實驗性是對論文中作者提出的創(chuàng)新性的驗證,通過實驗性的驗證,可以很好的分析出作者提出的觀點是否正確,是否可以有效的被引用,必須強調(diào)的是,實驗性是對創(chuàng)新性的驗證,而不是對既定的正確的理論進行驗證的分析。
最后理論性。不論作者提出了什么創(chuàng)新或者驗證這個創(chuàng)新的可行性。但是依然需要對自己所做的上述的兩點內(nèi)容進行總結(jié)概況,使其成為可以有效的,具有體系的理論知識。這一點可以使論文具有很好的學術(shù)借鑒性。
總之,關(guān)于有效的判斷一個網(wǎng)頁是否具有學術(shù)性,目前還沒有特別系統(tǒng)和有效的判定方法。
對于網(wǎng)頁是否具備學術(shù)性,需要對網(wǎng)頁本身進行分析,通過分析網(wǎng)頁的內(nèi)容來判斷,是否該網(wǎng)頁具備學術(shù)性的特征[4],而一個網(wǎng)頁本身一般具有三個特征:分別是內(nèi)容上的特征、網(wǎng)頁的結(jié)構(gòu)上的特征和網(wǎng)頁外部的特征,所以對于網(wǎng)頁學術(shù)性的判斷需要從上面的三點出發(fā)進行判斷和分析:
1.網(wǎng)頁的內(nèi)容特征
網(wǎng)頁的內(nèi)容特征是指:網(wǎng)頁本身的主題內(nèi)容所表達的主旨。而學術(shù)性網(wǎng)頁的往往是對一篇對應的學術(shù)文獻的總結(jié)或者大綱式的展示,它具有一般的學術(shù)性論文的大部分特征。所以在網(wǎng)頁的內(nèi)容上的學術(shù)性分析,就等價于對這個網(wǎng)頁內(nèi)容中存在的關(guān)鍵字的分析,分析這些關(guān)鍵字是否具備專業(yè)學術(shù)性的特征。例如:學術(shù)性網(wǎng)頁的標題的內(nèi)容一般都是“基于…研究”,所我們就可以選取“基于”、“研究”作為判斷網(wǎng)頁學術(shù)性的關(guān)鍵字。
2.網(wǎng)頁結(jié)構(gòu)特征
網(wǎng)頁結(jié)構(gòu)特征是指:網(wǎng)頁在布局格式上是否具備學術(shù)性網(wǎng)站所具有的格式特征。由于學術(shù)性的網(wǎng)站大都是對一篇學術(shù)文獻的內(nèi)容總結(jié)或者大綱展示,所以多數(shù)學術(shù)性網(wǎng)頁結(jié)構(gòu)內(nèi)容與一篇論文的目錄無異。例如在格式上就是:標題、指導老師、作者、摘要、關(guān)鍵字、分類號、引用次數(shù)、瀏覽次數(shù)等這樣分塊展示,以這樣的分塊分別對網(wǎng)頁所具有的學術(shù)性進行說明。
所以基于上述兩點,并且針對網(wǎng)頁的這兩點進行分析和判斷,基本上就可以得出一篇網(wǎng)頁是否具有學術(shù)性或者說這個網(wǎng)頁是否為一篇學術(shù)型的網(wǎng)頁。
由于目前并沒有一個全面的成熟的可以進行網(wǎng)頁學術(shù)性判斷的算法,因此本文提出了基于貝葉斯算法的網(wǎng)頁學術(shù)性判斷算法,而貝葉斯算法的基礎就是貝葉斯定理,同時貝葉斯算法也是實現(xiàn)網(wǎng)頁學術(shù)性判斷算法的基礎。
貝葉斯定理[7]使用理論統(tǒng)計學研究概率推論,它是根據(jù)已經(jīng)發(fā)生的事件隨后預測將來可能發(fā)生的事件。在貝葉斯定理中有明確的描述:如果某事件的發(fā)生的結(jié)果是不確定性的,那么唯一的可以量化它的方式就是來描述這個事件發(fā)生的概率。
貝葉斯定理的數(shù)學表述如下:
假定存在兩個為事件A與B,且P(A)>0,在事件A已經(jīng)發(fā)生的條件下,事件B發(fā)生的概率,稱為事件B在給定事件A的條件概率(也稱為后驗概率),條件概率表示為P(B|A)。P(B)可稱為無條件概率。條件概率的公式為:
(1.1)
由條件概率可得到乘法公式:
P(AB)=P(A)P(B|A)=P(B)P(A|B)
(1.2)
假設S為試驗E的樣本空間,A為E的事件,B1,B1,…Bn為S的一個劃分,且P(B)>0(i=0,1,2…n),則全概率公式為:
(1.3)
由條件概率公式和全概率公式可得如下的貝葉斯公式:
(1.4)
由貝葉斯公式求得后驗概率為:
(1.5)
一個網(wǎng)頁所包含信息是非常豐富的,但是對于這個網(wǎng)頁的主題信息而言,其實只有很少的一部分對用戶來講是有效的或者說只有一部分是關(guān)于這個網(wǎng)頁的主題信息的表述,需要對網(wǎng)頁信息進行篩選,選取能表示網(wǎng)頁主題的部分關(guān)鍵字,即找到該網(wǎng)頁的特征關(guān)鍵字。
對目標網(wǎng)頁進行特征提取[8]的算法是否優(yōu)良,會直接影響到網(wǎng)頁分類的質(zhì)量。如下表1所示,為常用網(wǎng)頁特征提取方法的比較。
表1 常用的網(wǎng)頁特征提取方法
關(guān)鍵字的特征頻率可以很好的反應關(guān)鍵字與文章主題之間的關(guān)系,并且易于計算,所以在本文中選取特征關(guān)鍵字的特征頻率(即不同的網(wǎng)頁中出現(xiàn)的某些詞組的頻率詞)作為我們算法的基礎參數(shù),并使用各個特征關(guān)鍵字的特征頻率作為我們的網(wǎng)頁學術(shù)性判斷算法的基礎。
1.網(wǎng)頁學術(shù)性判別算法
依據(jù)貝葉斯定理,將總網(wǎng)頁的樣本用W={w1,w2,……,Wn}表示,而各個樣本網(wǎng)頁由多個關(guān)鍵字組成的,即各網(wǎng)頁樣本用H={h1,h2,……,hi}表示,P(h)表示各個不同的關(guān)鍵字在網(wǎng)頁中出現(xiàn)的概率,P(D)示將要觀察的網(wǎng)頁數(shù)據(jù)D在沒確定某一假設成立時D的概率;P(D|h)表示關(guān)鍵字(h)在網(wǎng)頁數(shù)據(jù)中出現(xiàn)概率。最后求得P(h|D),即給定一個訓練樣本數(shù)據(jù)D時h成立的概率。由貝葉斯公式求得后驗概率為;
(1.6)
由于在樣本集合中對于給定的W,存在的關(guān)鍵字是多個的并且相互獨立。則各個關(guān)鍵字的對應的概率求和相加,得到表示這個網(wǎng)頁的主題相關(guān)度的值K,如下:
(1.7)
由于W是不依賴于h的常數(shù),所以上式可以簡化為:
(1.8)
在特定情況下,可以假設H中的任意假設hi和hj,都有P(hi)=P(hj),即它們的先驗概率相等,這樣就可以簡化上面的公式,最后只考慮P(D|h)來確定網(wǎng)頁主題的相關(guān)度閾值:
(1.9)
2.K值計算
第一步:選取樣本:
首先在網(wǎng)上抓取了3000個網(wǎng)頁作為測試數(shù)據(jù),對這些測試數(shù)據(jù)進行人工分析,得出滿足學術(shù)性的網(wǎng)頁個數(shù)為176個。
第二步:計算機樣本K值:
對于樣本數(shù)據(jù)中的各個詞出現(xiàn)的頻率的統(tǒng)計,經(jīng)過對樣本網(wǎng)頁的分析得出,有一部分關(guān)鍵字可以很好的對網(wǎng)頁的學術(shù)性進行準確說明,選取這些關(guān)鍵字作為網(wǎng)頁學術(shù)性特征的代表關(guān)鍵字,然后依靠貝葉斯算法求得各個關(guān)鍵字的特征頻率。
首先選取的樣本的代表關(guān)鍵字為:標題、基于、研究、引言、摘要、目錄、緒論、刊名、作者、機構(gòu)、致謝、分類號、關(guān)鍵字、結(jié)束語、參考文獻、作者單位、瀏覽歷史、下載歷史、基金項目、文獻標識碼、所屬期刊欄目。
對于上述關(guān)鍵字的特征頻率的統(tǒng)計基本信息如下表2所示,第一列為網(wǎng)頁中的關(guān)鍵字的序號,第二列是網(wǎng)頁中的關(guān)鍵字名稱,第三列是網(wǎng)頁中出現(xiàn)的關(guān)鍵字的數(shù)量統(tǒng)計,第四列是對應網(wǎng)中出現(xiàn)的關(guān)鍵字的實際觀測概率。
表2 網(wǎng)頁信息統(tǒng)計
對于上面統(tǒng)計的關(guān)鍵字進行分析,發(fā)現(xiàn)對于網(wǎng)頁而言,出現(xiàn)頻率較大的詞語,即概率較大的關(guān)鍵字是大多數(shù)的網(wǎng)頁所共有的,并且這些關(guān)鍵字對于判定該網(wǎng)頁的學術(shù)性的判定是較低的。
反而一些概率較小的關(guān)鍵字對于判定該網(wǎng)頁是否具有學術(shù)性的判定則較高,所以選取一部分關(guān)鍵字作為判定網(wǎng)頁是否具有學術(shù)性的判定因子。
網(wǎng)頁特征選取的依據(jù):在表2中發(fā)現(xiàn)網(wǎng)頁關(guān)鍵字的特征頻率的統(tǒng)計中,有的關(guān)鍵字依然不能對網(wǎng)頁主題的學術(shù)性有較好的說明,所以需要人工剔除一部分,選出可以代表和高度濃縮網(wǎng)頁主題的關(guān)鍵字,進而作為網(wǎng)頁學術(shù)性判斷定關(guān)鍵字。
選取的關(guān)鍵字有:刊名、文獻標識碼、所屬期刊欄、分類號、摘要、關(guān)鍵字、作者、作者單位、瀏覽歷史、下載歷史、基金項目。對于剩余的其他關(guān)鍵字我們不做選擇,由于剩余的關(guān)鍵字對網(wǎng)頁的主題的說明上不具備說服性和代表性。
由于上述這些關(guān)鍵字對應的特征頻率較小,采用取反的數(shù)學處理方式對其進行處理,即通過取反方法的提高了這些關(guān)鍵字的特征頻率的數(shù)值,便于程序后續(xù)對網(wǎng)頁是否具備的學術(shù)性進行排序。
學術(shù)算法中的選取的部分關(guān)鍵字列表如下表3所示:
表3 網(wǎng)頁關(guān)鍵字及其權(quán)值
K為網(wǎng)頁學術(shù)性的相關(guān)度閥值,隨后對于樣本數(shù)據(jù)進行處理,計算出每個網(wǎng)頁對應相關(guān)度,依據(jù)相關(guān)度從大到小排序。下圖1為截取的部分排序圖片:
圖1 經(jīng)學術(shù)判定后的網(wǎng)頁信息
第三步:閾值選取分析:
前期在3000網(wǎng)頁樣本中,人工分析的學術(shù)網(wǎng)頁個數(shù)是176個。而在機器排序中,選取相關(guān)度閾值前176的網(wǎng)頁,然后人工分析這些網(wǎng)頁的學術(shù)性,第176個網(wǎng)頁的相關(guān)度閾值為:5.428。
由于相關(guān)性閾值為5.428處的網(wǎng)頁個數(shù)為3個,則選取的網(wǎng)頁個數(shù)為179。在179個網(wǎng)頁中,再次進行人工鑒別,這179個網(wǎng)頁中,具有學術(shù)性的網(wǎng)頁個數(shù)是145,其中不具備學術(shù)性的個數(shù)為34個。
查全率:145/176=0.8239
精準率:145/179=0.8101;
即學術(shù)網(wǎng)頁判定算法的精準率為81.01%。
而進行人工鑒別的時候,判斷出具有學術(shù)性的網(wǎng)頁個數(shù)為176個,再次對3000網(wǎng)頁的排序進行人工分析,觀察到第241個網(wǎng)頁時,找到了所有的具有學術(shù)性的網(wǎng)頁,而第248個網(wǎng)頁對應的閾值為:4.3263。其中不具備學術(shù)性的網(wǎng)頁個數(shù)為65個。
查全率:176/176=1
精準率:176/241=0.7302
即學術(shù)網(wǎng)頁判斷算法的查全率為:100%,而精準率為73.06%。
第四步:選取閾值:
經(jīng)分析可得,查全率和精準率是無法同時滿足的,所以在使用時對閾值的選取十分重要,要以滿足自己的需求來選取閾值。在本算法中,要以精準率為首要考慮要求,所以選取精準率較高的閾值作為系統(tǒng)閾值,即:K=5.428。
本文提出的基于貝葉斯算法的網(wǎng)頁學術(shù)性判斷算法,與單純的貝葉斯算法進行比較,實現(xiàn)了貝葉斯算法有的新應用,由于目前還沒有一個較為完整的對于網(wǎng)頁學術(shù)性判斷的判定算法,本文結(jié)合貝葉斯算法提出的網(wǎng)頁學術(shù)性算法較好的完成了對于網(wǎng)頁學術(shù)性的分類,可以較為準確的和快速的判別出抓取的目標網(wǎng)頁是否具備學術(shù)性。