邵光明,夏賢齊,殷何杰
隨著考古工作的不斷深入,我國已出土了數(shù)以千計(jì)的古代玻璃制品,并且這些玻璃制品主要出土于古代絲綢之路沿線,這從側(cè)面反映了絲綢之路是我國古代重要的貿(mào)易之路,也是重要的中西文明交流之路[1].我國最早的玻璃類型主要有鉛鋇硅酸鹽玻璃和鉀硅酸鹽玻璃等,但是由于年代久遠(yuǎn),玻璃埋在土中(如古墓內(nèi)的葬品)會受到環(huán)境影響而風(fēng)化[2],玻璃風(fēng)化后往往風(fēng)化產(chǎn)物會堆積在玻璃表面形成白色斑點(diǎn)或大片的霧狀物從而影響其化學(xué)成分比例,進(jìn)而影響對其類別的鑒別,這對我國玻璃制品化學(xué)成分的研究及玻璃文物類別鑒定造成了較大困難.
目前,關(guān)于古代玻璃制品的研究部分集中在其出土地或者其制造技術(shù)的起源[3],部分集中在文物的歷史發(fā)展或者是古代玻璃制品的特點(diǎn)[4],還有部分集中在分析其成分特點(diǎn)或制造工藝[5],鮮有文章關(guān)注其化學(xué)成分鑒別和分析.由于風(fēng)化程度的不同,不同古代玻璃制品鑒別的困難程度也有所不同.玻璃制品的研究還可使用回歸分析、主成分分析[6]、機(jī)器學(xué)習(xí)[7]、X 射線[8]等方法,這些方法可以鑒別玻璃制品的成分,但是大部分文獻(xiàn)沒有涉及對未知化學(xué)成分的預(yù)測分析.本文構(gòu)建了CART 和聚類分析預(yù)測模型,使用聚類分析模型對不同化學(xué)成分進(jìn)行比例分析,進(jìn)而通過不斷迭代得出最優(yōu)的聚類中心點(diǎn),即選取合適的化學(xué)成分,利用CART 模型,將未知玻璃制品的化學(xué)成分放入模型中訓(xùn)練,最后對其類別進(jìn)行正確的分類.
①系統(tǒng)聚類.系統(tǒng)聚類是將每個樣本獨(dú)立化,按照距離,將最近的兩個樣本合為新類,計(jì)算新類與其他類的距離,重復(fù)此過程,直到所有樣本都在一個大類中.最后繪制聚類圖,確定類的個數(shù).
②K?means 聚類.K?means 的核心思想是首先從數(shù)據(jù)集中隨機(jī)選取k個初始聚類中心Ci(1 ≤i≤k),計(jì)算其余數(shù)據(jù)對象與聚類中心Ci的歐氏距離,找出離目標(biāo)數(shù)據(jù)對象最近的聚類中心Ci,并將數(shù)據(jù)對象分配到聚類中心Ci所對應(yīng)的簇中,然后計(jì)算每個簇中數(shù)據(jù)對象的平均值作為新的聚類中心,進(jìn)行下一次迭代,直到聚類中心不再變化,迭代停止[9].
主成分分析法是Pearson 于1901 年首次提出的,通過研究指標(biāo)體系的內(nèi)在結(jié)構(gòu)關(guān)系,把多指標(biāo)轉(zhuǎn)化成少數(shù)幾個互相獨(dú)立而且包含原有指標(biāo)大部分信息的綜合指標(biāo)的多元統(tǒng)計(jì)方法,其優(yōu)點(diǎn)是此方法確定的權(quán)數(shù)是基于數(shù)據(jù)分析而得到的指標(biāo)之間的內(nèi)在結(jié)構(gòu)關(guān)系,而且得到的綜合指標(biāo)(主成分)之間彼此獨(dú)立,這使得分析評價結(jié)果具有客觀性和可確定性[10].其步驟如下:
①按列計(jì)算均值和標(biāo)準(zhǔn)差,得出標(biāo)準(zhǔn)化矩陣.
②計(jì)算協(xié)方差矩陣R的特征向量和特征值λ1≥λ2≥…≥λp≥0(R是半正定矩陣).
③通過式(1)和式(2)分別計(jì)算貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,其中累計(jì)貢獻(xiàn)率越大,說明其成分包含的信息量越多.
決策樹[11]本質(zhì)上是一種樹形結(jié)構(gòu),其中每個內(nèi)部節(jié)點(diǎn)表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節(jié)點(diǎn)代表一種類別[12].使用決策樹前,先進(jìn)行選擇,判斷哪一個特征確定了樹的功能,并進(jìn)行子表劃分.CART 算法常采用基尼系數(shù)來劃分特征.基尼系數(shù)即一個樣本被分錯的概率.在樣本數(shù)量為d的樣本集D,k為種類個數(shù),每個種類對應(yīng)的樣本數(shù)量為Ck時,計(jì)算公式如下:
式中:p(Xi)表示樣本種類為i時被選中的概率,計(jì)算公式為
數(shù)據(jù)來源于2022 年全國大學(xué)生數(shù)學(xué)建模競賽官網(wǎng)提供的古代玻璃制品的相關(guān)數(shù)據(jù).現(xiàn)已知這些文物樣品的化學(xué)成分比例和玻璃類型為高鉀玻璃和鉛鋇玻璃.由于檢測手段等原因可能導(dǎo)致成分比例的累加為非100%的情況,因此,規(guī)定在85%~105%之間才視為有效數(shù)據(jù).將數(shù)據(jù)進(jìn)行求和會發(fā)現(xiàn)15 號和17號的累加不在范圍之內(nèi)需剔除.數(shù)據(jù)存在空白值,不屬于缺失值,將其設(shè)為0,以此方便后面模型的計(jì)算.對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,本文采用Z 標(biāo)準(zhǔn)化方法.
①聚類分析結(jié)果.針對玻璃種類是否風(fēng)化進(jìn)行分析,將系統(tǒng)聚類的結(jié)果與實(shí)際值進(jìn)行比較,從而判斷分類標(biāo)準(zhǔn)劃分的合理性,將檢測到的主要成分指標(biāo)通過SPSS 25.0 軟件進(jìn)行系統(tǒng)聚類,聚類結(jié)果譜系圖如圖1 所示.
圖1 玻璃類型高鉀與鉛鋇系統(tǒng)聚類結(jié)果譜系
從圖1 可以看出,當(dāng)距離大于20 時,其呈現(xiàn)明顯的兩大趨勢.聚類結(jié)果的兩個大類可以反映不同風(fēng)化程度的玻璃樣本.即距離小于20 的樣本在某種程度上具有相似的風(fēng)化特征,而距離大于20 的樣本則表現(xiàn)出更大的差異性.
K?means 聚類之后對分類數(shù)目進(jìn)行敏感性檢驗(yàn)得到的結(jié)果如表1 所示.
表1 敏感性檢驗(yàn)結(jié)果
從表1 可以看出,分類數(shù)目與準(zhǔn)確率不成正比,當(dāng)分類數(shù)目為3 時,準(zhǔn)確率最高為89.71%.然而,在其他分類數(shù)目下,準(zhǔn)確率存在波動性且有下降趨勢,表明過多或過少的分類數(shù)目可能導(dǎo)致分類結(jié)果的不準(zhǔn)確.由此可以看出,從獲得的數(shù)據(jù)中將古代玻璃類別分為高鉀類和鉛鋇類兩大類和三個亞類是最佳選擇.
此分類方案可為文物研究和管理提供重要的分類依據(jù),有助于深入理解文物的特征和更為精確的分類關(guān)系.為確保該分類方案的有效性和可靠性,仍需要進(jìn)一步研究與驗(yàn)證.
②主成分分析結(jié)果.由于本文指標(biāo)較多可能導(dǎo)致高維度數(shù)據(jù),且部分指標(biāo)存在大量的零值.為降低維度減少數(shù)據(jù)的復(fù)雜性和數(shù)據(jù)的稀疏性,本文利用主成分分析法,將所收集到的玻璃文物數(shù)量作為樣本,14 個化學(xué)成分作為指標(biāo),建立矩陣,運(yùn)用SPSS 25.0 軟件計(jì)算相關(guān)矩陣和特征值等.主成分分析的特征根如圖2 所示.
圖2 主成分分析的特征根
從圖2 可以看出不同特征根的特征值大小.當(dāng)提取的因子小于6 個時,特征值變化較大,這表明新增的因子對解釋原有變量的貢獻(xiàn)較大.當(dāng)提取的因子大于6 個時,特征值變化較小,增加特征值對原有變量貢獻(xiàn)相對較小,由此可知,提取前六個因子對原有變量有顯著作用.
③CART 決策樹預(yù)測.根據(jù)化學(xué)成分的比例大小,對被分為高鉀和鉛鋇的兩類玻璃文物,通過使用Python 進(jìn)行訓(xùn)練,得到一個決策樹模型,如圖3 所示.
圖3 決策樹模型結(jié)構(gòu)
從圖3 可以看出,沿著決策樹不同的分支路徑進(jìn)入可以幫助其對玻璃文物進(jìn)行分類和識別.這種基于決策樹模型的分類和識別方法可以為玻璃文物研究和鑒定提供有力的支持.
將未知文物的化學(xué)成分?jǐn)?shù)據(jù)作為測試集,并通過已建立的CART 決策樹模型進(jìn)行預(yù)測.模型根據(jù)輸入A1~A8 的特征值,對每個未知文物進(jìn)行玻璃類型的預(yù)測,預(yù)測結(jié)果如表2所示.
表2 未知文物預(yù)測結(jié)果
從表2 可以看出,基于決策樹模型根據(jù)訓(xùn)練數(shù)據(jù)中的特征值和對應(yīng)的已知玻璃類型進(jìn)行學(xué)習(xí),得出的預(yù)測結(jié)果為高鉀類或鉛鋇類.例如,A1、A6 和A7 被預(yù)測為高鉀類,而A2、A3、A4、A5 和A8 被預(yù)測為鉛鋇類.
文章使用Python 和SPSS 軟件,構(gòu)建CRAT決策樹分類預(yù)測模型,對古代玻璃制品進(jìn)行分類預(yù)測,采用系統(tǒng)聚類和K?means 聚類方法對古代玻璃制品進(jìn)行分類,從而提高了模型的合理性和準(zhǔn)確性.
本研究存在的局限性:一是模型預(yù)測結(jié)果需要進(jìn)一步驗(yàn)證,以確保結(jié)果的精確性與模型的穩(wěn)定性;二是由于不同時期和地區(qū)的古代玻璃制品存在差異性,可能需要更多的樣本數(shù)據(jù)和特征信息,以改進(jìn)分類預(yù)測的效果.后續(xù)將針對這些局限性進(jìn)行認(rèn)證.