畢碩本,閭國年,裴安平,孫懿青
(1.南京信息工程大學計算機與軟件學院,江蘇南京 210044;2.南京師范大學地理科學學院,江蘇南京 210097; 3.南京師范大學文物與博物館學系,江蘇南京 210097)
姜寨一期文化遺跡屬性數(shù)據(jù)的關聯(lián)規(guī)則挖掘研究
畢碩本1,閭國年2,裴安平3,孫懿青2
(1.南京信息工程大學計算機與軟件學院,江蘇南京 210044;2.南京師范大學地理科學學院,江蘇南京 210097; 3.南京師范大學文物與博物館學系,江蘇南京 210097)
在基于Ap rio ri算法的單維布爾關聯(lián)規(guī)則基礎上,以姜寨遺址主要遺跡的屬性數(shù)據(jù)為研究對象,利用該算法對姜寨一期文化遺跡的屬性數(shù)據(jù)進行了關聯(lián)挖掘分析。首先進行房屋遺跡屬性的關聯(lián)挖掘,然后進行土坑葬等的屬性數(shù)據(jù)挖掘,找到了聚落遺址屬性數(shù)據(jù)之間隱含的關系,為聚落考古遺址的資料分析提供了一種新技術(shù)。
Ap rio ri算法;數(shù)據(jù)挖掘;聚落考古;姜寨遺址
利用史前聚落半坡類型姜寨遺址的田野考古發(fā)掘資料進行數(shù)據(jù)挖掘研究,目的在于通過對聚落遺址屬性數(shù)據(jù)的挖掘,找到遺址資料內(nèi)部的規(guī)律,發(fā)現(xiàn)考古學知識。面對遺跡、遺物屬性數(shù)據(jù)庫等多維屬性數(shù)據(jù)挖掘的需要,本文運用經(jīng)典的Ap rio ri算法,挖掘和發(fā)現(xiàn)大量數(shù)據(jù)中感興趣的關聯(lián)規(guī)則。為了便于數(shù)據(jù)挖掘和提取有用的知識,先對原始數(shù)據(jù)進行了必要的預處理,并將結(jié)果存入挖掘數(shù)據(jù)庫中,然后利用這些數(shù)據(jù),運用Ap rio ri關聯(lián)算法,得到了一系列隱藏在原始資料中的規(guī)則。
資料來源于《姜寨——新石器時代遺址發(fā)掘報告》(上、下冊)[1]。基于屬性的數(shù)據(jù)挖掘采用房屋布局情況及其相對層位表、第一期房屋登記表、灶坑登記表、窖穴登記表、土坑墓登記表、甕棺葬登記表以及有關一期文化的圖片資料,包含837張圖片的圖像。
Ap rio ri算法是一種最有影響的挖掘布爾關聯(lián)規(guī)則頻繁項集的算法,其將關聯(lián)規(guī)則挖掘算法分解為兩步[2,3]:
(1)找到所有支持度大于最小支持度的頻集,含有k個項的頻集稱為k-項集。
(2)使用上述頻集產(chǎn)生期望的規(guī)則。對于每個頻集 A,若 B?A、B≠Ф,且Confidence(B→(AB))≥設定的最小置信度(minconf),則構(gòu)成關聯(lián)規(guī)則B→(A-B)。本文只考慮規(guī)則的右邊只有一項的情況。如果給定一個頻集 Y=I1,I2,…,Ik,k≥2, Ij∈I,則只包含集合{I1,I2,…,Ik}中的項的規(guī)則最多有 k條。這種規(guī)則形如 I1,I2,…,Ii,Ii+1,…,Ik→Ii,1≤i≤k,其中,只有那些置信度大于用戶給定的最小置信度的規(guī)則被保留。該算法為了生成所有頻集,使用了遞歸方法,偽代碼為:
輸入:D,最小支持度minsup;
輸出:Result=所有的頻集及其支持度。
對整個遺址的所有房屋按照分別給定的最小支持度與最小置信度,按分組、房屋時代、房屋形制等情況[4],與有關屬性基于 Ap rio ri進行關聯(lián)數(shù)據(jù)挖掘,得到了多種組合的關聯(lián)規(guī)則,分析如下:
2.1.1 房屋分組與門朝向的關聯(lián)規(guī)則(最小支持度為6%,最小置信度為15%) 規(guī)則1 分組:北組,門向:南,記錄數(shù):11個;支持度:8.66%,置信度:52.38%。規(guī)則2 分組:東組,門向:西,記錄數(shù):11個;支持度:8.66%,置信度:32.35%。規(guī)則3 分組:南組,門向:北,記錄數(shù):17個;支持度:13.39%,置信度:40.48%。規(guī)則4 分組:西組,門向:東,記錄數(shù):11個;支持度:8.66%,置信度:61.11%。上述規(guī)則表明,無論房屋處于哪個房組,其門都朝向中心洼地。
2.1.2 房屋時代與房屋面積的關聯(lián)規(guī)則(最小支持度為6%,最小置信度為15%) 規(guī)則1 分時:晚期,面積分類:小房子,記錄數(shù):12個;支持度: 9.45%,置信度:66.67%。規(guī)則2 分時:早期,面積分類:小房子,記錄數(shù):31個;支持度:24.41%,置信度:79.49%。規(guī)則3 分時:中期,面積分類:空,記錄數(shù):11個;支持度:8.66%,置信度:15.94%。規(guī)則4 分時:中期,面積分類:小房子,記錄數(shù):53個;支持度:41.73%,置信度:76.81%。上述規(guī)則說明,無論早、中、晚期,都以小房子居多,但部分中期房屋沒有關于面積的原始數(shù)據(jù)。
2.1.3 房屋形制與居住面結(jié)構(gòu)的關聯(lián)規(guī)則(最小支持度為6%,最小置信度為15%) 規(guī)則1 形制:半地穴,居住面結(jié)構(gòu):紅燒土硬面,記錄數(shù):9個;支持度:7.09%,置信度:20%。規(guī)則2 形制:半地穴,居住面結(jié)構(gòu):青灰色硬面,記錄數(shù):10個;支持度: 7.87%,置信度:22.22%。規(guī)則3 形制:地上,居住面結(jié)構(gòu):紅燒土硬面,記錄數(shù):11個;支持度:8.66%,置信度:15.28%。規(guī)則4 形制:地上,居住面結(jié)構(gòu):路土面,記錄數(shù):24個;支持度:18.9%,置信度: 33.33%。上述規(guī)則說明,無論房屋形制為地上還是半地穴,居住面結(jié)構(gòu)都有紅燒土硬面的情況,而在地上房屋中,居住面結(jié)構(gòu)多為路土面;半地穴房屋中,青灰色硬面與紅燒土硬面數(shù)量大體相當。
對整個遺址的所有土坑墓按照分別給定的最小支持度與最小置信度,按葬式、墓向等情況[4],分別與有關屬性進行了關聯(lián)數(shù)據(jù)挖掘,得到了多種組合的關聯(lián)規(guī)則。
2.2.1 葬式與有關屬性的關聯(lián)數(shù)據(jù)挖掘
(1)葬式與頭向(最小支持度為7%,最小置信度為15%)。規(guī)則1 葬式:仰身直肢,頭向:西,記錄數(shù): 65個;支持度:36.72%,置信度:45.14%。規(guī)則2 葬式:仰身直肢,頭向:西偏南,記錄數(shù):27個;支持度: 15.25%,置信度:18.75%。上述規(guī)則表明,葬式為仰身直肢,頭向多為向西,但向西偏南的也占較多的比例。
(2)葬式與有無隨葬器物(最小支持度為6%,最小置信度為25%)。規(guī)則1 葬式:空,隨葬器物:有,記錄數(shù):16個;支持度:9.04%,置信度:72.73%。規(guī)則2 葬式:仰身直肢,隨葬器物:無,記錄數(shù):45個;支持度:25.42%,置信度:31.25%。規(guī)則3 葬式:仰身直肢,隨葬器物:有,記錄數(shù):99個;支持度: 55.93%,置信度:68.75%。上述規(guī)則說明,主流葬式為仰身直肢,而且有隨葬器物的先民居大多數(shù);但無隨葬器物的,葬式也是仰身直肢的先民占較大的比例。
2.2.2 墓向與有關屬性的關聯(lián)數(shù)據(jù)挖掘
(1)墓向與葬式(最小支持度為6%,最小置信度為30%)。規(guī)則1 墓向:270,葬式:仰身直肢,記錄數(shù):42個;支持度:23.73%,置信度:82.35%。該規(guī)則說明,墓向為270、葬式為仰身直肢的姜寨一期先民占很大比例,支持度明顯較大。
(2)墓向與性別、年齡(最小支持度為6%,最小置信度為30%)。規(guī)則1 墓向:270,性別:男,年齡:15~50歲,記錄數(shù):19個;支持度:10.73%,置信度:79.17%。規(guī)則2 墓向:270,性別:女,年齡:15~50歲,記錄數(shù):13個;支持度:7.34%,置信度: 92.86%。該三維關聯(lián)規(guī)則說明,墓向為270,性別無論男、女,均支持度較高,表明姜寨遺址的主體墓向為270;同時說明墓向為270的先民多為15~50歲的成年人。
對整個遺址的所有窖穴按照給定的最小支持度與最小置信度,按形狀與形制(最小支持度為6%,最小置信度為15%)進行了關聯(lián)數(shù)據(jù)挖掘,得到了該種組合的關聯(lián)規(guī)則,并分析如下:規(guī)則1 形狀:方形,形制:臺階式,記錄數(shù):65個;支持度:21.74%,置信度: 79.27%。規(guī)則2 形狀:圓形,形制:袋狀,記錄數(shù):49個;支持度:16.39%,置信度:32.24%。規(guī)則3 形狀:圓形,形制:鍋底狀,記錄數(shù):23個;支持度: 7.69%,置信度:15.13%。規(guī)則4 形狀:圓形,形制:臺階式,記錄數(shù):47個;支持度:15.72%,置信度: 30.92%。規(guī)則5 形狀:圓形,形制:筒狀,記錄數(shù): 32個;支持度:10.7%,置信度:21.05%。以上規(guī)則說明,無論窖穴的形制為袋狀、鍋底狀、臺階式、筒狀,形狀大多為圓形,形制為臺階式的窖穴有少量的方形。
對整個遺址的所有灶坑分別按照給定的最小支持度與最小置信度,按灶底面顏色與灶壁結(jié)構(gòu)(最小支持度為6%,最小置信度為15%)分別與有關屬性進行關聯(lián)數(shù)據(jù)挖掘,得到兩種組合的關聯(lián)規(guī)則,并分析如下:規(guī)則1 灶底面顏色:空,灶壁結(jié)構(gòu):紅燒土硬面,記錄數(shù):84個;支持度:32.18%,置信度: 61.31%。規(guī)則2 灶底面顏色:青灰色,灶壁結(jié)構(gòu):硬面,記錄數(shù):97個;支持度:37.16%,置信度: 86.61%。以上規(guī)則說明,灶底面顏色為青灰色且灶壁結(jié)構(gòu)為硬面的較多,灶壁結(jié)構(gòu)為紅燒土硬面的灶坑略少于青灰色硬面的灶坑。
本文將數(shù)據(jù)挖掘的關聯(lián)分析方法引入史前聚落考古研究,對姜寨遺址一期文化的遺跡、遺物進行設計并建立了屬性數(shù)據(jù)庫,按照屬性數(shù)據(jù)挖掘的要求進行了數(shù)據(jù)預處理,運用Ap riori關聯(lián)算法,對各類遺跡的屬性數(shù)據(jù)庫進行了關聯(lián)數(shù)據(jù)挖掘,分別提取了其關聯(lián)規(guī)則,找到了屬性數(shù)據(jù)之間隱含的關系,得到了不同于考古學家的對姜寨遺址的新認識,為進一步分析和認識中國史前聚落提供了一個定量化分析的范例。同時,聚落考古中單遺址數(shù)據(jù)挖掘的方法可以提供考古工作者一種新的研究手段,可以快速、靈活地按照研究需要,對考古學資料進行任意的關聯(lián)分析,從而挖掘需要的關聯(lián)規(guī)則,為考古學研究提供了一個實用、方便的平臺。
[1] 西安半坡博物館,陜西省考古研究所,臨潼縣博物館.姜寨[M].北京:文物出版社,1988.
[2] 蘇新寧,楊建林,鄧三鴻,等.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學技術(shù)文獻出版社,2003.
[3] KAN TARDZIC M.閃四清,陳茵,程雁,等(譯).數(shù)據(jù)挖掘:概念、模型、方法與算法[M].北京:清華大學出版社,2003.
[4] 畢碩本.聚落考古中空間數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研究——以史前聚落半坡類型姜寨遺址為例[D].南京師范大學,2004.
Study on Data M in ing in First Period of Jiangzhai Site Based on the Association Algorithms
B IShuo-ben1,LV Guo-nian2,PEIAn-ping3,SUN Yi-qing2
(1.School of Com puter&Sof tw are,N anjing University of Inform ation Science&Technology,N anjing 210044;
2.School of Geography Science,N anjing N ormal University,N anjing 210097;
3.School of Cultural Relic&M useum,N anjing N ormal University,N anjing 210097,China)
In this paper,the association analysismethod of data mining into the research of p rehistoric settlement archeology is introduced,the p roperty database of remains and remnants in the first cultural period of the Jiangzhai site are designed and established.This attribution data are used to do datamining in order to getmo re useful know ledge.The archaeologicalmaterial include the housing layout circum stances table and the house relative ho rizon table w hich is in the document of Jiangzhai,and five kindsof forms in the schedule,such as the housing registration form,hole-stove registration fo rm,cellar-cave registration form, earth pit registration fo rm and funerary urn registration fo rm.In the paper,the data p retreatment was done.First,w ith the Ap riori association method,association data mining was done on the house group,house era,house structure and shape to all the houses in Jiangzhai site acco rding to the given minimal suppo rt and minimal confidence,after got the combined association rules,their p roperty was exp lained.Then,taking the same treatment,association datamining was done on burial style,head direction to all earth pits,on shape and structure to all cellar-caves,and on shape,ground colo r to all hole-stoves,and then the achieved combined association rules were exp lained.In brief,acco rding to the association data mining and analysis about the first period culture of Jiangzhai site,the hiding relations after the trace p roperty data were found,and new sight about Jiangzhai site wasmade for archaeologists.The study set an examp leof quantitative analysis about the analysis and research of the p rehisto ric settlement in China.
Ap rio ri algo rithm;data mining;settlement archaeology;Jiangzhai site
K928.72;TP311
A
1672-0504(2010)01-0048-03
2009-05-19;
2009-07-17
江蘇省教育廳青藍工程項目(0702);江蘇省教育廳計劃指導項目(06KJD520121)
畢碩本(1965-),男,教授,碩士生導師,從事計算機軟件、地理信息系統(tǒng)、空間數(shù)據(jù)挖掘、智能計算等研究。發(fā)表論文近50篇,獲軟件著作權(quán)4項。E-mail:bishuoben@163.com