国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識發(fā)現(xiàn)與數(shù)據(jù)挖掘在計算社會科學(xué)中的應(yīng)用

2016-03-19 13:00:55舒曉靈朱博文
關(guān)鍵詞:因變量數(shù)據(jù)挖掘變量

舒曉靈,朱博文

(1.美國加州大學(xué) 戴維斯分校 加利福尼亞州 95616;2. 武漢大學(xué) 社會學(xué)系,湖北 武漢 430072)

?

知識發(fā)現(xiàn)與數(shù)據(jù)挖掘在計算社會科學(xué)中的應(yīng)用

舒曉靈,朱博文

(1.美國加州大學(xué) 戴維斯分校 加利福尼亞州 95616;2. 武漢大學(xué) 社會學(xué)系,湖北 武漢 430072)

一、大數(shù)據(jù)時代的到來

科技的發(fā)展和大量運(yùn)用網(wǎng)絡(luò)、電腦、數(shù)據(jù)感應(yīng)儀和記錄設(shè)備使得數(shù)據(jù)的數(shù)量與復(fù)雜性呈幾何級的快速增長,這使得在有限時間內(nèi)記錄、管理與處理數(shù)據(jù)更加困難?;ヂ?lián)網(wǎng)和數(shù)據(jù)儀記錄了大量數(shù)據(jù),提供了前所未有的研究人類行為與態(tài)度的機(jī)會。手機(jī)等移動互聯(lián)網(wǎng)的的廣泛應(yīng)用,讓個體在網(wǎng)絡(luò)上留下了越來越多的痕跡,如微信、GPS跟蹤、Twitter、Facebook、Goolgle Research、網(wǎng)購、購物券、預(yù)定外賣,等等。物聯(lián)網(wǎng)逐步擴(kuò)大,個體活動范圍、活動影響力、電話記錄以及對步數(shù)、心跳頻率、深度睡眠、外出距離時間地點(diǎn)、就餐地點(diǎn)種類頻率、購物種類數(shù)目數(shù)額、朋友圈人數(shù)范圍與交流內(nèi)容、自動上傳的照片、錄音、錄像等數(shù)字化數(shù)據(jù)的記載表明,越來越多的終端擁有我們的各式繁復(fù)信息數(shù)據(jù)。如果所有公司合作,那人們每分每秒的信息都有可能被獲取,這些數(shù)據(jù)構(gòu)建的大量信息可能比人們自己更深度地了解自己。這是很偉大也很令人擔(dān)憂的一件事情,因?yàn)樗械碾[私甚至連自己不知曉的一些信息都有可能被某些集體或者公司掌握。這為我們進(jìn)行科學(xué)研究與社會管理帶來了前所未有的機(jī)遇和挑戰(zhàn)。我們面臨著一個嶄新的時代,數(shù)據(jù)在科學(xué)研究中的作用越來越重要。

基于數(shù)據(jù)的科學(xué)發(fā)現(xiàn)將補(bǔ)充傳統(tǒng)的基于理論假設(shè)的科研。這種不同于傳統(tǒng)的研究方式影響著所有的領(lǐng)域,社會科學(xué)也不例外。大數(shù)據(jù)帶來了前所未有的機(jī)遇與挑戰(zhàn),我們必須慎重考慮其深遠(yuǎn)影響及意義。大數(shù)據(jù)時代的到來,大規(guī)模數(shù)據(jù)的涌現(xiàn),使得某些傳統(tǒng)統(tǒng)計方法已不再適用大數(shù)據(jù)的研究,隨之而來的是一種新的知識發(fā)現(xiàn)方式出現(xiàn),即數(shù)據(jù)挖掘。數(shù)據(jù)挖掘具有以下三個特性:

1.自動或者半自動化的尋找模式。傳統(tǒng)統(tǒng)計方法依賴手動調(diào)整模型,這是一個較為漫長的手工過程。數(shù)據(jù)挖掘發(fā)展、應(yīng)用現(xiàn)成的工具,自動化比較強(qiáng),可以自動檢索、計算,并尋找各種數(shù)學(xué)模型,能夠有效減少知識發(fā)現(xiàn)的時間與人力資源成本。

2.跨學(xué)科的研究方式。知識發(fā)現(xiàn)和數(shù)據(jù)挖掘是個多學(xué)科綜合領(lǐng)域,包括統(tǒng)計、計算機(jī)科學(xué)、機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫技術(shù)、模式識別,等等。而社會科學(xué)家們,則在最近幾年才將數(shù)據(jù)挖掘的新技術(shù)運(yùn)用于研究與教學(xué)中。面對這種嶄新的研究方式,社會科學(xué)家們需要加強(qiáng)交流、學(xué)習(xí)思考、拓寬眼界、擁抱機(jī)會、迎接挑戰(zhàn)。

3.通過一系列技術(shù),可以發(fā)現(xiàn)過去未被發(fā)現(xiàn)甚至不可能發(fā)現(xiàn)的一些非常有意義的隱藏的模式。這是數(shù)據(jù)挖掘最有吸引力的地方, 對于各學(xué)科創(chuàng)新發(fā)展具有深遠(yuǎn)意義。因?yàn)槭芟抻诩夹g(shù)的發(fā)展,過去沒有發(fā)現(xiàn)這些信息的基礎(chǔ),無法探尋這些有意義的隱藏于大數(shù)據(jù)中的規(guī)律。

二、知識發(fā)現(xiàn)過程中傳統(tǒng)統(tǒng)計研究與數(shù)據(jù)挖掘的差異

在社會科學(xué)研究中,基于抽樣數(shù)據(jù)運(yùn)用傳統(tǒng)的統(tǒng)計方式長期統(tǒng)領(lǐng)科學(xué)研究。傳統(tǒng)科研運(yùn)用基于理論的假設(shè)檢實(shí)方法。知識發(fā)現(xiàn)和數(shù)據(jù)挖掘?qū)?,改變?nèi)藗冄赜昧藥装倌甑目蒲蟹绞剑簭倪\(yùn)用演繹推理方式轉(zhuǎn)換到運(yùn)用總結(jié)歸納法,從注重自變量的統(tǒng)計模型到強(qiáng)調(diào)預(yù)告能力的新型模型,從運(yùn)用抽樣調(diào)查到運(yùn)用非設(shè)計的大型記錄數(shù)據(jù)庫。知識發(fā)現(xiàn)和數(shù)據(jù)挖掘在提供史無前例的新潛力的同時,也提出了新挑戰(zhàn)和新問題。對大數(shù)據(jù)進(jìn)行知識發(fā)現(xiàn)相較于傳統(tǒng)研究方式而言,有繼承、有改變,也有挑戰(zhàn),對它們的不同之處總結(jié)如下。

1.傳統(tǒng)統(tǒng)計研究主要遵循演繹推理的方式,數(shù)據(jù)挖則掘強(qiáng)調(diào)演繹推理方式與總結(jié)歸納方式相結(jié)合。

傳統(tǒng)科學(xué)的訓(xùn)練從理論出發(fā),從廣大、抽象的理論形成一個非常具體的假設(shè),根據(jù)假設(shè)搜集數(shù)據(jù)和資料,再對搜集的數(shù)據(jù)進(jìn)行分析,根據(jù)變量構(gòu)建模型,通過對參數(shù)的估計來進(jìn)行統(tǒng)計推斷,驗(yàn)證假設(shè)是否成立,最后根據(jù)數(shù)據(jù)分析結(jié)果得出結(jié)論,這是所謂“自上而下”的演繹推理方式。另外一種是“自下而上”的方式,即總結(jié)歸納的方式,從數(shù)據(jù)出發(fā),從數(shù)據(jù)中找尋規(guī)律,根據(jù)規(guī)律形成一個臨時的假設(shè)、設(shè)想,在這些規(guī)律模式形成完整證據(jù)后,再將設(shè)想上升到理論的高度。這種研究方式對社會科學(xué)家們并不陌生,尤其是做定性研究的社會學(xué)家。在實(shí)地調(diào)查前,可能沒有形成很明確的理論框架和概念,并不確定自己能搜集到什么樣的信息,所以會先進(jìn)行實(shí)地調(diào)查、觀察和訪談,獲取大量的資料信息,然后對資料進(jìn)行刪選、去除雜音,再從資料信息中找尋其中有意義的規(guī)律,最后上升到理論的高度。

傳統(tǒng)統(tǒng)計研究以演繹推理方式為主,計算社會科學(xué)的知識發(fā)現(xiàn)更多的基于數(shù)據(jù),但基于數(shù)據(jù)的研究并非以數(shù)據(jù)為尊的研究?,F(xiàn)在從數(shù)據(jù)出發(fā)的研究常常被很多學(xué)者所質(zhì)疑,認(rèn)為數(shù)據(jù)挖掘是由數(shù)據(jù)牽著鼻子走,什么都是從數(shù)據(jù)出發(fā),沒有理論、沒有假設(shè)、沒有想法,這其實(shí)是一種很大的誤解。實(shí)際上,數(shù)據(jù)挖掘不是由數(shù)據(jù)來統(tǒng)領(lǐng)的研究,也不光是探索性的研究,這是需要澄清的。做數(shù)據(jù)挖掘的學(xué)者需要強(qiáng)大、深厚的理論基礎(chǔ),如果僅僅是電腦專家,只懂?dāng)?shù)據(jù),不了解社會科學(xué)相關(guān)專業(yè)領(lǐng)域知識是無法完成這個任務(wù)的。數(shù)據(jù)挖掘過程需要具有深厚理論背景的專家來指導(dǎo),其研究過程既是總結(jié)歸納法,也是演繹推理法,是一種雙向同時進(jìn)行的過程。這是一個由數(shù)據(jù)到規(guī)律到理論,然后又從理論重新設(shè)計再到數(shù)據(jù)分析再證實(shí)理論的一個過程,有時候這個過程在一個研究項目中就進(jìn)行了,有時候可以把數(shù)據(jù)分成好幾個部分,一部分?jǐn)?shù)據(jù)采用歸納的方式進(jìn)行研究,一部分?jǐn)?shù)據(jù)采用演繹的方式進(jìn)行研究。有時候完成整個研究過程需要一系列的項目,所以數(shù)據(jù)挖掘并非我們所想象的那樣,只不過是由數(shù)據(jù)來統(tǒng)領(lǐng)的研究過程,它仍然是需要理論基礎(chǔ)和相關(guān)領(lǐng)域?qū)<覍?dǎo)航的研究過程。

二十年前的電腦信息學(xué)專家就曾提出一個知識發(fā)現(xiàn)過程模式,此模式提出在數(shù)據(jù)研究、知識發(fā)現(xiàn)方面的八個步驟:(1)雄厚的專業(yè)背景知識;(2)選擇一個數(shù)據(jù)集;(3)對數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)中的雜質(zhì)、無關(guān)信息進(jìn)行處理;(4)數(shù)據(jù)簡化,尤其是數(shù)據(jù)非常龐大繁雜的時候;(5)尋找數(shù)據(jù)挖掘的方式;(6)選擇數(shù)據(jù)挖掘的算法;(7)進(jìn)行數(shù)據(jù)挖掘;(8)對數(shù)據(jù)挖掘的結(jié)果進(jìn)行解釋。這些步驟并不是一個循序往下的流水過程,而是一個反復(fù)的過程,當(dāng)你發(fā)現(xiàn)從1到2是錯誤的時候,你需要思考自己的專業(yè)背景知識與所選擇的數(shù)據(jù)集是否合適,每一個步驟都是可以重復(fù)的,即使當(dāng)你已經(jīng)進(jìn)行到了第7步,當(dāng)你發(fā)現(xiàn)有問題,你仍可能需要返回第2步,重新選擇數(shù)據(jù)集。

上面提到的這個模式是最早的模式,最近幾年,這個模式被簡化成六步:(1)能夠?qū)I(yè)地理解研究問題。主要體現(xiàn)在以下幾個方面:研究主題、研究對象、目標(biāo)已經(jīng)確定,相關(guān)研究領(lǐng)域的知識以及專業(yè)術(shù)語都已經(jīng)掌握,研究問題已經(jīng)轉(zhuǎn)化成了可以進(jìn)行數(shù)據(jù)挖掘的對象,數(shù)據(jù)挖掘工具已經(jīng)選擇;(2)對數(shù)據(jù)有足夠的了解。搜集數(shù)據(jù),檢查數(shù)據(jù)的完整性,是否存在冗馀或者缺失,等等;(3)將數(shù)據(jù)準(zhǔn)備好。進(jìn)行抽樣,分析變量之間的相關(guān)性,進(jìn)行顯著性檢驗(yàn)和數(shù)據(jù)清理。也可以通過使用特征選擇或者抽取算法來對數(shù)據(jù)進(jìn)行處理,減少數(shù)據(jù)的維度;(4)進(jìn)行數(shù)據(jù)挖掘。研究者運(yùn)用不同的數(shù)據(jù)挖掘方法從已經(jīng)清理的數(shù)據(jù)中發(fā)現(xiàn)知識;(5)對數(shù)據(jù)挖掘結(jié)果進(jìn)行評價。理解數(shù)據(jù)挖掘結(jié)果,將所發(fā)現(xiàn)的知識與以往的研究相比較,看是否找到了有意義的新發(fā)現(xiàn);(6)運(yùn)用所發(fā)現(xiàn)的知識。計劃在何處以及如何使用所發(fā)現(xiàn)的知識,包括在其他領(lǐng)域進(jìn)行推廣。

每個步驟都有回溯至上一步甚至好幾步的過程。所以研究的過程并不是簡單的、很順暢的從第一步走到最后一步,而是一個循環(huán)往復(fù)、不斷推倒重來的過程。比如在進(jìn)行第2步理解數(shù)據(jù)時,需要再回到第一步,掌握其他專業(yè)領(lǐng)域的知識,才能更好地理解數(shù)據(jù)。在進(jìn)行第3步準(zhǔn)備數(shù)據(jù)時,可能需要回到第2步,因?yàn)樾枰鶕?jù)數(shù)據(jù)的其他信息,運(yùn)用獨(dú)特的算法來更好地處理數(shù)據(jù)。在進(jìn)行第4步數(shù)據(jù)挖掘時,可能需要回到1步,重新了解研究問題,因?yàn)槲覀儫o法通過已選擇的數(shù)據(jù)挖掘方式獲取滿意的結(jié)果,此時研究目標(biāo)需要進(jìn)行調(diào)整。但發(fā)現(xiàn)數(shù)據(jù)很難理解導(dǎo)致運(yùn)用了錯誤的數(shù)據(jù)挖掘算法時,也需要回到第2步,重新理解數(shù)據(jù)。當(dāng)進(jìn)行到第4步數(shù)據(jù)挖掘,發(fā)現(xiàn)一種特殊算法需要特殊數(shù)據(jù)時,需要返回準(zhǔn)備數(shù)據(jù)階段,重新準(zhǔn)備相應(yīng)的數(shù)據(jù)。在第5步評價所發(fā)現(xiàn)的知識時,可能需要返回至第4步,甚至可能需要返回至第1步。當(dāng)所發(fā)現(xiàn)的知識并不新穎,也沒有趣或者沒有意義時,需要重新選擇數(shù)據(jù)挖掘工具,然后回到第4步,重復(fù)數(shù)據(jù)挖掘步驟。由于錯誤地解讀研究問題或者是錯誤的研究設(shè)計,沒有理解研究問題的限制、需求或者目標(biāo)導(dǎo)致所發(fā)現(xiàn)的知識無效時,整個知識探索過程需要重新再來一遍。

因此,合適的數(shù)據(jù)挖掘研究需要遵循以下幾點(diǎn):數(shù)據(jù)挖掘前,有確定的理論框架、相關(guān)的經(jīng)驗(yàn)證據(jù)以及相關(guān)領(lǐng)域?qū)<业闹笇?dǎo);數(shù)據(jù)挖掘過程中,理論和數(shù)據(jù)需要進(jìn)行互動,而不是單純的按照理論進(jìn)行或者僅從數(shù)據(jù)的角度考慮;數(shù)據(jù)挖掘后,分析得出的結(jié)論應(yīng)具有普適性,而不是僅僅只適合此項數(shù)據(jù)。此外,數(shù)據(jù)挖掘的結(jié)論能夠被經(jīng)驗(yàn)證據(jù)和理論框架所解釋。

2.傳統(tǒng)統(tǒng)計模型強(qiáng)調(diào)單個自變量對因變量的主要作用,數(shù)據(jù)挖掘模型則強(qiáng)調(diào)多個因素的共同作用。

因果關(guān)系,通常是多個自變量聯(lián)合起來共同對因變量產(chǎn)生作用的結(jié)果,而一個自變量單獨(dú)引起因變量變化的情況是很罕見的。歷史社會學(xué)家通常研究多個歷史原因聯(lián)合作用,比如哈佛歷史社會學(xué)家斯科克波在研究比較中國、法國、俄國大革命的差異時,提出革命的發(fā)生存在兩個聯(lián)合的充分條件,只要同時滿足這兩個條件,就會發(fā)生大革命。第一個條件是國家危機(jī)爆發(fā);第二個是領(lǐng)導(dǎo)階層的涌現(xiàn)。這與我們傳統(tǒng)統(tǒng)計研究不一樣,傳統(tǒng)統(tǒng)計往往研究當(dāng)A變量出現(xiàn)時,比如說40%的可能會出現(xiàn)B變量,研究單個變量對另一變量的影響,可能性是百分之多少,而不是研究當(dāng)A、B變量同時作用或者C、D變量同時作用時,事件發(fā)生的概率是百分之百的絕對性。也是由于此原因,許多歷史社會學(xué)家對單原因模型往往持批判態(tài)度,他們認(rèn)為在影響事物發(fā)展的諸多變量中,單獨(dú)選擇某一個變量,分析其影響事物發(fā)展的幾率并不充分。

社會事實(shí)證明,幾乎所有的因果關(guān)系都是很多因素共同作用的結(jié)果,這些因素是同時的、必需的而且是充分的條件。這是什么意思呢?就如同下面這個公式所表達(dá)的那樣,P[y|(AnB)u(MnN)u(UnV)] = 1,當(dāng)A和B兩個條件同時滿足,或者M(jìn)和N兩個條件同時滿足,或者U和V兩個條件同時滿足時,Y事件發(fā)生的概率為1,即Y事件必定會發(fā)生。比如房屋著火是事件Y,當(dāng)線路短路(A)和附近有易燃物質(zhì)(B)兩個條件同時滿足時,房子會著火,或者是被雷擊(M)和附近有易燃物質(zhì)(N)兩個條件同時滿足時,房子會著火,等等。也就是說多個因素同時存在且必須多個因素同時存在時,某一事件一定會發(fā)生,這就是我們?nèi)粘I钪械囊蚬P(guān)系。

但是,在進(jìn)行統(tǒng)計研究時,卻并非按照此邏輯進(jìn)行。我們會把因素A(線路短路)挑選出來,研究因素A(線路短路)發(fā)生時,Y事件(房屋著火)發(fā)生的概率是百分之幾,在做結(jié)論時,就認(rèn)為因?yàn)锳因素存在,所以Y事件發(fā)生。所以,在哲學(xué)家看來,統(tǒng)計學(xué)中研究的因果關(guān)系乃是非必需非充分的,它只是由諸多子條件聯(lián)合構(gòu)成充分條件中的其中一個子條件。所以,在統(tǒng)計學(xué)中,研究的因果關(guān)系往往是事件發(fā)生的可能性而非絕對性。

針對多因素共同作用的社會事實(shí),數(shù)據(jù)挖掘可以通過數(shù)據(jù)挖掘工具報告多個變量之間的交互關(guān)系,從而解決多個自變量共同作用于因變量的問題。很多學(xué)者認(rèn)為可以通過對因素A和因素B采取交互效應(yīng)分析解決A和B同時發(fā)生的問題,但若自變量較多,則會產(chǎn)生大量的交互項,如一個模型有三個自變量就會有四個交互項(三個二維交互項和一個三維交互項),加上變量本身,模型中將會有7個自變量,而我們在實(shí)際研究中,所構(gòu)建的模型涉及的自變量都是十幾個或者幾十個,如果做交互分析的話,產(chǎn)生的交互變量會非常之多,所以在實(shí)際分析中,我們很少對所有自變量的交互項進(jìn)行分析。在社會學(xué)研究當(dāng)中,很少有研究會關(guān)注交互項的分析,大部分研究關(guān)注的都是主效應(yīng)的分析。另外,很多情況下,大家忽視了社會的多樣性,用標(biāo)準(zhǔn)化的社會科學(xué)對策來處理復(fù)雜多樣的影響。在研究時,將男的、女的、老的、少的、富的、窮的、黑人、白人等不同特性的人群同質(zhì)化處理,僅僅通過平均效應(yīng)來評估主效應(yīng)的影響,認(rèn)為平均效應(yīng)是顯著的,那么理論就是可以成立的。但事實(shí)上,許多理論并不具有普適性,面對不同的歷史階段、不同國家、不同民族、不同人群,同一理論的適用情況是不一樣的,很多理論僅適合部分情況或族群。

在基于數(shù)據(jù)挖掘的知識發(fā)現(xiàn)過程中,在對變量之間的關(guān)系進(jìn)行預(yù)測時,數(shù)據(jù)挖掘技術(shù)可以把成千上萬的交互關(guān)系進(jìn)行自動檢測,然后報告需要注意的交互關(guān)系。但這并不意味著可以直接將數(shù)據(jù)挖掘處理的結(jié)果直接拿來使用,這只是機(jī)器處理的結(jié)果,給你提供一個參考性的建議,至于這些交互關(guān)系是否具有實(shí)際意義、在模型中如何使用,仍然需要有思想的人來決定。這種技術(shù)處理能力可以為研究者節(jié)約大量時間。此外,在神經(jīng)網(wǎng)絡(luò)的預(yù)測模型中,神經(jīng)網(wǎng)絡(luò)能夠自動生成許多復(fù)雜的交互關(guān)系。神經(jīng)網(wǎng)絡(luò)是一種新的計算機(jī)技術(shù),具有十層或者二十層的神經(jīng)網(wǎng)絡(luò),里面包含非常復(fù)雜的關(guān)系。由于數(shù)據(jù)挖掘模型可以考慮很復(fù)雜的相互關(guān)系,所以數(shù)據(jù)挖掘所建構(gòu)的模型與實(shí)際數(shù)據(jù)的因變量結(jié)果匹配度非常高,往往達(dá)到80%或者90%,所以模型的預(yù)測力非常強(qiáng)。

3.傳統(tǒng)統(tǒng)計方法構(gòu)建的模型,強(qiáng)調(diào)自變量與因變量之間的系數(shù),而基于數(shù)據(jù)挖掘的知識發(fā)現(xiàn)更強(qiáng)調(diào)模型預(yù)測力。

社會科學(xué)家和行為科學(xué)家強(qiáng)調(diào)單個預(yù)測因素的影響,即變量A與事件Y的相關(guān)系數(shù),表明自變量一個單位的變化,因變量將變化多少。研究中很大的部分都是在考慮這個問題。社會科學(xué)家更加重視因變量與自變量之間的因果關(guān)系,理解其中的因果機(jī)制,不重視模型的解釋力。測量誤差或者是未解釋的殘差可以很大,R Square可以很小,這被認(rèn)為是正常、合理的情況。因此絕大多數(shù)傳統(tǒng)統(tǒng)計模型的解釋力通常低于25%,有些甚至低于10%。

數(shù)據(jù)挖掘不注重自變量與因變量之間的系數(shù),因?yàn)槭褂么髷?shù)據(jù)的統(tǒng)計模型,所有自變量參數(shù)都具有顯著性。但是,數(shù)據(jù)挖掘很重視整個模型的解釋力,將準(zhǔn)確預(yù)測視為最重要的目標(biāo)。相對于傳統(tǒng)統(tǒng)計模型,數(shù)據(jù)挖掘能夠通過綜合運(yùn)用不同的方法使整個模型的預(yù)測能力達(dá)到最大,從而為模型提供更強(qiáng)的解釋力。而且,隨著數(shù)據(jù)挖掘工具的發(fā)展,它能夠提供更多有關(guān)因果機(jī)制的信息,這將極大地改變科學(xué)研究方式。

4.傳統(tǒng)統(tǒng)計模型更多關(guān)注線性關(guān)系,極少關(guān)注非線性關(guān)系,數(shù)據(jù)挖掘則自動考慮變量的形式轉(zhuǎn)換,因而能夠更多地解讀自變量與因變量之間的非線性關(guān)系。

在傳統(tǒng)統(tǒng)計研究中,連續(xù)型變量和數(shù)值型變量通常進(jìn)入線性回歸模型中進(jìn)行分析,除了年齡、收入、GDP等變量會進(jìn)行平方處理,研究非線性關(guān)系,其他大部分連續(xù)變量研究的都是線性關(guān)系。這是為什么呢?因?yàn)樵诖罅康淖宰兞颗c因變量之間尋找非線性關(guān)系,需要耗費(fèi)大量時間去探索分析,而且大量的傳統(tǒng)統(tǒng)計分析都是建立在線性關(guān)系的校正矩陣上。但現(xiàn)實(shí)生活中,諸多變量之間的關(guān)系并非簡單的線性關(guān)系,而是非線性關(guān)系,簡單的線性函數(shù)無法描述現(xiàn)實(shí)生活中的各種曲線關(guān)系。

針對傳統(tǒng)統(tǒng)計研究的不足,數(shù)據(jù)挖掘工具提供了很多可視化工具,通過這些可視化工具可以發(fā)現(xiàn)自變量與因變量之間的很多非線性關(guān)系。在數(shù)據(jù)挖掘程序中,針對連續(xù)變量的非線性關(guān)系,它會自動生成節(jié)點(diǎn),這樣我們能夠更好地觀測其中的非線性關(guān)系。例如,現(xiàn)在最新版本的SPSS可以自動提供變量的集中程度和離散程度,按照節(jié)點(diǎn)或者按照自變量與因變量之間的關(guān)系自動生成一系列的輸出變量,這樣就可以將自變量與因變量之間非線性的關(guān)系自動生成表示出來,供研究者參考,節(jié)約大量人力物力。

三、數(shù)據(jù)挖掘面臨的挑戰(zhàn)

雖然數(shù)據(jù)挖掘彌補(bǔ)了傳統(tǒng)統(tǒng)計研究的一些缺陷,為發(fā)現(xiàn)有意義的新問題、新想法提供了巨大機(jī)遇,卻也提出了新挑戰(zhàn)和新問題。我們需要運(yùn)用創(chuàng)新思維來享受其優(yōu)越性,并同時彌補(bǔ)其缺陷,解決新問題,迎接新挑戰(zhàn)。

眾所周知,統(tǒng)計推斷是建立在隨機(jī)樣本的基礎(chǔ)上,傳統(tǒng)統(tǒng)計研究的樣本是通過精心設(shè)計的抽樣方式進(jìn)行的系統(tǒng)調(diào)查所獲得。而在大數(shù)據(jù)時代,互聯(lián)網(wǎng)的發(fā)展、物聯(lián)網(wǎng)的不斷普及,大量的數(shù)據(jù)可以從已有的數(shù)據(jù)庫中獲取,數(shù)據(jù)樣本主要來源于大型數(shù)據(jù)庫,所獲取的樣本為“方便”樣本。雖然通過大型數(shù)據(jù)庫能夠獲取大量的樣本數(shù)據(jù),但這并非總體數(shù)據(jù),也不是統(tǒng)計學(xué)家精心設(shè)計的抽樣樣本, 因此存在一個問題,這種“方便”樣本的代表性如何?為什么以這些樣本為數(shù)據(jù)進(jìn)行研究?答案并不清楚,所以,如前所述,顯著性測試并不適合大數(shù)據(jù)“方便”樣本。數(shù)據(jù)挖掘然存在樣本代表性問題,但并非無計可施,現(xiàn)已有一些技術(shù)方法能夠處理,如復(fù)制、交叉驗(yàn)證、自助法(bootstrapping)、非參數(shù)法。復(fù)制是用不同的數(shù)據(jù)檢測模型,確立樣本代表性,防止模型過度吻合數(shù)據(jù)(overfitting),保障模型的可靠性與普遍性。交叉驗(yàn)證是指將樣本分為訓(xùn)練樣本、調(diào)節(jié)樣本(tuning sample)、測驗(yàn)樣本。利用訓(xùn)練樣本對模型進(jìn)行訓(xùn)練,利用調(diào)節(jié)樣本對模型進(jìn)行調(diào)節(jié),最后利用測驗(yàn)樣本對模型進(jìn)行驗(yàn)證。自助法是指從樣本中有放回的隨機(jī)抽樣,計算每次抽樣的統(tǒng)計量,對統(tǒng)計量進(jìn)行排序,在一定的顯著性水平下尋找置信區(qū)間,對樣本的顯著性進(jìn)行檢驗(yàn)。非參數(shù)方法主要是針對研究總體分布未假定的情況下,通過樣本本身的信息進(jìn)行估計和推斷,包括核回歸估計法、局部多項式估計法,等等。

在建構(gòu)模型的過程中,雖然數(shù)據(jù)挖掘能夠提供很強(qiáng)的解釋力,但是其自變量之間的關(guān)系非常復(fù)雜,比如神經(jīng)網(wǎng)絡(luò)中的一些交互關(guān)系,我們僅僅知道神經(jīng)網(wǎng)絡(luò)處理之后的結(jié)果,但對其中的過程并不清楚,其中的一些相互關(guān)系我們甚至無法通過經(jīng)驗(yàn)證據(jù)和理論框架進(jìn)行解釋。所以,雖然神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的學(xué)習(xí)適應(yīng)能力,能夠?qū)Χ喾N數(shù)據(jù)信息進(jìn)行處理,尤其是在模式識別、人工智能和信息處理等方面,但卻常被大家質(zhì)疑,因?yàn)楹谙蛔又械奶幚磉^程,我們無從知曉。數(shù)據(jù)挖掘模型有強(qiáng)大的解釋力與預(yù)測力,這是很有吸引力的。如果這樣的模型能提供因果關(guān)系機(jī)制, 將極大地改變科學(xué)研究方式。

2016-10-12

國家社科基金重大項目“大數(shù)據(jù)時代計算社會科學(xué)的產(chǎn)生、現(xiàn)狀與發(fā)展前景研究”(16ZDA086)的階段性成果。

舒曉靈(1968-),女,美國華裔學(xué)者,加州大學(xué)戴維斯分校社會學(xué)系教授,系副主任。研究方向:定量研究方法、計算機(jī)仿真;朱博文(1974-),女,湖南邵東人,武漢大學(xué)社會學(xué)系博士生。研究方向:經(jīng)濟(jì)社會學(xué)、空間社會學(xué)。

猜你喜歡
因變量數(shù)據(jù)挖掘變量
調(diào)整有限因變量混合模型在藥物經(jīng)濟(jì)學(xué)健康效用量表映射中的運(yùn)用
中國藥房(2022年7期)2022-04-14 00:34:30
抓住不變量解題
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
也談分離變量
適應(yīng)性回歸分析(Ⅳ)
——與非適應(yīng)性回歸分析的比較
偏最小二乘回歸方法
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
SL(3,3n)和SU(3,3n)的第一Cartan不變量
分離變量法:常見的通性通法
揭东县| 林甸县| 铜陵市| 上犹县| 怀来县| 恩平市| 乌鲁木齐市| 磐石市| 新乐市| 赤壁市| 莫力| 惠水县| 扎赉特旗| 丹寨县| 西青区| 新建县| 林州市| 汉川市| 三亚市| 沙洋县| 三门峡市| 正阳县| 滨海县| 句容市| 锦州市| 彰化县| 临桂县| 尚义县| 临清市| 平凉市| 砀山县| 永川市| 颍上县| 广安市| 东丰县| 江陵县| 南华县| 措勤县| 北海市| 赣州市| 安平县|