国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下抽樣方法與應(yīng)用研究

2022-11-27 01:45
山東開放大學(xué)學(xué)報 2022年1期
關(guān)鍵詞:信息研究

李 云

(山東開放大學(xué),山東 濟(jì)南 250014)

抽樣調(diào)查是一種調(diào)查方法,它的發(fā)展理論和方法體系主要來源于概率論,已經(jīng)發(fā)展得相當(dāng)成熟。作為一種非全面發(fā)展調(diào)查分析方法,抽樣調(diào)查在信息時代,一度成為政策制定、宏觀調(diào)控的首選方法,對于整個社會、經(jīng)濟(jì)甚至政治活動做出了特別的貢獻(xiàn),它以最少的人力資源成本、最小的采樣數(shù)據(jù),在社會的很多不同領(lǐng)域的普查、某些企業(yè)產(chǎn)品的質(zhì)量檢測、市場經(jīng)濟(jì)調(diào)查等方面發(fā)揮了重要作用。[1]

進(jìn)入二十一世紀(jì)以來,我國互聯(lián)網(wǎng)信息技術(shù)的逐步發(fā)展、成熟,人們愈來愈發(fā)現(xiàn)一個現(xiàn)象:不管是線上的網(wǎng)絡(luò)調(diào)查還是線下的市場調(diào)查,大數(shù)據(jù)調(diào)查技術(shù)隨著它的不斷成熟和低成本的特點(diǎn),某些程度上越發(fā)受到了某些企業(yè)的青睞與信任,比如服務(wù)行業(yè)和營銷企業(yè),也就是說,大數(shù)據(jù)對傳統(tǒng)的抽樣調(diào)查的發(fā)展與推廣產(chǎn)生了強(qiáng)烈的沖擊。

一、抽樣調(diào)查存在的必要性

大數(shù)據(jù)背景下,傳統(tǒng)的抽樣調(diào)查具有成本高,模式單一等缺點(diǎn),但仍然具有存在的必要性。

(一)由研究總體的特征決定

1.研究總體具有無限的特征,不能進(jìn)行全面的調(diào)查。例如,水是可再生的流動資源,如果我們調(diào)查研究某一地區(qū)的水質(zhì)污染程度,要得到總體是根本不可能的。

2.研究總體具有有限的特征,由于它的有限性,表面上看起來,可以通過全面調(diào)查來實(shí)現(xiàn),但很多調(diào)查卻有很大的障礙,例如大規(guī)模的民意檢測等。

(二)由不同的調(diào)查情形決定

1.受客觀條件的限制?,F(xiàn)階段,在我國市場經(jīng)濟(jì)的社會大背景下,開展統(tǒng)計分析調(diào)查研究工作會受到某些客觀因素的影響,比如調(diào)查目的、環(huán)境、條件等,只能將抽樣調(diào)查數(shù)據(jù)作為首選的調(diào)查方式。例如人口普查,每10年進(jìn)行一次,第5年開展1%人口抽樣調(diào)查。

2.因果推斷無可替代。很多問題研究的目的是研究社會現(xiàn)象以及背后的規(guī)律、因果之間關(guān)系的推斷,統(tǒng)計數(shù)據(jù)調(diào)查的精髓也在于此。如果想要得到這種關(guān)系,我們必須減少其他因素對結(jié)果的潛在影響,進(jìn)行翔實(shí)的實(shí)驗(yàn)設(shè)計,進(jìn)而取樣。由于無關(guān)、多余數(shù)據(jù)的影響使大數(shù)據(jù)的分析過程變得更加困難,因而抽樣調(diào)查的因果推斷功能優(yōu)勢明顯。

3.數(shù)據(jù)分析和處理不是唯一的產(chǎn)能瓶頸。比如在工作中要對客戶進(jìn)行分類處理,如果按照客戶服務(wù)回訪的方式來分類的話,做全量回訪,根本不可能完成,如果抽樣,加上相關(guān)指標(biāo)去訓(xùn)練完善模型,就可以達(dá)到把待分類的客戶的行為數(shù)據(jù)來做模型的目的,因此抽樣還是很有必要的。

二、大數(shù)據(jù)的優(yōu)勢與問題分析

(一)大數(shù)據(jù)的優(yōu)勢

大數(shù)據(jù)背景下,隨著信息技術(shù)的進(jìn)步,大量的數(shù)據(jù)資源涌出,在各個領(lǐng)域普遍存在。它帶來的不僅是全新的思路、理念,也給統(tǒng)計調(diào)查的過程分析提供了從未有過的機(jī)遇。

1.提高調(diào)查質(zhì)量。大數(shù)據(jù)可以保存原始信息,避免抽樣誤差和主觀因素的影響,如影響調(diào)查技術(shù)和調(diào)查受訪者意愿的整體輪廓,調(diào)查結(jié)果將有助于提高可靠性。除此之外,利用大數(shù)據(jù)的同步并發(fā)性,還可以通過縮短我們調(diào)查研究周期,增強(qiáng)社會調(diào)查的時效性。

2.降低每個階段的調(diào)查成本。在大數(shù)據(jù)時代,許多數(shù)據(jù)可以通過多種渠道,如移動通信和互聯(lián)網(wǎng),從而減少了獲取調(diào)查數(shù)據(jù)的成本獲得,且相較于采樣,它是操作更簡單的傳統(tǒng)方式。

3.擴(kuò)大調(diào)查的整個體系。在大數(shù)據(jù)時代,國家級調(diào)查機(jī)構(gòu)可以利用各種社會資源提取信息的信用和財產(chǎn)狀況,可以開展更多、更詳細(xì)的民生專項(xiàng)調(diào)查,不斷完善調(diào)查制度,發(fā)揮靈活的國家調(diào)查機(jī)構(gòu)的特點(diǎn),充分展示“輕騎兵”的角色。

(二)大數(shù)據(jù)存在的問題

大數(shù)據(jù)時代的到來,最直接的影響就是數(shù)據(jù)收集能力發(fā)生了質(zhì)的飛躍,海量數(shù)據(jù)源源不斷產(chǎn)生,對抽樣調(diào)查方式提出了挑戰(zhàn)。本課題組經(jīng)過綜合對比分析,認(rèn)為大數(shù)據(jù)收集和數(shù)據(jù)時代的處理,也存在一些問題,現(xiàn)歸納如下。

1.大數(shù)據(jù)忽略因果關(guān)系的問題

抽樣調(diào)查方法強(qiáng)調(diào)的是用部分反映整體,大數(shù)據(jù)技術(shù)則強(qiáng)調(diào)的是用整體來反映整體。大數(shù)據(jù)采用的是全面調(diào)查的方式,也就是相當(dāng)于普查的方式,它不是依賴于人工勞動,而是由計算機(jī)自動完成,雖然簡單而重復(fù),但由于計算機(jī)技術(shù)的發(fā)展,它顯示了很強(qiáng)的生命力,對于抽樣方法有很大挑戰(zhàn)與沖擊。另外,大數(shù)據(jù)技術(shù)不注重因果關(guān)系,這一點(diǎn)與抽樣調(diào)查截然不同。大數(shù)據(jù)技術(shù)主張知道結(jié)果是什么就夠了,沒必要知道結(jié)果是什么原因造成的。有個說法,在大數(shù)據(jù)信息時代,要讓數(shù)據(jù)可以自己發(fā)聲。但是,讓數(shù)據(jù)自己發(fā)聲的觀念本身沒有錯,這也是研究數(shù)據(jù)的一個目標(biāo),但是,如果重視因此得出相關(guān)的關(guān)系,而忽略因果關(guān)系的結(jié)論,這就存在了一定的問題,并且往往違背了科學(xué)性。

2.大數(shù)據(jù)中存在很多干擾信息的問題

大數(shù)據(jù),顧名思義就是海量的資料與數(shù)據(jù),這些數(shù)據(jù)來源于時時刻刻產(chǎn)生的信息,通過分析大數(shù)據(jù)可能會產(chǎn)生預(yù)料之外的效果。正因?yàn)樗牧慷?,來源途徑廣泛,導(dǎo)致它的數(shù)據(jù)中存在很多無效、干擾的信息,而這些信息也會影響研究的最終精度。大數(shù)據(jù)的客觀特點(diǎn)決定了它的精度,允許接收魚目混珠的所有信息。可是大數(shù)據(jù)不可以放松數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)精度要求。因?yàn)榇髷?shù)據(jù)技術(shù)和抽樣調(diào)查方法的數(shù)據(jù)來源截然不同,抽樣調(diào)查是通過設(shè)計抽樣方案、問題進(jìn)行有效調(diào)查得到的真實(shí)數(shù)據(jù),是建立在對問題的真實(shí)了解的基礎(chǔ)上的。而大數(shù)據(jù)收集主要依靠攝像頭、麥克風(fēng)等采集工具,通過搜索網(wǎng)絡(luò)中的關(guān)鍵詞來獲取、提煉、集成和整理相關(guān)數(shù)據(jù)。搜索可以利用各種搜索途徑找到所需要的信息,提煉指的是在眾多的信息中篩選提煉相關(guān)信息,集成是把提煉的數(shù)據(jù),定制成個人資料數(shù)據(jù)庫,按照自己習(xí)慣的分類方法分類,整理是定期對集成的信息進(jìn)行刪除、去重、歸納以及加標(biāo)簽,等等,以此來提升效率,通過整個流程可以看出,大數(shù)據(jù)獲取的信息很大一部分來自關(guān)鍵詞,但是在實(shí)際的數(shù)據(jù)收集中,研究的復(fù)雜問題并不能僅用個別關(guān)鍵詞就能夠真實(shí)反映。通過互聯(lián)網(wǎng)關(guān)鍵詞進(jìn)行搜索所獲取的大數(shù)據(jù)信息,往往不能代表所研究問題的全貌,有的甚至是大相徑庭。

3.大數(shù)據(jù)等于全數(shù)據(jù)

雖然在某些情況下,收集大數(shù)據(jù)是整個人口的信息,而不是依賴于隨機(jī)抽樣,作為一個抽樣調(diào)查,卻不是網(wǎng)民的全部人口。例如,2018年,在對中國的部分企業(yè)進(jìn)行國人對世界文化價值觀的調(diào)查中,結(jié)果顯示,只有40%的受訪者表示可以借由網(wǎng)絡(luò)來獲取相關(guān)數(shù)據(jù)信息,但是通過電視來獲取同樣重要信息的比例則高達(dá)88%;[2]事實(shí)上40%的人,屬于高學(xué)歷、低年齡和白領(lǐng)等特征,因此它并不能代表中國社會人口的全體。顯然,如果用這個群體的網(wǎng)絡(luò)行為來作為中國人口的攝入偏好和輿論信息的話,就會存在很大的偏差。

4.大數(shù)據(jù)技術(shù)并非人人可用

絕大多數(shù)大數(shù)據(jù)的支持者認(rèn)為這是比較容易得到,因?yàn)榇髷?shù)據(jù)是開放的,透明的。但是,在我國的很多企業(yè),大數(shù)據(jù)相關(guān)信息會涉及個人信息隱私、商業(yè)機(jī)密或國家經(jīng)濟(jì)安全,因此在具體執(zhí)行過程中,有時候我們要處理很多問題,比如侵犯個人隱私等問題,更重要的是,普通人根本無法得到許多涉及商業(yè)或政府管理行為的數(shù)據(jù)。另外,如果研究人員只能依靠政府公布尋找研究課題大量數(shù)據(jù),而不是根據(jù)自己的需要設(shè)計學(xué)習(xí)計劃,這將極大地限制了社會科學(xué)研究的發(fā)展。

5.大數(shù)據(jù)不等同于數(shù)據(jù)多樣化

大數(shù)據(jù)的支持者認(rèn)為,大數(shù)據(jù)背景下,大數(shù)據(jù)意味著數(shù)量龐大、來源廣泛和功能多。然而,雖然它具有以上特點(diǎn),但也改變不了只能進(jìn)行記錄人的行為的事實(shí),它沒有確切描述人的思維。在社會科學(xué)的研究中,許多研究重點(diǎn)是人的主觀態(tài)度和價值觀,如人際信任,社會正義的概念,政治效能,民族主義等。這些概念都是中國社會主義科學(xué)關(guān)注的重要因素理論分析問題,也是一個社會經(jīng)濟(jì)現(xiàn)象和個人信息行為的重要解釋變量,但是大數(shù)據(jù)對測量這些主觀信息情況,顯得有些無能為力。

三、大數(shù)據(jù)信息背景為抽樣調(diào)查帶來的影響

(一)為數(shù)據(jù)采集工作拓寬了來源渠道

大數(shù)據(jù)信息背景下,很多被研究的數(shù)據(jù)信息不僅僅只是來源于常見的管理模式,許多企業(yè)獲取數(shù)據(jù)的渠道有了很大的延展,也就是說,大數(shù)據(jù)時代,以往無法獲取數(shù)據(jù)的渠道有可能實(shí)現(xiàn)有效的數(shù)據(jù)提取。首先,大數(shù)據(jù)時代下,數(shù)據(jù)采集的重要且明顯的渠道是不容忽視的互聯(lián)網(wǎng)和手機(jī)移動端;其次,數(shù)據(jù)采集的有效渠道也包括越來越廣泛應(yīng)用的數(shù)字化的行政商業(yè)記錄;最后,某些消費(fèi)痕跡的相關(guān)渠道,比如超市購物的收銀系統(tǒng)、銀行的某些收支記錄等渠道逐步取代數(shù)據(jù)采集的現(xiàn)場進(jìn)行調(diào)查的模式。另外,大數(shù)據(jù)背景對于抽樣調(diào)查的數(shù)據(jù)采集帶來了很多便利的可能性,比如降低成本,縮短調(diào)查的時間等。

(二)大數(shù)據(jù)的出現(xiàn)增強(qiáng)了抽樣調(diào)查的發(fā)展活力

抽樣調(diào)查是一種非常非常系統(tǒng)的、科學(xué)的數(shù)據(jù)處理方法。即便在大數(shù)據(jù)背景下,抽樣調(diào)查依據(jù)具有強(qiáng)大的生命力,很多工作依舊需要進(jìn)行人工調(diào)查。比如今日頭條平臺,2019年的數(shù)據(jù),負(fù)責(zé)信息的審查與編輯的團(tuán)隊已經(jīng)超過四千人,但還在繼續(xù)招聘中,這說明,人工調(diào)查的重要性。[3]網(wǎng)絡(luò)世界中,每天都在產(chǎn)生各種各樣不安全的低俗內(nèi)容,需要建立專業(yè)評估隊伍,反饋調(diào)查結(jié)果。

(三)抽樣調(diào)查可以有效彌補(bǔ)大數(shù)據(jù)的某種因果關(guān)系

抽樣調(diào)查方法注重因果關(guān)系的探究,而大數(shù)據(jù)注重用數(shù)據(jù)來說話,用數(shù)據(jù)分析結(jié)果來說明問題。若運(yùn)用抽樣調(diào)查方法作為研究基礎(chǔ),從魚目混珠的大數(shù)據(jù)中探尋關(guān)系和規(guī)律,選取非常具有代表性的樣本對其進(jìn)行深入分析、研究,得出所研究的大數(shù)據(jù)之間的因果關(guān)系,最終做到了研究事物之間聯(lián)系的本質(zhì)原因,同時實(shí)現(xiàn)“知其然”也知其“所以然”,這是在大數(shù)據(jù)缺乏因果關(guān)系分析的條件下,抽樣調(diào)查可以補(bǔ)充做到的部分。

(四)抽樣調(diào)查可以起到大數(shù)據(jù)數(shù)據(jù)分析的不具備的基礎(chǔ)作用

也就是說,在大數(shù)據(jù)背景下,很多時候抽樣調(diào)查可以為其研究、結(jié)果進(jìn)行驗(yàn)證。在很多方面,抽樣調(diào)查的效果更加明顯,比如判斷數(shù)據(jù)來源的安全性、數(shù)據(jù)結(jié)果可靠性、數(shù)據(jù)的質(zhì)量保證等等方面。通過對大數(shù)據(jù)研究的有效驗(yàn)證,能夠有利于及時發(fā)現(xiàn)問題、分析問題、解決這個問題,避免某些不好的影響。

(五)大數(shù)據(jù)可以為抽樣框的及時更新提供某些條件

在傳統(tǒng)條件限制下,面向樣品的調(diào)查采樣的最大問題是數(shù)據(jù)不完善,成本高、時效性差等,這是傳統(tǒng)的抽樣框更新和維護(hù)方法。而在大數(shù)據(jù)背景下,抽樣框的及時更新維護(hù),顯得更加重要,數(shù)據(jù)更新的速度非??欤棵腌姸紩黾訜o數(shù)條信息,需要對他們進(jìn)行采集、整合、分析,進(jìn)而轉(zhuǎn)化為可以有效開發(fā)利用的數(shù)據(jù)。

四、正確認(rèn)識大數(shù)據(jù)背景下的抽樣調(diào)查方法

(一)抽樣調(diào)查方法依然是數(shù)據(jù)分析的基礎(chǔ)

如果沒有互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,也就沒有大數(shù)據(jù)相關(guān)研究的出現(xiàn),而且如果運(yùn)用大數(shù)據(jù)進(jìn)行相關(guān)的分析,推演的基礎(chǔ)還是定性和定量分析。研究人員普遍認(rèn)為,數(shù)據(jù)之所以有用,不在于它的大小,而在于數(shù)據(jù)本身體現(xiàn)的價值,而這個說法也與抽樣調(diào)查中對總體的價值要求基本相同。除此之外,還有很多相同點(diǎn),比如二者的追求目標(biāo),都是以尋求最佳的問題解決方案為目標(biāo)。除此之外,大數(shù)據(jù)可以起到管理的顯微鏡和望遠(yuǎn)鏡的作用,也就是說,它不僅可以提供某些經(jīng)驗(yàn)也能進(jìn)行基本的應(yīng)用決策,這一點(diǎn)與抽樣調(diào)查也有異曲同工之妙,所有的調(diào)查分析肯定是為決策提供一個依據(jù)。例如,大數(shù)據(jù)發(fā)展之前,如果要開一個蛋糕店,進(jìn)行選址之前,肯定需要進(jìn)行調(diào)研,比如通過測量附近的人流量等信息,分析是否可以適合投資做蛋糕店,而這些基本的數(shù)據(jù)必須通過現(xiàn)場來蹲點(diǎn)來實(shí)現(xiàn),而且在復(fù)雜、重復(fù)的工作中,可能存在很多不準(zhǔn)確、不確定的一些造假行為,嚴(yán)重影響抽樣的調(diào)查結(jié)果。而在大數(shù)據(jù)時代,這些工作都可以通過某些簡單的功能來實(shí)現(xiàn),比如對于手機(jī)定位的分析,從電信公司得到實(shí)時的交通流量等信息。但是,確定觀測點(diǎn)需要前期的抽樣調(diào)查的準(zhǔn)備分析。

(二)抽樣調(diào)查方法可以更加安全地應(yīng)用在某些活動中

人類生活在數(shù)字化時代,每個生活細(xì)節(jié)都留有痕跡,而這些生活痕跡就是各類數(shù)據(jù),比如某些社交數(shù)據(jù),銀行的收支記錄、瀏覽網(wǎng)頁信息、醫(yī)療保健、教育的培訓(xùn)等等。此類數(shù)據(jù)的特點(diǎn)是:存儲周期會變長、使用的范圍會拓展,并且會很容易涉及數(shù)據(jù)的泄露,因此大眾會對會對數(shù)據(jù)是否安全提出質(zhì)疑,質(zhì)疑其信息的安全性,相比較而言,在這一方面,抽樣調(diào)查更容易使人接收與受到歡迎,因?yàn)橄嚓P(guān)信息是征得本人同意,在自身允許之后的數(shù)據(jù)。因此,我們要對大數(shù)據(jù)的適用范圍持有理性的態(tài)度,要有策略的運(yùn)用,選擇各自的優(yōu)點(diǎn)展開相關(guān)調(diào)查。

(三)傳統(tǒng)的抽樣方法可以與大數(shù)據(jù)技術(shù)完美匹配

傳統(tǒng)的抽樣調(diào)查方法的特點(diǎn)體現(xiàn)在經(jīng)濟(jì)性、時效性、適用范圍以及準(zhǔn)確性上。調(diào)查的樣本通常是總體單位中很小的一部分,工作量比較小,可以節(jié)約很多的時間和人、物、財力,使用經(jīng)費(fèi)較少;同樣由于樣本少,調(diào)查的時間也會縮減,可以把各個環(huán)節(jié)做細(xì),誤差較少。大數(shù)據(jù)技術(shù)的迅猛發(fā)展,給抽樣調(diào)查技術(shù)帶來了機(jī)遇,面對大數(shù)據(jù),面對新的數(shù)據(jù)分析手段,抽樣調(diào)查依然具有它的生命力,在新時達(dá)下,能夠繼續(xù)發(fā)揚(yáng)其優(yōu)點(diǎn),規(guī)避其不足。

五、結(jié)論

大數(shù)據(jù)時代背景之下,大而全的數(shù)據(jù)源,先進(jìn)的數(shù)據(jù)處理手段都對傳統(tǒng)抽樣調(diào)查提出了嚴(yán)峻的挑戰(zhàn)??傊髷?shù)據(jù)有大數(shù)據(jù)的優(yōu)勢,小數(shù)據(jù)的抽樣調(diào)查也有其獨(dú)特的魅力和特點(diǎn),在大數(shù)據(jù)時代兩者缺一不可,為了達(dá)到比較理想的效果,大數(shù)據(jù)分析應(yīng)與抽樣調(diào)查相珠聯(lián)璧合,緊密結(jié)合。

猜你喜歡
信息研究
什么是《清明上河圖》,現(xiàn)在就帶你研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
公司研究
誰說小孩不能做研究?
訂閱信息
對周期函數(shù)最小正周期判定法的研究與應(yīng)用
展會信息
信息
健康信息
广元市| 扎赉特旗| 嫩江县| 翁源县| 江永县| 鹤庆县| 贺州市| 永州市| 林口县| 合阳县| 仙游县| 南涧| 那坡县| 遵化市| 平江县| 元江| 绍兴县| 隆昌县| 南皮县| 青神县| 玉溪市| 罗定市| 图木舒克市| 牟定县| 西安市| 商南县| 平江县| 阳谷县| 孟连| 甘谷县| 会昌县| 长子县| 临桂县| 临泉县| 岳普湖县| 金川县| 普洱| 高碑店市| 新巴尔虎右旗| 雷波县| 林芝县|