趙澤君,蔣麗華
(西南政法大學(xué) 法學(xué)院,重慶 401120)
現(xiàn)代社會(huì)的不斷信息化和計(jì)算機(jī)硬件的不斷升級(jí),人類擁有了大量的數(shù)據(jù),而隨著數(shù)據(jù)庫(kù)技術(shù)的成熟和普及,人類積累的數(shù)據(jù)正以指數(shù)方式增長(zhǎng)。在1982年,趨勢(shì)大師John Naisbitt就在其著作《大趨勢(shì)》(Megatrends)中提到:“人類正被信息淹沒(méi),卻饑渴于知識(shí)。”[1](P16~17)面對(duì)浩如煙海的信息,從這些信息中獲取真正有用的知識(shí)已越來(lái)越難,數(shù)據(jù)挖掘技術(shù)(Data mining technology)在此背景下興起并獲得快速發(fā)展。數(shù)據(jù)挖掘技術(shù)可以幫助人們從海量信息中提取知識(shí),但這些信息可能涉及到公民的隱私,由此可能引發(fā)一系列法律問(wèn)題,但當(dāng)前涉及這一交叉領(lǐng)域的研究仍較為匱乏。本文在對(duì)數(shù)據(jù)挖掘技術(shù)理論和應(yīng)用進(jìn)行梳理的基礎(chǔ)上,對(duì)數(shù)據(jù)挖掘技術(shù)應(yīng)用過(guò)程中產(chǎn)生的法律問(wèn)題進(jìn)行分析與討論,以期為我國(guó)數(shù)據(jù)挖掘技術(shù)的發(fā)展與應(yīng)用提供一定的理論與實(shí)踐參考。
電子科技的迅速發(fā)展產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)具有廣泛的利用價(jià)值。在浩瀚如煙的數(shù)據(jù)面前需要一種完成將其轉(zhuǎn)換為有用信息和知識(shí)的技術(shù),數(shù)據(jù)挖掘技術(shù)由此興起。數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取有意義的新的關(guān)系、趨勢(shì)和模式的過(guò)程??傮w來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)是一門新興的跨領(lǐng)域交叉性學(xué)科,從技術(shù)層面看,其涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)系統(tǒng)、模式識(shí)別和高性能計(jì)算等多個(gè)領(lǐng)域。作為一種知識(shí)發(fā)現(xiàn)的手段,數(shù)據(jù)挖掘使用數(shù)據(jù)庫(kù)技術(shù)進(jìn)行數(shù)據(jù)存儲(chǔ),使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)分析。但數(shù)據(jù)挖掘技術(shù)的應(yīng)用并不僅囿于自然科學(xué)領(lǐng)域的范疇,從社會(huì)學(xué)層面講,其在應(yīng)用過(guò)程中涉及一系列的法律問(wèn)題。由數(shù)據(jù)挖掘技術(shù)獲取的信息和知識(shí)應(yīng)用廣泛,在商業(yè)、智慧校園、醫(yī)療及司法領(lǐng)域發(fā)揮著重要作用。
在進(jìn)行數(shù)據(jù)挖掘之前需要進(jìn)行數(shù)據(jù)集成、清洗、簡(jiǎn)約和轉(zhuǎn)換等數(shù)據(jù)處理,為進(jìn)行精準(zhǔn)的數(shù)據(jù)挖掘服務(wù)。數(shù)據(jù)輸入錯(cuò)誤、用戶掩蓋信息、技術(shù)或保密導(dǎo)致數(shù)據(jù)不完整都會(huì)影響用于數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量。和普通信息檢索相比,數(shù)據(jù)挖掘獲取的信息具有間接性和抽象性。常用的數(shù)據(jù)挖掘技術(shù)包括決策樹、遺傳算法、神網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、數(shù)據(jù)倉(cāng)庫(kù)、關(guān)聯(lián)規(guī)則、貝葉斯網(wǎng)絡(luò)、可視化技術(shù)等。樸素貝葉斯算法、邏輯回歸算法、K-最近鄰算法、支持向量機(jī)算法和決策樹算法等是數(shù)據(jù)挖掘技術(shù)常用的算法。數(shù)據(jù)挖掘主要通過(guò)對(duì)數(shù)據(jù)的總結(jié)、分類、聚類、關(guān)聯(lián)等方式進(jìn)行分析。
由于數(shù)據(jù)挖掘發(fā)現(xiàn)隱藏的模式,是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(knowledge discovery in database, KDD)的關(guān)鍵步驟,因此很多人認(rèn)為二者是等同的。[2](P4)此外,數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)是整個(gè)數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)。在20世紀(jì)80年代,數(shù)據(jù)倉(cāng)庫(kù)的概念由W.H.Inmon在《建立數(shù)據(jù)倉(cāng)庫(kù)》(Building the Data Warehouse)[3](P31~145)一書中給出,隨后又有了更為精確的定義。一般認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)是在企業(yè)管理和決策中面向主題的、集成的、時(shí)變的以及非易失的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)對(duì)企業(yè)內(nèi)部的業(yè)務(wù)數(shù)據(jù)進(jìn)行整合、加工和分析,因而異于其他數(shù)據(jù)庫(kù)應(yīng)用。傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)(database management system, DBMS)的主要任務(wù)是聯(lián)機(jī)事務(wù)處理(on-line transaction processing, OLTP),而數(shù)據(jù)倉(cāng)庫(kù)則是稱為聯(lián)機(jī)分析處理(on-line analytical processing, OLAP),主要在數(shù)據(jù)分析和決策方面提供服務(wù)。關(guān)系數(shù)據(jù)庫(kù)之父E. F.Codd最早在1993年提出OLAP概念。[4](P87~89)Codd認(rèn)為,傳統(tǒng)的OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,結(jié)構(gòu)化查詢語(yǔ)言(structured query language, SQL)也同樣無(wú)法勝任,為了得出可供決策參考的統(tǒng)計(jì)分析數(shù)據(jù), Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,進(jìn)行聯(lián)機(jī)分析處理(OLAP)。
事實(shí)上,總的來(lái)說(shuō),通過(guò)聯(lián)機(jī)分析處理(OLAP)得到供決策參考的統(tǒng)計(jì)分析數(shù)據(jù)正是數(shù)據(jù)挖掘技術(shù)在較淺層次上的應(yīng)用;而在深層次上,數(shù)據(jù)挖掘技術(shù)則是要從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)和提取前所未有的、隱含的知識(shí)。
圖1 數(shù)據(jù)挖掘——數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的核心步驟
數(shù)據(jù)挖掘技術(shù)的興起,源于實(shí)際中的強(qiáng)烈需求。(cross-industry standard process for data mining, CRISP-DM),由SPSS、NCR和Daimler Chrysler三家公司在1996年制定的數(shù)據(jù)挖掘的交叉產(chǎn)業(yè)標(biāo)準(zhǔn)過(guò)程是數(shù)據(jù)挖掘業(yè)界流行的通用標(biāo)準(zhǔn)之一,此標(biāo)準(zhǔn)不是把數(shù)據(jù)挖掘僅僅局限在研究領(lǐng)域,它強(qiáng)調(diào)的是數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用、解決商業(yè)中存在的問(wèn)題。事實(shí)上,數(shù)據(jù)挖掘技術(shù)在電子商務(wù)、保險(xiǎn)、銀行、交通、零售等商業(yè)領(lǐng)域都有著重要應(yīng)用,例如客戶群體劃分、交叉銷售、客戶流失性分析、客戶生命周期管理、客戶關(guān)系管理、欺詐發(fā)現(xiàn)等等。[5](P94~95)
美國(guó)Firstar銀行使用Marksman這一數(shù)據(jù)挖掘工具,通過(guò)客戶的消費(fèi)模式來(lái)預(yù)測(cè)何時(shí)應(yīng)為客戶提供何種產(chǎn)品;Bass Export作為世界最大的啤酒進(jìn)出口商之一,通過(guò)使用IBM的Intelligent Miner,基于海外市場(chǎng)的交易過(guò)程中產(chǎn)生的眾多訂單,很好的解決了如何了解客戶的消費(fèi)習(xí)慣機(jī)器對(duì)品牌的愛(ài)好問(wèn)題。除此之外,對(duì)用戶信息的數(shù)據(jù)進(jìn)行挖掘是當(dāng)前研究得較多、應(yīng)用也十分廣泛的領(lǐng)域。通過(guò)對(duì)用戶的個(gè)人信息進(jìn)行數(shù)據(jù)分析與挖掘,可以得出關(guān)于用戶興趣的挖掘報(bào)告。在電子商務(wù)網(wǎng)站,對(duì)于每天產(chǎn)生的上百萬(wàn)次的游覽與在線交易記錄,可將此生成大量的記錄文件和登記表,進(jìn)而對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘。根據(jù)由此得出的用戶興趣的挖掘報(bào)告可以全面了解客戶的喜好、購(gòu)買模式、購(gòu)買習(xí)慣等,這將對(duì)企業(yè)的盈利產(chǎn)生重要影響。
從商家的角度,數(shù)據(jù)分析有助于建構(gòu)適合的模型,便于商家在此模型的基礎(chǔ)上展開商業(yè)活動(dòng)達(dá)到利益的最大化。除此之外,數(shù)據(jù)挖掘技術(shù)在其他領(lǐng)域也逐漸得到應(yīng)用。如數(shù)據(jù)挖掘技術(shù)在智慧校園中可為學(xué)生的學(xué)習(xí)評(píng)價(jià)提供支持,更好的運(yùn)用云平臺(tái)共享學(xué)習(xí)資源。通過(guò)對(duì)教學(xué)資源和學(xué)生學(xué)習(xí)信息等大量數(shù)據(jù)進(jìn)行整理,也有助于改進(jìn)教師的課堂授課模式。在圖書館管理過(guò)程中,數(shù)據(jù)分析平臺(tái)可以清晰的展現(xiàn)進(jìn)館人數(shù)和時(shí)間、借閱圖書種類和數(shù)量等內(nèi)容,對(duì)此進(jìn)行的數(shù)據(jù)分析有助于各大圖書館進(jìn)行管理上的優(yōu)化。在數(shù)字化圖書館中應(yīng)用數(shù)據(jù)挖掘技術(shù),有利于為用戶提供個(gè)性化的服務(wù)。[6](P84~86)在醫(yī)療健康領(lǐng)域,數(shù)據(jù)挖掘技術(shù)在輔助完成醫(yī)療任務(wù)、對(duì)醫(yī)療資源進(jìn)行合理的管理等方面發(fā)揮了重要作用,已成為醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的核心需求之一。[7](P114)在司法領(lǐng)域,數(shù)據(jù)挖掘技術(shù)日益廣泛應(yīng)用于公安機(jī)關(guān)情報(bào)研判工作。一方面用于收集犯罪證據(jù)偵破案件,另一方面通過(guò)對(duì)未來(lái)犯罪的預(yù)測(cè)進(jìn)行提前預(yù)防和打擊。
數(shù)據(jù)挖掘技術(shù)雖然優(yōu)點(diǎn)眾多,但就此技術(shù)應(yīng)用來(lái)講,仍存在一些實(shí)踐難題。在進(jìn)行數(shù)據(jù)挖掘之前需要進(jìn)行變量的選擇和分析,在海量的數(shù)據(jù)中如何考量隱含的變化趨勢(shì),如何進(jìn)行互聯(lián)網(wǎng)中的數(shù)據(jù)挖掘以及對(duì)建構(gòu)的模型采取何種標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)等問(wèn)題。[8](P124)需意識(shí)到,數(shù)據(jù)挖掘只是一種建構(gòu)模型的方式,作為一種強(qiáng)大的分析工具,仍舊需要管理人員進(jìn)行操作并通過(guò)現(xiàn)實(shí)生活對(duì)建構(gòu)的模型進(jìn)行驗(yàn)證。這也說(shuō)明對(duì)數(shù)據(jù)挖掘理論與算法的研究任務(wù)繁重且無(wú)止境。
然而,通過(guò)利用大量的諸如網(wǎng)頁(yè)游覽記錄、購(gòu)物記錄、病史、信用記錄等私人信息進(jìn)行數(shù)據(jù)分析和挖掘,可以得到許多有用的模式和知識(shí),但卻可能對(duì)個(gè)人的隱私和信息安全構(gòu)成威脅,從而使得數(shù)據(jù)挖掘這一行為面臨一些法律問(wèn)題。
數(shù)據(jù)挖掘技術(shù)的精準(zhǔn)適用建立在對(duì)數(shù)據(jù)進(jìn)行完整收集的基礎(chǔ)之上。此技術(shù)的普及加大了個(gè)人信息保護(hù)的難度,由數(shù)據(jù)挖掘所得的數(shù)據(jù)在司法實(shí)踐中也面臨能否作為證據(jù)使用及應(yīng)歸為何種證據(jù)種類的爭(zhēng)議。針對(duì)數(shù)據(jù)挖掘技術(shù)面臨的上述挑戰(zhàn),應(yīng)完善司法救濟(jì)措施增強(qiáng)對(duì)個(gè)人信息權(quán)的保護(hù),在證據(jù)層面將由數(shù)據(jù)挖掘所得的數(shù)據(jù)定性為電子數(shù)據(jù)證據(jù)并完善其審查規(guī)則。
數(shù)據(jù)挖掘技術(shù)的廣泛使用加劇了個(gè)人信息保護(hù)的難度。自媒體時(shí)代個(gè)人信息保護(hù)面臨更加嚴(yán)峻的挑戰(zhàn),個(gè)人信息泄露事件頻發(fā)也促使《民法總則》第111條的出臺(tái)。雖然“個(gè)人信息”是一種法益或是民事權(quán)利仍存有爭(zhēng)議,但對(duì)其應(yīng)受法律保護(hù)已達(dá)成共識(shí)。[9](P34~45)數(shù)據(jù)挖掘技術(shù)以個(gè)人信息收集為基礎(chǔ),如何平衡收集信息完整性與合法性是這一技術(shù)面臨的難題。
精準(zhǔn)的數(shù)據(jù)分析建立在完整的數(shù)據(jù)收集基礎(chǔ)之上。然而,現(xiàn)有立法對(duì)于信息安全的規(guī)定并不能有效約束數(shù)據(jù)挖掘技術(shù)的規(guī)范性。一方面,數(shù)據(jù)收集者并不完全確定信息的使用途徑,即使提前向被采集者進(jìn)行聲明,被采集者也難以了解信息的利用的模式和可能產(chǎn)生的后果。[10](P772~774)另一方面,雖然采用數(shù)據(jù)分割和加密等技術(shù)手段可以有效預(yù)測(cè)和防止隱私泄露的風(fēng)險(xiǎn),[11](P154~160)但在商業(yè)利益的驅(qū)動(dòng)下仍無(wú)法避免數(shù)據(jù)加工者和其他主體侵犯?jìng)€(gè)人信息權(quán)的行為。
數(shù)據(jù)挖掘技術(shù)以人們看不見的方式進(jìn)行,即使當(dāng)事人懷疑個(gè)人信息被侵犯也難以證明侵權(quán)行為的存在并獲得賠償。面對(duì)數(shù)據(jù)挖掘技術(shù)對(duì)個(gè)人信息保護(hù)形成的沖擊,除完善數(shù)據(jù)挖掘技術(shù)之外,筆者認(rèn)為在立法層面應(yīng)改變我國(guó)現(xiàn)有的個(gè)人信息侵權(quán)案件的證明要件。根據(jù)《侵權(quán)責(zé)任法》對(duì)一般侵權(quán)責(zé)任構(gòu)成要件的規(guī)定,需證明加害行為、損害后果、因果關(guān)系和過(guò)錯(cuò)四個(gè)要件。對(duì)于任何一個(gè)要件證明不能原告將承擔(dān)不利的后果。要加大個(gè)人信息的保護(hù)力度,筆者認(rèn)為有必要對(duì)個(gè)人信息侵權(quán)案件設(shè)置不同于一般侵權(quán)行為的獨(dú)立的法律構(gòu)成要件,原告僅需證明加害行為、損害后果以及兩者之間存在因果關(guān)系三個(gè)要件,即對(duì)于個(gè)人信息侵權(quán)案件責(zé)任的認(rèn)定采取無(wú)過(guò)錯(cuò)責(zé)任原則。
通過(guò)數(shù)據(jù)挖掘技術(shù)獲得的數(shù)據(jù)在訴訟中存在是否與案件存在關(guān)聯(lián)性進(jìn)而能夠作為證據(jù)使用的爭(zhēng)議。通過(guò)挖掘技術(shù)所得數(shù)據(jù)存儲(chǔ)于特定電子系統(tǒng)中,根據(jù)三大訴訟法對(duì)于證據(jù)種類的劃分,此種數(shù)據(jù)作為證據(jù)使用時(shí)應(yīng)為電子數(shù)據(jù)證據(jù)。但嚴(yán)格來(lái)說(shuō),仍面臨與電子數(shù)據(jù)客觀屬性相沖突的難題。對(duì)此,應(yīng)通過(guò)完善電子數(shù)據(jù)的審查規(guī)則予以解決。
1.能否作為事實(shí)認(rèn)定中的證據(jù)之爭(zhēng)議
證據(jù),一般而言是指用于法官確定判決之基礎(chǔ)的依據(jù)。[12](P370)對(duì)于通過(guò)數(shù)據(jù)挖掘所得的數(shù)據(jù)能否作為認(rèn)定案件事實(shí)的證據(jù),學(xué)術(shù)界對(duì)此存在爭(zhēng)議。有觀點(diǎn)認(rèn)為大數(shù)據(jù)分析預(yù)測(cè)能為案件事實(shí)認(rèn)定過(guò)程提供背景知識(shí),但不能獨(dú)立作為證據(jù)使用。[13](P64)數(shù)據(jù)挖掘作為量化分析的手段,無(wú)法挖掘出普適規(guī)律解釋所有個(gè)體行為。也有觀點(diǎn)認(rèn)為大數(shù)據(jù)可以作為證據(jù)使用,納入電子數(shù)據(jù)這一既有的法定證據(jù)種類范疇。[14](P56)
筆者認(rèn)為大數(shù)據(jù)可以對(duì)已經(jīng)發(fā)生的事實(shí)進(jìn)行證明。也就是說(shuō),大數(shù)據(jù)的另一個(gè)發(fā)展方向是作為事實(shí)認(rèn)定的證據(jù)。[15](P63~64)但通過(guò)數(shù)據(jù)挖掘所得的數(shù)據(jù)不同于一般的在案件發(fā)生過(guò)程中形成的證據(jù),與電子數(shù)據(jù)證據(jù)的客觀性存在一定的沖突。
2.與電子數(shù)據(jù)客觀性(真實(shí)性)的沖突及解決
電子數(shù)據(jù)是指借助現(xiàn)代信息技術(shù)或電子設(shè)備形成的一切證據(jù),或者以電子形式表現(xiàn)出來(lái)的能夠證明案件事實(shí)的一切證據(jù)。[16](P162)對(duì)于保存在特定系統(tǒng)中的電子數(shù)據(jù),使用時(shí)直接從系統(tǒng)中調(diào)出即可。通過(guò)數(shù)據(jù)挖掘獲得的電子數(shù)據(jù)往往脫離其上下文情境,從而導(dǎo)致電子數(shù)據(jù)線索被錯(cuò)誤的解讀。運(yùn)用數(shù)據(jù)挖掘技術(shù)分析得到的“預(yù)測(cè)”在某種程度上也具有主觀性。且數(shù)據(jù)挖掘中的電子數(shù)據(jù)往往以數(shù)據(jù)流的形式存在,對(duì)數(shù)據(jù)的利用以對(duì)數(shù)據(jù)流的有效掌控為前提,所得數(shù)據(jù)往往隨著時(shí)空變化發(fā)生改變。[17] (P111~119)
對(duì)于電子數(shù)據(jù)進(jìn)行評(píng)價(jià),與傳統(tǒng)證據(jù)一樣應(yīng)做客觀性、合法性和關(guān)聯(lián)性方面的審查。證據(jù)的客觀性要求作為證據(jù)方法的載體未經(jīng)加工、變?cè)旎虺尸F(xiàn)證據(jù)的過(guò)程不受扭曲、干擾,[18](P70)對(duì)于電子數(shù)據(jù)的審查和適用應(yīng)遵循此客觀性標(biāo)準(zhǔn)。然而,通過(guò)數(shù)據(jù)挖掘技術(shù)獲得的電子數(shù)據(jù)建立在對(duì)基礎(chǔ)數(shù)據(jù)的加工分析之上,與電子數(shù)據(jù)證據(jù)予以采納的客觀性要求存在一定的非調(diào)和性。
針對(duì)挖掘所得數(shù)據(jù)作為證據(jù)使用時(shí)與電子數(shù)據(jù)客觀性的沖突,筆者認(rèn)為可通過(guò)完善電子數(shù)據(jù)的審查方式予以解決。對(duì)于電子數(shù)據(jù)客觀性的審查主要涉及真實(shí)性的審查,可從電子數(shù)據(jù)載體的真實(shí)性、電子數(shù)據(jù)的真實(shí)性以及電子數(shù)據(jù)內(nèi)容的真實(shí)性三個(gè)層面展開。[19](P121)對(duì)于電子數(shù)據(jù)載體的真實(shí)性著重審查保存挖掘數(shù)據(jù)的載體的同一性和完整性;對(duì)于電子數(shù)據(jù)真實(shí)性著重審查數(shù)據(jù)挖掘基礎(chǔ)數(shù)據(jù)是否與原始數(shù)據(jù)保持一致,是否存在被刪改的情況;對(duì)于電子數(shù)據(jù)內(nèi)容的真實(shí)性著重審查挖掘數(shù)據(jù)與其他證據(jù)所包含的信息能否相互印證。
數(shù)據(jù)挖掘技術(shù)作為一種新興的信息技術(shù),目前已成為計(jì)算機(jī)和情報(bào)學(xué)研究的熱點(diǎn)之一。因可提供個(gè)性化的服務(wù)并對(duì)整體趨勢(shì)進(jìn)行預(yù)測(cè),數(shù)據(jù)挖掘技術(shù)無(wú)論是在經(jīng)濟(jì)領(lǐng)域還是司法領(lǐng)域均具有廣闊的適用空間。然而,此技術(shù)在法律層面也面臨一些挑戰(zhàn),但并未得到研究人員的廣泛關(guān)注。從技術(shù)和法律兩個(gè)層面對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行整體性的探討和分析任重而道遠(yuǎn)。