收稿日期:2023-07-08
DOI:10.19850/j.cnki.2096-4706.2024.04.014
摘? 要:探索性數(shù)據(jù)分析(EDA)是一種數(shù)據(jù)分析方法,旨在通過對數(shù)據(jù)集進行可視化和摘要統(tǒng)計等方式揭示數(shù)據(jù)的結構、模式和關系。數(shù)據(jù)分析人員可通過操作交互式地探索不熟悉的數(shù)據(jù)集,并為用戶提供先導性見解。深度強化學習(DRL)已被證明可以用來解決眾多難以解決的人工智能挑戰(zhàn),可嘗試將EDA與DRL進行結合,提出了一個名為AEDAS的系統(tǒng)。該系統(tǒng)將EDA建模為一個控制決策問題,從而結合一個新穎的DRL架構來自動生成有說服力的探索性會話,并以EDA筆記本的形式呈現(xiàn)。實驗表明,該系統(tǒng)生成的EDA筆記本,可以使用戶獲得切實有效的先導性見解。
關鍵詞:探索性數(shù)據(jù)分析;深度強化學習框架;控制性問題;探索性會話;EDA筆記本
中圖分類號:TP181? ? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0066-09
Auto-generation of Data Exploratory Sessions Based on Deep Reinforcement Learning
WANG Yang
(Tobacco Company in Xinjiang Uyghur Autonomous Region, Urumqi? 830026, China)
Abstract: Exploratory Data Analysis (EDA) is a data analysis method aimed at revealing the structure, patterns, and relationships in a dataset through visualization and summary statistics. Data analysts can interactively explore unfamiliar datasets through operations and provide users with preliminary insights. Deep Reinforcement Learning (DRL) has been proven to address many difficult Artificial Intelligence challenges. One can attempts to combine the EDA and DRL, proposing a system called AEDAS. The system models EDA as a control decision problem, combining a novel DRL architecture to automatically generate the persuasive exploratory sessions and present them in the form of EDA notebooks. Experiments show that the EDA notebooks generated by the system can provide users with tangible and effective preliminary insights.
Keywords: exploratory data analysis; Deep Reinforcement Learning architecture; control problem; exploratory sessions; EDA notebook
0? 引? 言
探索性數(shù)據(jù)分析(EDA)[1-3]是數(shù)據(jù)科學中不可或缺的技術,它有助于數(shù)據(jù)分析人員更好地了解數(shù)據(jù)的性質和特點。然而,EDA過程煩瑣,為了提高效率,許多系統(tǒng)被設計出來促進這一過程。這些系統(tǒng)包括簡化的可視化界面,如Northstar[4]和Tableau[5],數(shù)據(jù)驅動工具[6],即展現(xiàn)數(shù)據(jù)立方體中感興趣子部件的工具,以及數(shù)據(jù)可視化和推薦下一個探索步驟的系統(tǒng)[7]和相關數(shù)據(jù)集[8]。這些能夠大大提高EDA的效率和準確性,為數(shù)據(jù)分析人員提供更好的工作體驗。
國內已經出現(xiàn)了一些成熟的系統(tǒng),可以幫助數(shù)據(jù)分析人員開展EDA工作。例如,阿里云大數(shù)據(jù)可視化分析平臺MaxCompute可以提供豐富的可視化功能和數(shù)據(jù)挖掘技術,支持用戶進行數(shù)據(jù)的探索性分析。此外,國內的BI軟件如FineBI、DataV等也提供了強大的數(shù)據(jù)可視化功能,支持數(shù)據(jù)分析人員進行EDA工作。還有像DataCastle等數(shù)據(jù)科學競賽平臺也提供了豐富的數(shù)據(jù)集和EDA筆記本。對于數(shù)據(jù)分析人員來說,查看EDA筆記本——即由其他數(shù)據(jù)分析人員經過策劃組織的具有說明性的探索性會話[9,10],是更為常用的方法。這些筆記本通常以筆記本界面呈現(xiàn),允許用戶記錄和共享一系列編程操作及結果,幫助數(shù)據(jù)科學家快速開始EDA工作。
現(xiàn)有的EDA筆記本通??稍跀?shù)據(jù)科學(DS)或代碼共享平臺(如Kaggle和GitHub)上使用,其中,已經在特定數(shù)據(jù)集(也托管在平臺上)上執(zhí)行 EDA 的用戶將其匯總并整理成一個可以信賴的EDA筆記本,以與社區(qū)共享。之后,當其他數(shù)據(jù)科學家開始研究相同數(shù)據(jù)集時,他們可先參考其隨附的 EDA 筆記本并跟蹤其中的探索步驟,了解其他用戶如何處理該數(shù)據(jù)集并獲得之前已有的見解,以便在以后自己進行EDA時有進一步的研究。然而,現(xiàn)有的EDA筆記本并不總是可用,例如在數(shù)據(jù)集是新的、保密的或尚未在特定數(shù)據(jù)科學平臺上審查過的情況下。
為了解決這一問題,本文提出了一種名為AEDAS的系統(tǒng),用于自動生成EDA筆記本。AEDAS接受關系數(shù)據(jù)集作為輸入,并自動產生和執(zhí)行一個有意義的、可靠的探索性會話,即一個EDA操作序列。操作結果將在筆記本界面上呈現(xiàn)給用戶,幫助用戶了解數(shù)據(jù)集的關鍵點和重要特征。因此,即使沒有現(xiàn)有的EDA筆記本,AEDAS也能為用戶提供初步的見解并協(xié)助進行更深入的探索。
為了使EDA筆記本具有價值,本文指出了兩個關鍵因素。首先,EDA筆記本應該全面涵蓋數(shù)據(jù)集的各個方面,以便用戶能夠深入了解其各個屬性。其次,筆記本應該具有連貫性和易于理解性,即EDA操作需要按照合理的順序進行,后續(xù)操作在邏輯上與之相關。AEDAS的設計充分考慮了這些目標做出以下貢獻:
1)基于馬爾可夫決策過程(Markov Decision Process, MDP)模型建立了一個控制問題。同時,設計了一個獎勵信號,該信號旨在確保筆記本中的每個EDA操作可以揭示數(shù)據(jù)的新信息或潛在關系,從而激發(fā)用戶的興趣,同時整個操作序列應具備多樣性、連貫性并與輸入數(shù)據(jù)集的相關性。因此,在生成EDA筆記本時,需要確定一系列合適的操作和決策,以在滿足這些要求的同時,最大化獎勵信號。
2)采用了深度強化學習(DRL)框架,專門針對龐大且離散的行動空間進行設計和處理,以實現(xiàn)對MDP涉及的大量狀態(tài)和行動空間的優(yōu)化
3)AEDAS生成的EDA筆記本具有較強的洞見性和易于理解性,為用戶提供了關于數(shù)據(jù)集的實際初步認識。
1? 相關工作
數(shù)據(jù)游覽和投影追蹤是指發(fā)現(xiàn)有分析價值的數(shù)據(jù)“視圖”,并以連貫的序列呈現(xiàn),以達到數(shù)據(jù)探索的目的。在煙草行業(yè)中,EDA的應用可以幫助業(yè)務人員更好地分析煙草制品的性質和特點。例如,煙草營銷業(yè)務數(shù)據(jù)集包含各種類型的屬性,包括品牌、規(guī)格、銷量、業(yè)態(tài)等。業(yè)務人員可以使用各種EDA工具來探索這些屬性之間的關系,并發(fā)現(xiàn)分析價值的數(shù)據(jù)“視圖”。
本文的EDA筆記本可以被看作是數(shù)據(jù)“游覽”經驗的延伸,但具體的實現(xiàn)在兩個參數(shù)上有根本的不同:
1)本文假設數(shù)據(jù)集包含異構(不一定是數(shù)字)類型的屬性,包括文本和分類數(shù)據(jù)。
2)本文更著重于常用的EDA操作,例如過濾、分組和聚合(具有可視化擴展,連接等)。
數(shù)據(jù)驅動生成分析價值的視圖是指通過不同類型的操作從輸入數(shù)據(jù)集中自動生成分析價值的視圖。在煙草行業(yè)中,這個概念可以被應用于探索煙草相關的數(shù)據(jù)集,以發(fā)現(xiàn)潛在的可利用信息,如煙草品牌、銷售渠道等。AEDAS在這個領域也有所突破。AEDAS依賴于一個興趣度的概念,并使用額外的手段來產生一個可以信賴的操作序列。這些手段包括復合獎勵信號和有效的、新穎的DRL學習方案,以進行對整個操作序列的優(yōu)化。在煙草行業(yè)中,這些手段可以幫助業(yè)務人員更好地理解煙草數(shù)據(jù)集[11-13],并探索其中的潛在關聯(lián)和趨勢,例如特定品牌的銷售趨勢、不同渠道的銷售額等。
交互式EDA推薦系統(tǒng)是指在進行探索性數(shù)據(jù)分析的過程中,為用戶推薦下一步的EDA建議。這些建議可以通過數(shù)據(jù)驅動手段或者外部手段得到,例如EDA操作日志[14],以及來自用戶的實時反饋[15]。在煙草行業(yè)中,交互式EDA推薦系統(tǒng)可以幫助業(yè)務人員更快地了解煙草數(shù)據(jù)集,并找到潛在的可利用信息,例如特定品牌的銷售趨勢、不同渠道的銷售額等。
綜上所述,交互式EDA推薦系統(tǒng)和其他協(xié)助EDA的工作在煙草行業(yè)中具有重要意義。它們?yōu)闃I(yè)務人員提供了更快速、更準確的EDA分析方法,并幫助他們更好地理解和探索煙草數(shù)據(jù)集。同時,它們還為業(yè)務人員提供了更多的工具和資源,以便更好地進行EDA分析。
2? 系統(tǒng)流程
簡而言之,AEDAS的工作方式如下。首先,用戶向系統(tǒng)上傳一個表格數(shù)據(jù)集,然后被提示選擇其最感興趣的一組關鍵屬性,接下來,一個EDA控制問題的實例(即一個EDA環(huán)境和一個目標函數(shù))將根據(jù)用戶的數(shù)據(jù)集和重點屬性被創(chuàng)建。
本文的EDA環(huán)境目前支持過濾、分組和聚合操作,也可以擴展到可視化和連接操作。如圖1所示,采用DRL學習方案,通過DRL代理的神經網絡以進行權重的隨機初始化。接著,代理通過EDA環(huán)境與輸入數(shù)據(jù)集進行自我交互,對數(shù)據(jù)集進行“訓練”。該環(huán)境(見圖1)允許代理采用EDA操作接收觀察結果得到一個總結其結果的向量,以及一個由目標函數(shù)(見第3.2節(jié))得出的正/負獎勵值。DRL代理的目標是,通過與環(huán)境的重復互動,學習如何執(zhí)行N個(預定義的)EDA操作序列,以獲得最大的累積獎勵。
3? EDA控制問題
接下來,本文解釋如何使用MDP模型將EDA塑造成一個控制問題并描述獎勵信號。
3.1? 用于EDA的MDP模型
通常,在EDA中,用戶檢查一個數(shù)據(jù)集D=
本文用一個偶發(fā)的MDP來模擬EDA過程,它由一組可能的狀態(tài)和一組可能的動作組成。直觀地說,在本文的案例中,行動集是所有可能的(和支持的)EDA操作的集合,而狀態(tài)集對應于其結果顯示。在單一的情節(jié)中,代理通過執(zhí)行預定數(shù)量的N個行動來探索一個特定的數(shù)據(jù)集D。在每個步驟中,代理獲得描述其在EDA會話中的當前狀態(tài)的觀察向量,被要求選擇一個行動。根據(jù)所選擇的行動,代理被授予負面/正面的獎勵,然后過渡到一個新的狀態(tài)。整個事件的效用被定義為累積獎勵,由當前事件中的行動獲得。
接下來,本文將解釋AEDAS模型如何表示行動和狀態(tài)觀測并介紹獎勵信號。EDA行動空間。本文的模型允許組成參數(shù)化的EDA操作,其中代理先選擇操作類型,再選擇適當?shù)膮?shù)。每個這樣的操作都需要一些輸入?yún)?shù),并在時間t對當前顯示的dt-1(即t-1時最后執(zhí)行的操作的結果屏幕)進行操作。然后它輸出一個相應的新的結果顯示dt。由于AEDAS主要是一個概念驗證,所以本文僅使用一組有限的分析操作,并在今后的工作中將加以擴展,其中包括以下EDA操作:
1)FILTER(attr,op,term),用來選擇符合標準的數(shù)據(jù)圖集。它接受一個屬性,一個比較運算符(例如=,≥,包含符等),和一個數(shù)字/文本術語,并產生一個代表相應的數(shù)據(jù)子集的新顯示。
2)GROUP(g_attr,agg_func,agg_attr)用來對數(shù)據(jù)進行分組和聚合。它包含一個要被分組的單一屬性,聚合函數(shù)(例如SUM,MAX,COUNT,AVG等)和另一個要使用聚合函數(shù)的屬性。
3)BACK(),允許代理回溯到之前的顯示(即在t-1執(zhí)行的行動的結果顯示),以便采取另一種探索路徑。
形式上,行動空間的定義如下。令OP是行動類型的集合,OP = {FILTER,GROUP,BACK}。每個動作類型o ∈ OP有一個相應的參數(shù)集 ,每個參數(shù)p有一個有限的值域V(p)。一個動作是一個元組(o,v),其中o ∈ OP,v是參數(shù)po的有效賦值。這樣整體的動作空間被定義為A = Uo∈OPUv∈V(po){(o,v)}。以類似的方式,本文的模型可以用其他操作類型進行擴展,如投影、可視化、連接等。
行動空間的優(yōu)點是:1)動作是原子性的,相對容易組成(例如,沒有語法上的困難)。2)復雜的顯示是逐步形成的(例如,首先采用FILTER操作,然后按某一列進行GROUP,再按另一列進行聚合等),而不像SQL查詢?yōu)椤耙淮涡浴苯M成。由于每個原子操作都會獲得自己的獎勵(見3.2節(jié)),因此后者允許對代理進行細粒度的控制。
狀態(tài)觀察向量。MDP模型的第二部分是定義正在進行的事件中達到一個新的狀態(tài)時,應該向代理提供的信息。本文使用一個簡單的向量表示,基于獲得的先前結果顯示中提取的關鍵描述性特征。當前的結果顯示dt被編碼為一個數(shù)字向量,表示為 ,它代表了dt的一個緊湊的、具有以下特征的結構性總結。1)每個屬性的三個描述性特征:其值的熵、不同值的數(shù)量和空值的數(shù)量。2)每個屬性的一個特征,說明它目前是否被分組/聚集,以及三個全局特征,存儲組的數(shù)量和組的大小平均值和方差。為了同時記錄當前顯示產生的更廣泛的背景,本文將會話中最近三次操作的顯示向量串聯(lián)到dt,即最后的觀察向量由 和? 組成,與? 串聯(lián)(如果dt-1和dt-2不存在,則提供一個零的向量代替)。
3.2? 獎勵信號
如第1節(jié)所述,數(shù)據(jù)驅動系統(tǒng)[16]使用趣味性措施來評估分析操作的效用,并向用戶展示獲得最高分數(shù)的操作。本文在AEDAS中也采用趣味性措施來評估代理執(zhí)行的EDA操作,但使用了兩個額外的信號,即多樣性和連貫性,以確保整個操作序列是可以信賴和易于理解的。單個EDA操作的獎勵信號是以下元素的加權和:
1)趣味性獎勵。本文的系統(tǒng)實現(xiàn)了兩個不同的興趣度信號,一個用于分組操作,一個用于過濾操作。
分組操作的趣味性獎勵:衡量標準遵循類似的簡潔性衡量標準[9,17],這些標準認為涵蓋許多圖元的緊湊的分組結果既具有信息量又易于理解。衡量標準考慮了組的數(shù)量、當前被分組的屬性數(shù)量以及基礎圖元的數(shù)量,分別表示為g、a、r,獎勵信號由h1 ( g · a) / h2 (r)給出,其中h1 ( · )和h2 ( · )是歸一化的sigmoid函數(shù),具有預定的寬度和中心。
過濾操作的趣味性獎勵:為獎勵過濾操作,本文遵循文獻中常見的衡量標準,將趣味性獎勵偏向于那些結果顯示dt明顯偏離先前顯示dt-1的過濾操作。為了量化這種偏差,使用Kullback-Leibler(KL),即KL散度作為度量指標,它衡量了一個概率能力分布與另一個概率能力分布的不同。在dt沒有分組的情況下,本文定義一個屬性的價值概率分布 ,A ∈ Attr是其值的相對頻率(即對于dt中屬性A的每個值ev,p (v)是隨機選擇v的概率)。趣味性獎勵定義為: ,其中,sigmoid h ( · )被用于獲得更顯著的數(shù)值差異。在dt被分組的情況下,KL散度只在當前聚合的屬性上進行比較(相較于上面的在所有屬性上進行比較)。
2)多樣性獎勵。為鼓勵代理選擇誘發(fā)新的觀察結果的行動,并顯示與迄今所檢查的數(shù)據(jù)不同的部分。通過進一步利用每個結果顯示的數(shù)字向量表示(),即通過計算觀察向量? 和之前所有顯示的向量之間的最小歐幾里得距離。
3)連貫性/一致性獎勵。依靠一個外部分類器,以確定一個給定的EDA操作在筆記本的某一點上是否是連貫的。本文的分類器是基于弱監(jiān)督學習的,使用Snorkel [17]從一組啟發(fā)式分類規(guī)則中構建分類模型。這種解決方案有以下好處:克服缺乏包含注釋EDA操作的訓練數(shù)據(jù)的問題;在需要時,根據(jù)具體的模式和用戶給定的焦點屬性集,輕松地對分類器進行微調。
本文的分類器中的每個分類規(guī)則都將EDA操作的子序列q1,q2,…,qt及其結果顯示作為輸入,并檢查輸出操作qt前面的操作中是否連貫。本文使用兩種類型的規(guī)則:
1)一般規(guī)則——考慮操作序列的一般屬性。例如,“對四個以上的屬性進行分組是不連貫的”,“對一個連續(xù)的數(shù)字屬性進行分組是不連貫的”。這種規(guī)則適用于所有的輸入數(shù)據(jù)集。
2)數(shù)據(jù)相關規(guī)則——為輸入數(shù)據(jù)集的語義和用戶預定的焦點屬性編寫更多的規(guī)則(有選擇性地)。本文在第5.1節(jié)中,詳細介紹了實驗中使用的規(guī)則類型。
4? 深度強化學習(DRL)代理架構
這部分首先解釋對EDA優(yōu)化MDP模型的困難程度,以及為什么DRL是解決它的合理方法。然后,討論了還需要克服的挑戰(zhàn),并提出了針對這個問題的DRL架構。
為什么使用DRL解決EDA控制問題?優(yōu)化本文的 EDA模型具有挑戰(zhàn)性,主要有兩個原因:
1)MDP模型是指數(shù)級(相對于輸入數(shù)據(jù)集)且高維的。因為狀態(tài)的數(shù)量與輸入數(shù)據(jù)集上任何可能的探索性操作的所有中間結果的數(shù)量相一致。因此,該模型不能被完全具體化。
2)獎勵信號是復合的、不可分的,并且是在N個連續(xù)步驟中累積的。這樣的設置使得分析性優(yōu)化(如線性編程、策略迭代)難以采用[18],經典的強化學習解決方法[19]也難以采用。而DRL已經被證明對解決高維復雜控制問題非常有用。
但由于本文的MDP模型,不僅狀態(tài)的數(shù)量很大,而且行動空間也是參數(shù)化的,非常大,而且是離散的。即使在本文的原型環(huán)境中,只支持過濾、分組和聚合操作,每個點上可能的獨特操作的數(shù)量也超過100k。所以現(xiàn)成的DRL解決方案對于EDA問題來說是低效的。正如本文在第5.4節(jié)中證實的那樣,當使用現(xiàn)有的DRL架構時,代理的學習過程會非常緩慢地收斂到一個局部的最大值,離最佳狀態(tài)很遠。
解決方案概述。本文采用了一種新穎的解決方案,既減少了網絡的規(guī)模,又促進了有效的探索/開發(fā)。該解決方案可以很容易地注入現(xiàn)成的DRL架構和算法(如DQN、Advantage Actor-Critic等)中。它包括三個部分:
1)一個“兩倍輸出”層結構,可有效地利用EDA行動空間的參數(shù)化性質,允許代理選擇EDA操作類型和每個參數(shù)的值。
2)一種專門的“分檔”方法,它通過進一步減少了過濾器術語參數(shù)的值域,包括所有可用的數(shù)據(jù)集標記。
3)一種開發(fā)/探索策略,利用所獲得的經驗,選擇在每個狀態(tài)下采用的正確行動,同時進行智能探索選擇。接下來本文將對這些組成部分進行詳細介紹。
雙層輸出層結構。圖2提供了本文的網絡結構的說明。
圖2? Actor網絡體系結構
如圖所示,狀態(tài)觀察向量首先經過幾個具有ReLU激活函數(shù)的密集隱藏層(這是DRL架構的常見做法[20])。之后經過兩個新的子層,輸出預測概率。本文設計的這兩個新層來代替標準的、非常大的Softmax輸出層是為了減少網絡的大小。細節(jié)如下:
1)預/前向輸出層。該層(圖2中為青色)包含每個EDA操作類型的一個節(jié)點,以及每個參數(shù)值的一個節(jié)點。每個節(jié)點都與前一個隱藏層相連。預輸出層的大小等于參數(shù)值域的大小和操作類型的數(shù)量。
2)多重Softmax計算層。在DRL結構中,通常在最后一個隱藏層的輸出上應用Softmax計算,以便為每個不同的動作產生一個概率值(總和為1)。當動作空間很大時,不僅計算時間長,而且學習過程也很慢,效果也不好(如第5.4節(jié)中所述)。因此,本文使用了一個新的多重Softmax計算層,其中Softmax計算被分割開來,對每個操作類型和參數(shù)單獨執(zhí)行。也就是說,Softmax段σOP只與對應于操作類型的預輸出節(jié)點相連,然后為每個參數(shù)p定義一個單獨的段OP,只與對應于V(p)值的預輸出節(jié)點相連。
Multi-Softmax層的工作原理如圖2所示。首先,段σo用于生成操作類型OP的概率分布,從中抽取所選操作類型o ∈ OP(例如,在圖2中描述的工作流程示例中,獲得最高概率的所選操作是“過濾器”)。接下來,通過只激活相應的片段σp ? p ∈ Po來實例化o的參數(shù)(見圖2中Multi-Softmax層的粉色部分)。
高效地選擇數(shù)據(jù)集值的過濾器“term”參數(shù)。即使選擇只限于出現(xiàn)在當前結果顯示中的標記物,過濾操作的參數(shù)項也可能過大。所以,為了避免在預輸出層中為每個數(shù)據(jù)集標記設置專門的節(jié)點,本文使用了一個簡單而有效的分檔解決方案,根據(jù)每個標記在當前顯示中出現(xiàn)的頻率,將單個標記(即數(shù)據(jù)集的值或其部分)映射到一個固定大小的B檔陣列中。然后,代理不是選擇一個特定的標記,而是選擇一個頻率范圍b[i,j]。反過來,一個實際的token,其出現(xiàn)的頻率在這個范圍內,被均勻地隨機抽樣。
探索/開發(fā)策略。本文的結構有利于有效的探索策略,基于Boltzmann探索[21],其中,行動是根據(jù)Softmax層產生的輸出概率分布進行采樣。使用兩層輸出層允許代理對每個操作類型和參數(shù)做出獨立的探索/利用決定,因為每個參數(shù)都有一個專門的Softmax層。這允許代理利用其經驗(如果有的話)對一些參數(shù)進行探索,并對其他參數(shù)的值進行探索。另外,本文使用了熵正則化[22],它可以防止代理過早地收斂到局部最優(yōu)。通過熵正則化,代理收到的獎勵與策略的熵成正比。
5? 實驗結果
本文的實驗旨在回答三個主要問題:1)用戶能否通過被動檢查自動生成的EDA筆記本獲得實際見解?2)AEDAS生成的notebook與其他方式生成的notebook相比效果如何?3)DRL框架對于生成高質量的EDA筆記本是否是必要的?本文進行了兩個互補的質量評估實驗:人工評估(第5.2節(jié)),即參與者手動審查生成的EDA筆記本,以及EDA筆記本的自動基準(第5.3節(jié)),它將生成的筆記本與一組黃金標準的筆記本進行比較(該基準完全開源,并可在Aeda[23]中獲得)。最后,本文進行了額外的實驗(第5.4節(jié)),將AEDAS的收斂性與其他操作架構進行比較。
5.1? 實驗設置
數(shù)據(jù)集。本文使用了兩個獨立無關聯(lián)的數(shù)據(jù)集,每個數(shù)據(jù)集都有不同的模式和應用領域:煙草銷售和網絡安全。選擇這兩個數(shù)據(jù)集是因為它們提供了比較和評估自動生成的筆記本的方法。接下來,本文將解釋每個集合的特點和它們在實驗中的作用。
煙草銷售模擬數(shù)據(jù)集。本文使用了一個模擬的數(shù)據(jù)集,煙草銷售數(shù)據(jù)集。數(shù)據(jù)集屬性包括煙草品類、單期銷量、同期銷量、銷量排名、單品類銷量占比等。
網絡安全數(shù)據(jù)集。這個數(shù)據(jù)集由4個(完全不相關的)子數(shù)據(jù)集組成,這些數(shù)據(jù)集來自4個不同的網絡分析挑戰(zhàn)[24],在這些挑戰(zhàn)中,參與者需要探索每個數(shù)據(jù)集,以揭示數(shù)據(jù)集中傳達的特定的潛在網絡攻擊。
基準。本文將AEDAS筆記本的質量與4種不同類型的基準筆記本進行了比較。首先,由人類EDA過程產生的兩種不同類型的筆記本。
1)“gold-standard”:基于真實的EDA筆記本/教程。由于筆記本和教程包含文字說明以及AEDAS尚未支持的EDA操作,所以本文使用相同的過濾、分組和聚合操作創(chuàng)建了等效的EDA筆記本,以促進所有基線之間平衡的質量比較。
2)“EDA-Traces”:由有經驗的分析員從EDA會議的記錄中產生的筆記本。對于每一個記錄下來的會話,本文都會生成一個相應的EDA筆記本。這些痕跡主要包含AEDAS支持的相同EDA操作,因此幾乎不需要進行整理。每個數(shù)據(jù)集的所有探索性會話都是根據(jù)相同的探索目標進行。
3)“僅有趣味性”:僅根據(jù)趣味性評估而自動生成的筆記本。為了研究復合獎勵信號的必要性,本文使用只對EDA操作的趣味性進行優(yōu)化的基準。本文使用兩種不同的方法來優(yōu)化整個會話的趣味性:(3A)Interestingness-Only Greedy(Greedy-IO)在每一步計算所有可能操作的趣味性得分,并貪婪地選擇獲得最大趣味性的操作;(3B)Interestingness-Only AEDAS(ATN-IO)Only 使用第4節(jié)所述的DRL架構,但目標是僅對趣味性信號進行優(yōu)化。
4)“備選優(yōu)化架構”:使用不同優(yōu)化架構/技術自動生成的筆記本。為了研究DRL,特別是本文在第4節(jié)中描述的架構地必要性,本文對復合獎勵信號(有三個組成部分)使用三種替代優(yōu)化技術。首先,使用了與AEDAS架構不同的兩種DRL架構:(4A)現(xiàn)成的DRL(OTS-DRL)使用一個標準的DRL架構,其輸出層為Softmax,包含每個不同EDA操作的節(jié)點。為了特別考察本文的雙重輸出層的必要性,本文還使用了(4B)OTS-DRL With Binning(OTS-DRL-B),它具有與(4A)中相同的標準DRL架構,但它沒有采用明確的濾波器,而是使用了第4節(jié)中描述的基于頻率的分選解決方案。最后,為了檢驗DRL對本文的問題是否真的有效,本文使用了(4A)復合獎勵貪婪法(Greedy-CR),它不使用DRL,而是使用貪婪的、非學習的策略來選擇引起最高獎勵的操作。
代碼實現(xiàn)。本文采用Python 3實現(xiàn)了EDA環(huán)境,并使用Pandas庫執(zhí)行EDA操作。針對煙草銷售數(shù)據(jù)集,本文將煙草品類、同期銷量單品類銷量占比信息作為重點屬性,設置了相應的權重值以獲得獎勵成分之間的學習平衡。同時,為了保持一致性,本文還對網絡安全數(shù)據(jù)集進行了探索,將焦點屬性設置為“源IP”和“目標IP”,以揭示潛在的網絡攻擊。
該神經網絡代理使用了目前DRL最先進的Asynchronous Actor Critic(A3C)[22],并以近似策略優(yōu)化Proximal Policy Optimization(PPO)[25]來加強。本文的雙重輸出層被注入到 "Actor"網絡中,取代了其Softmax輸出層。這些算法和神經網絡是在ChainerRL中實現(xiàn)的(一個常見的DRL Python庫)。為了訓練代理網絡,本文使用了一臺基于Intel Xeon CPU的服務器,包含24個內核和96 GB的內存。
5.2? 定性的人為評估
定性評估。在對每本筆記本進行檢查后,用戶根據(jù)以下標準對其進行評分,評分標準從1(最低)到7(最高):1)信息性——筆記本的信息量有多大?它能捕捉到數(shù)據(jù)集的亮點嗎?2)可理解性——筆記本在多大程度上是可理解的和易于理解的?3)專業(yè)性——筆記本作者的專業(yè)水平如何?4)人類的等同性——筆記本與人類產生的會話有多大的相似性?圖3顯示了AEDAS和基線筆記本在每個標準下的平均得分?;€包括人工生成的Gold-Standard和EDA痕跡,以及每個類別中的代表自動生成的筆記本——Greedy-IO和OTS-DRL-B(如第5.3節(jié)所述,這些基線在各自的類別中表現(xiàn)優(yōu)異)。使用配對T檢驗,每兩個基線之間的分數(shù)差異被驗證為具有統(tǒng)計學意義,P值遠遠低于0.000 01。
金標準的筆記本用虛線標出(誤差限為±1個標準差),在所有的標準領域幾乎獲得了最高分(平均為6.8/7)。生成的筆記本中,替代性的自動生成方法Greedy-IO和OTS-DRL-B獲得了最低的排名,平均得分是1.4/7和3.4/7。EDA痕跡生成的筆記本獲得了4.3/7的平均分,但與金標準筆記本相比,分數(shù)上的巨大差異是由于EDA-traces筆記本并不是為了演示而產生的,而是為了讓其他用戶觀看的。相比之下,AEDAS的筆記本獲得了5.4/7的平均分,比EDA-traces筆記本好了不止一個等級。這是因為AEDAS是專門為生成連貫性和易懂的筆記本而設計的(使用復合獎勵號)。
獲得的見解的比較。圖4顯示了用戶通過檢查AEDAS生成的筆記本和上述基線所收集的見解的(平均)百分比。本文可以看到,AEDAS與用戶在所有標準中的評分相對應,勝過其他方法。通過被動地檢查AEDAS生成的筆記本,用戶就成功地得出了平均46%的數(shù)據(jù)集相關見解。
圖4? 人為定性評估——從瀏覽EDA筆記本中收集的見解
5.3? 自動化基準
用戶研究表明,AEDAS明顯優(yōu)于通過其他方式生成的筆記本。然而,由于用戶研究很難重現(xiàn),本文接下來描述一個自動生成EDA筆記本的基準(稱為A-EDA),它可以很容易地在其他場合重現(xiàn),從而促進未來模型和方法的比較。A-EDA與其他生成模型的基準類似,根據(jù)筆記本與一組經過策劃的真實筆記本的距離來評估其質量。作為基礎事實,本文使用上述的金標準筆記本,它們在人類評估中獲得了接近完美的分數(shù)。對于每個數(shù)據(jù)集,本文使用一組5~7個金標準筆記本。然后,本文用幾個指標來評估生成的筆記本和金標準筆記本之間的距離,有不同程度的靈活性。
1)精度。該指標將EDA筆記本視為不同觀點的集合(忽略它們的順序),如果一個觀點出現(xiàn)在黃金標準筆記本中,則算作“命中”,否則算作“未中”。它的計算方法是hits / (hits+misses)。
2~4)T-BLEU-1、T-BLEU-2、T-BLEU-3。這些度量是基于眾所周知的BLEU [26]得分,用于比較圖像說明中的句子和機器翻譯(在本文的例子中,“句子”是筆記本中的視圖序列)。T-BLEU比Precision更嚴格,因為它還考慮了每個視圖在金標準集中的普遍性,以及它們的順序,通過比較n大小的子序列(而不是單個視圖)。本文在T-BLEU-1到T-BLEU-3中使用1到3的n。
5)EDA-Sim [7]。EDA-Sim也考慮了視圖的順序,但允許對其內容進行精細的比較(即,在上述措施中,幾乎相同的視圖被認為是“失誤”,但EDA-Sim將評估它們?yōu)楦叨认嗨疲?。對于最終的EDA-Sim得分,本文將生成的筆記本與每一個金標準筆記本進行比較,并取其最大的EDA-Sim得分。
表1? 總體A-EDA基準測試結果
Baseline Precision T-
BLEU-1 T-
BLEU-2 T-
BLEU-3 EDA-Sim
ATN-IO 0.10 0.10 0.05 0.03 0.22
Greedy-IO 0.12 0.11 0.07 0.04 0.23
OTS-DRL 0.26 0.16 0.12 0.06 0.23
Greedy-CR 0.27 0.21 0.16 0.07 0.23
OTS-DRL-B 0.33 0.24 0.21 0.16 0.27
EDA-Traces 0.45 0.30 0.27 0.22 0.40
AEDAS 0.49 0.51 0.38 0.36 0.49
實驗結果。表1描述了所有基線的得分,是第5.1節(jié)中提到的兩類實驗數(shù)據(jù)集的平均得分。首先,可以看到A-EDA的分數(shù)與人類評估和收集的見解比較的總分數(shù)密切相關。所有替代的自動生成方法都獲得了較低的分數(shù),被EDA-traces notebooks超過,然后被AEDAS在上述每個評價指標上超過。接下來,檢查所有替代自動生成基線的得分,本文可以得出以下結論:
1)忽略EDA操作的一致性和多樣性的“僅感興趣”基準獲得最低得分——無論是使用簡單的貪婪優(yōu)化(Greedy-IO)還是使用DRL(ATN-IO)時。這意味著生成有用的EDA筆記本需要一個更詳細的獎勵信號,而不僅僅是數(shù)據(jù)驅動的趣味性得分。
2)事實上,基線4A、4B和4C(根據(jù)本文的復合獎勵信號進行優(yōu)化)獲得了比僅有興趣的基線更好的分數(shù),即它們的表現(xiàn)仍然明顯優(yōu)于AEDAS。現(xiàn)成的DRL架構(OTS-DRL)與基于貪婪的優(yōu)化(Greedy-CR)不相上下,但兩者都被OTS-DRL-B超越,后者使用了本文基于頻率的分選方案。然而,所有的替代性優(yōu)化方案都明顯優(yōu)于AEDAS的表現(xiàn)。因此,DRL,特別是本文在AEDAS中使用的新型架構,對于生成有用的EDA筆記本非常有效。本文還從學習融合的角度得出了一個類似的結論,如下文第5.4節(jié)所述。
5.4? 學習收斂性比較
本文將AEDAS的解決方案與其他優(yōu)化架構(基線4A-4C)進行了比較,并通過圖5展示了兩個代表性數(shù)據(jù)集的平均情節(jié)獎勵與AEDAS獲得的訓練步驟數(shù)之間的關系(其他數(shù)據(jù)集也有類似趨勢)。由于Greedy-CR使用了非學習性的貪婪策略,它對訓練步驟的數(shù)量無動于衷,因此在每張圖中被描繪成虛線水平線。Greedy-CR獲得的獎勵比AEDAS低得多。基線OTS-DRL,對應于帶有Softmax輸出層的標準DRL架構,顯示出較差的學習效果,因為它需要超過一百萬個訓練步驟才能穩(wěn)定在次優(yōu)獎勵(接近0)。
圖5? 學習收斂性比較
OTS-DRL-B采用了與OTS-DRL相同的架構,并使用了基于頻率的分選解決方案。與OTS-DRL相比,OTS-DRL-B的有效性更高,因為它能夠在超過一百萬步(在本文的服務器上為6~11小時)后收斂,并達到更高的重值。完整的AEDAS優(yōu)于所有三個基線,它的收斂速度快了2~3倍,并且達到了明顯更高的平均報酬。AEDAS的收斂是穩(wěn)定的,無論探索的數(shù)據(jù)集如何,都能達到高回報,而其他基線的性能則各不相同。
6? 結? 論
本文提出了一個基于MDP模型和DRL架構的自動生成EDA筆記本的系統(tǒng)。該系統(tǒng)不僅可以生成一組有分析價值的數(shù)據(jù)觀點,而且這些觀點在一個連貫的敘述中顯示了數(shù)據(jù)集的不同方面。實驗結果表明,生成的筆記本質量高,用戶可以通過檢查它們來獲得有價值的洞察力。然而,作為這一領域中的第一個系統(tǒng),AEDAS還有一些局限性,需要在未來的工作中加以解決,例如擴大其支持的探索性操作集、促進個性化會話的生成,以及在不同的數(shù)據(jù)集中推廣其學習過程。進一步開發(fā)可定制和更精細的EDA會話,以實現(xiàn)減少EDA中的人工努力的長期目標,可為煙草行業(yè)及其他領域提供更有效的數(shù)據(jù)分析和決策支持。
參考文獻:
[1] 朱鈺,張穎. 談探索性數(shù)據(jù)分析 [J].統(tǒng)計教育,1997 (3):18-19.
[2] 張璇.探索性數(shù)據(jù)分析的方法在職工平均工資中的應用 [J].中國市場,2013(46):99-100.
[3] 彭紅星,鄒湘軍,郭艾俠,等.基于探索性數(shù)據(jù)分析的柑橘部位顏色模型分析與識別 [J].農業(yè)機械學報,2013,44(S1):253-259+235.
[4] KRASKA T. Northstar:An interactive data science system [J].Proceedings of the VLDB Endowment,2018,11(12):2150-2164.
[5] Tableau software [EB/OL].[2023-04-23].https://www.tableau.com/.
[6] SARAWAGI S,AGRAWAL R,MEGIDDO N. Discovery-driven exploration of olap data cubes [C]//Proceedings of the 6th International Conference on Extending Database Technology:Advances in Database Technology.Springer-Verlag,1998:168-182.
[7] MILO T,SOMECH A. Next-step suggestions for modern interactive data analysis platforms [C]//KDD '18:Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.New York:Association for Computing Machinery,2018:576-585.
[8] CHIRIGATI F,DORAISWAMY H,DAMOULAS T,et al. Data polygamy:the many-many relationships among urban spatio-temporal data sets [C]//SIGMOD '16:Proceedings of the 2016 International Conference on Management of Data.New York:Association for Computing Machinery,2016:1011-1025.
[9] KERY M B,RADENSKY M,ARYA M,et al. The story in the notebook:Exploratory data science using a literate programming tool [C]//CHI '18:Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.New York:Association for Computing Machinery,2018:1-11.
[10] RULE A,TABARD A,HOLLAN J D. Exploration and explanation in computational notebooks [C]//CHI '18:Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems.New York:Association for Computing Machinery,2018:1-12.
[11] 密紅,何利力,楊秀梅.煙草數(shù)據(jù)中心ETL技術應用 [J].計算機系統(tǒng)應用,2011,20(5):184-187.
[12] 章惠民.福建煙草數(shù)據(jù)中心數(shù)據(jù)質量監(jiān)控技術應用 [J].中國煙草學報,2017,23(2):117-120.
[13] 周玉嬋.數(shù)據(jù)挖掘在煙草企業(yè)CRM中的應用 [D].廣州:華南理工大學,2013.
[14] EIRINAKI M,ABRAHAM S,POLYZOTIS N,et al. Querie:Collabo- rative database exploration [J].IEEE Transactions on Knowledge and Data Engineering,2014,26(7):1778-1790.
[15] HUANG E,PENG L,PALMA L D,et al. Optimization for active learning-based interactive database exploration [J].Proceedings ofthe VLDB Endowment,2018,12(1):71–84.
[16] JOGLEKAR M,GARCIA-MOLINA H,PARAMESWARAN A G. Interactive data exploration with smart drill-down [C]//2016 IEEE 32nd International Conference on Data Engineering (ICDE).Helsinki:IEEE,2016:906-917.
[17] RATNER A,BACH S H,EHRENBERG H,et al. Snorkel:Rapid training data creation with weak supervision [J].Proceedings of the VLDB Endowment,2017,11(3):269-282.
[18] GOSAVI A. Reinforcement learning:A tutorial survey and recent advances [J].INFORMS Journal on Computing,2009,21(2):178-192.
[19] LI Y. Deep reinforcement learning:An overview [J/OL].arXiv:1701.07274 [cs.LG].(2017-01-25).https://arxiv.org/abs/1701.07274v5.
[20] HAUSKNECHT M,STONE P. Deep reinforcement learning in parame-terized action space [J/OL].arXiv:1511.04143 [cs.AI].(2015-11-13).https://arxiv.org/abs/1511.04143v1.
[21] KAELBLING L P,LITTMAN M L,MOORE A P. Reinforcement learning:A survey [J].Journal of Artificial Intelligence Research,1996,4:237-285.
[22] MNIH V,BADIA A P,MIRZA M,et al. Asynchronous methods for deep reinforcement learning [C]//ICML'16:Proceedings of the 33rd International Conference on International Conference on Machine Learning.New York:JMLR.org,2016:1928-1937.
[23] EL O B,MILO T,SOMECH A. A-eda:Automatic benchmark for auto-generated eda [EB/OL].[2023-04-27].https://github.com/TAU-DB/ATENS-A-EDA.
[24] SPITZNER L. The honeynet project:Trapping the hackers [J].IEEE Security & Privacy,2003,1(2):15-23.
[25] SCHULMAN J,WOLSKI F,DHARIWAL P,et al. Proximal Policy Optimization Algorithms [J/OL].arXiv:1707.06347 [cs.LG].(2017-07-20).https://arxiv.org/abs/1707.06347.
[26] PAPINENI K,ROUKOS S,WARD T,et al. Bleu:a method for automatic evaluation of machine translation [C]//ACL '02:Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Stroudsburg:ACL,2002:311-318.
作者簡介:汪洋(1988—),男,漢族,新疆哈密人,工程師,碩士研究生,研究方向:計算機技術。