陳永南 許桂明 張新建
(1.92403部隊 福州 350007)(2.南京電子工程研究所 南京 210007)
伴隨著大數(shù)據(jù)、機器學習等新一代信息技術(shù)的飛速發(fā)展和廣泛應(yīng)用,數(shù)據(jù)應(yīng)用的理論和樣式日趨復(fù)雜,多用途數(shù)據(jù)傳感器廣泛分布,多維空間信息瞬息萬變,多種應(yīng)用方式交叉運用[1],凡此種種,有力促進了相關(guān)領(lǐng)域信息化進程的快速發(fā)展,進而也使得現(xiàn)代相關(guān)應(yīng)用不可避免地陷入數(shù)據(jù)海洋。
為了解決大數(shù)據(jù)時代信息有效利用和共享的問題,近幾年來主流的海量數(shù)據(jù)處理技術(shù)得以廣泛應(yīng)用,其核心的處理思路是利用傳統(tǒng)的數(shù)據(jù)抽取、清洗、轉(zhuǎn)換等數(shù)據(jù)倉庫范疇的技術(shù)手段,將原始數(shù)據(jù)通過標準化數(shù)據(jù)模型,加工成特定結(jié)構(gòu)數(shù)據(jù)進行存儲處理[2~4],由于在進行數(shù)據(jù)分析和關(guān)聯(lián)融合之前,數(shù)據(jù)已被加工為結(jié)構(gòu)化、規(guī)整化的形態(tài),不妨稱這種數(shù)據(jù)處理方式為“寫時模式”[5~6],此方式下數(shù)據(jù)倉庫是解決大數(shù)據(jù)存儲的基礎(chǔ)設(shè)施[7]。針對相關(guān)領(lǐng)域結(jié)構(gòu)化以及文本、圖片、語音、視頻、文檔等非結(jié)構(gòu)化海量多源異構(gòu)數(shù)據(jù)資源呈現(xiàn)幾何增長、數(shù)據(jù)類型和來源多元化的現(xiàn)狀,為了能更有效率地存儲處理數(shù)據(jù)和最大程度的激發(fā)數(shù)據(jù)創(chuàng)新,以數(shù)據(jù)湖的方式構(gòu)建數(shù)據(jù)存儲處理和共享服務(wù)機制[8~9],打造一個高效的數(shù)據(jù)底座,實現(xiàn)基于“讀時模式”的數(shù)據(jù)引接、存儲和處理等過程,這種數(shù)據(jù)管理方式可滿足數(shù)據(jù)鮮活性、全量性、安全性、易用性四大要求,從而構(gòu)建有效、健康的數(shù)據(jù)共享生態(tài),有效解決數(shù)據(jù)倉庫笨重、高成本、分析周期冗長等問題,有效提升數(shù)據(jù)的共享程度和數(shù)據(jù)模型定義的靈活性,提高數(shù)據(jù)利用價值和效率[10]。
“數(shù)據(jù)湖”概念首次于2010年被James Dixon在其博客帖子(https://jamesdixon.wordpress.com/2010/10/14/pentahohadoop-and-data-lakes/)中 提 及,他把數(shù)據(jù)集比喻為瓶裝水,經(jīng)過清洗、包裝和構(gòu)造化處理后便于飲用,與之相反,數(shù)據(jù)湖則管理從各類數(shù)據(jù)源引接匯聚來的原生態(tài)數(shù)據(jù)。
數(shù)據(jù)湖是一個數(shù)據(jù)存儲庫,其中來自于多個數(shù)據(jù)源的數(shù)據(jù)以它們原生態(tài)的方式進行存儲。數(shù)據(jù)湖提供從異構(gòu)數(shù)據(jù)源中提取數(shù)據(jù)和元數(shù)據(jù)的功能,并能將它們吸納匯聚到混合存儲系統(tǒng)中去[11]。數(shù)據(jù)湖提供數(shù)據(jù)轉(zhuǎn)換引擎,支持數(shù)據(jù)集轉(zhuǎn)換、清洗以及與其他數(shù)據(jù)集的集成,并提供用于檢索和查詢數(shù)據(jù)湖數(shù)據(jù)和元數(shù)據(jù)的接口。
數(shù)據(jù)湖技術(shù)作為一種不同于原始數(shù)據(jù)庫的數(shù)據(jù)存儲架構(gòu),支持所有的數(shù)據(jù)類型,可以保存大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的原始數(shù)據(jù),并將原始數(shù)據(jù)分類存儲到不同的數(shù)據(jù)池,在各數(shù)據(jù)池里對數(shù)據(jù)進行優(yōu)化整合,并轉(zhuǎn)化成容易分析的統(tǒng)一存儲格式。用戶可以根據(jù)不同需要來挖掘數(shù)據(jù)資源,分析數(shù)據(jù)內(nèi)容,發(fā)掘數(shù)據(jù)價值并加以利用。具體來說,數(shù)據(jù)池是能夠存儲大量來源、格式不同數(shù)據(jù)的存儲空間,而數(shù)據(jù)湖則相當于包含多個數(shù)據(jù)池的巨大數(shù)據(jù)存儲世界。數(shù)據(jù)湖技術(shù)作為大數(shù)據(jù)環(huán)境下產(chǎn)生的一種新技術(shù)、新架構(gòu),已被初步應(yīng)用于商業(yè)、交通、氣象等領(lǐng)域,并取得了一定的成效[12]。
數(shù)據(jù)湖和大數(shù)據(jù)在概念和內(nèi)涵上有許多相似之處。對大數(shù)據(jù)的定義是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理,并整理成為人類所能解讀的信息,是需要新的處理模式才能具有智能決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn),大數(shù)據(jù)通常具有規(guī)模巨大、類型繁多、速度極快、價值密度低等特點,針對大數(shù)據(jù)的相關(guān)特征,作為能有效處理大數(shù)據(jù)的數(shù)據(jù)湖技術(shù),相應(yīng)的具有以下特點。
1)空間海量化
當前大數(shù)據(jù)規(guī)模及其存儲容量正在迅速增長,且已滲透到各個業(yè)務(wù)中,受制于數(shù)據(jù)存儲空間,傳統(tǒng)數(shù)據(jù)庫的架構(gòu)難以適應(yīng)數(shù)據(jù)量瘋長的情況。因此,迫切需要一個新的可以滿足海量存儲需求的“容器”來作為大數(shù)據(jù)的存儲支撐,而數(shù)據(jù)湖就是那個可以存儲海量數(shù)據(jù)的龐大“容器”[13]。數(shù)據(jù)湖匯聚吸收各個業(yè)務(wù)數(shù)據(jù)源流,容納散落在各處的數(shù)據(jù),理論上,存儲空間巨大。
2)格式包容化
數(shù)據(jù)湖架構(gòu)面向多數(shù)據(jù)源的信息存儲,可以快速高效地采集、存儲、處理大量來源不同、格式不同的原始數(shù)據(jù),這其中包括文本、圖片、視頻、音頻、網(wǎng)頁等各類無序的非結(jié)構(gòu)化數(shù)據(jù),能把不同種類的數(shù)據(jù)匯聚存儲在一起,并對匯聚后的數(shù)據(jù)進行管理,建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,具有很強的兼容性。
3)類型復(fù)雜化
數(shù)據(jù)湖可實現(xiàn)原始數(shù)據(jù)的分類存儲,這些原始數(shù)據(jù)凌亂紛雜,具有類型繁多、類型各異的特點,從數(shù)據(jù)角度特征分析,如果將每一種比喻為一種顏色,那么數(shù)據(jù)湖就相當于一個匯集多種色彩的調(diào)色盤,好比把不同的色彩融合在一起會形成新的色彩一樣,描述不同業(yè)務(wù)種類的數(shù)據(jù)通過智能化集成和融合關(guān)聯(lián)等方式結(jié)合在一起,可能會產(chǎn)生新的甚至高于原始數(shù)據(jù)的價值[14]。
4)處理快速化
數(shù)據(jù)湖技術(shù)能將各類原始數(shù)據(jù)快速轉(zhuǎn)化為可以直接提取的、分析、使用的標準格式,統(tǒng)一優(yōu)化數(shù)據(jù)結(jié)構(gòu)并對數(shù)據(jù)進行分類存儲,根據(jù)業(yè)務(wù)需求,對存儲的數(shù)據(jù)進行快速的查詢、挖掘、關(guān)聯(lián)和處理,并實時傳輸給末端用戶[15],同時可對數(shù)據(jù)的使用量和使用頻率等要素進行實時精準的計算,分析用戶的信息需求,為后續(xù)數(shù)據(jù)高效組織運用提供重要參考。
5)價值增值化
數(shù)據(jù)池按不同應(yīng)用類別從數(shù)據(jù)湖中提取原始數(shù)據(jù),并在其中進行標準化,再預(yù)估其在未來被提取利用的可能性大小,決定該類數(shù)據(jù)存儲的最終位置,并在它們之間建立一定的聯(lián)系。數(shù)據(jù)專業(yè)分析人員可以從數(shù)據(jù)池中大量挖掘、提純數(shù)據(jù),分析數(shù)據(jù)間的關(guān)聯(lián)并用于相應(yīng)的任務(wù)需求。采用這種數(shù)據(jù)處理模式,既可以令高使用率的數(shù)據(jù)充分發(fā)揮價值甚至實現(xiàn)增值,也能使那些長期不被挖掘的低價值數(shù)據(jù)重新煥發(fā)活力。
數(shù)據(jù)湖體系結(jié)構(gòu)所涉及的概念框架、功能需求、組成要素、信息關(guān)系等方面的深入研究仍在持續(xù)進行中,至今尚無完全成熟且得到廣泛認可和應(yīng)用的統(tǒng)一結(jié)構(gòu)。由于Hadoop 也能基于分布式文件系統(tǒng)來存儲處理多類型數(shù)據(jù),因此許多人認為Hadoop 的工作機理就是數(shù)據(jù)湖的處理機制。當然,Hadoop 基于其分布式、可橫向擴展的文件系統(tǒng)架構(gòu),可以管理和處理海量數(shù)據(jù),但是它無法提供數(shù)據(jù)湖所需要的復(fù)雜元數(shù)據(jù)管理功能,最直觀的表現(xiàn)是,數(shù)據(jù)湖的體系結(jié)構(gòu)表明數(shù)據(jù)湖是由多個組件構(gòu)成的生態(tài)系統(tǒng),而Hadoop 僅僅提供了其中的部分組件功能。
通過以上與Hadoop 架構(gòu)的對比,結(jié)合大數(shù)據(jù)的特點和應(yīng)用場景,我們理解,數(shù)據(jù)湖體系結(jié)構(gòu)可分為數(shù)據(jù)攝取層、數(shù)據(jù)存儲層、數(shù)據(jù)轉(zhuǎn)換層和交互應(yīng)用層,如圖1所示。
圖1 數(shù)據(jù)湖體系結(jié)構(gòu)示意圖
數(shù)據(jù)攝取層提供異構(gòu)數(shù)據(jù)源的數(shù)據(jù)導(dǎo)入功能。數(shù)據(jù)湖的一個關(guān)鍵特性是以最小的代價實現(xiàn)外部多種類型數(shù)據(jù)的獲取和加載,實現(xiàn)這個目標的關(guān)鍵是數(shù)據(jù)加載過程不做格式轉(zhuǎn)換,而是以原生態(tài)的方式進行加載,這比傳統(tǒng)的ETL方式能明顯提升效率,簡化數(shù)據(jù)攝取處理過程。該層相關(guān)組件能通過對數(shù)據(jù)源的初始配置實現(xiàn)元數(shù)據(jù)和數(shù)據(jù)本身的自動化提取,圖1 所示數(shù)據(jù)源抽取的配置信息可以存儲在數(shù)據(jù)庫或者文件中。元數(shù)據(jù)抽取能夠在諸如JSON、XML的半結(jié)構(gòu)數(shù)據(jù)源中檢測模式,被抽取的元數(shù)據(jù)在數(shù)據(jù)存儲層的元數(shù)據(jù)庫中進行存儲和管理[16]。為了避免數(shù)據(jù)沼澤,數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量管理在數(shù)據(jù)攝取時顯得非常重要,數(shù)據(jù)質(zhì)量控制確保被攝取的數(shù)據(jù)具備最低限度的質(zhì)量,由于數(shù)據(jù)量巨大且數(shù)據(jù)類型繁多,手工設(shè)定數(shù)據(jù)質(zhì)量規(guī)則變得不現(xiàn)實,因此需要自動檢測數(shù)據(jù)質(zhì)量規(guī)則并能對其進行模糊評估。此外,數(shù)據(jù)分析技術(shù)可以幫助識別源數(shù)據(jù)中的模式。
數(shù)據(jù)存儲層的核心組件是元數(shù)據(jù)存儲庫和原生態(tài)數(shù)據(jù)存儲庫。其中,元數(shù)據(jù)存儲庫存儲所有從數(shù)據(jù)攝取層自動抽取的數(shù)據(jù)湖元數(shù)據(jù)或者在使用數(shù)據(jù)湖過程中手工添加的元數(shù)據(jù)。元數(shù)據(jù)還應(yīng)包括用戶使用數(shù)據(jù)湖的一些歷史反饋信息,比如,用于連接數(shù)據(jù)集的屬性、應(yīng)用到數(shù)據(jù)集上的轉(zhuǎn)換方式(整合、清洗等)或者相關(guān)數(shù)據(jù)集的分析報告等,這些信息是后續(xù)使用這些數(shù)據(jù)集的知識庫,能為以后有效使用這些數(shù)據(jù)集提供有益的參考和幫助。元數(shù)據(jù)存儲庫的關(guān)鍵和難點是元數(shù)據(jù)模型的構(gòu)建,該模型一方面要求足夠通用,可以表示數(shù)據(jù)湖中各種各樣的元數(shù)據(jù),另一方面要求能詳細而具體的表述元數(shù)據(jù)項的語義。此外,元數(shù)據(jù)模型還應(yīng)該具有可管理的復(fù)雜性以便最終用戶可以有效使用。
原生態(tài)數(shù)據(jù)存儲庫是數(shù)據(jù)湖的核心,由于數(shù)據(jù)攝取層抽取的數(shù)據(jù)都是本源格式,因此需要使用不同的存儲系統(tǒng)來存儲結(jié)構(gòu)化數(shù)據(jù)、圖形、JSON、XML 等各種類型的數(shù)據(jù)。Hadoop 看起來是實現(xiàn)數(shù)據(jù)存儲層的可選平臺,但是它需要提供額外的功能以保證數(shù)據(jù)的精確度,比如像Apache Spark那樣[17]。為了向用戶提供統(tǒng)一的查詢和訪問方式,應(yīng)使用統(tǒng)一的數(shù)據(jù)訪問接口對混合存儲架構(gòu)進行封裝,該接口提供查詢語言和數(shù)據(jù)模型,并具備足夠有效的表達式以處理被數(shù)據(jù)湖管理的復(fù)雜查詢邏輯及對應(yīng)的復(fù)雜數(shù)據(jù)結(jié)構(gòu),這方面可通過Apache Spark 和HBase 提供的豐富SQL 查詢語言和數(shù)據(jù)模型實現(xiàn),此外,許多NoSQL 系統(tǒng)可以使用JSON 作為統(tǒng)一的數(shù)據(jù)表示。接口實現(xiàn)的核心難點是用戶的查詢邏輯被重寫到原生態(tài)存儲庫對應(yīng)的查詢語言時是否能保證重寫查詢的準確性和完整性。此外,重寫查詢還需要考慮很多方面,比如在不同的數(shù)據(jù)格式之間進行數(shù)據(jù)轉(zhuǎn)換的代價問題(例如:JSON 到關(guān)系型數(shù)據(jù)轉(zhuǎn)換更有效率還是相反轉(zhuǎn)換更有效率)、在分布式系統(tǒng)不同節(jié)點之間移動數(shù)據(jù)的代價問題等。
數(shù)據(jù)轉(zhuǎn)換層提供數(shù)據(jù)轉(zhuǎn)換引擎,通過數(shù)據(jù)清洗、轉(zhuǎn)換、整合等方式,可以將數(shù)據(jù)湖中的原生態(tài)數(shù)據(jù)轉(zhuǎn)化為預(yù)定義的數(shù)據(jù)結(jié)構(gòu)。與數(shù)據(jù)倉庫為所有的數(shù)據(jù)源提供完整的數(shù)據(jù)模式相比,數(shù)據(jù)湖提供創(chuàng)建面向業(yè)務(wù)應(yīng)用的數(shù)據(jù)集市的能力,它能面向具體應(yīng)用對數(shù)據(jù)存儲層的原生態(tài)數(shù)據(jù)進行有效整合。從邏輯的視角來看,這些數(shù)據(jù)集市作為交互應(yīng)用層的組成部分,是用戶在與數(shù)據(jù)湖進行交互時被動態(tài)創(chuàng)建的,而數(shù)據(jù)本身則被存放在數(shù)據(jù)存儲層的某個實體系統(tǒng)中。在定義數(shù)據(jù)集市時創(chuàng)建的知識(例如,如何轉(zhuǎn)換、整合、分析數(shù)據(jù)集的相關(guān)信息)需要在轉(zhuǎn)換層維護,并被記錄在元數(shù)據(jù)存儲庫中。
交互應(yīng)用層聚焦用戶與數(shù)據(jù)湖的互操作,用戶將通過元數(shù)據(jù)來查詢他們可以訪問的數(shù)據(jù)類別。數(shù)據(jù)檢索和元數(shù)據(jù)管理之間關(guān)系密切,在數(shù)據(jù)檢索期間產(chǎn)生的元數(shù)據(jù)(例如,語義注釋、新發(fā)現(xiàn)的關(guān)系等)將通過模式管理存入元數(shù)據(jù)存儲庫中。查詢公式支持用戶創(chuàng)建能表達他們信息訴求的格式化查詢請求,由于用戶無法直接訪問各種數(shù)據(jù)存儲系統(tǒng)原生功能,因此數(shù)據(jù)交互需要提供與數(shù)據(jù)操作相關(guān)的通用功能,包括數(shù)據(jù)可視化、注釋、選擇、過濾以及基礎(chǔ)的數(shù)據(jù)分析能力,而涉及機器學習、數(shù)據(jù)挖掘等的復(fù)雜分析能力不是數(shù)據(jù)湖系統(tǒng)的核心部分。
與傳統(tǒng)的基于數(shù)據(jù)倉庫的海量數(shù)據(jù)存儲處理機制相比,數(shù)據(jù)湖最重要的區(qū)別在于數(shù)據(jù)存儲類型和數(shù)據(jù)處理模式。
數(shù)據(jù)存儲類型方面,傳統(tǒng)方式存儲數(shù)據(jù),進行建模,存儲的主要是結(jié)構(gòu)化數(shù)據(jù);而數(shù)據(jù)湖則是以其本源格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。在需要使用數(shù)據(jù)之前,沒有必要去定義數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)處理機制方面,傳統(tǒng)方式下,在加載數(shù)據(jù)到數(shù)據(jù)倉庫之前,首先需要定義好它的存儲結(jié)構(gòu)或者模式,即“寫時模式”(Schema-On-Write)。而對于數(shù)據(jù)湖,只需加載存儲原始數(shù)據(jù),當準備使用數(shù)據(jù)時,才對其進行定義,即“讀時模式”(Schema-On-Read)。這是兩種截然不同的數(shù)據(jù)處理機制,因為數(shù)據(jù)湖是在數(shù)據(jù)到使用時再定義模型結(jié)構(gòu),因此就提高了數(shù)據(jù)模型定義的靈活性,可滿足更多不同上層業(yè)務(wù)尤其是用戶需求靈活多變的高效率分析訴求。
基于“讀時模式”的數(shù)據(jù)湖整編處理流程主要包括海量數(shù)據(jù)存儲(“建湖”)、數(shù)據(jù)溪流匯聚(“引水”)、數(shù)據(jù)處理分析(“利用”)、數(shù)據(jù)需求服務(wù)(“價值”)等四個過程。數(shù)據(jù)湖處理架構(gòu)如圖2所示。
圖2 基于數(shù)據(jù)湖的大數(shù)據(jù)處理機制示意圖
基于集中式數(shù)據(jù)存儲機制構(gòu)建一套數(shù)據(jù)存儲資源池,采用離線批量導(dǎo)入或者在線實時接入等手段,將各類數(shù)據(jù)進行引接匯聚,提供統(tǒng)一的命名空間,支持多協(xié)議互通訪問,減少數(shù)據(jù)移動,實現(xiàn)數(shù)據(jù)資源的高效共享;引入數(shù)據(jù)湖中的數(shù)據(jù)多以本源方式存儲,需根據(jù)實際使用場景和需求將數(shù)據(jù)治理成干凈數(shù)據(jù)以支撐訪問分析;數(shù)據(jù)湖處理架構(gòu)中計算和數(shù)據(jù)分離的方式必然會帶來一定的網(wǎng)絡(luò)開銷,設(shè)計使用計算側(cè)Cache 將數(shù)據(jù)緩存在計算側(cè),可有效減少頻繁的網(wǎng)絡(luò)I/O 次數(shù);提供支持多種數(shù)據(jù)分析引擎,加速數(shù)據(jù)分析的過程,支持直接訪問海量對象存儲中的數(shù)據(jù),無需數(shù)據(jù)抽取、減少數(shù)據(jù)轉(zhuǎn)換、支持高并發(fā)讀取,提升實時分析效率,同時也支持自助式的數(shù)據(jù)探索式分析應(yīng)用。
針對各業(yè)務(wù)部門技術(shù)平臺異構(gòu)的現(xiàn)實情況,使用云計算平臺對象存儲技術(shù)構(gòu)建跨部門的統(tǒng)一共享交換數(shù)據(jù)湖,滿足跨部門間的基礎(chǔ)數(shù)據(jù)、海量離線數(shù)據(jù)、實時數(shù)據(jù)以及數(shù)據(jù)查詢等多種場景的共享需求?;跀?shù)據(jù)湖的共享池主要實現(xiàn)各類共享數(shù)據(jù)的物理存儲和組織,并支持與Hadoop、Spark等主流大數(shù)據(jù)技術(shù)進行無縫對接,方便各租戶計算平臺使用共享數(shù)據(jù),并提供共享數(shù)據(jù)的邏輯組織、數(shù)據(jù)發(fā)布、數(shù)據(jù)目錄、數(shù)據(jù)使用、數(shù)據(jù)權(quán)限審批等功能。
各部門在任務(wù)執(zhí)勤、訓練、日常值班等過程中依托信息系統(tǒng)或者手工整編等方式,產(chǎn)生、獲取和保存了海量的數(shù)據(jù)資源經(jīng)過分密級脫敏處理后,可以通過數(shù)據(jù)湖開放給科研院所、企事業(yè)單位等,有利于這些數(shù)據(jù)消費者、創(chuàng)新者基于數(shù)據(jù)創(chuàng)新的實際需求和應(yīng)用場景對開放數(shù)據(jù)進行融合利用,研究所得成果也可以正向反饋給數(shù)據(jù)提供者,創(chuàng)造經(jīng)濟價值,進一步推動大數(shù)據(jù)的開放和應(yīng)用,構(gòu)建一個動態(tài)循環(huán)的、開放的應(yīng)用數(shù)據(jù)生態(tài)系統(tǒng)。
大數(shù)據(jù)已成為現(xiàn)代各項業(yè)務(wù)活動中的重要組成部分,擁有大數(shù)據(jù)的主導(dǎo)權(quán)即擁有信息優(yōu)勢和決策優(yōu)勢[18]。本文在傳統(tǒng)大數(shù)據(jù)處理方法的基礎(chǔ)上了,提出了采用數(shù)據(jù)湖技術(shù)解決大數(shù)據(jù)存儲、處理、共建和共享等問題的方法機制,并初步分析了在相關(guān)領(lǐng)域的應(yīng)用思路,為在新信息技術(shù)廣泛應(yīng)用的背景下,創(chuàng)造制勝途徑,提升數(shù)據(jù)價值,把數(shù)據(jù)優(yōu)勢轉(zhuǎn)化為決策優(yōu)勢和行動優(yōu)勢,實現(xiàn)精準高效支撐數(shù)據(jù)資源的大數(shù)據(jù)建設(shè)總體目標提供了一種思路。