摘要:在數(shù)字化時代,圖書館需要整合海量的數(shù)據(jù)資源,這些數(shù)據(jù)不僅形式和類型多樣,并且有著不同來源,存在結(jié)構(gòu)或格式上的差異。通過分析圖書館在多模態(tài)和異構(gòu)數(shù)據(jù)集成時面臨的諸多挑戰(zhàn),例如:數(shù)據(jù)異質(zhì)性和復(fù)雜性、數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化問題、技術(shù)集成和兼容性問題等,結(jié)合當(dāng)前各種人工智能技術(shù),如深度學(xué)習(xí)模型、圖神經(jīng)網(wǎng)絡(luò)和自然語言處理等,探討了針對各個問題的應(yīng)對方法,旨在為圖書館提供高效的多模態(tài)和異構(gòu)數(shù)據(jù)集成策略。
關(guān)鍵詞:人工智能數(shù)據(jù)集成圖書館多模態(tài)數(shù)據(jù)異構(gòu)數(shù)據(jù)
中圖分類號:G250.7
ResearchonDataIntegrationinLibrariesintheContextofArtificialIntelligence
TANGQin
GuilinLibraryofGuangxiZhuangAutonomousRegion,Guilin,GuangxiZhuangAutonomousRegion,541100China
Abstract:Inthedigitalage,librariesneedtointegratemassivedataresources,whichhavenotonlydiverseformsandtypes,butalsohavedifferentsourcesanddifferencesinstructuresorformats.Byanalyzingthechallengesfacedbylibrariesintheintegration&nHhG+HDY6j9MW72Gnb6Z1Pw==bsp;ofmulti-modalandheterogeneousdata,suchasdataheterogeneityandcomplexity,dataqualityandstandardization,andtechnologyintegrationandcompatibility,andcombinedwithcurrentvariousartificialintelligencetechnologiessuchasHpsOO2f1Cai1CdIXjVYYog==thedeeplearningmodel,thegraphneuralnetworkandnaturallanguageprocessing,thispaperdiscussescopeingapproachestoeachproblem,aimingtoprovidelibrarieswithanefficientstrategyfortheintegrationofmulti-modalandheterogeneousdata.
KeyWords:Artificialintelligence;Dataintegration;Library;Multimodaldata;Heterogeneousdata
在數(shù)字化和信息技術(shù)迅速發(fā)展的時代,圖書館作為知識和信息的中心,正經(jīng)歷著一場轉(zhuǎn)型。數(shù)字化的浪潮使得圖書館不再局限于傳統(tǒng)印刷材料的收藏與借閱,而是逐漸成為包含多元化數(shù)字資源的集散地,為了有效應(yīng)對各種類型和來源的海量數(shù)據(jù),圖書館的多模態(tài)和異構(gòu)數(shù)據(jù)整合能力面臨著重大挑戰(zhàn)。
根據(jù)《中國圖書館學(xué)會“十四五”發(fā)展規(guī)劃綱要》,圖書館行業(yè)的發(fā)展目標(biāo)包括加強(qiáng)數(shù)字化服務(wù)能力、提升信息資源管理效率和優(yōu)化用戶體驗,特別強(qiáng)調(diào)了要利用現(xiàn)代信息技術(shù)來提升圖書館行業(yè)的數(shù)字化和創(chuàng)新能力??[1]。這就意味著圖書館需要在數(shù)據(jù)集成和應(yīng)用的技術(shù)上不斷進(jìn)步,有效整合日益增長的數(shù)據(jù)資源,滿足公眾多元化的信息需求。
隨著新興技術(shù)的發(fā)展,尤其是人工智能和云計算的應(yīng)用,為圖書館在多模態(tài)和異構(gòu)數(shù)據(jù)集成方面提供了新的機(jī)遇。本文旨在探討圖書館在多模態(tài)和異構(gòu)數(shù)據(jù)集成時面臨的主要挑戰(zhàn),并提出基于人工智能技術(shù)的應(yīng)對策略。
1多模態(tài)和異構(gòu)數(shù)據(jù)集成綜述
1.1數(shù)據(jù)集成的概念
數(shù)據(jù)集成通常是指將不同來源的數(shù)據(jù)進(jìn)行合并,并為用戶提供這些數(shù)據(jù)的統(tǒng)一視圖[2]。數(shù)據(jù)集成在商業(yè)智能、數(shù)據(jù)倉庫、大數(shù)據(jù)分析和多個數(shù)據(jù)管理領(lǐng)域都有應(yīng)用,其核心目標(biāo)是相同的,即提供一個統(tǒng)一的數(shù)據(jù)訪問接口,使得最終用戶能夠無須關(guān)心數(shù)據(jù)實際存儲的位置和格式,就可以查詢和分析數(shù)據(jù)。在技術(shù)層面,數(shù)據(jù)集成通常涉及到多個步驟,包括數(shù)據(jù)清洗、映射、轉(zhuǎn)換和合并等,以確保數(shù)據(jù)的一致性。
1.1.1多模態(tài)數(shù)據(jù)集成
多模態(tài)數(shù)據(jù)集成是指將不同類型或形式的數(shù)據(jù)如文本、圖像、音頻、視頻等[3],通過處理它們之間數(shù)據(jù)類型的差異來完成數(shù)據(jù)融合。由于它結(jié)合了不同類型的數(shù)據(jù)所提供的多角度視圖,在實踐中常用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能領(lǐng)域。
1.1.2異構(gòu)數(shù)據(jù)集成
異構(gòu)數(shù)據(jù)集成是指將不同來源、不同數(shù)據(jù)結(jié)構(gòu)和語義的數(shù)據(jù),融合成統(tǒng)一、可查詢、可分析的數(shù)據(jù)集,并保持?jǐn)?shù)據(jù)的完整性和準(zhǔn)確性[4]。這個過程對于提高數(shù)據(jù)的可用性和價值至關(guān)重要,尤其是在需要從多個不同數(shù)據(jù)源收集和分析信息的情況下,如科研、商業(yè)分析和醫(yī)療等領(lǐng)域。
1.2多模態(tài)和異構(gòu)數(shù)據(jù)集成研究現(xiàn)狀
njXSe6DIGL9dHJvTPUPiDw==在多模態(tài)和異構(gòu)數(shù)據(jù)集成領(lǐng)域,近年來相關(guān)的研究不斷發(fā)展。例如:將數(shù)據(jù)集成方法根據(jù)級別分為三類:數(shù)據(jù)級方法、特征級方法和決策級方法。數(shù)據(jù)級方法通常將原始的多模態(tài)和異構(gòu)數(shù)據(jù)集成為一個新的統(tǒng)一數(shù)據(jù)集,并保留原始數(shù)據(jù)信息。例如將所有數(shù)據(jù)轉(zhuǎn)換為資源描述框架(ResourceDescriptionFramework,RDF)數(shù)據(jù)格式,并輸入到數(shù)據(jù)融合框架中。特征級方法通過特征融合算法,從各種原始數(shù)據(jù)特征向量中提取并生成新的代表性特征向量,不過由于簡化了原始數(shù)據(jù),往往在特征提取過程中伴隨著信息損失。例如將聲音的梅爾頻率倒譜系數(shù)(MelFrequencyCepstralCoefficient,MFCC)特征和使用卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)提取的圖像特征映射到子空間,并使用歐幾里得距離進(jìn)行檢索,從而實現(xiàn)聽覺到視覺的跨模態(tài)檢索解決方案[5]。決策級方法通過找出每種模式的可信度來進(jìn)行協(xié)調(diào)和聯(lián)合決策,常用的方法有平均、投票、加權(quán)、自適應(yīng)增強(qiáng)、動態(tài)貝葉斯網(wǎng)絡(luò)等。例如:學(xué)者們提出了一種基于二元分類模型和證據(jù)理論的決策級集成方法[6],使用邏輯回歸和支持向量機(jī)(SupportVectorMachine,SVM)模型解決二元分類問題,然后利用證據(jù)理論進(jìn)行決策混合。以上這些研究現(xiàn)狀突顯了多模態(tài)和異構(gòu)數(shù)據(jù)集成的應(yīng)用潛力,相信在人工智能技術(shù)的推動下數(shù)據(jù)集成領(lǐng)域?qū)瓉砜焖俪掷m(xù)發(fā)展。
1.3圖書館數(shù)據(jù)集成應(yīng)用的部分現(xiàn)狀
1.3.1綜合搜索和訪問平臺
為了提高讀者訪問不同數(shù)據(jù)源的便利性,很多圖書館應(yīng)用了綜合搜索平臺。這些平臺使讀者能夠通過單一的界面訪問來自圖書館圖書目錄、電子圖書、電子期刊、在線數(shù)據(jù)庫和數(shù)字檔案等信息。讀者可以在同一個搜索界面中檢索不同格式和結(jié)構(gòu)的數(shù)據(jù)源,簡單而高效地完成信息檢索過程。
1.3.2數(shù)據(jù)中臺的應(yīng)用
數(shù)據(jù)中臺作為一個集中的數(shù)據(jù)管理和處理平臺,能夠有效解決數(shù)據(jù)孤島問題,提高數(shù)據(jù)的可用性。圖書館正在建立數(shù)據(jù)中臺來整合圖書管理系統(tǒng)、數(shù)字資源庫以及外部數(shù)據(jù)源等各種數(shù)據(jù)資源,通過有效的管理和利用數(shù)據(jù),圖書館能夠為讀者提供更加全面的信息服務(wù),同時數(shù)據(jù)中臺還為圖書館的決策制定提供了數(shù)據(jù)支持,通過全面的數(shù)據(jù)分析來優(yōu)化資源配置和服務(wù)。
2圖書館多模態(tài)和異構(gòu)數(shù)據(jù)集成面臨的挑戰(zhàn)
現(xiàn)代圖書館作為信息管理和服務(wù)提供方面的關(guān)鍵角色,在數(shù)字化轉(zhuǎn)型過程中面臨了諸多挑戰(zhàn),隨著信息技術(shù)的不斷發(fā)展和讀者需求的日益增長,圖書館必須面對并解決這些問題,以便更好地滿足公眾對信息獲取的需求,接下來我們將探討圖書館在多模態(tài)和異構(gòu)數(shù)據(jù)集成時會遇到的一系列挑戰(zhàn)。
2.1數(shù)據(jù)異質(zhì)性和復(fù)雜性
圖書館的數(shù)據(jù)資源通常包含文本、圖像、視頻、音頻和數(shù)據(jù)庫記錄等多種形式,數(shù)據(jù)異質(zhì)性主要表現(xiàn)在它們格式和結(jié)構(gòu)上的差別。例如:數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)通常格式一致,而文本和多媒體等非結(jié)構(gòu)化數(shù)據(jù)格式則存在較大差異,這些數(shù)據(jù)的融合是一個很大的挑戰(zhàn)。
此外,數(shù)據(jù)異質(zhì)性在語義層面的差異也不容忽視。即使是同類型的數(shù)據(jù),由于來源不同其語義也可能有所不同。例如:不同數(shù)據(jù)庫中相同字段名稱可能代表不同的含義。處理這種語義差異需要深入理解數(shù)據(jù)的背景和上下文,這個過程涉及到復(fù)雜的數(shù)據(jù)映射和轉(zhuǎn)換規(guī)則。因此,格式、結(jié)構(gòu)和語義上的差異增加了數(shù)據(jù)集成的復(fù)雜性,解決這些問題對于數(shù)據(jù)集成來說極為關(guān)鍵。
2.2數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化問題
不同來源的數(shù)據(jù)通常存在不準(zhǔn)確、不完整和不一致等數(shù)據(jù)質(zhì)量問題。例如:不同的數(shù)據(jù)源對同一對象可能提供相互矛盾的信息,某些數(shù)據(jù)源可能還存在數(shù)據(jù)丟失情況,如何確保集成數(shù)據(jù)的可靠性和有效性就成為了一個挑戰(zhàn)。
數(shù)據(jù)源之間缺乏標(biāo)準(zhǔn)化和規(guī)范化也使得數(shù)據(jù)集成面臨著挑戰(zhàn)。不同的數(shù)據(jù)源可能使用不同的術(shù)語、格式或度量標(biāo)準(zhǔn),在數(shù)據(jù)集成過程中需要進(jìn)行復(fù)雜的數(shù)據(jù)轉(zhuǎn)換,如數(shù)據(jù)清洗和預(yù)處理、標(biāo)準(zhǔn)化格式和消除重復(fù)記錄等,并且在轉(zhuǎn)換過程中需要確保數(shù)據(jù)的準(zhǔn)確性和完整性。
2.3技術(shù)集成和兼容性挑戰(zhàn)
處理來自不同數(shù)據(jù)源的技術(shù)多樣性也是數(shù)據(jù)集成中面臨的一個挑戰(zhàn)。圖書館的數(shù)據(jù)資源一般來自于各種不同的技術(shù)平臺,如于圖書管理系統(tǒng)、傳統(tǒng)數(shù)據(jù)庫、云服務(wù)以及媒體管理系統(tǒng)等。這些平臺各有其特定的架構(gòu)、接口和操作方式,數(shù)據(jù)集成時通常涉及復(fù)雜的API調(diào)用和協(xié)議匹配,以確保各系統(tǒng)之間的流暢交互和數(shù)據(jù)一致性。
此外,不同技術(shù)平臺的兼容性問題,也是需要解決的問題。例如:不同的數(shù)據(jù)庫系統(tǒng)可能使用不同的查詢語言和數(shù)據(jù)模型,這需要在數(shù)據(jù)集成時采用標(biāo)準(zhǔn)化方法、中間件技術(shù)等。兼容性問題不僅增加了集成的技術(shù)難度,還可能引起系統(tǒng)性能問題和數(shù)據(jù)丟失風(fēng)險。
2.4性能和效率問題
在數(shù)據(jù)集成中處理大量數(shù)據(jù)時往往會遇到性能瓶頸。數(shù)據(jù)的提取、轉(zhuǎn)換和加載過程在面對大規(guī)模數(shù)據(jù)集的情況下可能變得極其耗時,這會影響系統(tǒng)整體響應(yīng)時間和終端用戶體驗。
對于需要實時或近實時數(shù)據(jù)集成的場景,保持高效率和快速響應(yīng)能力是一個挑戰(zhàn)。實時數(shù)據(jù)集成要求系統(tǒng)能夠迅速處理不同來源的數(shù)據(jù),同時確保數(shù)據(jù)的準(zhǔn)確性和一致性。在動態(tài)數(shù)據(jù)環(huán)境中,除了實時數(shù)據(jù)處理,還要確保數(shù)據(jù)的及時更新和同步。由于數(shù)據(jù)源可能持續(xù)變化,數(shù)據(jù)集成系統(tǒng)需要能夠及時地反映這些變化,任何數(shù)據(jù)更新的延遲或失敗都可能導(dǎo)致信息過時或者數(shù)據(jù)不一致,最終影響圖書館提供的服務(wù)質(zhì)量。
3基于人工智能技術(shù)的圖書館數(shù)據(jù)集成策略
面對多模態(tài)和異構(gòu)數(shù)據(jù)集成所帶來的一系列挑戰(zhàn),接下來我們將探討相應(yīng)的數(shù)據(jù)集成策略,其中的重點是如何利用最新的人工智能技術(shù)來有效應(yīng)對數(shù)據(jù)集成中的關(guān)鍵問題,從而提高圖書館服務(wù)的整體質(zhì)量和效率,為讀者帶來更為豐富和個性化的信息服務(wù)體驗。
3.1人工智能技術(shù)處理數(shù)據(jù)異質(zhì)性和復(fù)雜性
3.1.1深度學(xué)習(xí)和特征融合
深度學(xué)習(xí)模型,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN),能夠從原始數(shù)據(jù)中自動學(xué)習(xí)復(fù)雜的特征表示[7]。在多模態(tài)數(shù)據(jù)集成中,可以使用深度學(xué)習(xí)模型和多模態(tài)學(xué)習(xí)技術(shù)分別提取不同模態(tài)的特征,例如使用語言處理模型(如BERT、LSTM)提取文本特征[8],使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取圖像特征,使用聲音處理模型(如MFCC、LPCC)提取音頻特征[9],然后基于深度學(xué)習(xí)模型將這些提取的特征通過拼接、加權(quán)平均或更復(fù)雜的融合技術(shù)來實現(xiàn)融合[10],形成全面的信息視圖。
3.1.2自然語言處理
自然語言處理(NaturalLanguageProcessing,NLP)技術(shù)可以處理和理解人類語言,從數(shù)據(jù)中提取出有用的信息。例如:在處理文本數(shù)據(jù)時,可以使用NLP技術(shù)(如GPT、BERT)來理解和轉(zhuǎn)換文本數(shù)據(jù)[11],包括分詞、詞性標(biāo)注、命名實體識別等,使其更適合與其他模態(tài)數(shù)據(jù)集成。
3.1.3圖神經(jīng)網(wǎng)絡(luò)
圖神經(jīng)網(wǎng)絡(luò)(GraphNeuralNetworks,GNNs)能夠有效處理圖結(jié)構(gòu)數(shù)據(jù),捕捉實體間的復(fù)雜關(guān)系[12]。在數(shù)據(jù)集成中,當(dāng)涉及到關(guān)系密集型數(shù)據(jù)(如社交網(wǎng)絡(luò)、知識圖譜)時,GNNs可以用來理解和利用實體間的關(guān)系。
3.2利用人工智能解決數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化問題
3.2.1自動化數(shù)據(jù)清洗
數(shù)據(jù)清洗是提高數(shù)據(jù)質(zhì)量的關(guān)鍵步驟,包括修正錯誤、填補(bǔ)缺失值和消除重復(fù)記錄等。我們可以利用NLP技術(shù)自動處理文本數(shù)據(jù),使用模式識別技術(shù)自動修正數(shù)據(jù)錯誤。對于數(shù)據(jù)的缺失情況,可以通過預(yù)測模型(如決策樹、隨機(jī)森林)來估計缺失值[13]。在面對數(shù)據(jù)存在重復(fù)記錄的時候,可以利用機(jī)器學(xué)習(xí)算法(如相似性度量、實體解析技術(shù))來識別并消除重復(fù)或非常相似的記錄。
3.2.2數(shù)據(jù)標(biāo)準(zhǔn)化和轉(zhuǎn)換
通過機(jī)器學(xué)習(xí)和NLP技術(shù)可以自動識別、分類和轉(zhuǎn)換來自不同數(shù)據(jù)源的數(shù)據(jù)。AI算法能夠?qū)W習(xí)不同數(shù)據(jù)集(如SON、XML或數(shù)據(jù)庫文件等)的數(shù)據(jù)格式和結(jié)構(gòu)特征,然后根據(jù)預(yù)定的規(guī)則或者決策樹算法來自動對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和格式轉(zhuǎn)換,如將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化格式,或者將不同度量單位進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化。
3.2.3語義理解和映射
本體學(xué)和語義網(wǎng)絡(luò)通??梢杂脕砝斫獠煌瑪?shù)據(jù)源的語義關(guān)系,并實現(xiàn)自動映射[14]。例如:通過NLP技術(shù)對數(shù)據(jù)進(jìn)行語義標(biāo)注和實體識別,識別出關(guān)鍵實體和概念;再利用關(guān)系抽取模型和上下文分析算法分析實體間的關(guān)系和語義上下文;最后通過本體映射和知識圖譜技術(shù),將不同數(shù)據(jù)源中的語義實體映射到一個統(tǒng)一的本體或概念模型上,以實現(xiàn)數(shù)據(jù)的語義對齊。
3.3技術(shù)集成和兼容性問題的應(yīng)對策略
3.3.1智能接口
當(dāng)集成多個不同的技術(shù)平臺時,需要處理接口和API的兼容性問題。通過NLP技術(shù)來自動解析API文檔,識別其中的API參數(shù)和返回值,然后基于這些分析結(jié)果,利用分類和聚類等機(jī)器學(xué)習(xí)算法,自動找出不同API之間相似的功能和數(shù)據(jù)字段,并且利用規(guī)則學(xué)習(xí)來轉(zhuǎn)換不同API之間的數(shù)據(jù)格式和結(jié)構(gòu),從而實現(xiàn)API功能的智能匹配和數(shù)據(jù)的通暢傳輸。
3.3.2跨平臺數(shù)據(jù)同步和更新
在處理異構(gòu)數(shù)據(jù)環(huán)境中,為了確保不同平臺間數(shù)據(jù)的同步和一致性,可以使用變化檢測模型、預(yù)測模型來自動識別數(shù)據(jù)的變化點,并優(yōu)化數(shù)據(jù)同步策略。基于數(shù)據(jù)變化的模式和頻率,這些模型能夠智能調(diào)整同步的時間間隔,同時識別出需要優(yōu)先同步的數(shù)據(jù)。
3.4人工智能技術(shù)提升數(shù)據(jù)集成性能和效率
3.4.1并行處理和分布式計算
大規(guī)模數(shù)據(jù)集成任務(wù)往往需要大量的計算資源,對高效的并行處理和分布式計算能力要求很高。我們可以利用分布式AI框架ApacheSpark來并行處理數(shù)據(jù),提高數(shù)據(jù)處理和模型訓(xùn)練的效率[15]。
3.4.2實時數(shù)據(jù)流處理
在數(shù)據(jù)集成的許多應(yīng)用場景中,需要實時處理和集成數(shù)據(jù)流。此時利用流處理框架結(jié)合實時AI模型,可以快速處理和分析數(shù)據(jù)流[16]。
4結(jié)語
人工智能技術(shù),尤其是深度學(xué)習(xí)和自然語言處理等,正在顯著增強(qiáng)圖書館在數(shù)據(jù)管理和讀者服務(wù)方面的能力。通過這些先進(jìn)技術(shù),圖書館能夠更高效精準(zhǔn)地整合和分析不同來源的復(fù)雜數(shù)據(jù)集,從而為讀者提供更豐富和個性化的服務(wù),滿足他們多元化的信息獲取需求。
隨著技術(shù)的不斷進(jìn)步,多模態(tài)和異構(gòu)數(shù)據(jù)集成領(lǐng)域?qū)霈F(xiàn)更多的創(chuàng)新和突破,因此圖書館也需要與時俱進(jìn),不斷適應(yīng)新技術(shù)的變化,充分利用人工智能技術(shù)的優(yōu)勢,為未來的智慧圖書館發(fā)展打下堅實的基礎(chǔ)。
參考文獻(xiàn)
[1] 中國圖書館學(xué)會關(guān)于印發(fā)《中國圖書館學(xué)會“十四五”發(fā)展規(guī)劃綱要(2021-2025年)》的通知[EB/OL].(2021-09-06)[2023-12-15].https://www.lsc.org.cn/cns/contents/1299/15358.html
[2] MaurizioL.Dataintegration:atheoreticalperspective[C].ProceedingsoftheTwenty-firstACMSIGACT-SIGMOD-SIGARTSymposiumonPrinciplesofDatabaseSystems.NewYork,NY,USA:AssociationforComputingMachinery,2002:233–246.
[3] 馮霞,胡志毅,劉才華.跨模態(tài)檢索研究進(jìn)展綜述[J].計算機(jī)科學(xué),2021,48(8):13-23.
[4] 齊艷珂,肖連,高潔.異構(gòu)數(shù)據(jù)集成技術(shù)綜述[J].福建電腦,2007(6):35,59.
[5] LIUZ,LIUH,HUANGW,etal.Audiovisualcross-modalmaterialsurfaceretrieval[J].NeuralComputingandApplications,2019,32(18):1-9.
[6] FANDINGM,AIHUAL,ZHIDONGL.AnEvidencetheoryanddatafusionbasedclassificationmethodfordecisionmaking[J].ProcediaComputerScience,2022,199:892-899.
[7] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)學(xué)報,2017,40(6):1229-1251.
[8] 諶志群,鞠婷.基于BERT和雙向LSTM的微博評論傾向性分析研究[J].情報理論與實踐,2020,43(8):173-177.
[9] 余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J].計算機(jī)工程與設(shè)計,2009,30(5):1189-1191.
[10] 張紅,程傳祺,徐志剛,等.基于深度學(xué)習(xí)的數(shù)據(jù)融合方法研究綜述[J].計算機(jī)工程與應(yīng)用,2020,56(24):1-11.
[11] 王海寧.自然語言處理技術(shù)發(fā)展[J].中興通訊技術(shù),2022,28(2):59-64.
[12] 徐冰冰,岑科廷,黃俊杰,等.圖卷積神經(jīng)網(wǎng)絡(luò)綜述[J].計算機(jī)學(xué)報,2020,43(5):755-780.
[13] 高海燕,李唯欣,馬文娟.基于缺失森林模型的稀疏函數(shù)型數(shù)據(jù)修復(fù)方法[J/OL].西華師范大學(xué)學(xué)報(自然科學(xué)版):1-9[2024-01-09].http://kns.cnki.net/kcms/detail/51.1699.N.20231128.1035.002.html.
[14] 唐杰,梁邦勇,李涓子,等.語義Web中的本體自動映射[J].計算機(jī)學(xué)報,2006(11):1956-1976.
[15] 付仲明.ApacheSpark分布式并行計算框架優(yōu)化技術(shù)研究[D].長沙:湖南大學(xué),2022.
[16] 成英超.分布式流數(shù)據(jù)分析與實時機(jī)器學(xué)習(xí)理論與應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2021.