前 言
隨著互聯(lián)網(wǎng)的快速普及與發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)以驚人的速度在全世界范圍內(nèi)呈現(xiàn)出指數(shù)級增長的態(tài)勢.而數(shù)據(jù)作為客觀世界在信息世界中的抽象表達(dá),其必然帶有普遍的關(guān)聯(lián)性.如何從海量的異構(gòu)數(shù)據(jù)中挖掘?qū)嶓w及其語義關(guān)聯(lián)和屬性,并進(jìn)行知識的融合,進(jìn)而構(gòu)建大規(guī)模的知識圖譜,為語義搜索、深度問答、文本理解等應(yīng)用提供有力支撐,已成為數(shù)據(jù)管理、數(shù)據(jù)挖掘和信息抽取等領(lǐng)域的一個重要研究方向.相比于傳統(tǒng)的數(shù)據(jù)集成,在面向大規(guī)模的數(shù)據(jù)和知識融合過程中,融合算法的效率、多源數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估和基于語義的數(shù)據(jù)和知識融合等都給現(xiàn)有的數(shù)據(jù)集成和知識融合技術(shù)帶來了巨大的挑戰(zhàn).
2016年《計算機研究與發(fā)展》數(shù)據(jù)融合與知識融合專題側(cè)重大規(guī)模數(shù)據(jù)和知識的抽取、融合及應(yīng)用等諸多方面,涉及到數(shù)據(jù)管理、信息抽取和知識工程等多個交叉學(xué)科領(lǐng)域,研究主題包括數(shù)據(jù)與知識抽取技術(shù)、歧義性消除、數(shù)據(jù)與知識融合技術(shù)、數(shù)據(jù)與知識建模、關(guān)聯(lián)知識庫的應(yīng)用等.本期專題經(jīng)過公開征文收到43篇投稿,并最終收錄了7篇論文,內(nèi)容涉及實體抽取、實體鏈接、數(shù)據(jù)融合與溯源、短文本理解、數(shù)據(jù)查詢、知識表示等主題,為相關(guān)領(lǐng)域的研究者探討面向大數(shù)據(jù)的數(shù)據(jù)融合與知識融合的基礎(chǔ)理論研究及其應(yīng)用、討論該領(lǐng)域內(nèi)最新的突破性進(jìn)展、交流新的學(xué)術(shù)思想和新方法以及展望未來的發(fā)展趨勢提供了很好的溝通和交流機會.
隨著大規(guī)模數(shù)據(jù)的關(guān)聯(lián)、交叉和融合,當(dāng)下亟待解決的問題是如何利用數(shù)據(jù)的關(guān)聯(lián)、交叉和融合實現(xiàn)大數(shù)據(jù)的價值最大化.“大數(shù)據(jù)融合研究:問題與挑戰(zhàn)”(孟小峰等,中國人民大學(xué))一文認(rèn)為,解決這一問題的關(guān)鍵在于數(shù)據(jù)的集成或融合.該文提出了大數(shù)據(jù)融合的概念,并以Web數(shù)據(jù)、科學(xué)數(shù)據(jù)和商業(yè)數(shù)據(jù)的融合作為案例分析了大數(shù)據(jù)融合的需求和必要性,同時總結(jié)分析了現(xiàn)有數(shù)據(jù)融合技術(shù).最后針對大數(shù)據(jù)融合可能面臨的挑戰(zhàn)進(jìn)行了展望.最近,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)受到廣泛關(guān)注.表示學(xué)習(xí)旨在將研究對象的語義信息表示為稠密低維實值向量,知識表示學(xué)習(xí)則面向知識庫中的實體和關(guān)系進(jìn)行表示學(xué)習(xí).該技術(shù)可以在低維空間中高效計算實體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識獲取、融合和推理的性能得到顯著提升.“知識表示學(xué)習(xí)研究進(jìn)展”(劉知遠(yuǎn)等,清華大學(xué))介紹知識表示學(xué)習(xí)的最新成果,總結(jié)該技術(shù)面臨的主要挑戰(zhàn)和可能解決方案,并展望該技術(shù)的未來發(fā)展方向與前景.
圖靈在1950年的論文“計算機器與智能”中提出了圖靈測試的概念,期望從行為主義角度來定義機器智能,而人機對話也成為人工智能領(lǐng)域的目標(biāo).“短文本理解研究”(王仲遠(yuǎn)等,微軟亞洲研究院)正是把這一重要但又充滿挑戰(zhàn)的任務(wù)作為目標(biāo),針對短文本的不遵循語法規(guī)則、長度短、信息量小等特點,將短文本分析的方法分為了隱性語義、半顯性語義、顯性語義3種語義分析方法,總結(jié)并提出了文本粒度和詞粒度模型,并提出了2種可行的解決方案.
實體鏈接是文本分析會議(TAC)知識庫構(gòu)建領(lǐng)域設(shè)定的基本挑戰(zhàn),其目標(biāo)是將從文本中提取到的實體指稱項正確地鏈接到知識庫中對應(yīng)的實體對象上.“基于圖的中文集成實體鏈接算法”(劉嶠等,電子科技大學(xué))提出一種新穎的基于圖的中文集成實體鏈接方法,