高 輝,陳 鈞,牛海波,羅 威
中國國防科技信息中心 北京 100142
面向科技情報(bào)的互聯(lián)網(wǎng)信息源自動(dòng)發(fā)現(xiàn)技術(shù)
高 輝,陳 鈞,牛海波,羅 威
中國國防科技信息中心 北京 100142
自動(dòng)獲取高質(zhì)量互聯(lián)網(wǎng)信息源是科技情報(bào)工作的一項(xiàng)基礎(chǔ)性研究內(nèi)容。以網(wǎng)站/網(wǎng)頁類信息源和Twitter信息源為研究對象,基于共引關(guān)系以及關(guān)注關(guān)系和文本內(nèi)容,分別提出了兩類信息源的自動(dòng)發(fā)現(xiàn)方法,并面向科技情報(bào)領(lǐng)域進(jìn)行了實(shí)驗(yàn)。對信息源自動(dòng)發(fā)現(xiàn)技術(shù)應(yīng)用形式進(jìn)行了研究,分析了科技情報(bào)工作對信息源服務(wù)的具體要求,提出了3類應(yīng)用場景。
科技情報(bào);互聯(lián)網(wǎng)信息源;Twitter;共引;社會網(wǎng)絡(luò)分析
科技情報(bào)人員通常通過兩種方式獲取互聯(lián)網(wǎng)信息:一是通過搜索引擎對某一主題相關(guān)的信息進(jìn)行全面搜索;二是對所關(guān)注的領(lǐng)域積累大量有價(jià)值的網(wǎng)絡(luò)信息源,通過對這些信息源持續(xù)跟蹤而獲得領(lǐng)域動(dòng)態(tài)。第二種方式是一個(gè)長期而持續(xù)的工作,是進(jìn)行技術(shù)預(yù)警、技術(shù)熱點(diǎn)發(fā)現(xiàn)與跟蹤、技術(shù)發(fā)展趨勢預(yù)測等重要工作的基礎(chǔ)。因此,全面掌握所關(guān)注領(lǐng)域相關(guān)的互聯(lián)網(wǎng)信息源,對科技情報(bào)人員來說至關(guān)重要。
互聯(lián)網(wǎng)信息源是指互聯(lián)網(wǎng)上能夠提供信息的各類媒體,各種機(jī)構(gòu)、院校、企業(yè)幾乎都擁有自己的網(wǎng)站甚至社交媒體賬號,大量科技工作者通過各種社交媒體向外界發(fā)布著科技類消息,因此這些網(wǎng)站和社交媒體賬號都是科技工作人員潛在的信息源。隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)信息源的數(shù)量也不斷增長,截至2014年7月全球網(wǎng)站數(shù)目超過9.7億個(gè)1http://www. internetlivestats. com/totalnumber-ofwebsites/,2015年5月Twitter用戶數(shù)量超過5億戶,活躍用戶超過3億戶2https:// en.wikipedia.org/ wiki/Twitter。傳統(tǒng)人工積累搜集互聯(lián)網(wǎng)信息源的方式已經(jīng)不能滿足大數(shù)據(jù)時(shí)代對科技情報(bào)工作的要求,因此必須對互聯(lián)網(wǎng)信息源的自動(dòng)發(fā)現(xiàn)技術(shù)開展研究。
互聯(lián)網(wǎng)信息源是互聯(lián)網(wǎng)數(shù)據(jù)的生產(chǎn)者,信息源種類和數(shù)量的增加以及活躍度的提高,導(dǎo)致了數(shù)據(jù)的爆炸式增長。全世界數(shù)據(jù)總量以每兩年翻一番的速度遞增,而近十年來增長最快的當(dāng)屬互聯(lián)網(wǎng)數(shù)據(jù)。未來的任務(wù)主要不是獲取越來越多的數(shù)據(jù),而是數(shù)據(jù)的去冗分類、去粗取精,提高知識發(fā)現(xiàn)的產(chǎn)出率[1]。要在不明顯增加采集成本的條件下盡可能地提高數(shù)據(jù)的質(zhì)量。這就要求在采集互聯(lián)網(wǎng)信息時(shí)盡量選擇與研究領(lǐng)域緊密相關(guān)的信息源,減少不必要的數(shù)據(jù)采集。如何獲取相關(guān)性強(qiáng)、權(quán)威性高、時(shí)效性強(qiáng)的信息源,并能夠及時(shí)有效地把信息源提供給科技情報(bào)研究人員,是一個(gè)重要的研究課題。
目前公開的互聯(lián)網(wǎng)信息源服務(wù)主要有Yahoo Directory、Open Directory Project和Go Guide等,其實(shí)質(zhì)屬于目錄式搜索引擎:一種按目錄分類的網(wǎng)站鏈接列表,用戶可以按照分類目錄或關(guān)鍵字找到所需要的站點(diǎn)或欄目(即網(wǎng)頁類信息源)。目錄搜索引擎以人工方式或半自動(dòng)方式搜集信息并整理分類。例如Open Directory Project的編輯工作目前共有近9萬人參與,搜集了400萬個(gè)站點(diǎn)信息,擁有100多萬個(gè)分類3http:// www.dmoz.org。該類信息源服務(wù)的缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。
本文研究科技領(lǐng)域相關(guān)的互聯(lián)網(wǎng)信息源自動(dòng)發(fā)現(xiàn)技術(shù),以網(wǎng)站/網(wǎng)頁類(以下簡稱Web類)和Twitter類信息源作為主要研究對象,提出并實(shí)現(xiàn)了互聯(lián)網(wǎng)信息源自動(dòng)發(fā)現(xiàn)技術(shù),并對信息源的應(yīng)用要求和服務(wù)形式進(jìn)行了研究。
2.1 問題描述
科技情報(bào)人員關(guān)注的互聯(lián)網(wǎng)信息源可分為傳統(tǒng)的Web信息源和社交媒體信息源兩大類。其中,Web信息源主要包括領(lǐng)域相關(guān)的新聞聚合頁或者重要機(jī)構(gòu)的新聞發(fā)布頁等。而社交媒體主要包括Twitter、Facebook、BBS、博客或者微信等,本文選取Twitter作為研究對象。
在信息源發(fā)現(xiàn)的需求建模中,科技情報(bào)人員往往無法使用有限的關(guān)鍵詞對其關(guān)注的信息源進(jìn)行描述。但是對于具有一定工作經(jīng)歷的科技情報(bào)人員來說,他們已經(jīng)掌握了有限數(shù)量的領(lǐng)域內(nèi)信息源,因此本文信息源自動(dòng)發(fā)現(xiàn)技術(shù)的思路是:以已知信息源為種子,通過算法發(fā)現(xiàn)更多未知的信息源。如圖1所示,首先給定一定數(shù)量的已有信息源作為種子,根據(jù)網(wǎng)頁/Twitter所具有的網(wǎng)絡(luò)關(guān)聯(lián)特性或內(nèi)容相關(guān)性,自動(dòng)發(fā)現(xiàn)與種子領(lǐng)域相關(guān)且重要的新信息源,這個(gè)過程可以轉(zhuǎn)化為挖掘與種子網(wǎng)頁和Twitter賬戶相關(guān)度高的其他網(wǎng)頁和賬戶的過程。
2.2 相似網(wǎng)頁自動(dòng)發(fā)現(xiàn)相關(guān)工作
相似網(wǎng)頁/網(wǎng)站發(fā)現(xiàn)的相關(guān)工作可以簡單分為基于內(nèi)容的方法和基于鏈接關(guān)系的方法?;趦?nèi)容的方法完全根據(jù)網(wǎng)頁的內(nèi)容來計(jì)算網(wǎng)頁間的關(guān)聯(lián)度。參考文獻(xiàn)[2]從網(wǎng)頁的各種標(biāo)簽內(nèi)容中提取特征,提出了一種模糊內(nèi)容分析方法來探索網(wǎng)頁間的相關(guān)度。參考文獻(xiàn)[3]首先用元搜索方法得到潛在相關(guān)的網(wǎng)頁集合,然后抽取網(wǎng)頁關(guān)鍵詞進(jìn)行相關(guān)性分析。SimilarSiteSearch4http://www. similarsitesearch. com/about.html基于網(wǎng)頁內(nèi)容,使用機(jī)器學(xué)習(xí)方法對主題相近的網(wǎng)頁進(jìn)行識別,并在互聯(lián)網(wǎng)上提供有限的服務(wù)和相關(guān)API?;阪溄雨P(guān)系的算法將全部網(wǎng)頁視為一個(gè)有向圖,并利用圖的連通性和加權(quán)信息來計(jì)算網(wǎng)頁間的關(guān)聯(lián)度。PageRank[4]算法和HITS[5]算法可以在一定程度上對相關(guān)網(wǎng)頁進(jìn)行排序,但是PageRank算法過分關(guān)注權(quán)威性而忽視相關(guān)性,HITS算法中可能出現(xiàn)主題漂移現(xiàn)象。參考文獻(xiàn)[6]使用Companion和Co-Citation的兩種算法來度量網(wǎng)頁間的相關(guān)度。Companion算法將利用給定網(wǎng)頁的出鏈接與入鏈接及其鄰近網(wǎng)頁構(gòu)建一個(gè)有權(quán)圖,并用一種HITS變種算法來挖掘給定網(wǎng)頁的相關(guān)網(wǎng)頁。Co-Citation即共引算法,通過檢查網(wǎng)頁的共引關(guān)系強(qiáng)度來挖掘給定網(wǎng)頁的相關(guān)網(wǎng)頁。參考文獻(xiàn)[7]將網(wǎng)頁分塊算法引入共引過程中,并綜合了鏈接錨文字的相似性和網(wǎng)頁模板塊過濾等方法,提高了關(guān)聯(lián)網(wǎng)頁的挖掘精度。
圖1 信息源自動(dòng)發(fā)現(xiàn)流程
2.3 相似微博用戶自動(dòng)發(fā)現(xiàn)相關(guān)工作
社交媒體用戶之間通過關(guān)注、交互等行為形成了巨大的網(wǎng)絡(luò),微博相似用戶發(fā)現(xiàn)方法首先將分析對象定位為網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),相關(guān)的研究集中在:團(tuán)體挖掘(發(fā)現(xiàn)用戶的社交圈)[8]、人物影響力計(jì)算[9,10]、信息傳播[11]等問題。參考文獻(xiàn)[12]和參考文獻(xiàn)[13]提出了兩種基于標(biāo)簽信息進(jìn)行用戶推薦的方法。參考文獻(xiàn)[14]提出在社交網(wǎng)絡(luò)的歷史數(shù)據(jù)可以獲取的情況下,使用基于內(nèi)容的方法進(jìn)行用戶推薦是有效的。參考文獻(xiàn)[15,16]對LDA模型進(jìn)行改進(jìn)后,將其應(yīng)用于微博主題挖掘,得到了較好的效果,能夠進(jìn)一步用于相似主題用戶的發(fā)現(xiàn)。
本文中Web類信息源的自動(dòng)發(fā)現(xiàn)將完全依賴于鏈接關(guān)系而不考慮文本內(nèi)容,這是因?yàn)閃eb類信息源的所有者一般都是機(jī)構(gòu)組織等,網(wǎng)頁內(nèi)鏈接需經(jīng)過審查才得以上線,因此比較能夠代表相關(guān)性和權(quán)威性。同時(shí)網(wǎng)頁內(nèi)正文內(nèi)容難以獲得(各網(wǎng)站頁面結(jié)構(gòu)差異較大),噪聲較多,基于文本內(nèi)容進(jìn)行相關(guān)性與權(quán)威性度量并不理想。Twitter信息源則采用基于關(guān)聯(lián)關(guān)系和內(nèi)容相結(jié)合的自動(dòng)發(fā)現(xiàn)方式,主要因?yàn)門witter用戶多為個(gè)人,用戶之間的關(guān)注關(guān)系比較隨意和多樣化,無法真正反映出領(lǐng)域相關(guān)性。同時(shí)由于字?jǐn)?shù)限制,推文(Tweet)內(nèi)容比較精辟,在遣詞造句上多選擇具有實(shí)際意義的詞。推文內(nèi)容能夠批量獲得,且結(jié)構(gòu)性比較好,因此本文同時(shí)基于關(guān)聯(lián)關(guān)系和內(nèi)容對Twitter信息源進(jìn)行自動(dòng)發(fā)現(xiàn)。
3.1 網(wǎng)頁類信息源自動(dòng)發(fā)現(xiàn)技術(shù)及實(shí)現(xiàn)
3.1.1 網(wǎng)頁類信息源自動(dòng)發(fā)現(xiàn)技術(shù)
針對網(wǎng)頁類信息源,主要基于共引思想來自動(dòng)發(fā)現(xiàn)與信息源相關(guān)的新信息源。給定一個(gè)網(wǎng)頁u,含有指向u的鏈接的網(wǎng)頁v稱為u的父親網(wǎng)頁,也稱v引用了u;u內(nèi)部的鏈接指向的網(wǎng)頁w稱為u的兒子網(wǎng)頁,也稱w被u引用。如果網(wǎng)頁p1和p2具有相同的父親網(wǎng)頁,則p1和p2稱為共引關(guān)系。
共引分析最早出現(xiàn)在學(xué)術(shù)文獻(xiàn)的分析中,共引是指兩篇文獻(xiàn)同時(shí)被其他文獻(xiàn)引用。同被引用的文獻(xiàn)在主題上具有或多或少的相似性,因此同被引用的次數(shù)可以預(yù)測文獻(xiàn)在內(nèi)容方面的相關(guān)性。在互聯(lián)網(wǎng)中同樣存在上述特性,一般認(rèn)為具有共引關(guān)系的網(wǎng)頁在所屬領(lǐng)域上具有或多或少的相似性,因此共引次數(shù)可以預(yù)測網(wǎng)頁在內(nèi)容方面的相關(guān)性[17]。給定種子信息源,本文通過挖掘互聯(lián)網(wǎng)中與其具有共引關(guān)系的網(wǎng)站來構(gòu)建候選信息源。
共引算法一般過程是[6]:設(shè)u為種子信息源,首先找到引用它的父親網(wǎng)頁集合BP,再抽取BP中每一個(gè)父親網(wǎng)頁所引用的其他網(wǎng)頁,組成兄弟網(wǎng)頁集合BS。計(jì)算BS中網(wǎng)頁與u出現(xiàn)共引的次數(shù),共引次數(shù)越多說明與u的相關(guān)性越高。以圖2(a)為例,可以直接看出BS中的共引次數(shù),其中s2,2與u的共引為3次。如果把閾值設(shè)為2次,則可以認(rèn)為s1,2、s2,2、s4,2與u相關(guān),它們是由種子u得到的新信息源。
圖2 共引算法示意
在傳統(tǒng)共引算法基礎(chǔ)上,前期研究[18]中提出了基于多種子聯(lián)合共引的信息源發(fā)現(xiàn)算法,與傳統(tǒng)算法不同,該算法選擇N個(gè)已有信息源(種子集合U)作為輸入,同時(shí)考慮了父親網(wǎng)站的質(zhì)量對最終結(jié)果的影響。為了對父親網(wǎng)頁的質(zhì)量進(jìn)行度量,引入了引用度的概念。如圖2(b)所示,BP中父親網(wǎng)頁pi,j(i∈[1,N],j∈[1,B],其中N為種子信息源總個(gè)數(shù),B為每個(gè)種子信息源父親網(wǎng)頁的總個(gè)數(shù))引用U中所有種子網(wǎng)頁的總次數(shù),稱為pi,j的引用度,表示為C(pi,j),對種子集合引用次數(shù)越多,其引用度就越高,代表與種子之間的相關(guān)性(質(zhì)量)越高。假設(shè)在圖2(b)中p1,B和pN,1為同一個(gè)網(wǎng)頁,即p1,B=pN,1,以圖2(b)的引用關(guān)系為例,BP中節(jié)點(diǎn)的引用度見表1。相應(yīng)地,BS中兄弟網(wǎng)頁si,j,k(k∈[1,BF],其中BF是每個(gè)父親網(wǎng)頁除種子信息源外其他兒子網(wǎng)頁的總個(gè)數(shù))的共引度則定義為si,j,k所有父親的引用度之和。以圖2(b)的引用關(guān)系為例,BS中節(jié)點(diǎn)的共引度見表2。
與傳統(tǒng)共引思想相同,本文得到的共引度同樣代表了BS中網(wǎng)頁與種子網(wǎng)頁之間的相關(guān)性。同時(shí),與HITS算法[5]類似,BP對種子節(jié)點(diǎn)的引用度代表了Hub值,而BS中兄弟節(jié)點(diǎn)被BP引用的次數(shù)則代表了Authority值,因此本文共引度在一定程度上也代表了網(wǎng)頁的重要度。
3.1.2 網(wǎng)頁類信息源自動(dòng)發(fā)現(xiàn)技術(shù)實(shí)現(xiàn)
在對Web信息源自動(dòng)發(fā)現(xiàn)技術(shù)的實(shí)現(xiàn)中,首先對已掌握的信息源按照相關(guān)度進(jìn)行人工分組(每組平均10個(gè)),每個(gè)組作為輸入的種子信息源集合。令父親網(wǎng)頁數(shù)B=200,兄弟網(wǎng)頁數(shù)BF=40。父親網(wǎng)頁的自動(dòng)抓取使用Google公司或者AOL公司的Link搜索功能,當(dāng)查找http://news. sciencemag.org/的父親頁面時(shí),只要輸入“l(fā)ink:http://news.sciencemag.org/”,便會返回眾多父親頁面,本文通過編程實(shí)現(xiàn)了父親網(wǎng)頁的自動(dòng)獲取。目前以現(xiàn)有的200個(gè)信息源作為種子,利用本文技術(shù)獲得6 200個(gè)質(zhì)量較高的新信息源。參考文獻(xiàn)[18]對采用多種子聯(lián)合共引算法與普通共引算法的實(shí)驗(yàn)結(jié)果進(jìn)行了對比,指出準(zhǔn)確度能夠提高50%以上。
表1 BP節(jié)點(diǎn)的引用度
表2 BS節(jié)點(diǎn)的共引度
3.2 微博類信息源自動(dòng)發(fā)現(xiàn)技術(shù)及實(shí)現(xiàn)
3.2.1 微博類信息源自動(dòng)發(fā)現(xiàn)技術(shù)
Twitter用戶之間通過關(guān)注、被關(guān)注、消息轉(zhuǎn)發(fā)等行為構(gòu)成復(fù)雜的社會網(wǎng)絡(luò),本文基于社會網(wǎng)絡(luò)分析法研究Twitter信息源自動(dòng)發(fā)現(xiàn)技術(shù)。在Twitter使用實(shí)踐中,用戶積極選擇并參與構(gòu)建個(gè)性化關(guān)系,與一些具有相似特征和愛好的用戶自發(fā)地聚集到一起形成社區(qū)[19],因此可以把與種子信息源處于相同社區(qū)的其他用戶作為領(lǐng)域相關(guān)的候選新信息源,可以基于推文內(nèi)容對相關(guān)性進(jìn)一步度量。社會網(wǎng)絡(luò)中中心度的概念往往代表著節(jié)點(diǎn)的重要性,因此可以通過研究社區(qū)內(nèi)節(jié)點(diǎn)的中心度來衡量新信息源的權(quán)威性。Twitter信息源自動(dòng)發(fā)現(xiàn)主要分為候選集構(gòu)建、用戶重要度評估和領(lǐng)域相關(guān)性度量3個(gè)步驟,具體流程如圖3所示。
候選集構(gòu)建。首先選擇種子用戶作為起點(diǎn),抽取其所有粉絲(關(guān)注者)作為第二輪樣本,繼續(xù)選擇每個(gè)粉絲的粉絲作為第三輪樣本,依次進(jìn)行抽取,直到達(dá)到終止條件。同時(shí)將種子用戶自己關(guān)注的其他用戶加入用戶樣本。本質(zhì)上,該滾雪球樣本一般是圍繞著種子用戶的關(guān)系而組織的[20],構(gòu)成的網(wǎng)絡(luò)關(guān)聯(lián)是緊密的,可以認(rèn)為該樣本與種子用戶之間已經(jīng)具備一定的領(lǐng)域相關(guān)性。在此基礎(chǔ)上,利用基于圖分割的社區(qū)挖掘方法獲得種子所屬的社區(qū),進(jìn)一步剔除無關(guān)用戶。
用戶重要度評估。中心性分析以社會網(wǎng)絡(luò)節(jié)點(diǎn)的度數(shù)衡量節(jié)點(diǎn)中心性特征,以反映出節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心性地位差異,如果節(jié)點(diǎn)具有較高的度數(shù),則它可能擁有更大的影響力。本項(xiàng)目用點(diǎn)度中心度來評測社區(qū)中的重要人物,點(diǎn)度中心度值高表示該用戶受到較多人的關(guān)注,他發(fā)表的言論能夠迅速被他人接收并對他人產(chǎn)生影響,該用戶具有信息源的潛質(zhì)。
領(lǐng)域相關(guān)性度量。領(lǐng)域相關(guān)性是評價(jià)信息源質(zhì)量的重要指標(biāo),通過社團(tuán)發(fā)現(xiàn)算法得到的候選集仍存在大量相關(guān)性不高的用戶,因此本文引入了基于主題模型的推文內(nèi)容相關(guān)性度量方法。LDA(latent dirichlet allocation)是一種重要的主題模型,本文使用LDA對候選集中用戶的推文進(jìn)行話題聚類,如果某個(gè)用戶與種子用戶在某一段時(shí)間內(nèi)所發(fā)推文屬于同一主題,則認(rèn)為該用戶與種子用戶具有領(lǐng)域相關(guān)性。
3.2.2 Twitter信息源自動(dòng)發(fā)現(xiàn)技術(shù)實(shí)現(xiàn)
Web類種子信息源大都對應(yīng)Twitter官方賬號,本節(jié)以Web類信息源對應(yīng)的Twitter賬號作為Twitter種子信息源。編程實(shí)現(xiàn)了Google搜索和Twitter API用戶搜索相互補(bǔ)充的Twitter賬戶的自動(dòng)獲取,由200個(gè)Web類種子信息源得到了134個(gè)Twitter種子信息源。
圖3 Twitter信息源自動(dòng)發(fā)現(xiàn)流程
Twitter信息的獲取主要基于Twitter API實(shí)現(xiàn),首先抽取種子用戶的關(guān)注用戶以及種子用戶的粉絲、粉絲的粉絲,從而獲得用戶樣本;采用Pajek[21]對該樣本組成的網(wǎng)絡(luò)進(jìn)行可視化分析,計(jì)算種子所在社區(qū)以及各節(jié)點(diǎn)點(diǎn)度中心度;抓取每個(gè)用戶最新的200條推文組成該賬戶的文檔,使用的JGibbLda工具包對用戶文檔進(jìn)行聚類,預(yù)先設(shè)置主題數(shù)量為4;在聚類結(jié)果中,如果與種子文檔歸屬相同的主題,則說明該文檔對應(yīng)的賬戶與種子具有內(nèi)容上的緊密相關(guān)性,通過該過程過濾掉不相關(guān)賬戶;最后結(jié)合各用戶的中心度得到最終相關(guān)度高、重要性高的新信息源。
相比人工搜集方法,本文提出的信息源自動(dòng)發(fā)現(xiàn)方法具有自動(dòng)高效、覆蓋面全、對新產(chǎn)生信息源反應(yīng)快等明顯優(yōu)勢。為了提供完善的應(yīng)用服務(wù),需要進(jìn)一步對信息源進(jìn)行標(biāo)注和分類,建立國別地區(qū)、技術(shù)領(lǐng)域、應(yīng)用范圍、所有者性質(zhì)(如個(gè)人、政府機(jī)構(gòu)、大學(xué)院所)等維度的分類體系。然后根據(jù)信息源對應(yīng)網(wǎng)站和微博的標(biāo)題、關(guān)鍵詞、摘要等描述信息,利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對信息源的分類和組織,最后形成完備的信息源庫。結(jié)合大數(shù)據(jù)時(shí)代對科技情報(bào)工作提出的新要求,信息源自動(dòng)發(fā)現(xiàn)技術(shù)具有如下應(yīng)用場景。
(1)構(gòu)建信息源地圖,系統(tǒng)掌控全球科技信息資源
信息源地圖指的是用可視化手段對信息源的綜合展示,利用地圖、熱圖和網(wǎng)絡(luò)圖等多種形式來展現(xiàn)科技領(lǐng)域信息源的地理位置、活躍度、統(tǒng)計(jì)分布、類別、信息源間關(guān)聯(lián)交互等情況。通過一個(gè)全面、準(zhǔn)確、動(dòng)態(tài)的互聯(lián)網(wǎng)信息源地圖,決策人員和情報(bào)研究人員可以對科技信息資源進(jìn)行全局把控和分析,從更高層次上挖掘發(fā)現(xiàn)其特點(diǎn)和規(guī)律,預(yù)測其變化趨勢,具有重要戰(zhàn)略意義。
(2)實(shí)現(xiàn)信息源檢索服務(wù),為情報(bào)研究工作提供保障
提供完善、靈活的信息源檢索服務(wù),為情報(bào)研究人員實(shí)現(xiàn)對科技領(lǐng)域互聯(lián)網(wǎng)信息的持續(xù)跟蹤和完成各項(xiàng)應(yīng)急任務(wù)提供有力保障。其檢索形式主要有以下3種。
· 目錄式檢索:用戶通過分類層次目錄方式檢索庫中已存在的信息源。
· 關(guān)鍵字檢索:通過匹配信息源對應(yīng)的描述性信息,檢索庫中已存在的信息源。
· 種子檢索:當(dāng)利用以上兩種方式無法檢索到所需要的信息源時(shí),說明庫中可能不存在該類信息源,這時(shí)用戶可以輸入已有信息源作為種子,通過服務(wù)系統(tǒng)在線挖掘獲得新信息源。
除提供以上3種基本檢索服務(wù)外,還可以開發(fā)個(gè)性訂制和相關(guān)推薦等多種形式的智能服務(wù)。
(3)全面、深度挖掘科技信息源,為科技情報(bào)大數(shù)據(jù)提供數(shù)據(jù)來源
自動(dòng)、高效、全面發(fā)現(xiàn)科技領(lǐng)域的信息源,建立標(biāo)準(zhǔn)的訪問接口,實(shí)現(xiàn)與互聯(lián)網(wǎng)海量信息采集平臺無縫連接,為成規(guī)模的互聯(lián)網(wǎng)信息資源獲取提供必要前提。依據(jù)具有高度領(lǐng)域相關(guān)性的信息源采集數(shù)據(jù),能夠提高互聯(lián)網(wǎng)數(shù)據(jù)采集的精準(zhǔn)性和針對性,減少噪聲數(shù)據(jù)的干擾,降低帶寬、存儲和計(jì)算成本。
互聯(lián)網(wǎng)信息源自動(dòng)發(fā)現(xiàn)技術(shù)能夠高效發(fā)現(xiàn)大量新信息源,但較大的數(shù)量可能會使科技情報(bào)人員應(yīng)接不暇,同時(shí)無法保證每個(gè)新信息源都是真正需要的,對新信息源的二次甄別也會影響其有效利用。值得慶幸的是,大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)廣泛用于互聯(lián)網(wǎng)信息的海量采集、處理和分析,大大提高了科技情報(bào)工作的效率,本文技術(shù)的直接用戶更傾向于機(jī)器,而非情報(bào)人員本身。
下一步工作需要充分考慮從不同類型數(shù)據(jù)中發(fā)現(xiàn)信息,更全面地發(fā)現(xiàn)新信息源。因此,Web信息源自動(dòng)發(fā)現(xiàn)和Twitter信息源自動(dòng)發(fā)現(xiàn)兩個(gè)過程不應(yīng)孤立串行執(zhí)行,應(yīng)充分利用兩類信息之間的互相映射、互相引用等關(guān)聯(lián)關(guān)系,使兩個(gè)過程緊密結(jié)合起來。再進(jìn)一步,互聯(lián)網(wǎng)資源采集系統(tǒng)對信息源采集到的網(wǎng)頁和推文中包含的大量外鏈信息或者Twitter用戶信息進(jìn)行相關(guān)度和權(quán)威度的評估,選擇優(yōu)質(zhì)信息源入庫,實(shí)現(xiàn)信息源庫的自我擴(kuò)展。
[1] 中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會. 中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(2013), 2013 CCF Task Force on Big Data. White Paper on Big Data Technology and Industry Development in China (2013), 2013
[2] Loia V, Senatore S, Sessa M I. Discovering related web pages through fuzzy-context reasoning. Proceedings of the 2002 IEEE International Conference on Plasma Science, Banff, Alberta, Canada, 2002: 150~155
[3] Jaskirat S, Mukesh K. A meta search approach to find similarity between webpages using different similarity measures. Proceedings of ICAC3 2011, Mumbai, India, 2011: 150~160
[4] Brin S, Page L. The anatomy of a largescale hypertextual Web search engine. Computer Networks and ISDN Systems, 1998, 30(98): 107~117
[5] Kleinberg J M. Authoritative sources in a hyperlinked environment. Journal of the ACM, 1999, 46(5): 604~632
[6] Dean J, Monika R. Finding related pages in the world wide web. Computer Networks, 1999, 31(11): 1467~1479
[7] 沈筱彥. Web信息檢索若干關(guān)聯(lián)挖掘問題的研究(博士學(xué)位論文). 北京: 北京郵電大學(xué), 2009 She X Y. Research on several association rule mining problems for web information retrieval system (doctor dissertation). Beijing: Beijing University of Posts and Telecommunications, 2009
[8] Clauset A, Newman M E J, Moore C.Finding community structure in very large networks.Physical Review E: Statistical Nonlinear & Soft Matter Physics, 2004, 70(6): 264~277
[9] Crandall D, Cosley D, Huttenlocher D,et al. Feedback effects between similarity and social influence in online communities. Proceedings of the KDD’08, Las Vegas, Nevada, USA, 2008: 160~168
[10] Weng J, Lim E P, Jiang J,et al. Twitterrank:findingtopic-sensitive influential twitterers. Proceedings of the 3rd ACM International Conference on Web Search and Data Mining, New York, USA, 2010: 261~270
[11] Wang D S, Wen Z, Tong H H,et al. Information spreading in context. Proceedings of the WWW 2011, Hyderabad, India, 2011: 735~744
[12] Yan Z, Zhou J. User recommendation with tensor factorization in social networks. Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Kyoto, Japan, 2012: 3853~3856
[13] Guy I, Zwerdling N, Ronen I,et al. Social media recommendation based on people and tags. Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval, Geneva, Switzerland, 2010: 194~201
[14] Chen J, Geyer W, Dugan C,et al. Make new friends, but keep the old: recommending people on social networking sites. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, New York, USA, 2009: 201~210
[15] 張晨逸, 孫建伶, 丁軼群. 基于MB-LDA 模型的微博主題挖掘. 計(jì)算機(jī)研究與發(fā)展, 2011, 48(10): 1795~1802 Zhang C Y, Sun J L, Ding Y Q. Topic mining for microblog based on MB-LDA model. Journal of Computer Research and Development, 2011, 48(10): 1795~1802
[16] 張曉艷, 王挺, 梁曉波. LDA模型在話題追蹤中的應(yīng)用. 計(jì)算機(jī)科學(xué), 2011, 38(10A): 136~139 Zhang X Y, Wang T, Liang X B. Use of LDA model in topic tracking. Computer Science, 2011, 38(10A): 136~139
[17] Larson R. Bibliometrics of the world wide web: an exploratory analysis of the intellectual structure of cyberspace. Proceedings of Ann Meeting Am Soc Information Sciences, Medford, USA, 1996
[18] Gao H, Niu H B, Luo W. Internet information source discovery based on multi-seeds cocitation. Proceedings of International Conference on Security, Pattern Analysis, and Cybernetics (SPAC) 2014, Wuhan, China, 2014
[19] 王連喜, 蔣盛益, 龐觀松等. 微博用戶關(guān)系挖掘研究綜述. 情報(bào)雜志, 2012, 31(12): 91~97 Wang L X, Jiang S Y, Pang G S,et al. A literature review of user relationship mining on microblog. Journal of Interlligence, 2012, 31(12): 91~97
[20] Scott J. 社會網(wǎng)絡(luò)分析法(第二版). 劉軍(譯). 重慶: 重慶大學(xué)出版社, 2007 Scott J. Social Network Analysis (Second Edition). Translated by Liu J. Chongqing: Chongqing University Press, 2007
[21] Wouter D N, Andrej M, Vladimir B. Exploratory Social Network Analysis with Pajek (Second Edition). Cambridge: Cambridge University Press, 2011
高輝,男,博士,中國國防科技信息中心工程師,主要研究方向?yàn)榛ヂ?lián)網(wǎng)信息獲取、信息抽取、知識庫構(gòu)建和信息可視化。
陳鈞,男,中國國防科技信息中心高級工程師、研究室主任,中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會委員,中國科學(xué)技術(shù)情報(bào)學(xué)會信息技術(shù)專業(yè)委員會委員,主要研究方向?yàn)榭萍夹畔⒋髷?shù)據(jù)、網(wǎng)絡(luò)工程等。
牛海波,男,中國國防科技信息中心工程師,主要研究方向?yàn)榇笠?guī)?;ヂ?lián)網(wǎng)信息資源獲取、信息重構(gòu)與融合、知識庫構(gòu)建等。
羅威,男,中國國防科技信息中心副研究員,主要研究方向?yàn)樾畔⒊槿?、大?guī)模文本挖掘。
Gao H, Chen J, Niu H B,et al. Internet information sources automatic discovery technology for scientific and technological intelligence. Big Data Research, 2015040
Internet Information Sources Automatic Discovery Technology for Scientific and Technological Intelligence
Gao Hui, Chen Jun, Niu Haibo, Luo Wei
China Defense Science & Technology Information Center, Beijing 100142, China
It is a basic work to discover high quality internet information sources automatically for scientific and technological intelligence. The technology of website/webpage information sources discovery was presented based on the co-citation relationship, and the technology of Twitter information sources discovery was presented based on the following relationship and content analysis. Then, the application forms of automatic discovery of information sources were discussed. Three kinds of application scenarios were presented based on the analysis of the requirements of scientific and technological intelligence.
scientific and technological intelligence, internet information source, Twitter, co-citation, social network analysis
10.11959/j.issn.2096-0271.2015040
2015-10-24
國家社會科學(xué)基金資助項(xiàng)目(No.4CTQ012)
Foundation Item:The National Social Science Foundation of China (No.4CTQ012)
高輝,陳鈞,牛海波等.面向科技情報(bào)的互聯(lián)網(wǎng)信息源自動(dòng)發(fā)現(xiàn)技術(shù). 大數(shù)據(jù), 2015040