李欣苗 ,李 靖,張朋柱
(1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433;2.上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200052)
當(dāng)今時(shí)代創(chuàng)新是企業(yè)獲得和保持核心競爭力的首要因素。隨著經(jīng)濟(jì)全球化和網(wǎng)絡(luò)等信息技術(shù)的廣泛應(yīng)用,全球創(chuàng)新方向正在向開放式創(chuàng)新轉(zhuǎn)變[1]??珙I(lǐng)域、跨組織、跨地域的開放式創(chuàng)新團(tuán)隊(duì)是開放式創(chuàng)新的主要載體[2]。開放式創(chuàng)新環(huán)境中,創(chuàng)新團(tuán)隊(duì)成員分布在不同的地域和組織中,團(tuán)隊(duì)成員通過網(wǎng)絡(luò)進(jìn)行交互和協(xié)作。在這種情況下,基于網(wǎng)絡(luò)的電子研討成為開放式創(chuàng)新團(tuán)隊(duì)最基本、最重要的創(chuàng)新活動(dòng)[3]。
根據(jù)本文對(duì)上海貝嶺矽創(chuàng)微電子有限公司、上海華為技術(shù)有限公司、上海汽車集團(tuán)股份有限公司等10余家科研院所與企業(yè)創(chuàng)新團(tuán)隊(duì)的實(shí)地調(diào)研表明,開放式團(tuán)隊(duì)創(chuàng)新過程會(huì)產(chǎn)生海量的電子研討信息,導(dǎo)致“信息過載”[4];而且,在開放式創(chuàng)新環(huán)境中,團(tuán)隊(duì)成員分布在不同的組織、地域,甚至分布在不同的時(shí)區(qū)而導(dǎo)致工作時(shí)差,這使得開放式創(chuàng)新環(huán)境中的團(tuán)隊(duì)成員更加難以及時(shí)準(zhǔn)確地了解團(tuán)隊(duì)創(chuàng)新進(jìn)程,更加難以清晰有效地掌握團(tuán)隊(duì)創(chuàng)新的最新進(jìn)展。因此,及時(shí)準(zhǔn)確地挖掘并識(shí)別海量電子研討信息的研討主題,并通過可視化方法形象地展示給創(chuàng)新團(tuán)隊(duì)成員,這不僅有利于團(tuán)隊(duì)成員及時(shí)了解創(chuàng)新進(jìn)程,掌握創(chuàng)新成果,激發(fā)創(chuàng)新思維;而且能夠基于不同的研討主題為參與研討的相關(guān)成員推薦符合其需求的個(gè)性化知識(shí)和相應(yīng)的領(lǐng)域?qū)<?,從而提高開放式團(tuán)隊(duì)創(chuàng)新的效率和質(zhì)量。
目前主題挖掘研究主要運(yùn)用文本聚類方法。文本聚類方法主要包括基于向量空間模型(Vector Space Model,VSM)的文檔建模方法和基于語義的文檔建模方法[5]。但是,上述方法應(yīng)用在開放式團(tuán)隊(duì)創(chuàng)新研討主題挖掘時(shí)卻存在如下問題:
(1)上述方法均是基于詞頻的文檔建模方法,在長文本中詞語出現(xiàn)的頻率是文檔建模的重要信息,但是在只有十幾到幾十個(gè)詞語的短文本中,同一詞語很少會(huì)多次出現(xiàn),這對(duì)于短文本就無法提取到足夠的詞頻特征。而開放式團(tuán)隊(duì)創(chuàng)新的研討信息大多是交互式的短文本,而非長文本,這使得上述文檔建模方法難以在開放式團(tuán)隊(duì)創(chuàng)新研討主題挖掘中表現(xiàn)出良好的性能[6]。
(2)傳統(tǒng)文本聚類方法沒有考慮開放式團(tuán)隊(duì)創(chuàng)新研討過程自身的特點(diǎn)。開放式團(tuán)隊(duì)創(chuàng)新研討過程是圍繞特定研究問題,針對(duì)某條發(fā)言,團(tuán)隊(duì)成員之間進(jìn)行的交互式的討論。根據(jù)這一特點(diǎn),開放式團(tuán)隊(duì)創(chuàng)新研討信息構(gòu)成研討樹狀結(jié)構(gòu),在研討樹的“同一支”上常常討論相似的概念,如果沒有考慮這一特征則會(huì)導(dǎo)致開放式團(tuán)隊(duì)創(chuàng)新研討主題聚類結(jié)果的不準(zhǔn)確。有的學(xué)者雖然在研討主題聚類中考慮到了研討樹結(jié)構(gòu)[7],但是由于他們使用基于VSM的文檔建模方法,沒有考慮研討文本的語義特征,并且過多依賴詞頻特征,使得研討主題聚類效果并不理想。
在研討主題聚類分析方面,目前使用較多的聚類算法是層次聚類法[8]。該方法雖然簡單,但可伸縮性較差,并且經(jīng)常會(huì)遇到合并點(diǎn)或分裂點(diǎn)的選擇困難,因此導(dǎo)致低質(zhì)量的聚類結(jié)果[9]。由于本文所研究的開放式團(tuán)隊(duì)創(chuàng)新研討文本多為短文本,故本文運(yùn)用AntSA算法對(duì)開放式創(chuàng)新環(huán)境中的研討文本進(jìn)行聚類。區(qū)別于傳統(tǒng)聚類算法,AntSA算法[10]的輸入只需要知道樣本間的相似度,并不需要知道樣本在多維空間中的具體位置[11-12];而且,AntSA算法在處理短文本時(shí)表現(xiàn)出了很好的實(shí)驗(yàn)效果[13],這正好適用于本文所運(yùn)用的文檔建模方法。
綜上所述,本文針對(duì)當(dāng)前傳統(tǒng)主題挖掘研究中存在的上述問題,研究并提出了開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法,該方法首先運(yùn)用基于本體的方法,構(gòu)建開放式團(tuán)隊(duì)創(chuàng)新研討信息本體,基于開放式團(tuán)隊(duì)創(chuàng)新研討信息本體計(jì)算研討文本的語義相似度;同時(shí)充分考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu)特征,構(gòu)建研討樹不同節(jié)點(diǎn)研討文本的相似度矩陣;進(jìn)而,運(yùn)用AntSA算法對(duì)研討文本進(jìn)行聚類分析;并對(duì)聚類結(jié)果的主題標(biāo)簽進(jìn)行定量識(shí)別,從而識(shí)別并構(gòu)建出研討主題的層次結(jié)構(gòu);最后,本文根據(jù)所提出的方法設(shè)計(jì)和開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng),以直觀顯示研討主題識(shí)別的結(jié)果,從而有效支持開放式團(tuán)隊(duì)創(chuàng)新。
本研究提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法如圖1所示。
圖1 開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法
該方法分為研討文檔建模、聚類分析、研討主題識(shí)別三部分。
(1)在研討文檔建模中,運(yùn)用基于本體的方法,構(gòu)建研討信息本體。引入《知網(wǎng)》(How Net)的本體結(jié)構(gòu),不考慮詞頻信息,將研討樹中的研討信息用名詞列表的形式表示;然后,基于本體進(jìn)行語義相似度計(jì)算,得到詞語之間的語義相似度矩陣;再考慮研討信息的樹狀結(jié)構(gòu)特征,基于研討樹結(jié)構(gòu)分析和計(jì)算研討樹節(jié)點(diǎn)文本的語義相似度,得到研討樹節(jié)點(diǎn)文本的語義相似度矩陣。該研討樹節(jié)點(diǎn)文本的語義相似度矩陣即為第2步聚類分析的輸入。
(2)針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討的短文本特征,運(yùn)用AntSA算法對(duì)研討文本進(jìn)行聚類分析。運(yùn)用Ant Tree算法分析開放式團(tuán)隊(duì)創(chuàng)新研討樹節(jié)點(diǎn)文本的語義相似度矩陣,得到初始聚類簇;引入內(nèi)部聚類有效性評(píng)價(jià)的輪廓系數(shù)對(duì)初始聚類簇中的對(duì)象排序,并將排序后的結(jié)果輸入AntSA算法,經(jīng)過AntSA算法最終輸出研討文本的聚類結(jié)構(gòu)。
(3)本研究對(duì)基于AntSA的聚類結(jié)果中的每個(gè)節(jié)點(diǎn),通過計(jì)算節(jié)點(diǎn)中每個(gè)名詞的研討主題標(biāo)簽貢獻(xiàn)率,識(shí)別每個(gè)類別的研討主題。最后,根據(jù)上述開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法,本文設(shè)計(jì)和開發(fā)了研討主題可視化系統(tǒng),對(duì)研討主題聚類結(jié)果進(jìn)行可視化輸出。
1.1.1 分詞停詞處理 本文采用基于字符串匹配的分詞法——正向最大匹配法對(duì)研討信息進(jìn)行分詞處理。根據(jù)統(tǒng)計(jì),漢語中大約有117 097個(gè)名詞,約11 488個(gè)動(dòng)詞,而其中有4 085個(gè)動(dòng)詞具有名詞詞性,所以名詞可以較好的表達(dá)一個(gè)漢語文本的主題內(nèi)容。因此,本文采用How Net中長度大于1的名詞來構(gòu)建決策研討主題識(shí)別的分詞詞庫(長度等于1的名詞為1個(gè)字)。經(jīng)過分詞處理后,1條研討文本對(duì)應(yīng)于1個(gè)或多個(gè)名詞,研討文本被表示為名詞分詞集合的形式。
本研究經(jīng)過反復(fù)實(shí)驗(yàn),發(fā)現(xiàn)開放式團(tuán)隊(duì)創(chuàng)新研討文本中與研討總目標(biāo)有關(guān)的名詞會(huì)成為研討主題識(shí)別中的“噪音”,影響研討主題聚類的效果,應(yīng)該剔除。本文將研討總目標(biāo)文本中的名詞提取出來構(gòu)成停詞表。經(jīng)過停詞處理后的非空名詞集合即為有效詞集合。
1.1.2 基于How Net本體的語義分析 在研討文檔建模中,針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討的短文本特征,運(yùn)用基于本體的方法,構(gòu)建研討信息本體,并據(jù)此計(jì)算研討信息的語義相似度。引入《知網(wǎng)》(How Net)構(gòu)建研討信息本體。How Net與大部分語義詞典類似,是基于樹狀層次結(jié)構(gòu)的;不同的是,How Net是以義原作為節(jié)點(diǎn),然后再用義原通過知網(wǎng)知識(shí)系統(tǒng)描述語言(Kownledge Database Makeup Language,KDML)對(duì)詞語進(jìn)行描述。因此,基于How Net的語義相似度的度量方法首先需要計(jì)算義原的相似度,然后才能計(jì)算出詞語語義的相似度,進(jìn)而計(jì)算出研討文本間的語義相似度。
在How Net中,義原之間存在多種關(guān)系,由于本文所提出的模型運(yùn)用名詞進(jìn)行文檔建模,對(duì)于名詞來說,義原之間的上下位關(guān)系非常重要,因此,本研究重點(diǎn)考慮義原的上下位關(guān)系。運(yùn)用下式計(jì)算義原相似度[14]
式中:P1和P2表示2個(gè)義原;d為P1和P2在義原層次體系中的路徑長度;α是一個(gè)可調(diào)節(jié)的參數(shù)。
運(yùn)用下式計(jì)算基于How Net的詞語語義相似度[14]
式中,βi為可調(diào)節(jié)的參數(shù),且有
分別為第一基本義原描述、其他基本義原描述、關(guān)系義原描述,以及關(guān)系符號(hào)描述。它們對(duì)于總體相似度所起到的作用依次遞減。
經(jīng)過詞語語義相似度計(jì)算之后,可得到不同詞語間的相似度集合,以語義相似度矩陣的形式表示。
1.1.3 基于研討樹結(jié)構(gòu)的研討樹節(jié)點(diǎn)文本語義相似度計(jì)算 開放式團(tuán)隊(duì)創(chuàng)新研討信息構(gòu)成研討樹狀結(jié)構(gòu),研討樹上的研討文本之間為父子關(guān)系。傳統(tǒng)文本主題挖掘沒有考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu)特征,導(dǎo)致開放式團(tuán)隊(duì)創(chuàng)新研討主題聚類結(jié)果的不準(zhǔn)確。例如,對(duì)于討論同一主題中為“父-子”關(guān)系的前后2個(gè)研討節(jié)點(diǎn),后者是前者的補(bǔ)充說明,并且后者會(huì)省略在前者研討文本中出現(xiàn)過的一些關(guān)鍵詞,倘若忽略這些關(guān)鍵詞,很可能會(huì)低估這2個(gè)研討節(jié)點(diǎn)的相似度。有鑒于此,本文在計(jì)算“父-子”關(guān)系的兩研討節(jié)點(diǎn)間語義距離時(shí),考慮將父節(jié)點(diǎn)的名詞集合添加到子節(jié)點(diǎn)的名詞集合中,然后再計(jì)算兩者間相似度。即
式中:Di={Wi1,Wi2,…,Wim}與Dj={Wj1,Wj2,…,Wjn}表示2個(gè)研討文本;sim(Wip,Wjq)為詞語Wip與Wjq基于How Net的詞語語義相似度。當(dāng)m=0或n=0時(shí),將2個(gè)文本的相似度定義為0。這種方法通過計(jì)算所有特征值的兩兩相似度,保證所有詞語都經(jīng)過了計(jì)算,從而每個(gè)名詞都能影響研討文本間的相似度值。運(yùn)用此方法計(jì)算每個(gè)文本的相似度,進(jìn)而可以形成一個(gè)m×m的對(duì)稱矩陣,其中m為文本數(shù)量。由此構(gòu)建了研討樹節(jié)點(diǎn)文本的語義相似度矩陣,此矩陣即為下面將要提出的AntSA聚類算法的輸入。
在基于AntSA的研討主題聚類分析過程中,首先將研討文檔建模階段得到的研討樹節(jié)點(diǎn)文本語義相似度矩陣進(jìn)行Ant Tree分析,得到一個(gè)初始的聚類簇;然后引入內(nèi)部聚類有效性評(píng)價(jià)方法中的輪廓系數(shù)對(duì)初始聚類簇中的各個(gè)對(duì)象進(jìn)行排序,并用排序后的結(jié)果作為AntSA算法的輸入;經(jīng)過AntSA算法最終輸出研討文本的聚類結(jié)構(gòu)。
1.2.1 Ant Tree算法 Ant Tree算法[15]是根據(jù)生物學(xué)中螞蟻的自我聚集行為而衍化的一種新的數(shù)據(jù)聚類算法,它通過構(gòu)建樹結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行劃分。在該算法中,每只螞蟻都對(duì)應(yīng)于數(shù)據(jù)集中的1個(gè)數(shù)據(jù)并表示樹的1個(gè)節(jié)點(diǎn)。初始時(shí)螞蟻都被放在一個(gè)稱為支點(diǎn)的固定點(diǎn)上,該點(diǎn)相當(dāng)于樹根。螞蟻在這棵樹上尋找適合自己的位置。在Ant Tree算法中,sim(i,j)表示2個(gè)數(shù)據(jù)(di,dj)間的相似度,它的取值在0~1之間。0表示完全不同,1表示完全相同。移動(dòng)的螞蟻通過比較它與鄰域中已經(jīng)固定在樹結(jié)構(gòu)上的螞蟻的相似度來選擇繼續(xù)移動(dòng)或固定在某個(gè)位置上。設(shè)初始樹根節(jié)點(diǎn)為a0,螞蟻逐步連接到這個(gè)初始節(jié)點(diǎn)上或連接到固定在該節(jié)點(diǎn)的螞蟻上,直到所有的螞蟻均連接到樹上。對(duì)每只螞蟻都定義了一個(gè)相似度閾值Tsim(ai)和相異度閾值Tdissim(ai),用來表示ai對(duì)同類螞蟻的接受程度。Ant Tree算法的主要過程如下:
假設(shè)ζ是所有等待連接的螞蟻的一個(gè)隊(duì)列(或許已經(jīng)過排序)
initialize將所有螞蟻放置在支點(diǎn)a0上,并且對(duì)于每只螞蟻,Tsim(ai)←1和Tdissim(ai)←0
repeat
(1)從ζ中選擇1只螞蟻ai
(2)如果ai在支點(diǎn)a0上
then support case
else ant case
until所有的螞蟻都連接到樹上
在Ant Tree算法中,Support Case是指ai在a0上,設(shè)a+表示固定在a0上與ai最相似的螞蟻,如果ai與a+足夠相似,即sim(ai,a+)≥Tsim(ai),則ai向a+移動(dòng);如果ai與a+足夠相異,即sim(ai,a+)<Tdissim(ai),則ai就直接連接到a0,表示新創(chuàng)建1棵子樹;否則,用
來更新閾值。Ant Case是指ai在螞蟻apos上移動(dòng),a+表示固定在apos上與ai最相似的螞蟻。如果ai與apos足夠相似,并且與其子女足夠相異,即sim(ai,apos)≥Tsim(ai)且sim(ai,a+)<Tdissim(ai),則ai就連接在apos上;否則,螞蟻ai隨機(jī)向apos的鄰居移動(dòng),并更新閾值,繼續(xù)尋找合適的位置。
1.2.2 AntSA算法 由上述Ant Tree算法不難看出,某些步驟的進(jìn)行會(huì)對(duì)整個(gè)聚類效果產(chǎn)生很大影響。例如在初始化時(shí),ζ隊(duì)列的順序會(huì)直接決定最初連接到支點(diǎn)a0上的螞蟻是哪些,其中每只螞蟻都表示不同的簇;在Support Case中,任意1只螞蟻同已經(jīng)固定在a0上螞蟻的比較方法,同樣會(huì)影響到最初連接到支點(diǎn)a0上的螞蟻是哪些,從而對(duì)整個(gè)聚類造成影響。針對(duì)上述問題,AntSA算法對(duì)Ant Tree算法進(jìn)行了改進(jìn),基于Ant Tree改進(jìn)的AntSA算法在短文本聚類中獲得了很好的效果。AntSA算法在2個(gè)地方改進(jìn)了Ant Tree算法[12]。
(1)初始化。引入內(nèi)部聚類有效性評(píng)價(jià)(Internal Clustering Validity Measures,ICVMs)方法中的輪廓系數(shù)(Silhouette Coefficient,SC)[16-17]對(duì)ζ隊(duì)列排序,具體過程如下:
①任選一種聚類算法獲得一組初始簇;
②構(gòu)建出k行(其中每一行表示上一步中的一個(gè)簇),計(jì)算每行中各只螞蟻的SC值,并使用降序進(jìn)行排列;
③用每行的第1只螞蟻去連接支點(diǎn);
④循環(huán)選取每個(gè)非空行的第一元素,直到所有行都為空。
(2)Support Case。引入簇引力代替Ant Tree中的sim(ai,a+)。
得到研討文本的樹狀聚類結(jié)構(gòu)之后,需要提取主題標(biāo)簽,識(shí)別研討主題。類比SC公式,對(duì)于樹狀聚類結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)中每個(gè)名詞的標(biāo)簽貢獻(xiàn)率的公式為
式中:c(i)為詞i與它所在節(jié)點(diǎn)的最相似兄弟節(jié)點(diǎn)的名詞列表中所有名詞的平均相似度;d(i)為詞i與它所在節(jié)點(diǎn)的父節(jié)點(diǎn)的名詞列表中所有名詞的平均相似度(本研究定義根節(jié)點(diǎn)的名詞列表與第1個(gè)連接到a0的非根節(jié)點(diǎn)所對(duì)應(yīng)的名詞列表相同)。
由式(4)可以看出,d(i)的值越大,同時(shí)c(i)的值越小,詞i的標(biāo)簽貢獻(xiàn)率就越大。本研究選擇標(biāo)簽貢獻(xiàn)率最大的詞作為該節(jié)點(diǎn)的標(biāo)簽,并將相連節(jié)點(diǎn)的相同標(biāo)簽合并。當(dāng)給所有分支節(jié)點(diǎn)貼上標(biāo)簽后,即可以進(jìn)行可視化識(shí)別,并輸出可視化圖。
本文對(duì)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法進(jìn)行了實(shí)驗(yàn)研究,該實(shí)驗(yàn)基于“開放式團(tuán)隊(duì)研討平臺(tái)”[18]。本文選取研討目標(biāo)“同步研討A:班級(jí)應(yīng)該通過哪些活動(dòng),以達(dá)到溝通有無、互相幫助、加強(qiáng)班級(jí)凝聚力的作用”進(jìn)行實(shí)驗(yàn)。本研究隨機(jī)選取該團(tuán)隊(duì)研討的120條發(fā)言作為實(shí)驗(yàn)文本進(jìn)行分析。實(shí)驗(yàn)中,首先請2名具有群體研討經(jīng)驗(yàn)的專家(這2名專家不是本研討團(tuán)隊(duì)成員)對(duì)本實(shí)驗(yàn)中的研討文本進(jìn)行人工聚類,得到人工聚類結(jié)果。
在該實(shí)驗(yàn)的研討文檔建模階段,本文采用How Net中長度大于1的名詞來構(gòu)建研討主題識(shí)別的分詞詞庫。經(jīng)過反復(fù)實(shí)驗(yàn),發(fā)現(xiàn)研討信息中與研討目標(biāo)有關(guān)的名詞會(huì)成為研討主題識(shí)別中的“噪音”,影響研討主題聚類的效果,因此,本實(shí)驗(yàn)將研討目標(biāo)文本中的名詞提取出來構(gòu)成停詞表。經(jīng)過停詞處理之后的非空名詞集合即為有效詞集合。圖2為本實(shí)驗(yàn)研究的研討樹結(jié)構(gòu)可視化,研討樹上的每個(gè)節(jié)點(diǎn)都表示1條研討文本。研討文本間的父子關(guān)系通過人工方法確定,即團(tuán)隊(duì)成員在發(fā)布電子研討文本前,先選定發(fā)言的對(duì)象。圖2左部為本實(shí)驗(yàn)的研討樹結(jié)構(gòu),右部為研討樹中被選中的某條研討文本經(jīng)過分詞和停詞處理后,該研討文本被表示為名詞分詞集合形式。例如,從本實(shí)驗(yàn)的研討樹結(jié)構(gòu)中點(diǎn)擊選取研討文本“較為贊同。舉行一些球類比賽的確是一個(gè)增加班級(jí)凝聚力的好方法?!痹撗杏懳谋痉衷~后所形成的名詞列表為“球類 比賽 班級(jí) 凝聚力方法”;其中根據(jù)本實(shí)驗(yàn)的研討目標(biāo),其停詞列表為“班級(jí) 活動(dòng) 凝聚力 作用”;經(jīng)過停詞處理后,該條研討文本被表示為“球類 比賽 方法”。
圖2 實(shí)驗(yàn)的研討樹結(jié)構(gòu)可視化及分詞停詞處理
本研究使用JAVA語言編程實(shí)現(xiàn)AntSA算法,對(duì)研討文本進(jìn)行主題聚類。本研究使用聚類錯(cuò)誤率(Clustering Error,CE)、聚類查全率(Clustering Recall,CR)和聚類查準(zhǔn)率(Clustering Precision,CP)3個(gè)指標(biāo)對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法的效果進(jìn)行評(píng)價(jià),考察的基本對(duì)象為“文檔對(duì)”。各指標(biāo)計(jì)算公式如下[7]:
式中:CE為聚類錯(cuò)誤率,表示錯(cuò)誤關(guān)聯(lián)與遺漏關(guān)聯(lián)的和與文檔集合中所有可能的文檔對(duì)的數(shù)量的比值;Ei為錯(cuò)誤關(guān)聯(lián),指在聚類結(jié)果中出現(xiàn)的,而在人工聚類中沒有出現(xiàn)的文檔對(duì)的數(shù)量;Em為遺漏關(guān)聯(lián),指在人工聚類中出現(xiàn)的,而在聚類結(jié)果中沒有出現(xiàn)的文檔對(duì)的數(shù)量;Pi為文檔集合中所有可能的文檔對(duì)的數(shù)量,設(shè)文檔總數(shù)為N,則
式中:CR為聚類查全率,表示正確關(guān)聯(lián)數(shù)與人工聚類中文檔對(duì)的數(shù)量的比值;Tn為聚類結(jié)果中所有可能的文檔對(duì)的數(shù)量;Tm為人工聚類中所有可能的文檔對(duì)數(shù)量;CP為聚類查準(zhǔn)率,表示正確關(guān)聯(lián)數(shù)與聚類結(jié)果中所有可能的文檔對(duì)的數(shù)量的比值。
實(shí)驗(yàn)結(jié)果如表1所示,聚類錯(cuò)誤率為0.05,聚類查全率為0.77,聚類查準(zhǔn)率為0.81。該實(shí)驗(yàn)結(jié)果表明,本研究所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法可以輔助人對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題的歸納和識(shí)別,提高了開放式環(huán)境中團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別的效率,促進(jìn)了開放式團(tuán)隊(duì)創(chuàng)新。
表1 開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法實(shí)驗(yàn)結(jié)果
圖3 研討實(shí)驗(yàn)的聚類可視化效果圖
本文根據(jù)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法設(shè)計(jì)和開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng),可以直觀顯示研討主題識(shí)別的結(jié)果,可視化結(jié)果如圖3所示。圖3顯示了研討實(shí)驗(yàn)中主題標(biāo)簽的樹狀層次結(jié)構(gòu)。圖3的中心圈標(biāo)識(shí)了該研討的目標(biāo),外層環(huán)表示研討主題的層次關(guān)系,例如“旅游”、“景觀”、“野餐”、“登山”、“市區(qū)”屬于研討主題“郊游”的分支主題;“景點(diǎn)”、“費(fèi)用”是研討主題“旅游”的分支主題。通過主題的層次關(guān)系可以看出各主題間的語義關(guān)系和結(jié)構(gòu)關(guān)系,提高了研討效率,有效支持了開放式團(tuán)隊(duì)創(chuàng)新。
本文研究并提出了開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法,在研討文檔建模部分該方法引入How Net本體構(gòu)建研討信息本體,并且充分考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu),從而基于本體和研討樹結(jié)構(gòu)對(duì)研討信息進(jìn)行語義分析;在研討主題聚類部分,該方法針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討信息短文本的特征,使用AntSA算法進(jìn)行聚類分析;并且,對(duì)聚類結(jié)果中的每個(gè)節(jié)點(diǎn),通過計(jì)算名詞的研討主題標(biāo)簽貢獻(xiàn)率,識(shí)別每個(gè)類別的研討主題;最后,本文根據(jù)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法,設(shè)計(jì)并開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng),直觀顯示識(shí)別出的各研討主題間的語義關(guān)系和結(jié)構(gòu)關(guān)系。實(shí)驗(yàn)結(jié)果表明,該方法可以輔助人對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題的識(shí)別,提高了開放式團(tuán)隊(duì)創(chuàng)新過程信息集成的效率。
在今后的研究中,準(zhǔn)備將研究內(nèi)容擴(kuò)展到基于不同社交媒介的群體討論(如網(wǎng)絡(luò)BBS、微博、微信等)。在研究方法上,將運(yùn)用更加先進(jìn)的主題提取方法,如Topic model算法。本研究實(shí)驗(yàn)中研討樣本數(shù)量較少,在未來研究中將針對(duì)互聯(lián)網(wǎng)上真實(shí)的大規(guī)模研討語料進(jìn)行主題提取,以檢驗(yàn)算法的有效性和穩(wěn)健性。