開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法及其可視化

2015-08-17 07:53李欣苗張朋柱

系統(tǒng)管理學(xué)報(bào) 2015年1期

李欣苗，李靖，張朋柱

（1.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院，上海 200433；2.上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院，上海 200052）

當(dāng)今時(shí)代創(chuàng)新是企業(yè)獲得和保持核心競爭力的首要因素。隨著經(jīng)濟(jì)全球化和網(wǎng)絡(luò)等信息技術(shù)的廣泛應(yīng)用，全球創(chuàng)新方向正在向開放式創(chuàng)新轉(zhuǎn)變[1]?？珙I(lǐng)域、跨組織、跨地域的開放式創(chuàng)新團(tuán)隊(duì)是開放式創(chuàng)新的主要載體[2]。開放式創(chuàng)新環(huán)境中，創(chuàng)新團(tuán)隊(duì)成員分布在不同的地域和組織中，團(tuán)隊(duì)成員通過網(wǎng)絡(luò)進(jìn)行交互和協(xié)作。在這種情況下，基于網(wǎng)絡(luò)的電子研討成為開放式創(chuàng)新團(tuán)隊(duì)最基本、最重要的創(chuàng)新活動(dòng)[3]。

根據(jù)本文對(duì)上海貝嶺矽創(chuàng)微電子有限公司、上海華為技術(shù)有限公司、上海汽車集團(tuán)股份有限公司等10余家科研院所與企業(yè)創(chuàng)新團(tuán)隊(duì)的實(shí)地調(diào)研表明，開放式團(tuán)隊(duì)創(chuàng)新過程會(huì)產(chǎn)生海量的電子研討信息，導(dǎo)致“信息過載”[4]；而且，在開放式創(chuàng)新環(huán)境中，團(tuán)隊(duì)成員分布在不同的組織、地域，甚至分布在不同的時(shí)區(qū)而導(dǎo)致工作時(shí)差，這使得開放式創(chuàng)新環(huán)境中的團(tuán)隊(duì)成員更加難以及時(shí)準(zhǔn)確地了解團(tuán)隊(duì)創(chuàng)新進(jìn)程，更加難以清晰有效地掌握團(tuán)隊(duì)創(chuàng)新的最新進(jìn)展。因此，及時(shí)準(zhǔn)確地挖掘并識(shí)別海量電子研討信息的研討主題，并通過可視化方法形象地展示給創(chuàng)新團(tuán)隊(duì)成員，這不僅有利于團(tuán)隊(duì)成員及時(shí)了解創(chuàng)新進(jìn)程，掌握創(chuàng)新成果，激發(fā)創(chuàng)新思維；而且能夠基于不同的研討主題為參與研討的相關(guān)成員推薦符合其需求的個(gè)性化知識(shí)和相應(yīng)的領(lǐng)域?qū)＜?，從而提高開放式團(tuán)隊(duì)創(chuàng)新的效率和質(zhì)量。

目前主題挖掘研究主要運(yùn)用文本聚類方法。文本聚類方法主要包括基于向量空間模型（Vector Space Model，VSM）的文檔建模方法和基于語義的文檔建模方法[5]。但是，上述方法應(yīng)用在開放式團(tuán)隊(duì)創(chuàng)新研討主題挖掘時(shí)卻存在如下問題：

（1）上述方法均是基于詞頻的文檔建模方法，在長文本中詞語出現(xiàn)的頻率是文檔建模的重要信息，但是在只有十幾到幾十個(gè)詞語的短文本中，同一詞語很少會(huì)多次出現(xiàn)，這對(duì)于短文本就無法提取到足夠的詞頻特征。而開放式團(tuán)隊(duì)創(chuàng)新的研討信息大多是交互式的短文本，而非長文本，這使得上述文檔建模方法難以在開放式團(tuán)隊(duì)創(chuàng)新研討主題挖掘中表現(xiàn)出良好的性能[6]。

（2）傳統(tǒng)文本聚類方法沒有考慮開放式團(tuán)隊(duì)創(chuàng)新研討過程自身的特點(diǎn)。開放式團(tuán)隊(duì)創(chuàng)新研討過程是圍繞特定研究問題，針對(duì)某條發(fā)言，團(tuán)隊(duì)成員之間進(jìn)行的交互式的討論。根據(jù)這一特點(diǎn)，開放式團(tuán)隊(duì)創(chuàng)新研討信息構(gòu)成研討樹狀結(jié)構(gòu)，在研討樹的“同一支”上常常討論相似的概念，如果沒有考慮這一特征則會(huì)導(dǎo)致開放式團(tuán)隊(duì)創(chuàng)新研討主題聚類結(jié)果的不準(zhǔn)確。有的學(xué)者雖然在研討主題聚類中考慮到了研討樹結(jié)構(gòu)[7]，但是由于他們使用基于VSM的文檔建模方法，沒有考慮研討文本的語義特征，并且過多依賴詞頻特征，使得研討主題聚類效果并不理想。

在研討主題聚類分析方面，目前使用較多的聚類算法是層次聚類法[8]。該方法雖然簡單，但可伸縮性較差，并且經(jīng)常會(huì)遇到合并點(diǎn)或分裂點(diǎn)的選擇困難，因此導(dǎo)致低質(zhì)量的聚類結(jié)果[9]。由于本文所研究的開放式團(tuán)隊(duì)創(chuàng)新研討文本多為短文本，故本文運(yùn)用AntSA算法對(duì)開放式創(chuàng)新環(huán)境中的研討文本進(jìn)行聚類。區(qū)別于傳統(tǒng)聚類算法，AntSA算法[10]的輸入只需要知道樣本間的相似度，并不需要知道樣本在多維空間中的具體位置[11-12]；而且，AntSA算法在處理短文本時(shí)表現(xiàn)出了很好的實(shí)驗(yàn)效果[13]，這正好適用于本文所運(yùn)用的文檔建模方法。

綜上所述，本文針對(duì)當(dāng)前傳統(tǒng)主題挖掘研究中存在的上述問題，研究并提出了開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法，該方法首先運(yùn)用基于本體的方法，構(gòu)建開放式團(tuán)隊(duì)創(chuàng)新研討信息本體，基于開放式團(tuán)隊(duì)創(chuàng)新研討信息本體計(jì)算研討文本的語義相似度；同時(shí)充分考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu)特征，構(gòu)建研討樹不同節(jié)點(diǎn)研討文本的相似度矩陣；進(jìn)而，運(yùn)用AntSA算法對(duì)研討文本進(jìn)行聚類分析；并對(duì)聚類結(jié)果的主題標(biāo)簽進(jìn)行定量識(shí)別，從而識(shí)別并構(gòu)建出研討主題的層次結(jié)構(gòu)；最后，本文根據(jù)所提出的方法設(shè)計(jì)和開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng)，以直觀顯示研討主題識(shí)別的結(jié)果，從而有效支持開放式團(tuán)隊(duì)創(chuàng)新。

1 開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法

本研究提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法如圖1所示。

圖1 開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法

該方法分為研討文檔建模、聚類分析、研討主題識(shí)別三部分。

（1）在研討文檔建模中，運(yùn)用基于本體的方法，構(gòu)建研討信息本體。引入《知網(wǎng)》（How Net）的本體結(jié)構(gòu)，不考慮詞頻信息，將研討樹中的研討信息用名詞列表的形式表示；然后，基于本體進(jìn)行語義相似度計(jì)算，得到詞語之間的語義相似度矩陣；再考慮研討信息的樹狀結(jié)構(gòu)特征，基于研討樹結(jié)構(gòu)分析和計(jì)算研討樹節(jié)點(diǎn)文本的語義相似度，得到研討樹節(jié)點(diǎn)文本的語義相似度矩陣。該研討樹節(jié)點(diǎn)文本的語義相似度矩陣即為第2步聚類分析的輸入。

（2）針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討的短文本特征，運(yùn)用AntSA算法對(duì)研討文本進(jìn)行聚類分析。運(yùn)用Ant Tree算法分析開放式團(tuán)隊(duì)創(chuàng)新研討樹節(jié)點(diǎn)文本的語義相似度矩陣，得到初始聚類簇；引入內(nèi)部聚類有效性評(píng)價(jià)的輪廓系數(shù)對(duì)初始聚類簇中的對(duì)象排序，并將排序后的結(jié)果輸入AntSA算法，經(jīng)過AntSA算法最終輸出研討文本的聚類結(jié)構(gòu)。

（3）本研究對(duì)基于AntSA的聚類結(jié)果中的每個(gè)節(jié)點(diǎn)，通過計(jì)算節(jié)點(diǎn)中每個(gè)名詞的研討主題標(biāo)簽貢獻(xiàn)率，識(shí)別每個(gè)類別的研討主題。最后，根據(jù)上述開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法，本文設(shè)計(jì)和開發(fā)了研討主題可視化系統(tǒng)，對(duì)研討主題聚類結(jié)果進(jìn)行可視化輸出。

1.1 文檔建模

1.1.1 分詞停詞處理本文采用基于字符串匹配的分詞法——正向最大匹配法對(duì)研討信息進(jìn)行分詞處理。根據(jù)統(tǒng)計(jì)，漢語中大約有117 097個(gè)名詞，約11 488個(gè)動(dòng)詞，而其中有4 085個(gè)動(dòng)詞具有名詞詞性，所以名詞可以較好的表達(dá)一個(gè)漢語文本的主題內(nèi)容。因此，本文采用How Net中長度大于1的名詞來構(gòu)建決策研討主題識(shí)別的分詞詞庫（長度等于1的名詞為1個(gè)字）。經(jīng)過分詞處理后，1條研討文本對(duì)應(yīng)于1個(gè)或多個(gè)名詞，研討文本被表示為名詞分詞集合的形式。

本研究經(jīng)過反復(fù)實(shí)驗(yàn)，發(fā)現(xiàn)開放式團(tuán)隊(duì)創(chuàng)新研討文本中與研討總目標(biāo)有關(guān)的名詞會(huì)成為研討主題識(shí)別中的“噪音”，影響研討主題聚類的效果，應(yīng)該剔除。本文將研討總目標(biāo)文本中的名詞提取出來構(gòu)成停詞表。經(jīng)過停詞處理后的非空名詞集合即為有效詞集合。

1.1.2 基于How Net本體的語義分析在研討文檔建模中，針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討的短文本特征，運(yùn)用基于本體的方法，構(gòu)建研討信息本體，并據(jù)此計(jì)算研討信息的語義相似度。引入《知網(wǎng)》（How Net）構(gòu)建研討信息本體。How Net與大部分語義詞典類似，是基于樹狀層次結(jié)構(gòu)的；不同的是，How Net是以義原作為節(jié)點(diǎn)，然后再用義原通過知網(wǎng)知識(shí)系統(tǒng)描述語言（Kownledge Database Makeup Language，KDML）對(duì)詞語進(jìn)行描述。因此，基于How Net的語義相似度的度量方法首先需要計(jì)算義原的相似度，然后才能計(jì)算出詞語語義的相似度，進(jìn)而計(jì)算出研討文本間的語義相似度。

在How Net中，義原之間存在多種關(guān)系，由于本文所提出的模型運(yùn)用名詞進(jìn)行文檔建模，對(duì)于名詞來說，義原之間的上下位關(guān)系非常重要，因此，本研究重點(diǎn)考慮義原的上下位關(guān)系。運(yùn)用下式計(jì)算義原相似度[14]

式中：P1和P2表示2個(gè)義原；d為P1和P2在義原層次體系中的路徑長度；α是一個(gè)可調(diào)節(jié)的參數(shù)。

運(yùn)用下式計(jì)算基于How Net的詞語語義相似度[14]

式中，βi為可調(diào)節(jié)的參數(shù)，且有

分別為第一基本義原描述、其他基本義原描述、關(guān)系義原描述，以及關(guān)系符號(hào)描述。它們對(duì)于總體相似度所起到的作用依次遞減。

經(jīng)過詞語語義相似度計(jì)算之后，可得到不同詞語間的相似度集合，以語義相似度矩陣的形式表示。

1.1.3 基于研討樹結(jié)構(gòu)的研討樹節(jié)點(diǎn)文本語義相似度計(jì)算開放式團(tuán)隊(duì)創(chuàng)新研討信息構(gòu)成研討樹狀結(jié)構(gòu)，研討樹上的研討文本之間為父子關(guān)系。傳統(tǒng)文本主題挖掘沒有考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu)特征，導(dǎo)致開放式團(tuán)隊(duì)創(chuàng)新研討主題聚類結(jié)果的不準(zhǔn)確。例如，對(duì)于討論同一主題中為“父-子”關(guān)系的前后2個(gè)研討節(jié)點(diǎn)，后者是前者的補(bǔ)充說明，并且后者會(huì)省略在前者研討文本中出現(xiàn)過的一些關(guān)鍵詞，倘若忽略這些關(guān)鍵詞，很可能會(huì)低估這2個(gè)研討節(jié)點(diǎn)的相似度。有鑒于此，本文在計(jì)算“父-子”關(guān)系的兩研討節(jié)點(diǎn)間語義距離時(shí)，考慮將父節(jié)點(diǎn)的名詞集合添加到子節(jié)點(diǎn)的名詞集合中，然后再計(jì)算兩者間相似度。即

式中：Di=｛Wi1，Wi2，…，Wim｝與Dj=｛Wj1，Wj2，…，Wjn｝表示2個(gè)研討文本；sim（Wip，Wjq）為詞語Wip與Wjq基于How Net的詞語語義相似度。當(dāng)m=0或n=0時(shí)，將2個(gè)文本的相似度定義為0。這種方法通過計(jì)算所有特征值的兩兩相似度，保證所有詞語都經(jīng)過了計(jì)算，從而每個(gè)名詞都能影響研討文本間的相似度值。運(yùn)用此方法計(jì)算每個(gè)文本的相似度，進(jìn)而可以形成一個(gè)m×m的對(duì)稱矩陣，其中m為文本數(shù)量。由此構(gòu)建了研討樹節(jié)點(diǎn)文本的語義相似度矩陣，此矩陣即為下面將要提出的AntSA聚類算法的輸入。

1.2 基于AntSA的研討主題聚類分析

在基于AntSA的研討主題聚類分析過程中，首先將研討文檔建模階段得到的研討樹節(jié)點(diǎn)文本語義相似度矩陣進(jìn)行Ant Tree分析，得到一個(gè)初始的聚類簇；然后引入內(nèi)部聚類有效性評(píng)價(jià)方法中的輪廓系數(shù)對(duì)初始聚類簇中的各個(gè)對(duì)象進(jìn)行排序，并用排序后的結(jié)果作為AntSA算法的輸入；經(jīng)過AntSA算法最終輸出研討文本的聚類結(jié)構(gòu)。

1.2.1 Ant Tree算法 Ant Tree算法[15]是根據(jù)生物學(xué)中螞蟻的自我聚集行為而衍化的一種新的數(shù)據(jù)聚類算法，它通過構(gòu)建樹結(jié)構(gòu)對(duì)數(shù)據(jù)集進(jìn)行劃分。在該算法中，每只螞蟻都對(duì)應(yīng)于數(shù)據(jù)集中的1個(gè)數(shù)據(jù)并表示樹的1個(gè)節(jié)點(diǎn)。初始時(shí)螞蟻都被放在一個(gè)稱為支點(diǎn)的固定點(diǎn)上，該點(diǎn)相當(dāng)于樹根。螞蟻在這棵樹上尋找適合自己的位置。在Ant Tree算法中，sim（i，j）表示2個(gè)數(shù)據(jù)（di，dj）間的相似度，它的取值在0～1之間。0表示完全不同，1表示完全相同。移動(dòng)的螞蟻通過比較它與鄰域中已經(jīng)固定在樹結(jié)構(gòu)上的螞蟻的相似度來選擇繼續(xù)移動(dòng)或固定在某個(gè)位置上。設(shè)初始樹根節(jié)點(diǎn)為a0，螞蟻逐步連接到這個(gè)初始節(jié)點(diǎn)上或連接到固定在該節(jié)點(diǎn)的螞蟻上，直到所有的螞蟻均連接到樹上。對(duì)每只螞蟻都定義了一個(gè)相似度閾值Tsim（ai）和相異度閾值Tdissim（ai），用來表示ai對(duì)同類螞蟻的接受程度。Ant Tree算法的主要過程如下：

假設(shè)ζ是所有等待連接的螞蟻的一個(gè)隊(duì)列（或許已經(jīng)過排序）

initialize將所有螞蟻放置在支點(diǎn)a0上，并且對(duì)于每只螞蟻，Tsim（ai）←1和Tdissim（ai）←0

repeat

（1）從ζ中選擇1只螞蟻ai

（2）如果ai在支點(diǎn)a0上

then support case

else ant case

until所有的螞蟻都連接到樹上

在Ant Tree算法中，Support Case是指ai在a0上，設(shè)a+表示固定在a0上與ai最相似的螞蟻，如果ai與a+足夠相似，即sim（ai，a+）≥Tsim（ai），則ai向a+移動(dòng)；如果ai與a+足夠相異，即sim（ai，a+）＜Tdissim（ai），則ai就直接連接到a0，表示新創(chuàng)建1棵子樹；否則，用

來更新閾值。Ant Case是指ai在螞蟻apos上移動(dòng)，a+表示固定在apos上與ai最相似的螞蟻。如果ai與apos足夠相似，并且與其子女足夠相異，即sim（ai，apos）≥Tsim（ai）且sim（ai，a+）＜Tdissim（ai），則ai就連接在apos上；否則，螞蟻ai隨機(jī)向apos的鄰居移動(dòng)，并更新閾值，繼續(xù)尋找合適的位置。

1.2.2 AntSA算法由上述Ant Tree算法不難看出，某些步驟的進(jìn)行會(huì)對(duì)整個(gè)聚類效果產(chǎn)生很大影響。例如在初始化時(shí)，ζ隊(duì)列的順序會(huì)直接決定最初連接到支點(diǎn)a0上的螞蟻是哪些，其中每只螞蟻都表示不同的簇；在Support Case中，任意1只螞蟻同已經(jīng)固定在a0上螞蟻的比較方法，同樣會(huì)影響到最初連接到支點(diǎn)a0上的螞蟻是哪些，從而對(duì)整個(gè)聚類造成影響。針對(duì)上述問題，AntSA算法對(duì)Ant Tree算法進(jìn)行了改進(jìn)，基于Ant Tree改進(jìn)的AntSA算法在短文本聚類中獲得了很好的效果。AntSA算法在2個(gè)地方改進(jìn)了Ant Tree算法[12]。

（1）初始化。引入內(nèi)部聚類有效性評(píng)價(jià)（Internal Clustering Validity Measures，ICVMs）方法中的輪廓系數(shù)（Silhouette Coefficient，SC）[16-17]對(duì)ζ隊(duì)列排序，具體過程如下：

①任選一種聚類算法獲得一組初始簇；

②構(gòu)建出k行（其中每一行表示上一步中的一個(gè)簇），計(jì)算每行中各只螞蟻的SC值，并使用降序進(jìn)行排列；

③用每行的第1只螞蟻去連接支點(diǎn)；

④循環(huán)選取每個(gè)非空行的第一元素，直到所有行都為空。

（2）Support Case。引入簇引力代替Ant Tree中的sim（ai，a+）。

1.3 研討主題識(shí)別

得到研討文本的樹狀聚類結(jié)構(gòu)之后，需要提取主題標(biāo)簽，識(shí)別研討主題。類比SC公式，對(duì)于樹狀聚類結(jié)構(gòu)中的每個(gè)節(jié)點(diǎn)，計(jì)算節(jié)點(diǎn)中每個(gè)名詞的標(biāo)簽貢獻(xiàn)率的公式為

式中：c（i）為詞i與它所在節(jié)點(diǎn)的最相似兄弟節(jié)點(diǎn)的名詞列表中所有名詞的平均相似度；d（i）為詞i與它所在節(jié)點(diǎn)的父節(jié)點(diǎn)的名詞列表中所有名詞的平均相似度（本研究定義根節(jié)點(diǎn)的名詞列表與第1個(gè)連接到a0的非根節(jié)點(diǎn)所對(duì)應(yīng)的名詞列表相同）。

由式（4）可以看出，d（i）的值越大，同時(shí)c（i）的值越小，詞i的標(biāo)簽貢獻(xiàn)率就越大。本研究選擇標(biāo)簽貢獻(xiàn)率最大的詞作為該節(jié)點(diǎn)的標(biāo)簽，并將相連節(jié)點(diǎn)的相同標(biāo)簽合并。當(dāng)給所有分支節(jié)點(diǎn)貼上標(biāo)簽后，即可以進(jìn)行可視化識(shí)別，并輸出可視化圖。

2 實(shí)驗(yàn)及可視化

本文對(duì)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法進(jìn)行了實(shí)驗(yàn)研究，該實(shí)驗(yàn)基于“開放式團(tuán)隊(duì)研討平臺(tái)”[18]。本文選取研討目標(biāo)“同步研討A：班級(jí)應(yīng)該通過哪些活動(dòng)，以達(dá)到溝通有無、互相幫助、加強(qiáng)班級(jí)凝聚力的作用”進(jìn)行實(shí)驗(yàn)。本研究隨機(jī)選取該團(tuán)隊(duì)研討的120條發(fā)言作為實(shí)驗(yàn)文本進(jìn)行分析。實(shí)驗(yàn)中，首先請2名具有群體研討經(jīng)驗(yàn)的專家（這2名專家不是本研討團(tuán)隊(duì)成員）對(duì)本實(shí)驗(yàn)中的研討文本進(jìn)行人工聚類，得到人工聚類結(jié)果。

在該實(shí)驗(yàn)的研討文檔建模階段，本文采用How Net中長度大于1的名詞來構(gòu)建研討主題識(shí)別的分詞詞庫。經(jīng)過反復(fù)實(shí)驗(yàn)，發(fā)現(xiàn)研討信息中與研討目標(biāo)有關(guān)的名詞會(huì)成為研討主題識(shí)別中的“噪音”，影響研討主題聚類的效果，因此，本實(shí)驗(yàn)將研討目標(biāo)文本中的名詞提取出來構(gòu)成停詞表。經(jīng)過停詞處理之后的非空名詞集合即為有效詞集合。圖2為本實(shí)驗(yàn)研究的研討樹結(jié)構(gòu)可視化，研討樹上的每個(gè)節(jié)點(diǎn)都表示1條研討文本。研討文本間的父子關(guān)系通過人工方法確定，即團(tuán)隊(duì)成員在發(fā)布電子研討文本前，先選定發(fā)言的對(duì)象。圖2左部為本實(shí)驗(yàn)的研討樹結(jié)構(gòu)，右部為研討樹中被選中的某條研討文本經(jīng)過分詞和停詞處理后，該研討文本被表示為名詞分詞集合形式。例如，從本實(shí)驗(yàn)的研討樹結(jié)構(gòu)中點(diǎn)擊選取研討文本“較為贊同。舉行一些球類比賽的確是一個(gè)增加班級(jí)凝聚力的好方法?！痹撗杏懳谋痉衷~后所形成的名詞列表為“球類比賽班級(jí) 凝聚力方法”；其中根據(jù)本實(shí)驗(yàn)的研討目標(biāo)，其停詞列表為“班級(jí) 活動(dòng) 凝聚力作用”；經(jīng)過停詞處理后，該條研討文本被表示為“球類比賽方法”。

圖2 實(shí)驗(yàn)的研討樹結(jié)構(gòu)可視化及分詞停詞處理

本研究使用JAVA語言編程實(shí)現(xiàn)AntSA算法，對(duì)研討文本進(jìn)行主題聚類。本研究使用聚類錯(cuò)誤率（Clustering Error，CE）、聚類查全率（Clustering Recall，CR）和聚類查準(zhǔn)率（Clustering Precision，CP）3個(gè)指標(biāo)對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法的效果進(jìn)行評(píng)價(jià)，考察的基本對(duì)象為“文檔對(duì)”。各指標(biāo)計(jì)算公式如下[7]：

式中：CE為聚類錯(cuò)誤率，表示錯(cuò)誤關(guān)聯(lián)與遺漏關(guān)聯(lián)的和與文檔集合中所有可能的文檔對(duì)的數(shù)量的比值；Ei為錯(cuò)誤關(guān)聯(lián)，指在聚類結(jié)果中出現(xiàn)的，而在人工聚類中沒有出現(xiàn)的文檔對(duì)的數(shù)量；Em為遺漏關(guān)聯(lián)，指在人工聚類中出現(xiàn)的，而在聚類結(jié)果中沒有出現(xiàn)的文檔對(duì)的數(shù)量；Pi為文檔集合中所有可能的文檔對(duì)的數(shù)量，設(shè)文檔總數(shù)為N，則

式中：CR為聚類查全率，表示正確關(guān)聯(lián)數(shù)與人工聚類中文檔對(duì)的數(shù)量的比值；Tn為聚類結(jié)果中所有可能的文檔對(duì)的數(shù)量；Tm為人工聚類中所有可能的文檔對(duì)數(shù)量；CP為聚類查準(zhǔn)率，表示正確關(guān)聯(lián)數(shù)與聚類結(jié)果中所有可能的文檔對(duì)的數(shù)量的比值。

實(shí)驗(yàn)結(jié)果如表1所示，聚類錯(cuò)誤率為0.05，聚類查全率為0.77，聚類查準(zhǔn)率為0.81。該實(shí)驗(yàn)結(jié)果表明，本研究所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法可以輔助人對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題的歸納和識(shí)別，提高了開放式環(huán)境中團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別的效率，促進(jìn)了開放式團(tuán)隊(duì)創(chuàng)新。

表1 開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法實(shí)驗(yàn)結(jié)果

圖3 研討實(shí)驗(yàn)的聚類可視化效果圖

本文根據(jù)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法設(shè)計(jì)和開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng)，可以直觀顯示研討主題識(shí)別的結(jié)果，可視化結(jié)果如圖3所示。圖3顯示了研討實(shí)驗(yàn)中主題標(biāo)簽的樹狀層次結(jié)構(gòu)。圖3的中心圈標(biāo)識(shí)了該研討的目標(biāo)，外層環(huán)表示研討主題的層次關(guān)系，例如“旅游”、“景觀”、“野餐”、“登山”、“市區(qū)”屬于研討主題“郊游”的分支主題；“景點(diǎn)”、“費(fèi)用”是研討主題“旅游”的分支主題。通過主題的層次關(guān)系可以看出各主題間的語義關(guān)系和結(jié)構(gòu)關(guān)系，提高了研討效率，有效支持了開放式團(tuán)隊(duì)創(chuàng)新。

3 結(jié)語

本文研究并提出了開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法，在研討文檔建模部分該方法引入How Net本體構(gòu)建研討信息本體，并且充分考慮開放式團(tuán)隊(duì)創(chuàng)新研討的樹狀結(jié)構(gòu)，從而基于本體和研討樹結(jié)構(gòu)對(duì)研討信息進(jìn)行語義分析；在研討主題聚類部分，該方法針對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討信息短文本的特征，使用AntSA算法進(jìn)行聚類分析；并且，對(duì)聚類結(jié)果中的每個(gè)節(jié)點(diǎn)，通過計(jì)算名詞的研討主題標(biāo)簽貢獻(xiàn)率，識(shí)別每個(gè)類別的研討主題；最后，本文根據(jù)所提出的開放式團(tuán)隊(duì)創(chuàng)新研討主題識(shí)別方法，設(shè)計(jì)并開發(fā)了開放式團(tuán)隊(duì)創(chuàng)新研討主題可視化系統(tǒng)，直觀顯示識(shí)別出的各研討主題間的語義關(guān)系和結(jié)構(gòu)關(guān)系。實(shí)驗(yàn)結(jié)果表明，該方法可以輔助人對(duì)開放式團(tuán)隊(duì)創(chuàng)新研討主題的識(shí)別，提高了開放式團(tuán)隊(duì)創(chuàng)新過程信息集成的效率。

在今后的研究中，準(zhǔn)備將研究內(nèi)容擴(kuò)展到基于不同社交媒介的群體討論（如網(wǎng)絡(luò)BBS、微博、微信等）。在研究方法上，將運(yùn)用更加先進(jìn)的主題提取方法，如Topic model算法。本研究實(shí)驗(yàn)中研討樣本數(shù)量較少，在未來研究中將針對(duì)互聯(lián)網(wǎng)上真實(shí)的大規(guī)模研討語料進(jìn)行主題提取，以檢驗(yàn)算法的有效性和穩(wěn)健性。