陳彥敏 王志華
摘要:短文本信息是一種短文本數(shù)據(jù),數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場(chǎng)。消息發(fā)布大多通過(guò)用戶(hù)來(lái)完成,用戶(hù)有很多的屬性,例如用戶(hù)的年齡分布度,用戶(hù)的觀點(diǎn)傾向,用戶(hù)的等級(jí)程度等等都會(huì)影響短文本信息內(nèi)容的傳播。主要分析短文本信息的和用戶(hù)屬性的特點(diǎn)。
關(guān)鍵詞: 短文本;用戶(hù)屬性; 社交網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP313 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)02-0003-02
1 引言
在目前網(wǎng)絡(luò)環(huán)境下新聞評(píng)論、商品評(píng)價(jià)、BBS、尤其是社交網(wǎng)絡(luò),都為信息傳播提供了新的平臺(tái)基礎(chǔ)。這些網(wǎng)絡(luò)應(yīng)用產(chǎn)生了大量的文本,但是這些文本一般長(zhǎng)度比較短,稱(chēng)之為短文本信息。短文本數(shù)據(jù)量非常巨大,數(shù)據(jù)中包含人們對(duì)社會(huì)各種現(xiàn)象的各種觀點(diǎn)和立場(chǎng),話(huà)題涉及政治、經(jīng)濟(jì)、軍事、娛樂(lè)、生活等各個(gè)領(lǐng)域。
短文本信息是一種即時(shí)交互性短文本,與常規(guī)文本相比,具有不完整性、不規(guī)范性等特點(diǎn)。常規(guī)文本聚類(lèi)研究中采用的基于關(guān)鍵詞匹配,改進(jìn)的相似性度量方法不能很好地適應(yīng)短文本信息聚類(lèi)的需要。
隨著短文本挖掘需求的日益增長(zhǎng),近年來(lái)人們對(duì)短文的挖掘進(jìn)行了很多研究。龔才春等人提出了[1]基于頻繁詞集的方法。該方法是提出了一種大規(guī)模語(yǔ)料的劃分策略,將待發(fā)現(xiàn)頻繁模式的原始語(yǔ)料劃分為若干子語(yǔ)料。對(duì)每個(gè)子語(yǔ)料獨(dú)立發(fā)現(xiàn)其頻繁模式結(jié)果,并能保證對(duì)各子語(yǔ)料發(fā)現(xiàn)的頻繁模式結(jié)果的并集即為原始語(yǔ)料的頻繁模式集。能夠避免處理低頻模式,從而大大提高頻繁模式發(fā)現(xiàn)的速度DeLuea等人提出了基于語(yǔ)義的方法[2],利用概念間的共現(xiàn)關(guān)系來(lái)確定其語(yǔ)義聯(lián)系,并利用這種語(yǔ)義聯(lián)系來(lái)指導(dǎo)分類(lèi),從而達(dá)到比一般向量空間模型更好的短文分類(lèi)效果。另一種方法[3]是使用潛在語(yǔ)義索引進(jìn)行短文本分類(lèi)的方法。該方法通過(guò)潛在語(yǔ)義索引來(lái)定義詞匯之間的語(yǔ)義聯(lián)系,從而提高短文分類(lèi)的準(zhǔn)確度。這些基于語(yǔ)義的方法在某些范圍內(nèi)獲得了較好的準(zhǔn)確度,但準(zhǔn)確度仍有待進(jìn)一步提高。宋萬(wàn)鵬等人提出短文本相似度計(jì)算在用戶(hù)交互式問(wèn)答系統(tǒng)中的一個(gè)具體的應(yīng)用[4]。楊震等人提出的基于字符串相似性聚類(lèi)的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[5]。文獻(xiàn)[6-7]提出了分別介紹了無(wú)監(jiān)督和半監(jiān)督的方法對(duì)短文本信息的技術(shù)研究,楊天平等人提出概念描述的短文本分類(lèi)方法[8],路榮等人提出話(huà)題的發(fā)現(xiàn)[9]。
這些研究包括對(duì)短文本信息從文本的語(yǔ)料和語(yǔ)義分析,到文本相似度的分類(lèi)和聚類(lèi)的分析,以及一些新的概念描述,都是對(duì)短文本信息本身進(jìn)行的研究。
2 短文本的特征
短文本數(shù)據(jù)和通常意義的文本信息數(shù)據(jù)不一樣。文本信息往往是一篇完整的文章或截取某一段的信息。信息句式完整,句子語(yǔ)義完整。在這樣的文本信息下,研究文本內(nèi)容的關(guān)聯(lián)和文本之間的關(guān)聯(lián)時(shí),可研究的內(nèi)容多,表達(dá)完整。尤其對(duì)文本做分類(lèi)和聚類(lèi)時(shí),這樣的文本信息劃分種類(lèi)較容易,準(zhǔn)確度高。
但是短文本數(shù)據(jù)和文本信息無(wú)論從文字長(zhǎng)短上還是結(jié)構(gòu)特征上都有很大的區(qū)別。
2.1文本來(lái)源不同
文本信息來(lái)源主要是網(wǎng)站或已整理好的文章。而短文本信息主要來(lái)源于社交網(wǎng)絡(luò)的留言,用戶(hù)的微博,即時(shí)通訊工具等,這樣的短文本信息語(yǔ)義內(nèi)容少,必須要根據(jù)前后短文本信息的內(nèi)容來(lái)理解語(yǔ)義。文本來(lái)源多,內(nèi)容雜。
2.2文本結(jié)構(gòu)不同
文本信息的結(jié)構(gòu)主要是文字。但是短文本信息的結(jié)構(gòu)是復(fù)雜的。從短文本信息的特點(diǎn)上就有圖形,圖標(biāo),文字,flash等非結(jié)構(gòu)化數(shù)據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù)代表相關(guān)的語(yǔ)義信息,但是僅僅分析文本內(nèi)容,并不能完全正確理解短文本的全部語(yǔ)義。如果從短文本信息的用戶(hù)屬性角度上分析的發(fā)送端和接收端,這些部分又是結(jié)構(gòu)化的數(shù)據(jù)。
2.3文本的長(zhǎng)度不同
普通的文本長(zhǎng)度一般在一段到幾段之間,甚至更長(zhǎng)。這樣的長(zhǎng)度,可以找出文本的關(guān)鍵詞等信息。但是短文本信息的文章這往往只有一句話(huà)或幾句話(huà),甚至是幾個(gè)字。在這種情況下,通常意義的基于關(guān)鍵詞的頻率的查找方法就不適用用短文本的查找,因?yàn)檫@種頻率太低,沒(méi)有區(qū)分度。
2.4文本信息數(shù)量不同
通常意義下的文本信息數(shù)據(jù)都是以篇數(shù)來(lái)統(tǒng)計(jì)的,但是對(duì)于短文本信息數(shù)據(jù)沒(méi)有篇的概念,因?yàn)槎涛谋镜钠?,通常不超過(guò)100個(gè)詞,關(guān)鍵詞出現(xiàn)的也少。一般以條作為短文本的信息數(shù)量。通常要研究大量的短文本信息才具有意義。
2.5文本信息的屬性特征不同
通常意義下的文本,都是基于內(nèi)容的研究。而短文本在內(nèi)容上沒(méi)有太多可以表示的內(nèi)容,但是在短文本的用戶(hù)的屬性,短文本發(fā)送的地理位置,發(fā)送的時(shí)間,發(fā)送的相關(guān)對(duì)象等都具有特點(diǎn)的意義和特點(diǎn)。
3 建立短文本信息數(shù)據(jù)庫(kù)的特點(diǎn)
建立短文本信息數(shù)據(jù)庫(kù)與通常的文本數(shù)據(jù)庫(kù)也有很多的區(qū)別,一般的文本數(shù)據(jù)庫(kù)主要存儲(chǔ)的是以文本的篇數(shù)或文本的關(guān)鍵詞來(lái)存儲(chǔ)。但是短文本信息的數(shù)據(jù)庫(kù)根據(jù)短文本數(shù)據(jù)的規(guī)模大小,文本結(jié)構(gòu),提取的屬性,所需要的短文本數(shù)據(jù)庫(kù)也不同。
在短文本信息數(shù)據(jù)庫(kù)中,如果研究是文本本身,需要存儲(chǔ)文本內(nèi)容。如果是短文本自帶的屬性,例如地理位置,發(fā)布時(shí)間,轉(zhuǎn)發(fā)數(shù)量等。這個(gè)就需要對(duì)短文本的屬性設(shè)置相應(yīng)的屬性項(xiàng)來(lái)實(shí)現(xiàn)。還有一種情況,就是研究發(fā)送短文本信息的用戶(hù),用戶(hù)屬性包含類(lèi)別很多,有用戶(hù)自身的屬性,還有用戶(hù)和其他用戶(hù)交互的行為過(guò)程,這些信息有些是非結(jié)構(gòu)化的,有些是結(jié)構(gòu)化的,不同的研究對(duì)象需要分別建立不同的數(shù)據(jù)庫(kù)。
短文本信息與用戶(hù)之間是有一定的聯(lián)系的,因?yàn)橛脩?hù)對(duì)短文本信息的發(fā)布,用戶(hù)本身會(huì)具有很多的屬性,例如用戶(hù)的年齡分布,用戶(hù)的權(quán)威度,用戶(hù)的觀點(diǎn)傾向,用戶(hù)的等級(jí)程度等等,不同的用戶(hù)屬性在不同程度上都會(huì)影響短文本信息內(nèi)容的可信度和傳播。
4 短文本信息的用戶(hù)屬性
短文本信息的發(fā)出者是用戶(hù),由于短文本信息的發(fā)送和接受都是和用戶(hù)相關(guān)。所以研究用戶(hù)的屬性就是研究短文本的附加語(yǔ)義和價(jià)值的重要途徑。
用戶(hù)屬性包括有以下幾種:
4.1用戶(hù)的個(gè)人屬性
包括:年齡,姓名,單位等。有些個(gè)人屬性是公開(kāi)的,有些是非公開(kāi)的。這些個(gè)人屬性都和短文本信息的內(nèi)容等有多相關(guān)的聯(lián)系。
4.2用戶(hù)的等級(jí)屬性
在很多的社交網(wǎng)絡(luò)中,都設(shè)計(jì)了不同的用戶(hù)等級(jí),有公眾的用戶(hù)等級(jí),有用戶(hù)通過(guò)發(fā)文和充值的等級(jí)等。
4.3用戶(hù)的地理位置屬性
在很多的手機(jī)端,軟件通過(guò)GPS和移動(dòng)網(wǎng)絡(luò)的基站確定用戶(hù)的地理位置。根據(jù)地理位置可以判斷用戶(hù)所在地區(qū),用戶(hù)移動(dòng)行跡路線(xiàn),用戶(hù)常去的地方,有很多軟件基于此進(jìn)行信息推送。
4.4用戶(hù)的短文本附加屬性
這些屬性有短文本的轉(zhuǎn)發(fā)量,短文本的閱讀量,評(píng)論數(shù)等,這些附加屬性是基于用戶(hù)的。但對(duì)短文本信息的分析有幫助作用。
5 結(jié) 論
在建立文本信息數(shù)據(jù)庫(kù)和用戶(hù)屬性集的條件下,研究通過(guò)用戶(hù)屬性對(duì)短文本信息的提取具有什么樣的影響。哪些用戶(hù)屬性對(duì)文本信息具有關(guān)鍵作用。將用戶(hù)的屬性作為短文本信息提取的重要權(quán)重屬性,研究是否能夠通過(guò)類(lèi)似的用戶(hù)屬性預(yù)測(cè)其他用戶(hù)的短文本信息發(fā)布的趨勢(shì)。同時(shí)研究建立合適的數(shù)學(xué)模型。
總之,用戶(hù)的不同屬性,對(duì)分析和研究文本和語(yǔ)義都有重要的影響和意義。
參考文獻(xiàn):
[1]龔才春.短文本語(yǔ)言計(jì)算的關(guān)鍵技術(shù)研究[D].中國(guó)科學(xué)院.2008
[2]E. W. DeLuea, A. Nurnberger. Ontology. Based Semantic Online Classification of Documents: Supporting Users in searching the web[J] In:Proc. Of the European Symposium on Intelligent Technologies (EUNITE2004).
[3]Deerwester Scott et al. indexing by latent semantic analysis [J]. Journal of the American Society for Information Science, 1990, 41(6):391-407.
[4] 宋萬(wàn)鵬.短文本相似度計(jì)算在用戶(hù)交互式問(wèn)答系統(tǒng)中的應(yīng)用[D].2010
[5]楊震,段立娟,賴(lài)英旭,等.基于字符串相似性聚類(lèi)的網(wǎng)絡(luò)短文本輿情熱點(diǎn)發(fā)現(xiàn)技術(shù)[J].北京工業(yè)大學(xué)學(xué)報(bào),2010,36(5):669-673.
[6]黃九鳴,吳泉源,劉春陽(yáng),等.短文本信息流的無(wú)監(jiān)督會(huì)話(huà)抽取技術(shù)[J].軟件學(xué)報(bào),2012,23(4):735-747.
[7]蔡月紅,朱倩,孫萍,等.基于屬性選擇的半監(jiān)督短文本分類(lèi)算法[J].計(jì)算機(jī)應(yīng)用,2010,30(4):1015-1018.
[8]楊天平,朱征宇.使用概念描述的中文短文本分類(lèi)算法[J].計(jì)算機(jī)應(yīng)用,2012,32(12):3335-3338.
[9]路榮,項(xiàng)亮,劉明榮,等.基于隱主題分析和文本聚類(lèi)的微博客中新聞話(huà)題的發(fā)現(xiàn)[J].模式識(shí)別與人工智能,2012,25(3):382-387.