胡宇涵
【摘要】 對聚類分析在語言研究中的應用領域進行了闡述,并圍繞聚類分析在外國語言學研究中的應用價值與前景進行探討與研究,希望能夠為推動聚類分析在外國語言學研究中的應用發(fā)展帶來一點理論支持。
【關鍵詞】 聚類分析 外國語言研究 應用所謂的聚類分析,又被稱為數(shù)值分類學,這是一種多元統(tǒng)計分類技術。在社會各領域中,聚類分析都有著廣泛的研究與運用,并取得了一定的成效。以外國語言學研究為例,相較于其他方法,聚類分析在語言統(tǒng)計中具有突出優(yōu)勢,鑒于此,針對聚類分析在外國語言學研究中的應用具有重要的研究價值。
一、聚類分析在語言研究中的應用領域
在語義、句法型式、認知語言學、心理學語言學、計算語言學以及社會語言學等多個領域,聚類分析都具有一定的應用價值。通常情況下,聚類分析是結合到語料庫數(shù)據(jù)一起使用。關于聚類分析在外國語言研究中的應用領域,具體闡述如下:
1.詞匯語義學
語言學中的有一個假設:語言項目的語境分布信息對該語言項目的語義、功能特點進行了揭示,語言成分的分布條件或限制就是語言成分的意義所在。語料庫將詞匯的分布環(huán)境信息涵蓋其中,以共現(xiàn)詞及其頻率為例,基于語料庫中的共現(xiàn)特征的頻率信號的獲取,劇烈分析可以對近義詞、反義詞的意義與用法有一個客觀、系統(tǒng)的辨析。相關人員就提出詞匯行為輪廓研究方法就對聚類分析加以運用。值得一提的,實驗表明,同(近)義詞的類或簇的心理現(xiàn)實性比較突出。在詞匯語義學中,在詞典編纂、外語教學領域聚類分析往往具有較強的適用性。
2.句法型式研究
在對語料庫中句法結構進行聚類時,聚類分析能夠提供一定的幫助,并且在經(jīng)驗數(shù)據(jù)性的句法研究中,聚類分析也具有適用性。例如人們在聚類語料庫中某個單詞的全部索引時,對該詞匯的全部句法型式進行識別與提取,進而就可以使我們對特定單詞的句法行為的認識變得更加系統(tǒng)與全面。在基于數(shù)據(jù)驅動的句法研究、詞典編纂以及外語教學而言,其應用價值顯然是比較大的。
所謂的型式,就是短語單位,其組成部分包括名詞、形容詞以及補足語成分。研究型式句法是為了將不同詞類的所有型式抽象、歸納出來。在對句法型式進行抽取與概括時,聚類分析主要采取如下做法:首先對句法型式的一系列特征集合進行建構,然后進行每個索引行為中具體語言信息向對應型式特征信息的轉換,基于對相似度算法的應用,將聚類分析用于同一檢索詞析出的索引行中,并將每組索引行中的公共特征項提取出來,最后使相關單詞的句法型式的自動識別與提取得以實現(xiàn),具體如下圖所示。
3.語言風格變異研究
對于一個語篇而言,其呈現(xiàn)的語言結構單位的使用統(tǒng)計特征分為很多種,例如詞長、句長、型符類符比、詞性比例、句型比例等等。大量研究表明,根據(jù)文本體裁的不同,語言結構特征就客觀而言存在變異。在語言結構單位特征頻率分布的差異的影響下,語言風格變異自然就會形成。語篇風格、文體也是基于這些頻率分布差異得以構成的。此外,站在一個作者的角度,其語言中表現(xiàn)出來的語言結構單位的個性化使用統(tǒng)計特征也必然包含了很多種,我們可以統(tǒng)計出一個作者不同作品的語言使用情況,基于分析獲取該作者對不同語言結構單位使用的統(tǒng)計特征。相反的,我們也可以通過作者對語言結構單位使用的統(tǒng)計特征,將聚類分析運用將作者身份已知的文本以及身份未知的文本分析中,然后以分析結果為參考,對這些匿名作品的作者進行有效識別。
4.語言的地理變異
語言的地理變異又被稱為方言聚類,在語言學這一領域中聚類分析有著非常長的應用歷史。在上世紀80年代初,就有研究人員在方言分類的研究中運用了聚類分析,并取得了理想的成效。之后,歐洲方言計量學研究中,以某些研究人員為代表的對聚類分析的應用越來越廣泛。
5.語言的社會變異
語言變異與社會結構之間有著非常復雜的關系,在研究中如果選擇傳統(tǒng)方法,顯然是無法取得理想的效果的,究其原因就在于傳統(tǒng)的研究方法的盲目性比較強,并且系統(tǒng)性有所缺失,大部分情況下需要以個人經(jīng)驗或靈感對語言提出假設并展開研究,而相較于規(guī)模龐大的語言數(shù)據(jù)而言,個人經(jīng)驗或靈感顯然是微不足道的。而聚類分析應用則是傳統(tǒng)方法的問題得到有效規(guī)避,這種方法能夠為研究者在規(guī)模龐大的語言數(shù)據(jù)中尋找數(shù)據(jù)結構提供支持,然后與數(shù)據(jù)結構為基礎,對相關研究變量進行有效分析、提取,使不同變量之間的關聯(lián)被系統(tǒng)性的發(fā)現(xiàn)出來,然后通過假設對理論模型進行建構。
二、聚類分析的應用分析及發(fā)展前景
相較于定性的分類方法,聚類分析的客觀性與可重復性是其應用價值的重要體現(xiàn)。聚類分析是以事實與數(shù)據(jù)為基礎得到運用的,這是其客觀性特點的體現(xiàn)。當然不可否認,聚類分析并沒有將所有主觀因素排除掉,在某些方面的選擇上其主觀性依然存在,例如算法選擇、距離計算方式以及聚類數(shù)值特征等等。然而,如果人們設定了聚類分析中的指標、類的定義、距離計算方式以及算法等參數(shù),那么聚類的可重復性、可檢驗性就得到突出,并且也提供一個基準來比較不同分類方法的優(yōu)劣。以主觀定性為依托的分類方法具有較低的重復性,由于專家與新手的理論素養(yǎng)、經(jīng)驗以及直覺存在很大的差別,因此復制起來存在較大難度,他們的分類結果也不盡相同。眾所周知,在科學研究中,客觀性與可重復性是最為基本的要求,因此,相較于定性分類,聚類分析的科學性更強。
此外,聚類分析在規(guī)模龐大的數(shù)據(jù)處理中也具有很高的應用價值。對于小數(shù)據(jù)而言,人們可以對其結構進行有效分析,然后提出猜想和假設。但如果數(shù)據(jù)規(guī)模龐大且復雜程度較高,那么受限于認知能力,人們可能并不能透過數(shù)據(jù)表面對其中的結構與規(guī)律進行研究與分析,同時提出的猜想與假設也可能不盡合理。而基于聚類分析的應用,可以使大數(shù)據(jù)處理變得高效、準確,使其中的結構與規(guī)律得以發(fā)現(xiàn),為人們提出假設提供支持。
三、結語
在大數(shù)據(jù)時代背景下,語料庫數(shù)據(jù)的內(nèi)容必然更加豐富,數(shù)據(jù)挖掘技術的應用也取得了重大突破?,F(xiàn)階段,人們逐漸開始質疑對內(nèi)省式語言數(shù)據(jù)的可靠性,并對語言用法數(shù)據(jù)加以運用。由此可見,在未來在面對規(guī)模龐大的語言數(shù)據(jù)時,只有通過數(shù)據(jù)挖掘,才能夠實現(xiàn)語言知識的獲取。而人工與肉眼顯然是無法處理這些語言數(shù)據(jù)的,此時聚類分析的價值就體現(xiàn)出來。作為外國語言研究這,必須對聚類分析以及其他的數(shù)據(jù)挖掘技術進行深入研究與學習,促使自身研究能夠與時代發(fā)展形勢相適應。
參考文獻:
[1]孫仕光,張萍.聚類分析在外國語言學研究中的應用[J].懷化學院學報,2016,(3) :108-113.
[2]劉佳玲.聚類分析在外國語言學研究中的應用[J].科學與財富,2017,(19) :97.
[3]陳芯瑩,劉海濤.語義、句法網(wǎng)絡作為語體分類知識源的對比研究[J].計算機工程與應用,2014,(02) :10-14+43.
[4]陳芯瑩,劉海濤.句法復雜網(wǎng)絡作為語體分類的知識源研究[J].計算機工程與應用,2013,(08) :32-36.
[5]陳芯瑩,劉海濤.句法復雜網(wǎng)絡作為語體分類的知識源研究[J].計算機工程與應用,2012.