穆曉巖
【摘要】聚類分析,還可以被稱為是數(shù)值分類學,這屬于一種多元統(tǒng)計的分類技術(shù)。該技術(shù)主要運用在商業(yè)和生物與工程以及人類學,還有社會學等多種領(lǐng)域中。語言學中的研究存在很多分類問題,然而學者們選擇定性法分類的非常多,計量手段的分類法非常罕見。鑒于此,本文將對聚類分析在外國語言學研究中的應(yīng)用進行分析。
【關(guān)鍵詞】聚類分析 外國語言 研究 應(yīng)用
【中圖分類號】H087 【文獻標識碼】A 【文章編號】2095-3089(2018)04-0003-01
現(xiàn)階段在聚類分析中的新方法非常多,對聚類算法來說,其使用的技術(shù)并不一樣,在理論背景上彼此交叉和重疊,并不能容易地歸類一個比較統(tǒng)一的標準,聚類分析法能夠被分為層次聚類方法和基于劃分下的聚類方法與圖論聚類方法以及密度下與網(wǎng)格基礎(chǔ)下的方法等多種。上述方法盡管從不同角度方面多運用的理論方法也不同,然而對存在差異的實際問題來說,聚類分析當中的基本內(nèi)容一直是人們研究的重點。
一、聚類方法淺析
(一)層次聚類方法分析
就層次聚類算法來說,其主要優(yōu)點是指,不需要實現(xiàn)知曉用戶指定的聚類數(shù)目,能夠靈活地對不同層次聚類粒度進行控制,同時,還可以比較清晰地對簇之間所具備的層次關(guān)系進行表達。然而,層次聚類算法在運用中的缺點也是非常明顯的,主要有,層次聚類時,不能追溯已有的簇結(jié)構(gòu)處理;上一層次簇形成之后,一般是不能在之后的執(zhí)行過程中進行調(diào)整的?,F(xiàn)階段,很多層次聚類算法在計算過程中都有一定的復雜度,這一過程中,0是數(shù)據(jù)集中數(shù)據(jù)點的數(shù)量。計算開銷是非常大的,已經(jīng)是促進層次聚類算法中性能提高的一個瓶頸,導致其不能適用于規(guī)模較大的數(shù)據(jù)集。
(二)劃分聚類方法的分析
這一聚類方法早已在模式識別和數(shù)據(jù)挖掘等不同領(lǐng)域有了廣泛的應(yīng)用,截至目前為止,還是多個研究工作中的思想源頭。如果目標函數(shù)具有可微性,就要對數(shù)據(jù)集進行初始劃分,再將其作為起點,并對樣本點的歸屬進行調(diào)整,進而讓目標函數(shù)實現(xiàn)最優(yōu)。如果目標函數(shù)得到收斂,就能夠獲得最終的聚類結(jié)果。k-means與FCM都是該類算法中比較典型的代表,在現(xiàn)階段的研究成果包括:密度加權(quán)的模糊類聚類算法,以及在混合距離學習下的雙指數(shù)模糊的均值算法等。其在具體使用過程中的優(yōu)點主要包括,收斂速度比較快,容易擴展,存在的缺點是指需要知曉事先所指定的聚類數(shù)目。除此之外,初始簇的中心選擇和噪聲數(shù)據(jù)存在與聚類數(shù)目本身的設(shè)置都會嚴重影響聚類結(jié)果。
(三)密度與網(wǎng)格聚類方法的分析
基于密度與網(wǎng)格之上的聚類方法主要來自于基于密度聚類方法與基于網(wǎng)格聚類方法。其中,密度聚類方法一般主要在數(shù)值屬性的數(shù)據(jù)集中進行運用,后者可以在任何屬性數(shù)據(jù)集中進行運用。因為該方法對數(shù)據(jù)進行處理過程中,都注重使用樣本點空間的分布信息,同時,總是經(jīng)常地結(jié)合使用,所以可以歸結(jié)在一塊使用。
二、國外語言研究中對于聚類分析法的具體應(yīng)用
聚類分析法主要在語義和句法型式與認知語言學以及心理語言學,還有計算語言學與社會語言學等多種研究領(lǐng)域當中被應(yīng)用。聚類分析法在實際中的應(yīng)用主要是和語料庫數(shù)據(jù)進行結(jié)合。主要應(yīng)用的領(lǐng)域包括以下幾點。
(一)在詞匯語義學中的應(yīng)用
在語言學的研究中有這樣一個假設(shè)。如果語言項目語境在分布信息對該語言項目本身的語義和功能特點進行了揭示。語言成分本身的意義即是該語言成分在分布中的條件或者是限制。例如,F(xiàn)irth曾經(jīng)提出:“觀一詞之同伴可知一詞”;此外,Hanks曾經(jīng)指出:“動詞語義是由其補足語的模式所決定的?!闭Z料庫給予了詞在分布環(huán)境中的信息,例如共現(xiàn)詞和其頻率。按照語料庫所給予的共現(xiàn)特征中的頻率信息,該分析方法能夠用來較客觀和系統(tǒng)地對近義詞和反義詞進行辯解。聚類分析法應(yīng)用在詞匯語義學當中是非常有必要的,其對于詞典的編纂和外語的教學都非常有實用價值。
(二)在句法型式的研究領(lǐng)域中進行應(yīng)用
聚類分析法能夠幫助人們對語料庫當中存在的句法結(jié)構(gòu)實施聚類,有助于相關(guān)人員對經(jīng)驗數(shù)據(jù)性的句法進行研究。例如,相關(guān)人員可以對語料庫當中的一個單詞進行全部索引行并聚類,對這一單詞進行識別和提取,例如,動詞的所有句法型式,進而獲得對指定單詞句法行為進行全局性和系統(tǒng)性地了解和認識。有助于數(shù)據(jù)驅(qū)動句法的研究,并對其詞典進行編撰,同時在外語教學中的價值也非常大。
(三)語言文體的變異研究
語篇當中會出現(xiàn)很多語言結(jié)構(gòu)的單位在使用中統(tǒng)計的特征。主要有詞長和句長與型符類符比以及單現(xiàn)詞比例,還有詞性比例和句型比例等。從多數(shù)研究中可以看出,各種語言的結(jié)構(gòu)特征在不同體裁當中的文本也存在著客觀地變異情況。語言風格和文體與體裁都是因為不同語言的結(jié)構(gòu)單位特征所產(chǎn)生的。該頻率分布的不同造成分析語篇的風格和文體物質(zhì)的基礎(chǔ)。利用各種特征統(tǒng)計分析文本的思想比較早的是數(shù)學家Morgan在19世紀中期的猜想與建議。很多研究人員可以結(jié)合該語言的結(jié)構(gòu)單位進行不同風格和文體文本以及語篇的分析。
(四)語言本身的社會變異和功能變異研究
語言變異和社會結(jié)構(gòu)之間的關(guān)系非常復雜,運用以往的一般研究的手段不能進行處理。在以往的研究方法當中,對于研究變量進行選擇和假設(shè)建立也是研究人員按照某種理論框架和既定的研究個案與個人在研究領(lǐng)域中形成的經(jīng)驗和靈感所展開的。這是截至目前位置一直被延用的一種研究方法。盡管人們不能否認該研究方法是有一定意義的,然而還是必須承認,以往的研究方式基本也是瞎子摸象,存在很大的盲目性,加之,在某些時候?qū)儆跂|一榔頭西一棒子的模式,沒有系統(tǒng)性地研究。按照個人在這一領(lǐng)域中的經(jīng)驗或者是出現(xiàn)的靈感所提出的語言研究假設(shè)不可避免地存在很大地盲目性,由于和大規(guī)模語言數(shù)據(jù)的對比,個人在經(jīng)驗和靈感來源上都非常有限。將聚類分析法運用在其中,能夠更好地克服該局限的出現(xiàn)。
三、結(jié)束語
總而言之,在未來的發(fā)展中,對于大規(guī)模語言數(shù)據(jù)的進行依賴的程度會也來越大,在此基礎(chǔ)上的數(shù)據(jù)挖掘也逐漸增多。規(guī)模較大的語言數(shù)據(jù)在人工和肉眼下是不能被有效處理的。這時,聚類分析等多種數(shù)據(jù)挖掘的方法是人們重要的工具。外語研究人員要加強對包括聚類分析在內(nèi)的數(shù)據(jù)挖掘技術(shù)進行研究,保障研究與時俱進。
參考文獻:
[1]唐成成.聚類分析在高校課堂教學質(zhì)量評價中的應(yīng)用[D].重慶師范大學,2017.
[2]楊昱梅,李婧.聚類分析算法在大學生心理健康分析中的應(yīng)用研究[J].中國教育學刊,2015(S1):27-29.
[3]王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012,27(03):321-328.