国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語公式化序列長度和頻數關系的協同理論研究

2016-11-06 01:42:24戴雪婷梁怡洲瞿云華
浙江外國語學院學報 2016年6期
關鍵詞:公式化詞頻頻數

戴雪婷,梁怡洲,瞿云華

(浙江大學外國語言文化與國際交流學院,浙江杭州310058)

漢語公式化序列長度和頻數關系的協同理論研究

戴雪婷,梁怡洲,瞿云華

(浙江大學外國語言文化與國際交流學院,浙江杭州310058)

本研究采取語料庫驅動范式,探究漢語公式化序列長度和頻數的關系規(guī)律,旨在驗證協同理論構建于詞匯層面的理論和模型在公式化語言上的適用性。研究結果表明,漢語公式化多詞序列的長度對其使用頻數產生負影響,二者之間的關系規(guī)律可以進一步通過冪函數F=aLbe?cL描述。從長度—頻數關系出發(fā),研究結果拓寬了原有理論和模型的適用范圍,進一步探討了語言的共性;通過跨語域的對比研究,發(fā)掘了公式化語言的特性。

漢語公式化序列;長度;頻數;協同理論;語域

一、引言

Zipf于1935年首次提出“詞匯的長度和其使用頻數呈負相關”[1]25①的理論假設。這一設想開啟了語言學界對詞匯長度(詞長)和使用頻數(詞頻)關系的探討研究。半個多世紀以來,國內外語言學家通過對不同語種的考察,并以多種類型的語言單位來度量詞長,對Zipf的假設進行了廣泛的驗證和拓展。Zipf最早基于德語語料對詞長和詞頻的關系進行了簡單的闡釋,其他研究者則相繼基于英語(分別以字母和音素數量為詞長單位)[2]、拉丁語(以音節(jié)數為詞長單位)[3]、荷蘭語(以字母數為詞長單位)[3]、漢語(以漢字字數為詞長單位)[4]等語料對這一假說進行了反復驗證。

從建立假設到驗證拓展,以往研究對“長度”和“頻數”關系的探討大多建立在詞匯層面,也有研究者觀察到在多詞組合中同樣存在長度和頻數呈負相關的現象[5]②。然而到目前為止,多詞組合的長度—頻數關系研究僅僅停留在現象觀察的(observational)層面,尚未進行系統、深入的探究和解釋,也缺少充足的語料支撐。相關的漢語研究更是有待挖掘。

近三十年來,語言學界廣泛關注的語言公式化問題為我們進一步考察長度和頻數的關系提供了新的思路。本研究基于自建的浙江大學漢語語料庫,對漢語公式化序列的長度和使用頻數之間的關系進行計量分析,旨在驗證協同理論的動態(tài)機制在公式化語言上的適用性,以進一步發(fā)掘公式化語言的特性,探討語言共性。

二、研究背景

(一)公式化語言:基本特征和語料庫提取

正如Bolinger所言,語言的建構并不要求我們全部從原始的“幾塊木材,幾顆釘子和一張圖紙”[6]1開始;相反,它為我們提供了大量的“預制件”。公式化語言(formulaic language)正是語言建構中的“預制件”,它在日常語言使用中占據了較高的比重。Wray將公式化語言定義為預制的序列 (prefab?ricated sequences of words),這類序列往往“作為整體儲存在記憶中,并在使用時作為整體取出,不需要經過語法的生成和分析”[7]9(例如 the end of the,in terms of,by and large,goods and service)。 因此,處理優(yōu)勢是公式化語言的一個重要特征:通過使用這些預制的序列,可以壓縮語言處理的時間,節(jié)約精力,符合語言使用的經濟原則。從這一角度看,單個的公式化語言即公式化序列(formulaic sequences)與單個詞匯具有高度的相似性。除此之外,Wray&Perkins指出,公式化語言還具有語篇標記(discourse marker)的功能,能夠促進不同語境下的語言交際[8]。

根據公式化語言的定義和特征,語言學家建立了一套可操作的鑒別和提取標準,其中較常用、相對可靠的方法是根據其高頻特征(recurrent),基于頻數標準(raw frequency)進行語料庫驅動式抽取。基于不同語料和不同研究目的,研究者[5,7,9]使用的抽取標準也不盡相同,在一定程度上不可避免地存在任意性。因此不少研究者在鑒別時還使用了其他標準,用以彌補頻數抽取的不足。如Biber設立抽取lexical bundle的標準為每百萬詞出現十次及以上[9],他還提出:“為了消除語料中說話人/作者的個人語言特質影響,公式化語言必須在多個(≥5)文本中出現?!保?]282除了機器提取以外,不少研究者采用了母語使用者人工判斷篩選的方法。例如Wray&Namba制定了包含十一項標準的語言公式化的人工判斷量表 (checklists)[10]。

語料庫驅動的公式化語言研究在獲取語料時,不需要預設完整的語言單位和理論假設,通常只將長度和頻數量級設定為條件,以充分發(fā)掘語料,盡可能地窮盡不同類別的公式化語言。這類研究往往將“長度”和“頻數”視為鑒別和提取公式化語言的標準,而對于二者之間的關系則鮮有涉及。

(二)協同理論與長度—頻數關系研究

Zipf對語言使用中詞長和詞頻呈負相關的觀察啟發(fā)了大量后繼研究。除了多語種、多種語言單位的橫向驗證和拓展以外,研究者們還對二者之間關系的統計規(guī)律進行了深入的描述。其中,以K?hler為代表的協同語言學家構建了較為完善的框架和模型,用以描述和解釋詞長—詞頻關系。

K?hler指出,協同方法(synergetic approach)以跨學科視閾,采用模型構建的方法描述和解釋所有動態(tài)系統,關注結構的自發(fā)調整和發(fā)展變化過程。協同語言學主張,語言既是心理社會(psycho?social)現象,同時也是生物認知(biological?cognitive)現象。語言被視為一個龐大的動態(tài)系統,各個子系統之間相互協作、相互競爭,融合來自生物機體、心理社會等外部作用,共同構成了語言體系的運作機制[11]761。交際活動中呈現的各種語言現象、語言結構和語言各個屬性之間的協作關系,都是語言體系運作機制的反映,也是協同語言學的主要關注對象。

“語言的運作機制并非雜亂無章,而是有規(guī)律可循的。”[4]30協同語言學的核心目的在于:以演繹的方式對語言運作機制提出普遍性的理論假設,運用數學計量方法對其運作規(guī)律進行宏觀性的總結、建模和解釋。通過驗證理論假設和模型測試,揭示語言系統運作和發(fā)展的規(guī)律,并以數學定律的形式呈現,逐漸形成并完善語言理論的網絡體系[11]761。

K?hler以德語為語料,構建了首個針對詞匯的協同語言學模型,描述了四個詞匯屬性“詞長(length)”“詞頻(frequency)”“多義性(polysemy)”以及“多文度(polytextuality)”之間的協同關系[11]768。圖1為簡化的K?hler詞匯控制回路模型(lexical control circuit):箭頭代表影響作用及作用方向;加減號分別代表正、負影響。如圖1所示,詞頻對詞長產生直接性負影響,受語言系統運作中生成負擔最小化(Minimization of production effort,即MinP)要求的支配,與Zipf提出的省力原則(principle of least effort)相符。

圖1 K?hler詞匯控制回路模型(簡化)[11]768

K?hler進一步將詞長和詞頻的關系表示為微分方程:變量x的相對變率與變量y成比例。

這一公式可以轉化為冪函數F=aLb(b<0;a,b為參數)。 在該公式中,L(length)的取值為同一詞長范圍內所有頻數量級F(frequency)的平均數值。

K?hler建立的詞長和詞頻關系模型和冪函數公式為二者之間的關系規(guī)律研究提供了新的分析方向。其后,不少研究者就K?hler提出的模型進行了驗證和補充:Strausset al.[3]基于10種語言和多種語篇類型,證實了詞長和詞頻的協同規(guī)律在自然語言中的普遍性,并就函數模型中的參數變化規(guī)律進行了分析;鄧&馮[4]將該模型引入漢語詞匯中進行了驗證,同樣分析了函數模型中的參數變化規(guī)律;Altman 提出的 F=aLbe?cL(a,b,c 為參數,e 為自然常數) 函數被證實具有相當高的擬合效度[12]。

迄今為止,研究者對長度—頻數的協同關系規(guī)律已經進行了多語種、多語篇、多維度的分析。但相關研究均停留在詞匯層面,尚未拓展到其他語言單位。詞匯的協同規(guī)律是否同樣適用于多詞序列?這是本研究所要探討的重點:通過不同語言單位的驗證,進一步揭示語言規(guī)律的共性。

為了探討以上問題,本研究先對漢語公式化序列作出界定,界定標準基于Wray(2002,2003)[7,10]對英文序列特征的定義及公式化判斷量表,結合漢語語法特征,內容包括:1)使用頻數高;2)語義不透明,在感知上并不突出;3)語法結構特殊,甚至有不規(guī)則現象;4)在語音上具有連續(xù)性;5)包含虛詞和實詞;6)較短的序列可以并入較長的序列;7)呈現固化和半固化性。具體地說,主要為:

1)與英語公式化序列定義相似,漢語公式化序列是指在日常漢語使用中經常出現的,由多個詞構成、具有整存整取預制特征的連續(xù)序列。漢語公式化序列同樣包括搭配、慣用語、成語、習語等固定或半固定的詞語序列。

2)但漢語公式化序列在構成單位上與英語有所區(qū)別:英語公式化序列由單個詞匯構成,序列長度通常以單詞為劃分單位,例如“on the other hand”為四詞序列。漢語公式化序列則以結合緊密、使用穩(wěn)定的漢語詞匯為最小單位,例如序列“我 不知道”和“你 告訴 我”由三個詞匯構成,為三詞序列;“我跟你說”“我想問一下”為四詞序列。

另外,漢語公式化序列傾向于代指單個的、可數的序列,漢語公式化語言是將此類序列視為整體的總稱。本文為語料庫實證研究,側重序列的長度和頻數研究,因而采用漢語公式化序列這一名稱。

基于以上觀察,結合對公式化序列特征的考察,本研究提出假設:協同理論關于詞長和詞頻的理論假設和數學模型可能同樣適用于漢語公式化序列。為驗證該假設,本研究基于大量漢語公式化序列數據,運用計量方法揭示其長度和頻數之間的協同關系,并探討公式化語言和協同規(guī)律在不同語體(書面語/口語)下的特征。

三、研究方法

(一)數據來源

本研究數據來自于自建的浙江大學漢語語料庫(Zhejiang University Corpus of Spoken and Written Mandarin Chinese,簡稱ZCMC)。ZCMC共計100萬詞,均為漢語普通話,取自2000到2014年間的正式出版物或公開發(fā)表內容。口語、書面語各50萬詞,包括新聞、社論、學術文章、政府文件、小說、電視節(jié)目、法庭辯論等多種語體。語言取樣時效性強,類型廣泛,能夠充分反映當代漢語口語和書面語使用的語言特征。

(二)數據收集及處理

本研究以3—6詞的連續(xù)性漢語公式化序列為對象,研究數據包括:1)序列長度;2)相應長度等級序列的頻數數據。序列長度以所包含的漢語詞匯數目來衡量,例如詞條“我不知道”,包含了“我”“不”“知道”三個語法上獨立完整的詞,因此被界定為三詞序列。頻數為該長度序列在語料庫中出現的次數,以語料庫中該長度等級下所有序列的平均頻數為準。

序列的抽取采用Antconc3.2.4軟件中的n?gram功能,基于頻數(50萬詞語料庫中出現5次及以上)和文本分布(跨越5個及以上文本)標準進行自動抽取。再根據界定標準請多位母語使用者對抽取結果進行人工篩選核對,主要刪去不符合要求的人名、地名、專業(yè)術語等,以確保處理結果的準確性。

本研究以長度(L)為自變量,頻數(F)為因變量,運用SPSS16.0對二者關系進行回歸分析、冪函數F=aLb(b<0)及F=aLbe-cL擬合度檢驗,以驗證公式化多詞序列長度和頻數關系的假設。

四、研究結果

(一)漢語公式化序列長度對使用頻數的影響

口語和書面語料中,漢語公式化序列長度和頻數數據以及公式擬合結果如表1所列:

表1 序列長度和頻數關系

表1中的數據統計結果顯示,口語和書面語料中,長度較短的三、四詞序列的總數量要遠遠高于五、六詞的總數量。且隨著序列長度增加,其使用頻數呈現明顯的下降趨勢,在口語和書面語料中均有體現。書面語料庫中,隨著序列長度的增加,其平均使用頻數從9.18下降到5.5;這一趨勢在口語語料中則更加明顯:從平均11.5次下降到僅出現1次。由此,研究假設得到證實,漢語公式化序列長度對其頻數產生負影響,即長度越長,使用頻數越低。

鄧&馮[4]選取了1—4詞的漢語詞匯,對詞長和詞頻關系進行了統計,同樣發(fā)現了明顯的負相關趨勢(見圖2中的詞匯曲線)。將本研究所得的公式化序列曲線(見圖2中的公式化序列曲線)與詞匯曲線進行對比可以發(fā)現,隨著長度的增加,序列使用頻數變化的幅度要遠遠小于詞匯。換言之,公式化序列的長度對其使用頻數影響的顯著性要小于詞匯長度對詞頻的影響。其原因在于公式化語言不同于單個詞匯的特征,具體留待討論部分中再作詳細解釋。

圖2 詞匯/公式化序列長度—頻數關系曲線對比(書面語/口語)

通過觀察以上關系曲線發(fā)現,隨著序列長度增加,其使用頻數呈現非線性模式遞減。因此,我們在序列頻數統計的基礎上,對長度和頻數關系進行了回歸分析,檢驗冪函數模型,與頻數的觀測值進行對比。

(二)長度和頻數關系的數學模型擬合

圖3和圖4呈現了觀測值(由點陣表示)和理論值曲線的擬合情況。總體來看,兩個函數模型大致上符合觀測值的變化趨勢。其中,F=aLbe-cL函數提供的理論值更加接近觀測數據。

圖3 頻數觀測值(一)和理論值(口語/書面語) F=aLb(b<0)

圖4 頻數觀測值(二)和理論值(口語/書面語)F=aLbe-cL

由圖3、圖4和表1可知,冪函數F=aLb(b<0)和F=aLbe-cL在口語和書面語料庫中的擬合效度相對都很高,且后者高于前者。這說明在口語和書面語中,冪函數F=aLbe-cL能更好地描述序列長度和頻數的關系規(guī)律。其中,書面語中的擬合效度稍微高于口語語料。除此之外,就當前容量為100萬詞的漢語語料而言,冪函數 F= 4.6L6.32e-2.02L和 F= 7.32L5.01e-1.72L能夠分別準確地預測口語和書面語中3—6詞序列的使用頻數。

(三)語域視角下的公式化序列

以跨語域的視角重新審視以上數據,我們能夠發(fā)掘更多公式化語言的特征。公式化序列在漢語口語和書面語中均得到了高頻率的使用,但在具體的數據統計上呈現了明顯的差別。這些差別可以進一步追溯到不同語境特征和交際目的。

口語和書面語在語境上的區(qū)別使其對該語境下語言的使用產生不同的要求,主要體現在交際性(interactivity)以及交際模式(physical mode)兩個方面[13]。書面語境中,語言使用者有相對充足的時間進行規(guī)劃和修改;而口語語境則是即時和即興的,說話人需要承受更大的語言處理壓力,因而會傾向于訴諸更快、更為省力的途徑?!罢嬲?、無需語法生產分析”的公式化語言便是這樣一條節(jié)省語言處理精力的捷徑。如表1數據所示,口語語料庫中抽取的公式化序列數量遠遠多于書面語料庫,并且前者各個長度等級下的序列使用頻數均高于后者。通過大量使用公式化語言,可以使說話人在言語交際中節(jié)省消耗。這既是口語語境的要求,也是語言經濟原則的體現。

就交際目的而言,在書面語境中,書寫人的首要目的在于“傳達新信息”,而說話人在口語語境中更傾向于以“交際”為目的,與聽話人建立關系[13]109。Wray&Perkins指出,公式化語言除了語言加工優(yōu)勢以外,還可以起到凸顯說話人目的、掌控對話的交際功能,以滿足口語交際的要求[8]17?18。因此,公式化語言在口語語境中的使用頻率更高。

五、討論與總結

本文以協同理論為框架,采用數學計量方法,分析了漢語公式化多詞序列長度對使用頻數的影響規(guī)律。研究結果顯示,漢語公式化多詞序列的長度對其使用產生負影響,即序列越長,其使用頻數越低。二者存在依存關系,并且可以進一步通過冪函數公式F=aLbe-cL準確描述。這一結果與K?hler等協同語言學家對于詞長和詞頻關系的設想相同,也再次印證了語言機制運作中生成負擔最小化(MinP)的系統要求。

這一結果不是對協同理論和模型的簡單重復論證,研究表明長度和頻數的協同關系不僅僅適用于詞匯,還可以進一步拓展到多詞序列的層面。這拓寬了原有理論模型的適用范圍,揭示了語言規(guī)律的普遍性。

另外,本研究在探討長度和頻數關系規(guī)律的基礎上,對漢語公式化語言自身的特征進行了考察?;诠交蛄小罢嬲 ?,與單個詞匯高度相似的特征,我們提出了研究設想:構建于詞匯層面的詞長—詞頻協同關系規(guī)律同樣適用于公式化序列。研究結果顯然證實了這一假設,從詞長—詞頻關系的角度驗證了公式化語言的“預制性”和“整體性”特征。

然而我們也發(fā)現,漢語公式化序列的長度—頻數關系規(guī)律與漢語詞匯有所不同??傮w而言,序列的長度對其使用頻數的影響顯著性要低于詞匯。鄧&馮的研究結果揭示了語言經濟原則在漢語詞長和詞頻關系規(guī)律上的體現:詞長一定程度代表了語言單位的復雜性,人類的惰性和大腦信息處理能力的有限性導致語言使用者在滿足交際目的的前提下,傾向于選擇短小簡單的詞匯來表達特定意義[4]37。然而,就公式化序列而言,首先,其本身就具有節(jié)省語言加工處理的優(yōu)勢。隨著長度的累加,公式化序列并未產生明顯的復雜性,因而長度對使用頻數的影響也較小。其次,與意義完整的單個詞匯不同,大部分公式化序列在結構和意義上具有不完整性,加之漢語在拆分組合上的高度靈活性,長度較短的序列可以任意地延伸拓展為長序列(如:就是說—也就是說,多的是—更多的是),序列長度增加的同時也是信息的疊加和補充。因此在語言交際和信息傳遞的要求下,語言使用者對序列長度的敏感性有所降低。

書面語和口語兩個維度的對比分析揭示了口語語境下語言使用者對公式化語言的偏好。這一現象是由語境特征和公式化語言的特性共同決定的。另外,我們發(fā)現冪函數公式F=aLbe-cL對書面語料的擬合效度要稍高于口語語料。參數估計結果顯示,參數a、b在不同的語體中有所區(qū)別。針對模型參數,有待于引入更多語體類別進一步研究其變化規(guī)律。

本研究充分體現和證實了協同語言學的核心思想:語言運作于一個“自調節(jié)、自組織”的動態(tài)系統。我們所觀察到的語言現象和語言特征均可以通過數學模型來描述、解釋甚至預測,以提取語言共性,形成嚴密的語言理論系統。本研究沿用了協同理論的詞匯模型,得出其在漢語公式化序列上良好的擬合效度。為進一步精確描述公式化序列的長度—頻數關系規(guī)律,后續(xù)研究可以基于更多的語料和語種數據進行拓展和補充,也可考慮結合開放性測試,構建更符合公式化語言的數學模型。

注釋:

①“That the magnitude of words tends,on the whole,to stand in an inverse (not necessarily proportionate) relationship to the number of occurrences.” Zipf[1]25.

②DeCock等(1998)從英語語料庫中抽取高頻詞組時發(fā)現:詞組越長,使用頻率越低。Hyland(2008)觀察到了類似的現象:當學術寫作中的序列擴展到五詞及以上時,其使用頻數大幅下降。

[1]Zipf G K.The Psycho?Biology of Language:An Introduction to Dynamic Philology[M].New York:Houghton Mifflin,1935.

[2]Miller G A,Newman E B,Friedman E A.Length?frequency statistics for written English[J].Information and Control,1958,1:370?389.

[3]Strauss U,Grzybek P,Altmann G.Word length and word frequency[C] //Grzybek (ed.).Contributions to the Science of Text and Language:Word Length Studies and Related Issues.Dordrecht:Springer,2007:277?294.

[4]鄧耀臣,馮志偉.詞匯長度與詞匯頻數關系的計量語言學研究[J].外國語,2013,36(3):29?39.

[5]DeCock S,Granger S,Leech G,et al.An automated approach to the phrasicon of EFL learners[C] //Granger S(ed.).Learner English on Computer.London & New York:Addison Wesley Longman,1998:67?69.

[6]Bolinger D.Meaning and memory[J].Forum Linguisticum,1979,11:1?14.

[7]Wray A.Formulaic Language and the Lexicon[M].Cambridge:Camberige University Press,2002.

[8]Wray A,Perkins M R.The functions of formulaic language:an integrated model[J].Language & Communication,2000,20:1?28.

[9]Biber D.A corpus?driven approach to formulaic language in English:Multi?word patterns in speech and writing[J].Interna?tional Journal of Corpus Linguistics,2009,14(3):275?311.

[10]Wray A,Namba K.Use of formulaic language by a Japanese?English bilingual child:A practical approach to data analysis[J].Japan Journal of Multilingualism & Multiculturalism,2003,9:29?32.

[11]K?hler R.Synergetic linguisrics[C] //K?hler R,Altmann G,Piotrowski G (eds.).Quantitative Linguistics.Berlin/New York:Walter de Gruyter,2005:760?774.

[12]Altmann G.Prolegomena to Menzerath’s law[J].Glottometrika,1980,2:1?10.

[13]Biber D,Conrad S.Register,Genre and Style[M].Cambridge:Cambridge University Press,2009.

A Synergetic Approach to the Relationship between the Length and Frequency of Chinese Formulaic Sequences

DAI Xueting,LIANG Yizhou,QU Yunhua
(School of International Studies,Zhejiang University,Hangzhou 310058,China)

The present paper adopts a corpus?driven approach to explore the relationship between length and frequency among Chinese lexical bundles,in an attempt to test whether the synergetic model/formula constructed at the lexical level can extend its applicability to multi?word formulaic sequences.The results in?dicate that the length of Chinese lexical bundles exerts a negative influence on its frequency of occurrence.Power function F=aLbe-cLcan adequately describe this regularity.Based on the length?frequency relationship,this research shall prove universal language rules by testing and extending the scope of synergetic theory.It will also identify the characteristics of formulaic language through register analysis.

Chinese lexical bundles;length;frequency;synergetic linguistics;register

H030

A

2095-2074(2016)06-0024-08

2016-05-12

戴雪婷(1993-),女,浙江臺州人,浙江大學外國語言文化與國際交流學院碩士研究生;梁怡洲(1992-),女,浙江臺州人,浙江大學外國語言文化與國際交流學院本科生;瞿云華(1961-),女,浙江杭州人,浙江大學外國語言文化與國際交流學院教授,博士生導師。

猜你喜歡
公式化詞頻頻數
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
角色的千人百面,演員的殊途同歸
英語議論文限時寫作教學啟示:TAECH公式化寫作法
求知導刊(2017年36期)2018-03-27 08:58:39
中考頻數分布直方圖題型展示
學習制作頻數分布直方圖三部曲
頻數和頻率
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
淺談素描基礎教學
盜汗病治療藥物性味歸經頻數分析
河东区| 沈丘县| 桃园市| 保亭| 福泉市| 兴义市| 灵石县| 余庆县| 黎城县| 琼海市| 额敏县| 东台市| 峡江县| 东莞市| 中宁县| 临猗县| 阿拉善盟| 宁阳县| 浏阳市| 锡林浩特市| 新化县| 都昌县| 庆元县| 疏附县| 纳雍县| 广安市| 绍兴县| 罗甸县| 阳高县| 会宁县| 滨州市| 碌曲县| 宁安市| 林州市| 仪陇县| 乌恰县| 广河县| 庄浪县| 临夏市| 贞丰县| 长宁县|