陳凱敏 劉姣鳳
摘 要: 得益于語料庫工具在語言研究中的運用,在一定程度上阻止了方言的急劇衰落,方言最活躍的層面當屬詞匯,“圪”是晉語詞匯中構(gòu)詞能力很強的一個詞綴,其在晉語區(qū)里有極大的語言生活范圍。在“圪”綴詞分析中,引入語料庫研究機制,窮進性搜集用例,用分析代碼進行分詞和詞性標注、與方言詞典進行一一校對,總結(jié)出“圪”綴構(gòu)詞的位置極其形式意義。
關(guān)鍵詞: 晉語語料庫 “圪”詞綴 研究機制
一、語料庫研究中的詞匯學(xué)
在詞匯學(xué)研究中,引進語料庫理論,其重要性與實證數(shù)據(jù)的重要性緊密相連,研究語言變體的可能在很大程度上依賴于實證數(shù)據(jù)的運用,因為某些如方言之類的變體不能簡單地用純理性的方法分析。語料庫在詞匯研究的各個不同方面都起到了一定的作用,為詞典編撰、詞的搭配、變體中的詞義、詞的出現(xiàn)頻率統(tǒng)計和詞的形態(tài)變化規(guī)律等研究提供了科學(xué)的依據(jù)。由于語料的分類、標注和計算機檢索手段的發(fā)展使得詞句的量化分析更容易。
經(jīng)過中國現(xiàn)代漢語語言學(xué)界諸多學(xué)者努力,基于語料庫的詞匯各方面研究已經(jīng)取得豐碩成果。相對于現(xiàn)代漢語普通話,筆者認為,方言更具有歷史性,其各層面的研究更值得關(guān)注,比如晉語就有很多詞匯帶有古漢語的特色。另外,方言還具有深厚的文化內(nèi)涵和風(fēng)俗底蘊,對于研究當?shù)貧v史、人文、地理等都有重要的參考價值,這些文化價值更多地體現(xiàn)在詞匯演變上。
二、思路及其方法
本文會用到三種工具對“圪”綴詞匯及用例進行統(tǒng)計,具體是中國知網(wǎng)、北京大學(xué)中國語言學(xué)研究中心(以下簡稱CCL語料庫檢索系統(tǒng))和漢語鏈中的在線語料庫。首先從《山西方言調(diào)查研究報告》中的資料中提取出“圪”綴詞匯的生語料,以便與CCL語料庫檢索系統(tǒng)中的同類詞匯進行比對。接著窮盡性地從CCL檢索系統(tǒng)中檢索出所有的“圪”綴詞匯用例,再分離出具體詞匯。最后用在線語料庫軟件對這些用例進行詞性標注,得出經(jīng)過處理的成熟語料庫,然后用語言學(xué)的詞法分析原理對這些“圪”綴詞匯進行構(gòu)詞理據(jù)分析。
(一)兩種語料庫的簡介
1.CCL語料庫及其檢索系統(tǒng)主要包括現(xiàn)代漢語語料庫、古代漢語語料庫、漢英雙語語料庫三種檢索方式。語料庫中的中文文本是以漢字為基本單位的未經(jīng)分詞處理的語料。CCL支持復(fù)雜檢索表達式、對標點符號的查詢、在“結(jié)果集”中繼續(xù)檢索等多種檢索方式。關(guān)于查詢結(jié)果的顯示方式,用戶有多重選擇,本文選擇下載結(jié)果顯示為text文件。查詢表達式中可以使用的特殊符號包括8個:|、$、#、+、-、~、!、:(基本項、簡單項、復(fù)雜項和過濾項。)。因為本文無須用到這些符號和公式,所以這些符號具體含義此處不再詳述。
2.漢語鏈之在線語料庫(www.cncorpus.org)是教育部語言文字應(yīng)用研究所計算語言學(xué)研究時開發(fā)的一款軟件,集語料庫在線檢索、語料自動分析處理和在線資源下載于一身的方便快捷檢索系統(tǒng)。它的檢索項主要有現(xiàn)代漢語語料庫、古代漢語語料庫和語料庫字詞索引三項,分析處理項有分詞和詞性標注、漢語檢索窗口,選擇“普通查詢”,可以盡可能窮盡地搜索“圪”綴詞用例,保證研究語料的豐富性,從而增強研究結(jié)果的真實性和科學(xué)性。查詢結(jié)果顯示:共有“286”條結(jié)果。每一頁有50條,一共6頁。轉(zhuǎn)換成TXT文件,為以后詞性標注做準備,選例如下:
1:...種字體對照,總共有14.7萬多個字。石碑原在洛陽漢魏故城朱家[圪]培龍虎灘一帶,已毀。宋代以來常有殘石出土,共得字3047個,其...【文件名:\當代\CWAC\ALB0035.txt】
2:...物動詞和不及物動詞,作及物動詞用時是使動用法,如“要豁就豁石[圪]節(jié)的壩”?!疚募海墚敶軕?yīng)用文\議論文\語言學(xué)論文\076.txt】
3:【榆木[圪]垯】堅硬的榆樹根,喻思想頑固?!疚募海墚敶軕?yīng)用文\詞典\中國成語大辭典(條目).txt】
4:【[圪]蹴】(gē·jiu)<方>蹲:老飼養(yǎng)員~在門前石凳上聽廣播?!疚募海墚敶軕?yīng)用文\詞典\倒序現(xiàn)漢詞典.txt文章標題:現(xiàn)代漢語詞典】
(二)具體操作過程
第一步:在CCL語料庫及其檢索系統(tǒng)中選擇“現(xiàn)代漢語語料庫”檢拼音標注和字詞頻率統(tǒng)計三種處理方式。無疑給詞匯學(xué)研究提供了便捷,省去了人工手動標注的很多時間,是一款非常實用的語料分析處理軟件。在這里有必要提一下它的詞類標記代碼(本文詞匯的標注基于如下):
第二步:在漢語鏈之在線語料庫軟件中選擇“語料分析處理”項,文字內(nèi)容(最長100000字)框內(nèi)打開從CCL語料庫中下載的“圪”綴用詞實例的TXT文件,選擇“自動分詞&詞性標注”處理項,“處理結(jié)果”框里顯示如下:
第三步:具體參考《山西方言調(diào)查研究報告》的詞匯對照表,與“圪”綴TXT語料對比分析,再利用“現(xiàn)代漢語詞典”在線查詢系統(tǒng)與已經(jīng)標注過的用例中的“圪”綴詞匯進行詞性的校對,最后總結(jié)出晉語“圪”綴構(gòu)詞的規(guī)律和原則。
三、結(jié)語
以《山西方言調(diào)查研究報告》和《晉語詞匯》對照表為詞義標注的文獻基礎(chǔ),以CCL語料庫檢索系統(tǒng)和漢語鏈之在線語料庫為語料搜集的檢索工具,對“圪”綴詞匯用例進行現(xiàn)有語料庫的窮盡性的搜集并作分詞和詞性標注,從詞的最基本的構(gòu)建部件——語素入手,分析“圪”綴構(gòu)詞的形式和意義,為以后語言學(xué)者研究方言詞匯提供了構(gòu)詞分析的“熟語料”。本文把語料庫研究機制和方言詞匯詞綴分析相融合,證明是可行的。
參考文獻:
[1]陳瀟.語料庫、語料庫語言學(xué)及其應(yīng)用[J].佛山科學(xué)技術(shù)學(xué)院學(xué)報(社會科學(xué)版),2006(4):25.
[2]白云.晉語“圪”字研究[J].語文研究,2005(01):57-59.
[3]夏丹.基于標注語料庫的給予類動詞的“詞匯—句法語義”銜接研究[D].南京:南京師范大學(xué),2015:45.
[4]王曉培.詞基驅(qū)動的詞庫分層模式[D].天津:南開大學(xué),2015:13.
[5]侯精一,溫端政.山西方言調(diào)查研究報告[M].山西:山西高校聯(lián)合出版社,1993:126-133.
[6]http://ccl.pku.edu.cn:8080/ccl_corpus/.
[7]http://www.cncorpus.org/CpsParser.aspx.