全玉珍, 李靜峰
(廣西大學 文學院,廣西 南寧 530004)
北語HSK動態(tài)作文語料庫的漢語作文口語化程度檢測
——基于《現(xiàn)代漢語詞典》口語詞統(tǒng)計
全玉珍, 李靜峰
(廣西大學 文學院,廣西 南寧 530004)
馮勝利先生2008年3月在《語言科學》發(fā)表了《漢語書面語體莊雅度的自動測量》一文,提出了漢語書面語體莊雅度測量的可行性方案,但在對外漢語領域所測量出的結果是否依然成立呢?文章在對外漢語領域中提出論證該測量結果是否科學有效的方法,即通過對留學作文口語化程度的檢測來反向論證馮勝利先生的漢語書面語莊雅度測量的結果。主要方法為通過計算留學生作文中的口語詞數(shù)量占作文總詞數(shù)的比例來推斷留學生的實際漢語寫作能力,最終來從一個新的角度印證馮勝利先生的《漢語書面語體莊雅度的自動檢測》的正確性。
口語詞;口語化;莊雅度
馮勝利先生在其《漢語書面語體莊雅度的自動測量》一文中指出:“莊雅成分不僅可以表現(xiàn)文章的莊雅度,而且比較準確地反映出作文水平的高低等差?!盵1]同時,馮先生也指出,“當然,還有哪些形式可以作為鑒定莊雅特征的補充成分,仍在進一步的研究中”;“我們面臨的最終問題是,計算出來的莊雅度究竟有多大程度的可靠性”。對于這套檢測系統(tǒng),筆者也認為還有可以補充完善的地方。當我們在著眼于書面語詞匯和句型的時候,是否可以反過來思考,即檢測出文章的口語化程度,來作為莊雅度檢測結果的一個補充和印證。文章的口語化程度越高,則莊雅度越低,反映出作文水平越低;文章的口語化程度越低,則莊雅度越高,反映出作文水平越高。然而,檢測文章的口語化程度是否具有可行性呢?參照馮先生的論文,“我們將嵌偶詞、合偶詞及書面語句型作為體現(xiàn)現(xiàn)代漢語書面正式語體莊雅特征的主要語言成分,這些不同的莊雅特征不僅有理論的根據(jù),同時也有數(shù)量極限(亦即有可窮盡性)。”在這話中,我們了解到,要具有可測量性,至少要滿足兩點:(1)有理論依據(jù),(2)有數(shù)量極限。測量口語化程度的理論依據(jù)為:我們可以提取出文章中的口語詞,計算出口語詞占文章詞匯總數(shù)的百分比,比率越高莊雅度越低,漢語作文水平越低。至于第二點,通過我們對《現(xiàn)代漢語》(第6版)中有標記和無標記的但又確實是口語詞的詞進行的統(tǒng)計,現(xiàn)代漢語中口語詞的數(shù)量是有數(shù)量極限的。因此,從這個角度思考,我們統(tǒng)計口語詞來反方向印證書面語體莊雅度的設想是具有可行性的。
漢語口語作為一種非正式語體,是人們日常口頭交談時使用的語言,是最早被人類普遍應用的語言形式,所有的民族都有口語??谡Z通常是通過聲音傳播的。根據(jù)需要,文學作品中也常以文字記敘口語??谡Z靈活多變,多因場合與發(fā)言者不同而被自由使用。因為發(fā)言者與聽者同在現(xiàn)場,有時這種發(fā)揮不但不影響聽者理解,反而能更生動地體現(xiàn)發(fā)言者心態(tài),或使語言簡潔化。與口語相對,書面語是在口語的基礎上發(fā)展出來的,用于書面表達的語言??谡Z成為書面語言后則比較固定,語法更嚴謹,有利于準確地流傳。“經(jīng)過一段時間后口語和書面語差別就有加劇的趨向,原因是口語不斷隨時間與地方而變化,而書面語相對穩(wěn)定?!盵2]經(jīng)過教育的人會從書面語學習中采納嚴謹?shù)恼Z法用于口語,而書面語經(jīng)過一段時間后也需要改變以適應口語的變化,否則懂書面語的人會越來越少。
因此,可以歸納出,口語的特征為:(1)同步性。即外部語言表達與內部思維是同步進行的,口語只是將思維外化了。(2)簡散性。即常使用的是一些散句、短句,有時可使用體態(tài)語表達結構松散。(3)暫留性??谡Z是通過聲音傳播的,而聲音是瞬間即逝的。(4)臨場性。時空是特定的,說話必須符合時間和空間并受其制約,比如講課,不同于演講、也不同于講故事,要受到這個時空約束。(5)綜合性。系統(tǒng)的綜合,說話時語言、聲調、態(tài)勢語要綜合考慮,系統(tǒng)的綜合要求在說話時要調動各部分的積極性來完成說話內容,且各部分、各系統(tǒng)要有整體感、協(xié)調感。
面對口語的這些特征,要打算測量留學生中對口語詞的使用情況,就要首先弄清楚,書面語是如何口語化的。書面語口語化有三個主要途徑:
(1)書面語中的單音節(jié)詞在口語里要變成雙音節(jié)。比如,書面語“此時”,口語表達就要用“這個時候”。
(2)文言詞變白話詞。就是說,第一要把單音詞變多音詞,第二要把文言變白話,例如書面語“良久”,口語就只能說“很久”。
其中,(1)(2)這兩個途徑與馮勝利先生《漢語書面語體莊雅度的自動測量》(2008)一文2.1部分韻律語法體中介紹的漢語韻律體系i)相呼應,“韻律語法:如果該語言的計算系統(tǒng)(Computational System)必須在韻律規(guī)定的條件下才能合法運作的話,那么這種語言的語法就是韻律語法,亦即韻律制約下的構詞造句法。單音節(jié)不足構成一個音步因此不成韻律詞,故古語必雙而后獨立(如‘果知’)”。
(3)書面語停頓靠標點符號,口語靠情感的處理、靠語氣的變化。“把書面語的停頓變成口語的停頓,要靠詞于詞、句子與句子的間歇時間來表現(xiàn),而且遠遠多于書面語的停頓時間?!盵3]這途徑與馮勝利先生《漢語書面語體莊雅度的自動測量》(2008)一文2.1部分韻律語法體中介紹的漢語韻律體系 iii)相呼應。即“文章的內容越莊雅,韻律詞的要求就越嚴格”。
《現(xiàn)代漢語詞典》比較全面地總結了漢語詞匯,其中必然包括書面語和口語的詞條。為了下一步有效地進行留學生漢語作文中口語詞的計算和測量工作,專門對《現(xiàn)代漢語詞典》中的所有詞條進行了篩選,嚴格按照標準挑選出了六類口語詞,它們分別是:(1)標口詞。即《現(xiàn)代漢語詞典》中明確標注出為口語詞的詞,共計947例。(2)未標口詞。即《現(xiàn)代漢語詞典》中未進行口語標注,但在實際的語感中,被認為是口語詞的詞,共計1816條。(3)輕聲詞。明確標注為輕聲的詞,共計1893條。(4)兒化詞。明確標注為兒化的詞,共計1923條。(5)語氣詞嘆詞擬聲詞等。明確標注為語氣詞、嘆詞、擬聲詞的詞,共計 263條。(6)方言詞。明確標注為方言詞的詞,共計1830條。
留學生在進行漢語作文寫作的過程中會有意無意地使用漢語口語詞,“統(tǒng)計作文中的口語詞可以在一定程度上反映出留學生的漢語水平及書面語寫作能力”[4]。對于這一部分的統(tǒng)計分析,采用的方案是在北京語言大學HSK動態(tài)作文語料庫[5]中按照留學生的作文成績進行分級檢索,分別分為60-69分、70-79分、80-89分、90-100分這四個分類,每個分類取樣50條,共計留學生作文200篇。在不同的分類中篩查出留學生作文中所使用的《現(xiàn)代漢語詞典》中挑選出的口語詞的數(shù)量。我們采用公式“口語詞比率=口語詞出現(xiàn)數(shù)/作文總詞數(shù)”[6]來計算留學生作文的口語詞使用比率。在不同的等級分類中,口語詞的出現(xiàn)情況分別如下:
(一)90-100分檔
這一檔的留學生母語背景為:加拿大、美國、菲律賓、日本、越南、韓國、印度尼西亞、泰國、英國、法國和俄羅斯。
50篇留學生作文中,出現(xiàn)的口語詞為以下統(tǒng)計數(shù)據(jù):
老師、孩子、早上、什么、女孩子、香香的、差不多、這個、孩子、慢慢、時候、小孩、老師、老師、孩子、什么、一點、巴士、差不多、沒錯、孩子、老師、明白、藝人、早上、短短的、滿、什么、打發(fā)、開心、不錯、也好、也罷、早上、老師、東西、吃、打算、倒霉、同屋、耳旁風、漂亮孩子、老師、媽媽、媽媽、什么、慢慢、京腔、差不多、光、一下、一陣子、那么、抽煙、孩子、老師、爸爸、媽媽、特好、得了、什么、就算、說不定、爸爸、時候、孩子、老師、覺得、早點兒、玩意兒、老掉牙的、本來嘛、好聽、什么、打算、時候、小小的、東西、時候、不得了、小孩子、隨隨便便、真的、不見得、沒問題的、一來是、二來是、好玩的、怎么、多少、孩子、什么、覺得、院子、小孩、時候、不錯、咱、聊天、摸不著頭腦、什么、實在、時候、不錯、喜歡、開心、日子、夠、痛痛快快、哥哥、多么、外婆、屋里、聊天、什么、爸爸、媽媽、爺爺、姨婆、怎么、給嚇壞了、趕緊、小花臉、時候、孩子、叫、聽話、當中、真是、喜歡、多么、那么、歌兒、時候、反正、不太、喜歡、倒、什么、孩子、怎么樣、框框、爸爸、媽媽、娘、爺、孩子、見不得人、好冷、片子、孩子、一塊兒、聊天兒、心眼里、有點兒、是在、多么、不錯。
該分數(shù)段的留學生作文詞數(shù),最少為201詞,最多為414詞,口語詞出現(xiàn)比率最低為0,最高為印度尼西亞90分作文出現(xiàn)了12個口語詞,占總次數(shù)311的比率為0.03858。單篇作文中,出現(xiàn)最少的口語詞數(shù)量為0,最多為12詞,其中,0口語詞的學生9個,分數(shù)為95分6人,90分3人??梢钥闯?,此分數(shù)段的學生口語詞數(shù)出現(xiàn)為0個時,95分的人數(shù)遠遠大于90分人數(shù)。這在一定程度上印證了假設:口語化程度越低,書面化程度越高,留學生漢語能力越強。
(二)80-89分檔
這一檔的留學生母語背景為:美國、俄羅斯、新加坡、韓國、馬來西亞、日本、泰國、加拿大、印度尼西亞、緬甸、越南、瑞士、突尼斯、塔吉克斯坦。
50篇留學生作文中,出現(xiàn)的口語詞為以下統(tǒng)計數(shù)據(jù):
東西、孩子、孩子、東西、煙味兒、抽煙、覺得、假如、吃飽、胡亂、爸、媽、擔心、操心、孩兒、舒服,忽略、惱人的、硬把、搞綠化、紕漏、主見、冤大頭、怪誰、吐吐氣、這兒、挑水、懂了、中國話、別人、做飯、主意、孩子、老師、事情、喜歡、身邊、變、一般、感興趣、什么、想法、好聽、說說話、多么好啊、不懂、一團、好處、新鮮感、一團、好處、做不出來、一路來、不再、一對對、變成、一起、死了、女孩子、一些、小事、一起、讀書人、多半、對的、一生下來、還小、一般、別人、孩子、了不起、談談心、上次、說過我、小朋友、說一下、這一點、看法、太早、升上、謝謝、感覺到、圖、了不起、大家、好學、老師、怕怕、沒有意思、逃學、有意思、別人、李老太、孩子、抱怨、擔心、一點、挨餓、那些、天天、辦法、哪兒、不好的、害自己、抽煙、不抽、快活、扎到、媽媽、爸爸、老師、孩子、做人、對的、做生意、不景氣、逃跑、大聲、順眼、擔心、得、喜歡、感興趣、心情不好、挺不錯、怪不得、不懂、想象不出來、聽到、散散心、分寸、好吃、孩子、回來、算是窮、孩子、小時候、孩子、一起、壞事、不然的話、各演各的、孩子、不應該的、如果要、還得了、實在、抽煙、也好、發(fā)達起來、來抽、抽煙、壞處、比如、壞的。
該分數(shù)段的留學生作文詞數(shù),最少為192詞,最多為422詞。口語詞出現(xiàn)比率最低為0,最高為韓國85分作文出現(xiàn)了8個口語詞,占總次數(shù)283的比率為0.02826。單篇作文中,出現(xiàn)最少的口語詞數(shù)量為0,最多為越南80分作文出現(xiàn)了8個口語詞,其中,0口語詞的學生4個,分數(shù)為85分3人,80分1人。同樣的,這在一定程度上印證了假設,口語化程度越低,書面化程度越高,留學生漢語能力越強。
(三)70-79分檔
這一檔的留學生母語背景為:美國、加拿大、韓國、英國、印度尼西亞、泰國、蒙古國、菲律賓、新加坡。
50篇留學生作文中,出現(xiàn)的口語詞為以下統(tǒng)計數(shù)據(jù):
老師、孩子、那兒、小孩子、多么、小大人、小男孩、小女孩、老師、小孩子、嘴巴、腳、畫畫、外婆、爸爸、媽媽、老師、孩子、老師、孩子、跟、覺得、看不起、老師、孩子、爸爸、什么、東西、好好、什么、開開心心、喜歡、壞處、相當、喜歡、開心、一些、什么、孩子、老師、嗓子、出名、早上、功課、這么、小年青人、小青年、外甥女、奶奶、跟著、開心、喜歡、哥哥、妹妹、搖頭晃腦、學壞、喜歡、喜愛、一點兒、光、喜歡、小孩、什么、喜歡、差不多、七點半、媽媽、爸爸、喜歡、紅、有點、好的、壞的、小孩、喜歡、臉蛋、怎么、味兒、嘴巴、講一講、喜歡、高興、壞話、好的、壞的、那種、討厭、平時、一下、有時候、喜歡、光碟、聽一聽、唱一唱、開心。
該分數(shù)段的留學生作文詞數(shù),最少為167詞,最多為367詞??谡Z詞出現(xiàn)比率最低為0,最高為美國70分作文出現(xiàn)了8個口語詞,占總次數(shù)226的比率為0.03539。單篇作文中,出現(xiàn)最少的口語詞數(shù)量為0,最多出現(xiàn)了8個口語詞共有3篇,為70分兩篇,75分一篇。至少這個數(shù)據(jù)證明,留學生作文中口語詞越多,口語化程度越高,書面化程度越低,漢語能力越低。
(四)60-69分檔
這一檔的留學生母語背景為:澳門地區(qū)、英國、瑞士、澳大利亞、印度尼西亞、泰國、蒙古國、西班牙。
50篇留學生作文中,出現(xiàn)的口語詞為以下統(tǒng)計數(shù)據(jù):
本來、對的、有用、才能、喜歡、誰都能、十分、到底、甚至、容易、平常、長處、意思、恐怕、盡量、從、一直、總是、幾乎、還是、簡直、而且、難聽、生氣、才會、不可能、習慣、吃了、聽聽、當成、還小、好好、從小、也是、真的、總是、總覺得、好聽、等等、很亂、才會、只要、一些、就像、除了、不但、吃香、個個、但是、而且、自從、多半、感到、即使、凡是、哼哼、還算、一般、驚呆、不管、不算、比較、從小、輕輕地、幾乎、也會、不算、在乎、過去、雖然、隨著、順口、可見、對著、只要、喜歡、自從、開始、忽然、一些、說是、老人家、有意思、迷住、好聽、心窩、認為、想起、一些、一直、還算、不僅如此、喜歡、都有、迷上、這些、都是、變成、不少、有些、喜歡、肯定、沒有、好玩、來說、才會、慢慢、不可能、等等、數(shù)不盡、總是、喜歡、看法、好聽、往往、喜歡、感到、聽聽、容易、看法、認為、凡是、都有、總是、聽聽、調子、容易、幾乎、好長、喜歡、不一定、技術到家、喜歡、容易、好聽、一些、看法、一般、老土、跟得上、說過、不行、聽一聽、唱一唱、不算、看不見、走下去、這兒、喜歡、不太好、不好、好的、壞的、看法、喜歡、不錯、迷住、買了、弄得、散了、沒什么、喜歡、好處、為了、好處、好好、從小、喜歡、一聽到、很好、不少、有空、保、喜歡、覺得、絕對不會、往往、好的、一般、喜歡、好聽、最近、聽不懂、大部分、實在、還有、呵呵、好不好、談到、等等、還有、喜歡、禁不住、變得、也是、認為、覺得、據(jù)我所知、變成、有時、除了、喜歡、聽不懂、迷住了、聽得懂、對我來說、小小的、放開、喜歡、最多、一點也不、唱個不停、害處、喜歡、不知道、大道理、最大的、沒有、一有空、總被、有名、伙伴、喜歡、不像、認為、十分、看法、不要、好的、太大、聽聽、不太、喜歡、畫兒、看看書、看不起、不要、說起、聽說、不像、搞壞、沒錯、喜歡、覺得、不好、都是、還要好、好處、常常、明明、沒有錯的、就會。
該分數(shù)段的留學生作文詞數(shù),最少為127詞,最多為356詞??谡Z詞出現(xiàn)比率最低為0.0093,最高為印度尼西亞65分作文出現(xiàn)了12個口語詞,占總次數(shù)239的比率為0.05029。單篇作文中,最多出現(xiàn)了12個口語詞的作文共有2篇,均為60分,出現(xiàn)最少的口語詞數(shù)量為2個,共4篇,全都是65分。這個統(tǒng)計數(shù)據(jù)顯示,留學生作文中口語詞的數(shù)量和分數(shù)成反比,口語詞的多少與留學生漢語寫作能力有相關性。
通過一系列的數(shù)據(jù)統(tǒng)計,我們可以明顯看出,在60-69、70-79、80-89、90-100這四個分數(shù)段中,留學生作文中口語詞的多少與作文成績成負相關。留學生的作文中,口語詞越少,書面化程度越高,留學生的漢語寫作能力越強;口語詞越多,書面化程度越低,留學生的漢語寫作能力越低。因此,通過考察留學生作文中的口語詞比率來反方向推斷留學生書面語的使用能力是可行的。在對外漢語領域的實際操作過程中,可以將留學生作文的口語化比率作為反映其書面語掌握程度的佐證。
[1]馮勝利,王潔,黃梅.漢語書面語體莊雅度的自動測量[J].語言科學,2008(2):113-126.
[2]劉圣心.高級階段留學生書面語體意識的考察與培養(yǎng)[D].廣州:暨南大學,2008.
[3]葉景烈.略論現(xiàn)代漢語書面語體[J].上海師范大學學報(哲學社會科學版),1990(2):133-137.
[4]王慧.泰國學生寫作書面語情況分析及教學對策[D].上海:上海師范大學,2013.
[5]北京語言大學.北京語言大學 HSK動態(tài)作文語料庫[DB/OL].(2010-10-04)[2016-02-10].http://www.hanyu123.cn/html/c7/ 288.html.
[6]汲傳波,劉芳芳.留學生漢語書面語中的口語化傾向研究[J].語言教學與研究,2015(1):31-37.
The Colloquial Test of Chinese Compositions in HSK Dynamic Composition Corpus—Based on Colloquial Words of Modern Chinese Dictionary
QUAN Yuzhen,LI Jingfeng
(College of Liberal Arts,Guangxi University,Nanning Guangxi 530004,China)
Mr.Feng Shengli published“Automatic Detection System on the Polished and Formal Degree Test of Chinese Written Language”in Linguistic Sciences in March,2008.In his paper,he put forward feasible programs for testing the polished and formal degree of Chinese written language.However,whether the results concluded in TCSL field are correct or not is still a question.Therefore,this paper tries to propose methods to evaluate the results in TCSL field,which means to prove Mr.Feng's results by the colloquial test on overseas students'compositions.Finally,Mr.Feng's results prove to be true mainly by concluding the actual Chinese writing level of overseas students from the ratio of colloquial words in the their compositions.
Colloquial Word;Colloquialization;Polished and Formal Degree
H195.1
A
1009-8666(2017)01-0036-05
10.16069/j.cnki.51-1610/g4.2017.01.007
[責任編輯:王興全]
2016-10-11
全玉珍(1992—),女,廣西桂林人。廣西大學文學院碩士研究生,研究方向:漢語國際教育;李靜峰(1977—),女,廣西河池人。廣西大學文學院副教授,博士,研究方向:語言文化及語言教學。