摘 要:警務(wù)漢語教學(xué)是專門用途漢語教學(xué)的新興分支。本文以禁毒案件為例,使用NLPIR漢語分詞系統(tǒng)和語料庫檢索軟件BFSU PowerConc1.0統(tǒng)計禁毒案件高頻詞作為參照,與現(xiàn)有警務(wù)漢語教材相關(guān)課文的生詞表對比,考察高頻詞命中情況。同時,以高頻詞表中出現(xiàn)的一組近義詞為例,使用語料庫軟件分析其搭配特點(diǎn),辨析詞義,探索將語料庫應(yīng)用于專門用途漢語教學(xué)的新思路。
關(guān)鍵詞:警務(wù)漢語 語料庫 詞頻 搭配
一、引言
警務(wù)漢語屬專門用途漢語,是國際漢語教學(xué)領(lǐng)域新興的教學(xué)分支。近年來國際警務(wù)合作日益頻繁,為更好地打擊國際犯罪,提高合作效率,2006年9月,中國公安部國際合作局委托北京外國語大學(xué)中文學(xué)院開辦執(zhí)法聯(lián)絡(luò)員漢語培訓(xùn)項目。這是中國長期(為期一年)、系統(tǒng)地開展警務(wù)漢語教學(xué)的首次嘗試①。發(fā)展近十年來,警務(wù)漢語在課程設(shè)置和教材編寫方面積累了經(jīng)驗,但尚未對教學(xué)方法和教材編寫進(jìn)行系統(tǒng)的研究。以詞匯教學(xué)為例,警務(wù)漢語詞匯的甄選原則是什么?哪些詞匯是教學(xué)重點(diǎn)?如何處理大量同現(xiàn)的近義詞?這些問題都有待回答。
基于語料庫的漢語教學(xué)研究提供了解決問題的新思路。據(jù)郭曙綸(2013)梳理的目錄,漢語語料庫已被應(yīng)用于漢語本體研究、漢語教學(xué)研究、教材編寫以及詞典編纂②。特別是在統(tǒng)計字頻詞頻、研究詞語搭配方面,語料庫語言學(xué)研究方法與傳統(tǒng)語言學(xué)研究相比,具有快捷、精準(zhǔn)、解釋力強(qiáng)的優(yōu)勢。警務(wù)漢語多見于警務(wù)新聞和警務(wù)報告中,案件分類清晰,文本相對集中,容易采集整理。通過自建小型語料庫來研究警務(wù)漢語詞匯、輔助詞匯教學(xué)是可行的。本文以禁毒案件文本為例,使用NLPIR漢語分詞系統(tǒng)和語料庫檢索軟件BFSU PowerConc 1.0考察警務(wù)漢語高頻詞匯和詞語搭配,并與現(xiàn)有教材收錄的詞匯進(jìn)行比較,以期為警務(wù)漢語教學(xué)提供有益的參考,也為專門用途漢語教學(xué)研究探索一條新路。
二、研究方法
(一)研究工具
1.NLPIR漢語分詞系統(tǒng)
本文使用NLPIR漢語分詞系統(tǒng)2016版在線大數(shù)據(jù)搜索與挖掘平臺③統(tǒng)計詞頻和切分生詞。該平臺可在抓取文本后一鍵實(shí)現(xiàn)文本分析,顯示內(nèi)容包括分詞標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計、文本分類、情感分析、關(guān)鍵詞提取、相關(guān)詞導(dǎo)圖(Word2vec)、依存語法、繁簡轉(zhuǎn)換、自動注音和摘要提取等。研究重點(diǎn)使用分詞標(biāo)注和詞頻統(tǒng)計功能。
2.BFSU PowerConc 1.0
本文使用語料庫分析軟件BFSU PowerConc 1.0統(tǒng)計分析詞語搭配。PowerConc 1.0支持包括漢語在內(nèi)的多語種語料,可以處理中文生語料、中文切分語料和中文標(biāo)注語料,操作便捷,界面簡潔。研究使用該軟件處理中文切分語料。
(二)研究步驟
1.采集語料
警務(wù)案件分類繁多,本文僅以禁毒案件為例。上網(wǎng)采集2012~2014三年間公安部每年發(fā)布的十大禁毒案件報告作為語料樣本,共計6077字。研究使用微型語料基于以下兩點(diǎn)考慮:第一,禁毒案件報告來源單一,信息集中,語言特征明顯。鄭艷群(2013)指出,數(shù)據(jù)規(guī)模是無法決定數(shù)據(jù)結(jié)果的可靠性的。數(shù)據(jù)規(guī)模對研究結(jié)果可信程度的貢獻(xiàn)主要體現(xiàn)在估計的顯著程度上。因此,只要說明分析結(jié)果所依據(jù)的數(shù)據(jù)庫的數(shù)據(jù)來源、語料特征以及數(shù)據(jù)規(guī)模即可④。第二,便于切分語料。本文研究目的不在于建立警務(wù)漢語語料庫,而在于探索研究的新思路,提供新方法。小規(guī)模語料能夠在短時間內(nèi)完成人工切分,符合研究目的。
2.切分語料
切分語料分三步進(jìn)行。
第一步,將生語料輸入NLPIR漢語分詞系統(tǒng)分析平臺,完成自動切分。
第二步,人工復(fù)查切分結(jié)果,并使用“用戶自定義詞”功能進(jìn)行調(diào)整。禁毒案件涉及法律術(shù)語、毒品名稱等特殊專有名詞,平臺不能自動識別。如“冰毒”,自動切分時會作為兩個詞標(biāo)記,需要人工修改過來。分詞標(biāo)注舉例如圖1。
圖1:
第三步,根據(jù)調(diào)整后的分詞標(biāo)注生成切分語料文本,以空格分隔相鄰的兩個詞。例如:
生語料: 云南公安機(jī)關(guān)禁毒部門成功偵破何定榮販毒案
NLPIR分詞標(biāo)注語料: 云南/ns公安/n機(jī)關(guān)/n禁毒/vn部門/n成功/ad偵破/v“/wyz何定榮/nr販毒/vi案/ng
切分語料: 云南 公安 機(jī)關(guān) 禁毒 部門 成功 偵破 何定榮 販毒 案
注意將標(biāo)點(diǎn)符號也同時替換為空格。帶有空格的切分語料文本將用于BFSU PowerConc 1.0做進(jìn)一步分析。
3.統(tǒng)計詞頻
NLPIR漢語分詞系統(tǒng)的最大特點(diǎn)是,能夠在生語料的基礎(chǔ)上直接實(shí)現(xiàn)分詞,統(tǒng)計出詞頻。在線平臺自動顯示名詞、動詞、形容詞排在前十位的高頻詞。展現(xiàn)方式包括柱形圖和折線圖兩種,也提供數(shù)據(jù)文本,即按照詞頻從高到低羅列所有高頻詞,并在后面標(biāo)注詞頻數(shù)。
將切分語料文本導(dǎo)入BFSU PowerConc 1.0,再次統(tǒng)計詞頻。
4.調(diào)整高頻詞表
根據(jù)語料可以預(yù)測,某些已經(jīng)學(xué)習(xí)過的詞,如“公安”、城市名等,詞頻較高,所以在第一次統(tǒng)計詞頻后,剔除與禁毒案件關(guān)聯(lián)不緊密的詞語,二次生成高頻詞表。備選詞首先從NLPIR的分詞數(shù)據(jù)文本中選取相同詞頻或者最相近詞頻的詞語,然后與BFSU PowerConc 1.0統(tǒng)計的詞頻列表對照,補(bǔ)足高頻詞表中的空位。
5.高頻詞對照
將調(diào)整后生詞的高頻詞與現(xiàn)有警務(wù)漢語教材生詞表對照,考察選詞情況。
6.近義高頻詞搭配檢索與分析
使用BFSU PowerConc 1.0檢索語料樣本中近義高頻詞例句,分析搭配特點(diǎn),為近義詞辨析提供教學(xué)依據(jù)。
三、禁毒案件詞頻統(tǒng)計
統(tǒng)計高頻詞的意義在于弄清禁毒案件文本中最常出現(xiàn)的警務(wù)詞語有哪些。換句話說,在理解這類文本時,有哪些詞語是反復(fù)出現(xiàn)、繞不開的。
(一)詞頻統(tǒng)計結(jié)果
經(jīng)人工自定義調(diào)整后,使用NLPIR漢語分詞系統(tǒng)統(tǒng)計詞頻,生成柱狀圖如圖2。
其中,“制販”是兩個動詞的連用,不能算一個詞,應(yīng)剔除;“成功”顯示了兩個詞頻,使用BFSU PowerConc 1.0復(fù)查,發(fā)現(xiàn)NLPIR將“成功+v.”(如“成功破獲”)和“成功+n.”(如“成功典范”)里的“成功”區(qū)別為兩類,可合并在一起,統(tǒng)計詞頻數(shù)為26。
從表1可以看出,一些名詞和動詞在禁毒案件報告中使用頻率非常高。最高頻使用的形容詞是“成功”,體現(xiàn)了警務(wù)報告凸顯成績的特點(diǎn)。從列表中的高頻名詞可以得到這樣幾條信息:2012~2014三年間,廣東與福建是禁毒案件高發(fā)省,多為團(tuán)伙作案,繳獲的主要制毒原料以及毒品是麻黃堿和冰毒。再看動詞,多為動補(bǔ)或動賓結(jié)構(gòu),強(qiáng)調(diào)結(jié)果;使用相同語素的近義詞較多,如“禁毒、制毒、販毒”“抓獲、繳獲、破獲”“破獲、偵破”等。形容詞總體詞頻較低,出現(xiàn)的一組近義詞為“縝密、嚴(yán)密、密切”。
從詞頻統(tǒng)計可以得出禁毒案件報告文本的基本特征:使用名詞、動詞頻率較高;高頻名詞能夠提供案件總體基本信息;使用相同語素的近義詞(包括動詞、形容詞)較多。
需要指出的是,由于NLPIR漢語分詞系統(tǒng)僅顯示了名詞、動詞、形容詞三類最主要實(shí)詞的詞頻,一些其他詞類的高頻詞并沒有顯示在其中,例如,區(qū)別詞“非法”(23)、“特大”(20)等。
(二)調(diào)整高頻詞表
表1高頻名詞中,“公安、部門、機(jī)關(guān)、廣東、福建”是已經(jīng)學(xué)習(xí)過的一般警務(wù)詞語,同禁毒案件聯(lián)系不夠緊密。另外上文提到,“制販”“成功”也帶來了兩個空缺。以補(bǔ)足高頻動詞空缺為例,首先,查看NLPIR的分詞數(shù)據(jù)文本?!爸曝湣痹~頻為13,文本顯示,詞頻相同的動詞除“聯(lián)合”以外,還有“配合”“摧毀”。接下來查看BFSU PowerConc 1.0統(tǒng)計得到的這兩個詞的詞頻,發(fā)現(xiàn)“配合”實(shí)際詞頻為15,而“摧毀”為13。通過查看索引行,發(fā)現(xiàn)有“/n的配合”與“/d配合”兩類,NLPIR將前者標(biāo)記為“/vd”,后者標(biāo)記為“/v”,所以詞頻有出入。本文將其統(tǒng)一處理為動詞,即“配合”詞頻為15。名詞、形容詞的選取也用同樣的方法。補(bǔ)足空缺后生成表2。
需要說明的是,名詞在按詞頻甄選時,沒有收入以下高頻詞:“?。?9)、公安部(14)、公安局(13)、案件(13)、人(12)、云南(12)、湖南(11)、警方(11)、山東(10)、河南(10)、市(9)、湖北(9)”。本文統(tǒng)計高頻詞語,目的在于為警務(wù)漢語教學(xué)服務(wù),而這些詞語為一般警務(wù)詞語或者省級行政區(qū)名稱,與禁毒案件關(guān)系不夠密切,故剔除。表2收入了更多毒品和制毒化學(xué)品名稱。
(三)與教材生詞表對照結(jié)果分析
本文選取兩本教材中禁毒相關(guān)課文的生詞表:
1.《警務(wù)漢語·專業(yè)篇·高級》⑤第九課《加強(qiáng)對毒品的打擊力度》,下簡稱“專業(yè)篇-9”;
2.《警務(wù)漢語視聽說》⑥第一課《緝毒》⑦,下簡稱“視聽說-1”。
兩課生詞列表見表3。
表3:禁毒相關(guān)課文生詞列表
專業(yè)篇-9 視聽說-1
毒品,來源,毒源,種植,威脅,新型,傳統(tǒng),天然,化學(xué),物質(zhì),合成,吸毒,發(fā)達(dá),娛樂,濫用,專項,政治,打擊,力度,待遇,犧牲,金三角,巴基斯坦,伊朗,阿富汗,金星月,原料,明顯,邊境,昔日,罌粟,玉米,橡膠,替代,工藝,利潤,風(fēng)險,繳獲,查獲,毒梟,易制毒化學(xué)品,麻醉藥品,邦康,鴉片,苯丙胺,冰毒,哈薩克斯坦 樁,跳蚤市場,二手貨,托運(yùn),摧毀,不為人知,驚險,蹊蹺,毒梟,舉報,調(diào)查,外號,前科,老練,打草驚蛇,格外,專案組,跟蹤,監(jiān)視,大宗,下家,納悶,察覺,平白無故
拉開序幕,不祥,猶豫,遙控指揮,順藤摸瓜,先下手為強(qiáng),發(fā),放長線釣大魚
從高頻詞命中結(jié)果來看,專業(yè)篇-9好于視聽說-1。從詞類來看,名詞、動詞均有命中,而形容詞為0。這與本文使用的語料樣本和兩篇課文的語體有關(guān)。語料樣本是公安部發(fā)布的官方信息,屬于公文語體,書面語色彩很濃;注重陳述事實(shí),突出結(jié)果;因為都是重案、要案,傾向使用形容詞來加強(qiáng)表達(dá)力度。專業(yè)篇-9課文內(nèi)容包括一篇采訪對話和一篇閱讀,內(nèi)容主要是介紹我國毒品犯罪基本形勢和“金三角”地區(qū)的新毒情;既有比較正式的訪談?wù)Z體,又有書面語體,以客觀介紹為主。視聽說-1使用重慶衛(wèi)視《拍案警世》中一則禁毒案件紀(jì)實(shí)作為學(xué)習(xí)內(nèi)容,其中包括主持人的解說、辦案民警的口述等,口語風(fēng)格明顯。由于不同課程側(cè)重訓(xùn)練的技能不同,課文編排時選擇的材料必然有差別。另外,一些高頻詞沒有出現(xiàn)在生詞表中,是因為在此前的警務(wù)漢語課程中已經(jīng)學(xué)習(xí)過,如“犯罪嫌疑人、團(tuán)伙、窩點(diǎn)、配合、抓獲、破獲”等。畢竟禁毒案件只是諸多案件中的一類,上述詞語在警務(wù)漢語中是通用的。另外,雖然兩課生詞表高頻詞命中數(shù)都不多,但不難發(fā)現(xiàn),專業(yè)篇-9命中的高頻詞與禁毒案件的相關(guān)性更高,而視聽說-1命中的則是通用警務(wù)漢語。因此,視聽說-1在根據(jù)案件紀(jì)實(shí)視頻選擇生詞時,應(yīng)該特別注意與禁毒案件的相關(guān)度。
四、基于搭配的近義詞辨析——以“抓獲”“繳獲”“破獲”為例
搭配與語言應(yīng)用的領(lǐng)域有關(guān)。Smadja(1993)將“領(lǐng)域相關(guān)搭配”(Domain-dependent collocations)作為單獨(dú)的一類⑧。這類搭配有兩種情況,一種是含有外行人完全聽不懂的專業(yè)詞匯,一種則是詞匯易懂,但組合在一起卻完全不是外行人理解的意思。相比之下,前者只要通過專門學(xué)習(xí)就可以掌握,警務(wù)漢語就屬于這一種。通過詞頻統(tǒng)計可以看出,警務(wù)漢語中存在高頻出現(xiàn)的含有相同語素的近義詞。相同的語素能夠提供理解和記憶的線索,不同的另一半則帶來語義的差異。掌握這類近義詞是學(xué)習(xí)警務(wù)漢語的重點(diǎn)也是難點(diǎn)。本文以“抓獲”“繳獲”“破獲”為例,使用BFSU PowerConc 1.0索引功能,在語境中考察這些動詞與賓語的搭配情況,為警務(wù)詞匯教學(xué)提供參考。
首先,考察“抓獲”后面賓語的情況。導(dǎo)入空格語料文本后,在索引欄內(nèi)輸入“抓獲”,搜索顯示所有含目標(biāo)詞的句子列表:
如圖選擇R1,考察“抓獲”后面第一位的詞語,顯示如下圖:
結(jié)果一目了然,“抓獲+犯罪嫌疑人”出現(xiàn)次數(shù)非常多。再用對數(shù)似然率(log-likelihood)考察其搭配強(qiáng)度:
“犯罪嫌疑人”與“抓獲”的對數(shù)似然率為298.0508,遠(yuǎn)遠(yuǎn)高于其他詞。因此可以確定,“抓獲+犯罪嫌疑人”是一組強(qiáng)搭配。
同理,考察“繳獲”后面第一位詞的情況,如圖:
結(jié)果表明,“繳獲+毒品名稱”是最常見的搭配。
最后來看一下“破獲”后第一位詞的情況:
搜索結(jié)果不能顯示出“破獲”與后一位詞的強(qiáng)搭配關(guān)系。通過索引句列表可以看出,在“破獲”后面的詞組其實(shí)是案件的名稱。如果將這些名稱作為專有名詞來處理,即內(nèi)部不進(jìn)行切分,“破獲+……案”的搭配強(qiáng)度明顯增加。
綜上,在禁毒案件中,“抓獲+犯罪嫌疑人”“繳獲+毒品名稱”是強(qiáng)搭配;“破獲+……案”雖然是強(qiáng)搭配格式,但標(biāo)記不明顯,“案”前大量涉及案件信息的限定詞語可能對學(xué)生識別這一搭配造成干擾。使用BFSU PowerConc 1.0提供含近義詞的索引句列表,能夠清楚地呈現(xiàn)目標(biāo)詞與后位詞的搭配關(guān)系和搭配強(qiáng)度,這對于教材編寫、預(yù)測學(xué)習(xí)問題、教學(xué)中幫助學(xué)生迅速掌握近義詞詞義和使用上的區(qū)別都十分有意義。
五、結(jié)語
專門用途漢語需要自己的語料庫。首先,語料采集難度適中,語料庫的構(gòu)建有可行性。以警務(wù)漢語為例,案件有明確的分類,各類案件報道、報告文本集中;案件偵破過程的采訪、紀(jì)實(shí)類影音文件在網(wǎng)絡(luò)上也很容易獲得,而且普遍配有字幕,獲取文本的難度不大。第二,基于專門用途漢語語料庫的詞頻統(tǒng)計,為教材生詞的甄選提供依據(jù)。目前警務(wù)生詞的選取主要基于編寫者的主觀判斷,從研究結(jié)果來看,并非不可取,只是編寫者使用的材料或者編寫的內(nèi)容會有局限。如果能夠把語料庫統(tǒng)計得出的高頻詞作為基礎(chǔ),再補(bǔ)充進(jìn)其他相關(guān)生詞,教學(xué)的重點(diǎn)會更突出,學(xué)習(xí)內(nèi)容的針對性和實(shí)用性也會增強(qiáng)。第三,詞頻統(tǒng)計還能為課文內(nèi)容的編寫提供信息線索。例如,禁毒案件高頻名詞可以顯示案件高發(fā)省份、主要毒品種類等信息,這樣在編寫課文時,就能把握好搜集信息的方向,兼顧內(nèi)容的可學(xué)性和真實(shí)性。第四,語料詞頻受文本語體特征影響非常大,建立語料庫時應(yīng)標(biāo)記語體分類,這樣才能為側(cè)重點(diǎn)不同的課型的教材編寫提供更有針對性的信息。第五,專門用途漢語語料庫還可以應(yīng)用于教學(xué)。僅以考察近義詞搭配為例,如果建立起界面簡潔、操作方便的專門用途漢語語料庫,學(xué)生就可以自己使用索引查找大量例句,辨析詞義,總結(jié)哪些是高頻搭配。有語料庫工具作為輔助,教師在課堂上可以由講授者變?yōu)橐龑?dǎo)者和指導(dǎo)者:一方面引導(dǎo)學(xué)生自己探索發(fā)現(xiàn)一般規(guī)律,變被動聽講為主動學(xué)習(xí),帶著問題來上課,提高課堂學(xué)習(xí)效率;另一方面對學(xué)生自主學(xué)習(xí)的情況提供反饋和指導(dǎo),投入更多精力指導(dǎo)學(xué)生提高聽說讀寫技能。
本文是對警務(wù)漢語詞頻和搭配研究的初探,存在以下不足:(一)語料樣本較小,語體風(fēng)格單一,統(tǒng)計出的高頻詞語作為與教材生詞的對照解釋力不足;(二)僅以禁毒案件為例,不能反映警務(wù)漢語的全貌;(三)搭配研究暫時只考察了近義詞的動賓搭配,賓語只考察了動詞后一位。動詞與前面詞語、后幾位詞語的搭配情況如何,在警務(wù)漢語中這類搭配有沒有普通漢語中未見的特點(diǎn),其他詞類搭配有什么特點(diǎn)等等,這些問題有待研究。
注釋:
①池宇.警務(wù)漢語教學(xué)與教材編寫初探[J].人文叢刊,2013,(0).
②郭曙綸.漢語語料庫應(yīng)用教程[M].上海:上海交通大學(xué)出版社,
2013.
③NLPIR漢語分詞系統(tǒng)是北京理工大學(xué)張華平博士開發(fā)的免費(fèi)自然
語言處理與信息檢索共享平臺,網(wǎng)址為http://ictclas.nlpir.org。
④鄭艷群.語料庫技術(shù)在漢語教學(xué)中的應(yīng)用透視[J].語言文字應(yīng)
用,2013,(1).
⑤張京京、池宇編寫,執(zhí)法聯(lián)絡(luò)員漢語培訓(xùn)項目專用教材,待出版。
⑥筆者編寫,執(zhí)法聯(lián)絡(luò)員漢語培訓(xùn)項目專用教材。
⑦以視頻字幕轉(zhuǎn)寫文本作為課文內(nèi)容。
⑧Frank Smadja.Retrieving Collocations from Text:Xtract
[J].Computational Linguistics,1993,(19).
參考文獻(xiàn):
[1]池宇.警務(wù)漢語教學(xué)與教材編寫初探[J].人文叢刊,2013,
(0).
[2]郭曙綸.漢語語料庫應(yīng)用教程[M].上海:上海交通大學(xué)出版社,
2013.
[3]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教育
與研究出版社,2010.
[4]孫茂松,黃昌寧,方捷.漢語搭配定量分析初探[J].中國語文,
1997,(1).
[5]許家金,賈云龍.基于R-gram的語料庫分析軟件PowerConc的設(shè)
計與開發(fā)[J].外語電化教學(xué),2013,(1).
[6]鄭艷群.語料庫技術(shù)在漢語教學(xué)中的應(yīng)用透視[J].語言文字應(yīng)
用,2013,(1).
[7]Frank Smadja.Retrieving Collocations from Text:Xtract[J].
Computational Linguistics,1993,(19).
(孫琳 北京外國語大學(xué)中國語言文學(xué)學(xué)院 100089)
現(xiàn)代語文(語言研究)2016年12期