王宗華+石彥霞
摘 要:新詞語(yǔ)是語(yǔ)言監(jiān)測(cè)的重要內(nèi)容,目前新詞語(yǔ)的監(jiān)測(cè)結(jié)果以編年本的形式向社會(huì)公布。為獲取年度新詞語(yǔ),人們采用了全切分的方法,這種方法的統(tǒng)計(jì)計(jì)算量較大。文章在考察新詞語(yǔ)在文本中的表現(xiàn)的基礎(chǔ)上,提出利用新詞語(yǔ)的外在特征來(lái)獲取年度新詞語(yǔ)的方法。
關(guān)鍵詞:年度新詞語(yǔ) 獲取
一、引言
語(yǔ)言與社會(huì)生活息息相關(guān),它是社會(huì)的一面鏡子,社會(huì)的發(fā)展變化會(huì)引起語(yǔ)言的變化,新詞語(yǔ)(包括舊詞的新義)的大量涌現(xiàn)就是語(yǔ)言對(duì)社會(huì)發(fā)展變化的一種反映。年度新詞語(yǔ)是語(yǔ)言監(jiān)測(cè)與研究的重要內(nèi)容,為了自動(dòng)提取年度新詞語(yǔ),國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心有聲媒體分中心采用詞匯時(shí)空分布模型,先對(duì)語(yǔ)料(本年度和往年)進(jìn)行全切分,根據(jù)年使用率差提取出新詞語(yǔ)候選,再過(guò)濾,得到新詞語(yǔ)候選集,以備人工確認(rèn)(何偉,2007;侯敏,2008)。實(shí)踐證明,這種方法可行、有效,缺點(diǎn)是統(tǒng)計(jì)計(jì)算量特別大,耗費(fèi)巨大的計(jì)算資源。在提取新詞語(yǔ)的實(shí)踐中,我們發(fā)現(xiàn)年度新詞語(yǔ)有一定的特點(diǎn),即大部分帶有引號(hào),利用這一特點(diǎn)可以快速地獲取年度新詞語(yǔ)候選集,這種方法可以作為對(duì)前一種方法的有效補(bǔ)充。
二、新詞語(yǔ)與引號(hào)
標(biāo)點(diǎn)符號(hào)簡(jiǎn)稱標(biāo)點(diǎn),是輔助文字記錄語(yǔ)言的符號(hào),是現(xiàn)代書面語(yǔ)的有機(jī)組成部分。標(biāo)點(diǎn)符號(hào)的作用,大體上說(shuō)有三個(gè)方面:1.表示停頓;2.表示語(yǔ)氣,標(biāo)明句子是陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣、祈使語(yǔ)氣還是感嘆語(yǔ)氣;3.標(biāo)示句子中某些詞句的性質(zhì)。
國(guó)家標(biāo)準(zhǔn)《標(biāo)點(diǎn)符號(hào)用法》中常用的標(biāo)點(diǎn)符號(hào)共16種,分點(diǎn)號(hào)和標(biāo)號(hào)兩大類。其中,引號(hào)的基本用法:1.行文中直接引用的話,用引號(hào)標(biāo)示。例如:要普及現(xiàn)代信息技術(shù)教育,“計(jì)算機(jī)要從娃娃抓起”。2.行文中需要著重說(shuō)明的詞語(yǔ),用引號(hào)標(biāo)示。例如:“坤包、坤表、坤車”里的“坤”,意思是“女式的,女用的”。3.行文中具有特殊含義的詞語(yǔ),用引號(hào)標(biāo)示。例如:新學(xué)期伊始,上海一些家長(zhǎng)加入了流行的“曬一族”,在網(wǎng)絡(luò)上“曬”起子女的寒假作業(yè)。(周麒,2009)
按照上述引號(hào)的用法,新詞語(yǔ)中的新詞形,因其“新”的詞形,行文中需要著重說(shuō)明,應(yīng)該用引號(hào)標(biāo)示;詞語(yǔ)的新義、新用法,因其有特殊的含義,也會(huì)使用引號(hào)。下面我們來(lái)分析年度新詞語(yǔ)與引號(hào)的關(guān)聯(lián)性有多大。
三、年度新詞語(yǔ)使用引號(hào)情況考察
商務(wù)印書館從2006年起,每年出版年度新詞語(yǔ)詞典,其中收錄的新詞語(yǔ)包括新詞形和有新義的詞語(yǔ)。我們選擇其中2006、2007、2008這三年的年度新詞語(yǔ)詞典(周薦,2007;侯敏,2008;侯敏,2009)進(jìn)行考察。
先看詞語(yǔ)的新義。2006年度新詞語(yǔ)詞典收錄的有新義的詞有:“EMBA、空調(diào)、曬”。另外以附錄形式給出了2003—2005年的新詞語(yǔ),其中收錄了認(rèn)為有新義的詞:“板磚、空軍、鳥(niǎo)巢”。2007年度新詞語(yǔ)詞典正文沒(méi)有收錄新義詞語(yǔ),但以附錄形式給出了2004—2006年的新詞語(yǔ),其中收錄了認(rèn)為有新義的詞:“打鐵、水滴、水門”。2008年度新詞語(yǔ)詞典收錄的認(rèn)為有新義的詞有:“AB制、八寶飯、乘電梯、第四公報(bào)、糾結(jié)、控、雷、雷點(diǎn)、裸演、霹靂、人肉、山寨、水軍、淘客、堰塞湖、一滴水、長(zhǎng)草、做俯臥撐”。另外以附錄形式給出了2007年的新詞語(yǔ),其中收錄了認(rèn)為有新義(新用法)的詞“裸考”。
我們利用有聲媒體語(yǔ)料庫(kù)以及網(wǎng)絡(luò),考察了上述詞語(yǔ)新義在產(chǎn)生的當(dāng)年以及后續(xù)若干年度使用引號(hào)的情況,發(fā)現(xiàn)除了“EMBA、控”外,其他詞在產(chǎn)生初期都有引號(hào),有的后來(lái)仍有引號(hào)或者和沒(méi)有引號(hào)的并存。這種現(xiàn)象表明,按年度監(jiān)測(cè)詞語(yǔ)新義,引號(hào)是新義剛開(kāi)始出現(xiàn)時(shí)的一個(gè)重要外在特征。我們進(jìn)一步考察了搜集的160多個(gè)新義詞語(yǔ)(近30年來(lái)產(chǎn)生的)的使用情況,看其是否也伴隨有引號(hào)。我們發(fā)現(xiàn),這些新義詞在產(chǎn)生初期幾乎都有使用引號(hào)的相關(guān)例子,其中有些詞的新義現(xiàn)在都感覺(jué)不到它的“新”了,后來(lái)就不再使用引號(hào)。也就是說(shuō),這些詞和上述年度新義詞語(yǔ)在引號(hào)上的表現(xiàn)是一樣的。
再看新詞形。我們考察了2008年新詞語(yǔ)詞典音序索引中A—Q部分的251個(gè)新詞形。我們發(fā)現(xiàn),其中217個(gè)都有使用引號(hào)的用例,占總數(shù)的86.5%。有34個(gè)沒(méi)有使用引號(hào),如“奧運(yùn)騎警、奧運(yùn)簽注、伴飛小衛(wèi)星、草根管理、常態(tài)包機(jī)、超級(jí)用戶名、蟲(chóng)柑、川震、窗口售票機(jī)、垂直式浴室、代購(gòu)手、蛋殼族、??汀?,結(jié)合這些詞語(yǔ)出現(xiàn)的上下文,從這些詞語(yǔ)的字面上就能理解其意義,不需要進(jìn)行著重說(shuō)明,也沒(méi)有什么特殊的含義,所以沒(méi)有加引號(hào)。
綜上所述,詞語(yǔ)新義絕大部分都使用引號(hào),而新詞形使用引號(hào)的大概占總數(shù)的86%,由此我們可以對(duì)新詞語(yǔ)與引號(hào)的關(guān)系做個(gè)簡(jiǎn)單的估計(jì):引號(hào)內(nèi)的字符串大概覆蓋了86%左右的新詞語(yǔ)。但反過(guò)來(lái),帶引號(hào)的字符串,不一定就是新詞語(yǔ),統(tǒng)計(jì)表明,帶引號(hào)的字符串大部分不是新詞語(yǔ)。
四、獲取2009年度語(yǔ)料中新詞語(yǔ)候選集的實(shí)驗(yàn)
新詞語(yǔ)一般先出現(xiàn)在網(wǎng)絡(luò),然后進(jìn)入平面媒體、有聲媒體(《中國(guó)語(yǔ)言生活狀況報(bào)告2008》(下編),2009)。它們?cè)谶@些媒體上剛出現(xiàn)時(shí),都會(huì)使用引號(hào),我們的目的是檢驗(yàn)利用引號(hào)提取新詞語(yǔ)的方法,所以,選擇哪種媒體形式的語(yǔ)料進(jìn)行實(shí)驗(yàn)不會(huì)影響實(shí)驗(yàn)結(jié)果是關(guān)鍵。我們利用2007、2008年有聲媒體語(yǔ)料,在2009年有聲媒體語(yǔ)料上,提取該年度帶引號(hào)的字符串,然后過(guò)濾、去重,以獲得該年度的新詞語(yǔ)候選集。
(一)從新詞語(yǔ)的長(zhǎng)度、構(gòu)成方面過(guò)濾候選字符串,然后去重
引號(hào)具有引用的功能,其中的字符串可能是引用的文字,從現(xiàn)有新詞語(yǔ)來(lái)看,其長(zhǎng)度一般不超過(guò)4個(gè)漢字,為了過(guò)濾明顯不是新詞語(yǔ)的字符串,提取時(shí)我們限定引號(hào)內(nèi)字符串的長(zhǎng)度在4個(gè)漢字以內(nèi)。在2007年度有聲媒體語(yǔ)言語(yǔ)料庫(kù)上提取了63487個(gè)含有引號(hào)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有41839個(gè),占總數(shù)的66%。在2008年度有聲媒體語(yǔ)言語(yǔ)料庫(kù)上我們提取了38640個(gè)含有引號(hào)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有28313個(gè),占總數(shù)的73%。在2009年度有聲媒體語(yǔ)言語(yǔ)料庫(kù)上提取到了87818條引號(hào)內(nèi)的字符串,其中,4個(gè)漢字長(zhǎng)度以內(nèi)的字符串有55693個(gè),占總數(shù)的65%。
包含有字母、數(shù)字、標(biāo)點(diǎn)符號(hào)的字符串一般不是新詞語(yǔ);另外,2009年度有聲媒體語(yǔ)料中帶有引號(hào)的部分字符串,在2009年前的語(yǔ)料中以相同形式出現(xiàn)過(guò)。2009年語(yǔ)料上提取的4個(gè)漢字長(zhǎng)度以內(nèi)的字符串共55693個(gè),我們過(guò)濾帶有上述符號(hào)的1716條,過(guò)濾與2007、2008兩年重合的14571條,一共過(guò)濾16287條,還剩下39406條,減少約29.2%。
可以看出,過(guò)濾后字符串的數(shù)量還是很多,從中進(jìn)行人工篩選新詞語(yǔ)的話,工作量仍很大。由于新詞語(yǔ)主要在三字以內(nèi),我們可以進(jìn)一步縮小候選詞語(yǔ)的數(shù)量。2009年的39406條候選串中,三字長(zhǎng)度以內(nèi)的有19527條,占總數(shù)的49.5%,候選串?dāng)?shù)量縮小了50.5%,篩選范圍縮小了很多。
經(jīng)對(duì)比,我們發(fā)現(xiàn)上述2009候選字符串包含了《2009漢語(yǔ)新詞語(yǔ)》詞典中的絕大部分新詞語(yǔ),這說(shuō)明利用這種方法提取的字符串可以很好地覆蓋新詞語(yǔ)。如果進(jìn)一步限制字符串的長(zhǎng)度,比如兩個(gè)漢字的長(zhǎng)度,可以過(guò)濾更多的字符串。如2009年39406條候選串中,兩字以內(nèi)的有9309條,只占總數(shù)的23.6%,對(duì)這些詞進(jìn)行人工判斷的工作量就小了很多。
(二)利用頻次進(jìn)行過(guò)濾
我們分別統(tǒng)計(jì)了2007、2008、2009各年語(yǔ)料中帶引號(hào)字符串的頻次,發(fā)現(xiàn)各年頻次為1的字符串的數(shù)量占總數(shù)的比例分別為66.9%、65.5和66.8%,而且,頻次為1的字符串一般不是本年度的新詞語(yǔ)。以2009年度有聲媒體語(yǔ)料中的帶引號(hào)字符串為例,按頻次的分布見(jiàn)表1:
我們可以先過(guò)濾頻次為1的字符串,然后按前面所說(shuō)方法再次過(guò)濾,候選字符串的數(shù)量就會(huì)少很多,可以極大減輕人的工作量。以2009年語(yǔ)料為例,頻次大于1的字符串有27825條,其中,四字以內(nèi)的字符串有21208,占76%,對(duì)四字以內(nèi)的21208條字符串與2007、2008比對(duì)去重后還剩下12241條,其中三字以內(nèi)的僅6902條,候選集的數(shù)量大為減少,減輕了人排查的工作量??梢?jiàn),將以上兩種方法結(jié)合起來(lái),能取得很好的過(guò)濾效果。
五、結(jié)語(yǔ)
根據(jù)對(duì)語(yǔ)料的觀察,我們發(fā)現(xiàn)新詞語(yǔ)(包括新義)與引號(hào)有很強(qiáng)的關(guān)聯(lián)。為了印證這個(gè)直觀判斷,我們考察了年度新詞語(yǔ)詞典以及我們搜集的詞語(yǔ)新義,發(fā)現(xiàn)86%左右的新詞語(yǔ)使用了引號(hào),即引號(hào)內(nèi)的字符串大概覆蓋了86%左右的新詞語(yǔ)。
但帶引號(hào)的字符串絕大部分不是新詞語(yǔ),需要過(guò)濾。我們根據(jù)新詞語(yǔ)在長(zhǎng)度、構(gòu)成、頻次方面的特點(diǎn),對(duì)候選字符串進(jìn)行了過(guò)濾:過(guò)濾頻次為1的字符串;過(guò)濾包含有數(shù)字、標(biāo)點(diǎn)符號(hào)的字符串,這些字符串所占比例較小;過(guò)濾四個(gè)漢字長(zhǎng)度以上的詞語(yǔ),因?yàn)樾略~語(yǔ)以四個(gè)漢字以內(nèi)為主;過(guò)濾年度語(yǔ)料間重合的部分。在2009年度語(yǔ)料中進(jìn)行提取并過(guò)濾帶引號(hào)字符串的結(jié)果表明,這種方法簡(jiǎn)單而且有效。
(基金項(xiàng)目:本文系2014年度河北省社會(huì)科學(xué)發(fā)展研究課題[項(xiàng)目編號(hào):2014041702]“面向語(yǔ)言監(jiān)測(cè)的詞語(yǔ)新義識(shí)別研究”。)
參考文獻(xiàn):
[1]何偉,侯敏,文采菊.流行語(yǔ)時(shí)空監(jiān)測(cè)模型研究[A].內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C].2007.
[2]侯敏,周薦主編.2007漢語(yǔ)新詞語(yǔ)[M].北京:商務(wù)印書館,2008.
[3]侯敏,周薦主編.2008漢語(yǔ)新詞語(yǔ)[M].北京:商務(wù)印書館,2009.
[4]周薦主編.2006漢語(yǔ)新詞語(yǔ)[M].北京:商務(wù)印書館,2007.
[5]周麒主編.出版校對(duì)培訓(xùn)教程[M].北京:商務(wù)印書館,2009:380-382.
[6]中國(guó)語(yǔ)言生活狀況報(bào)告課題組.中國(guó)語(yǔ)言生活狀況報(bào)告2008(下編)[M].北京:商務(wù)印書館,2009:289-306.
(王宗華,石彥霞 天津 河北工業(yè)大學(xué)人文與法律學(xué)院 300401)