国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向書面言語鑒定的言語人副詞使用習慣研究

2019-09-25 08:38王虹
中國司法鑒定 2019年5期
關鍵詞:高頻詞古龍郭敬明

王虹

(中國刑事警察學院 文件檢驗技術系,遼寧 沈陽100035;東北大學 自然語言處理實驗室,遼寧 沈陽110004)

書面言語是以文字形式存在的言語,包括紙質(zhì)文本、網(wǎng)絡文本和電子文本。書面言語鑒定,英語譯作 Authorship Identification, Authorship Attribution或Authorship Comparison,是指通過檢材言語與樣本言語的比對鑒別,判斷兩者言語習慣是否一致,為案件偵查、審判提供證據(jù)的一種專門技術手段。

西方早就有專門的文本鑒別學,1711年,一位德國牧師H.B.韋特最早提出了有關《圣經(jīng)》作者的爭議。隨后,出現(xiàn)了莎士比亞著作權的糾紛。從20世紀60年代埃文斯案促成司法語言學的誕生以來,歐美各國作者鑒別技術發(fā)展方興未艾,成果顯著,應用廣泛。很多國家和地區(qū)都有專門的語言證據(jù)研究機構,受理司法實踐中與語言相關的案件。

國內(nèi)漢語文體學、漢語語言學、英語語言學(主要是法律語言學)、圖書情報學、自然語言處理等領域均有關于作者鑒別、作者歸屬、作者身份識別、作者識別的研究。公安技術領域自20世紀80、90年代起開始研究書面言語鑒定技術,并將用于文件檢驗鑒定,利用“語音特征”、“方音別字”、“特殊語法”等書面言語特征鑒定了多起無筆跡案件。

近年來,互聯(lián)網(wǎng)及相關產(chǎn)業(yè)飛速發(fā)展,雖然在一定程度上方便了生活,但利用電子郵件、網(wǎng)絡論壇等方式犯罪的案件也不斷增多。此外,由于監(jiān)管漏洞的存在,侵犯他人知識產(chǎn)權的案件也時有發(fā)生。這些現(xiàn)象都對書面言語鑒定技術的完善和提高提出了迫切需求。

副詞使用頻率特征是書面言語鑒定中常用的言語特征之一,鑒定人員基于副詞屬于虛詞,而虛詞受言語內(nèi)容影響較小,具備較好的個人穩(wěn)定性這一假設,一直在使用這一特征。但這種假設是否成立,我們并未見到相關的實驗和統(tǒng)計研究。語言學領域?qū)Ω痹~的研究暫時處于基礎性、定義性的階段。國外司法語言學的研究和實踐中,已將副詞使用習慣特征當作書面言語同一認定的依據(jù)使用。但在漢語書面言語鑒定領域,副詞使用習慣特征是否能作為漢語書面言語同一認定的依據(jù)還有待研究。對副詞研究的不斷深入以及各種統(tǒng)計工具、分析方法的完備,為我們提供了研究這一領域的可能。

本文擬引入自然語言處理技術,采用實驗研究和統(tǒng)計研究的方法,探討副詞使用習慣特征在漢語書面言語鑒定中作為同一認定依據(jù)使用的可行性。

1 副詞及其分類

1.1 副詞定義

從中國第一本語法專著《馬氏文通》提出近似現(xiàn)代“副詞”的“狀字”開始,關于副詞的定義一直是眾說紛紜。2004年,張誼生[1]提出將句法功能作為認定副詞的根據(jù)并以語句的基本含義作為判斷的基礎,將副詞定義為:“副詞主要充當狀語,一部分可以充當句首修飾語或補語,在一定條件下一部分還可以充當高層次消浯或準定語的具有限制、描摹、連接等功能的半開放類詞?!?/p>

1.2 副詞分類

語言學領域中對副詞的分類也有很多不同的看法,本文從研究需要出發(fā),采用呂叔湘的分類方法,即按照語法功能將副詞分為七類:程度、范圍、時間、語氣、肯定和否定、方式、處所[2]。

程度副詞,如很、最、極、太、非常、更加、越、稍、幾乎、略微、尤其……

范圍副詞,下分總括性范圍副詞:都、總、共、俱、皆、全然、全都、統(tǒng)統(tǒng)、統(tǒng)共、舉凡、一概、一總等;唯一性范圍副詞:僅、只、就、才、單、唯、偏、惟獨等;限定性范圍副詞有:約、大都、最多、最少、起碼、只有、只是、不過……

時間副詞,如:已、曾、剛剛、才、正在、立刻、終于、時時、漸漸、從來、始終、屢次、重新、還、偶爾……

語氣副詞,如:難道、果然、豈、索性、究竟、簡直、就、可、也許、難怪、大約、不妨……

肯、否定副詞,分為肯定、必然、偶然、可能、否定判斷副詞。如必須、沒有、必定、是否、未、別、莫、勿、不必、不用、不曾…….

方式副詞,如:大肆、親自、特意、公然、忽然、悄悄……

處所副詞,如:處處、到處、隨處、四處……

《中國文法要略》分為七類:方所副詞,時間副詞,動態(tài)動相副詞,程度副詞,判斷副詞,否定副詞,一般副詞。

2 材料與方法

2.1 語料

本文以古龍、莫言、韓寒、金庸、三毛、郭敬明等6位作家的長文本作品24部為研究語料,具體情況見表1。

2.2 分析工具與內(nèi)容

本文使用我們自主研發(fā)的《案件書面言語量化輔助分析系統(tǒng)》對語料進行自動分句、分詞、詞性標注等處理,并進行總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比、單個副詞數(shù)、單個副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標準差等數(shù)據(jù)統(tǒng)計,以此分析總結(jié)個人在是否使用副詞上的偏好、個人在表示同類關系的副詞中是否有選用上的偏好和不同人在表示同類關系的副詞中是否有共同的選用偏好。

3 結(jié)果與分析

3.1 個人在是否使用副詞上的偏好

為了觀察個人在是否使用副詞上的偏好,我們分別統(tǒng)計出了24部作品的總詞數(shù)、副詞數(shù)、副詞數(shù)占總詞數(shù)的百分比,以及同一人作品副詞使用頻率的平均值、標準差,并分別按副詞使用頻率平均值和副詞占總詞數(shù)的百分比進行了降序排序,如表1所示。分析表1我們發(fā)現(xiàn):

第一,6位作家使用副詞的頻率是有差別的,由古龍、韓寒、郭敬明、三毛、金庸、莫言依次降低。

第二,古龍和莫言在副詞使用頻率上相差較明顯,平均值差了約3個百分點。古龍的4部作品的副詞使用頻率均很高,均高于莫言的4部作品。

第三,同一作家不同作品的副詞使用頻率的穩(wěn)定性情況不同,由古龍、韓寒、莫言、郭敬明、三毛、金庸依次降低。古龍的5部作品之間副詞使用頻率差別較大,其平均值的標準差最大;而金庸4部作品之間副詞使用頻率的穩(wěn)定性最好,其平均值的標準差最小。

第四,創(chuàng)作時間、作者的個人經(jīng)歷對同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以古龍為例,1960年到1963年是古龍的試筆階段,接觸了大量的西方文學,作品也帶有西方色彩;1963年之后,他向日本小說取經(jīng),探索武道,逐步形成自己獨特的武打描寫方式;后期古龍又將戲劇、推理、詩歌等元素和自己的人生感悟帶入傳統(tǒng)武俠。這樣,隨著時間的推移和個人經(jīng)歷的變化,古龍作品的風格前后有很大的變化。而作品中語言的變化則是形成作品風格變化的重要因素,因此導致《劍客行》(1963)《大旗英雄傳》(1966)《三少爺?shù)膭Α罚?974)《拳頭》(1977)等不同時間節(jié)點上的作品中副詞使用頻率有較大的差異。

第五,體裁對同一作者不同作品的副詞使用頻率穩(wěn)定性有影響。以韓寒為例,他的兩部作品《像少年啦飛馳》、《通稿2003》的副詞使用頻率分別為5.500%和7.932%,差距較大。這兩部作品較明顯的不同是體裁分別為小說和雜文。小說是客觀性的語言,作者不會直接表達思想感情,而是讓人物和情節(jié)代作者說話;雜文則是主觀性的語言,作者直抒胸臆,而且論證和說理性強。體裁的不同,使得作品的語言風格也不同。

鑒于此,從我們的實驗中觀察到的數(shù)據(jù)來說,個人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,且這種差別較穩(wěn)定,尤其是在語料足夠多、足夠長,作品形成時間相近、作者言語風格沒有階段性變化、作品體裁相同的前提下,這種偏好能夠得到較好的表現(xiàn)。

3.2 個人在表示同類關系的副詞中是否有選用上的偏好

為了觀察個人在表示同類關系的副詞中是否有選用上的偏好,我們分別抽取、統(tǒng)計6位作家24部作品中的程度、處所、范圍、方式、肯定和否定、時間、語氣等七類副詞,計算出每個副詞的出現(xiàn)數(shù)及其占總詞數(shù)的百分比,進行了相應的數(shù)據(jù)分析和比較。我們發(fā)現(xiàn)個人在表示同類關系的副詞中是有選用上的偏好的。這里僅以古龍的4部作品和郭敬明的4部作品為例做以說明。

古龍4部作品的同類副詞選用情況:古龍在程度副詞中選用“更、很、最、太”的情況遠多于“極、越、幾乎”等(圖 1)。 在處所副詞中,“到處”一詞出現(xiàn)的頻率較高,其余如“處處、四處、隨處”都是偶爾出現(xiàn)(圖2)。在總括性范圍副詞中,“都”的出現(xiàn)次數(shù)最多,遠高于居于其次的“全、俱”等;唯一性范圍副詞中,“就、只、才”使用頻率很高,“光、偏偏”也出現(xiàn)多次;限定性范圍副詞中,“不過、只有、只是”出現(xiàn)較多,“至少、約、大概”也有出現(xiàn)(圖3)。在方式副詞中,古龍偏向于選擇“忽然”引發(fā)場景、情節(jié)的變化,“暗暗、猛然”少量出現(xiàn)(圖 4)。在肯定、否定副詞中,“不、沒有”出現(xiàn)最多,“未、莫、必”等文言文化詞亦有出現(xiàn)(圖5)。時間副詞出現(xiàn)的較多,“已、還、再”都有大量出現(xiàn),“已”的頻率明顯高于“已經(jīng)”,“正、常、曾”的頻率分別高于“在、正在、常常、曾經(jīng)”(圖6)。語氣副詞中,表示疑惑時多用“難道、究竟”;表示驚訝時,多用“果然、居然、豈、竟然”(圖 7)。

郭敬明4部作品的同類副詞選用情況:在程度副詞中,郭敬明大量選擇“很”,比例較高,“最、太、更”也有一定比例,“幾乎、好像”也在每篇文章中都有體現(xiàn)(圖8)。在處所副詞中,“到處”出現(xiàn)頻率明顯高于其他兩個。但總體而言,處所副詞使用量較?。▓D9)。在總括性范圍副詞中,郭敬明大量使用了“都、全”;唯一性范圍副詞中,“就、只、才”使用頻率高,其他如“僅僅、僅、光”等都是偶爾出現(xiàn);限定性范圍副詞中,除了“只是、不過”占有一定比例外,其他副詞均只零星出現(xiàn)(圖10)。方式副詞的整體使用頻率偏低,都只是零星出現(xiàn),相對來說使用“悄悄、趕緊”多些(圖11)。 肯定、否定副詞中,“不、沒有、沒”使用次數(shù)多,肯定副詞則只用了“的確”(圖12)。時間副詞中,“還”出現(xiàn)頻率最高,“已經(jīng)、總是、再”頻率接近,其他時間副詞如“還是、依然、曾經(jīng)”等都有出現(xiàn)(圖13)。語氣副詞中,“也許”出現(xiàn)頻率較高,其次是“居然、竟然、反正、可”(圖 14)。

圖1 古龍作品程度副詞使用頻率圖

圖2 古龍作品處所副詞使用頻率圖

圖3 古龍作品范圍副詞使用頻率圖

圖4 古龍作品方式副詞使用頻率圖

圖5 古龍作品肯定和否定副詞使用頻率圖

圖6 古龍作品時間副詞使用頻率圖

圖7 古龍作品語氣副詞使用頻率圖

圖8 郭敬明作品程度副詞使用頻率圖

圖9 郭敬明作品處所副詞使用頻率圖

圖10 郭敬明作品范圍副詞使用頻率圖

圖11 郭敬明作品方式副詞使用頻率圖

圖12 郭敬明作品肯定和否定副詞使用頻率圖

圖13 郭敬明作品時間副詞使用頻率圖

圖14 郭敬明作品語氣副詞使用頻率圖

3.3 不同人在表示同類關系的副詞中是否有共同的選用偏好

為了觀察不同人在表示同類關系的副詞中是否有共同的選用偏好,我們對每位作家4部作品中出現(xiàn)的每個程度副詞、范圍副詞、時間副詞、語氣副詞、肯定和否定副詞、方式副詞、處所副詞的數(shù)量進行了平均和比較。我們發(fā)現(xiàn),不同人在表示同類關系的副詞中有共同的選用偏好,有些高頻詞是大家共同的選擇。但同時,也有一些詞,人們在選用他們時存在較大差異。

3.3.1 不同人均常會選用的副詞

我們整理出了每位作家使用的程度副詞、范圍副詞、方式副詞、肯定和否定副詞、時間副詞、語氣副詞中平均頻率排名前5的高頻詞,以及處所副詞中排名前4的高頻詞,發(fā)現(xiàn)6位作家使用的各類高頻詞中有很多是相同的:在程度副詞中,“很、最、更、太”常被選用,出現(xiàn)頻率高(表2)。在處所副詞中,“到處”最常被選用,其余處所副詞選用相對較少(表3)。在范圍副詞中,總括性范圍副詞上“都、全”最常被選用,唯一性范圍副詞“就、只、才”常被選用,限定性范圍副詞“不過、只是、只有”常被選用(表4)。在方式副詞上,表現(xiàn)趨勢并不穩(wěn)定,但“悄悄、忽然”出現(xiàn)頻率較高(表5)。在肯定和否定副詞上,“不、沒、沒有”被大量使用(表6)。時間副詞中,“還、再”常被選用,其他的出現(xiàn)頻率不穩(wěn)定(表7)。語氣副詞中,不同人的選擇差異較大,并沒有較為一致的選用習慣(表8)。

表2~8中所列副詞是6位作家使用的高頻副詞,根據(jù)我們的經(jīng)驗,這些副詞也正是人們普遍常用的副詞,在人群中出現(xiàn)率高,反映的是言語的共性特點,在書面言語鑒定中特征價值較低。

表2 程度副詞高頻詞表 (%)

表3 處所副詞高頻詞表 (%)

表4 范圍副詞高頻詞表(%)

表5 方式副詞高頻詞表 (%)

表6 肯定和否定副詞高頻詞表 (%)

表7 時間副詞高頻詞表 (%)

表8 語氣副詞高頻詞表 (%)

3.3.2 選用頻率差異大的副詞

在分析6位作家的副詞使用情況時,我們也發(fā)現(xiàn)了一些在選用頻率上差異較大的副詞。舉例如圖15~21所示。

從圖15~21中我們可以直觀地看出,不同作家在某些副詞的選用上確實差異較大,體現(xiàn)了不同人的言語習慣,這類副詞特征價值較高,可以用于書面言語鑒定。

圖15 6位作家程度副詞“尤其、過于”選用平均頻率圖

圖17 6位作家唯一性范圍副詞“偏偏、單、僅僅”選用平均頻率圖

圖18 6位作家限定性范圍副詞“大約、多半、約”選用平均頻率圖

圖19 6位作家時間副詞“立刻、還是、將、總是”選用平均頻率圖

圖20 6位作家語氣副詞“果然、豈、也許”選用平均頻率圖

圖21 6位作家方式副詞“趕緊、連忙、大力”選用平均頻率圖

4 結(jié)論

本文通過對6位作家24部作品副詞使用頻率、選用偏好等數(shù)據(jù)進行提取和分析,發(fā)現(xiàn)以下規(guī)律:

第一,個人在是否使用副詞上是有偏好的,不同人的平均副詞使用頻率有差別,尤其是在語料足夠多、足夠長的情況下,這種偏好能夠得到較好的表現(xiàn)。

第二,個人在表示同類關系的副詞中有存在選用上的偏好,人們會有自己習慣使用的副詞。

第三,不同人在表示同類關系的副詞中會有共同的選用偏好。某些副詞是人們都習慣選用的,這類副詞的特征價值低,案件檢驗中我們應該盡量少選這類詞作為特征詞使用;某些副詞在被選用的頻率上有較大差別,這類詞的特征價值高些,可以作為特征詞使用。

第四,對于長語料來說,由于其文本數(shù)量大,副詞使用頻率相對穩(wěn)定,受出版時間等因素的影響相對較小。我們認為副詞使用頻率可以作為同一認定的輔助特征使用,但使用時要充分考慮到語料的形成過程、創(chuàng)作背景、個人經(jīng)歷等因素的影響。

這些分析是建立在文本篇幅較長的前提下的,短文本的副詞使用頻率特點受言語內(nèi)容、體裁、題材、形成過程等因素的影響很大,在沒有大規(guī)模實驗證明之前,我們認為要慎用短文本中的副詞使用頻率特征。關于短文中副詞使用頻率特征的具體內(nèi)容,我們將另文討論。

猜你喜歡
高頻詞古龍郭敬明
30份政府工作報告中的高頻詞
省級兩會上的高頻詞
28份政府工作報告中的高頻詞
省級兩會上的高頻詞
活到四十多歲,才知道古龍有多天才
朋友間的分寸
關于郭敬明的一封家書
郭敬明就像是一個便秘患者
名人讀《意林》
古龍墻