馮敏萱 葛四嘉
(南京師范大學(xué) 文學(xué)院,江蘇 南京 210097;美國(guó)科羅拉多大學(xué)博爾德分校 語(yǔ)言學(xué)系,美國(guó) 科羅拉多州 80309)
隨著數(shù)字化時(shí)代的來(lái)臨,數(shù)字人文在人文研究領(lǐng)域已有不少成果,而在文學(xué)領(lǐng)域中,詩(shī)詞的研究又一直是一個(gè)較為熱門的研究方向。早年俄國(guó)數(shù)學(xué)家馬爾科夫使用統(tǒng)計(jì)手段測(cè)量普希金詩(shī)歌《奧涅金》中語(yǔ)言單位出現(xiàn)的概率[1],這是在詩(shī)歌領(lǐng)域較早使用計(jì)算機(jī)手段進(jìn)行研究的范例,使得統(tǒng)計(jì)方法和信息處理手段進(jìn)入詩(shī)詞領(lǐng)域研究,在莎士比亞詩(shī)歌等文學(xué)作品中都不乏數(shù)字人文手段的運(yùn)用[2]。
在中國(guó)古典詩(shī)詞研究方面,除常見的詩(shī)句、作者、題目檢索外,對(duì)于古典詩(shī)詞的數(shù)字人文研究多集中在宏觀層面對(duì)詩(shī)詞重要信息的統(tǒng)計(jì)分析,如王兆鵬對(duì)古詩(shī)詞詩(shī)人的朝代分布、籍貫分布、作品數(shù)量分布、詞牌分布進(jìn)行統(tǒng)計(jì),結(jié)合數(shù)據(jù)進(jìn)行文學(xué)研究方面的相關(guān)分析[3];或?qū)υ?shī)詞的聲律特征進(jìn)行統(tǒng)計(jì)和標(biāo)注,配合字表生成平仄韻律可選字表,以檢查和展示詩(shī)詞的音韻方面的相關(guān)特征[4][5];或是對(duì)詩(shī)歌相關(guān)信息進(jìn)行處理并輔以可視化呈現(xiàn),比如對(duì)詩(shī)人的行旅軌跡進(jìn)行古今地名的對(duì)應(yīng)并利用地圖進(jìn)行可視化展示,或是通過挖掘注釋、標(biāo)題、詩(shī)句中其他詩(shī)人的名稱建立作者與這些詩(shī)人之間的社交網(wǎng)絡(luò),通過共現(xiàn)次數(shù)來(lái)調(diào)整網(wǎng)絡(luò)節(jié)點(diǎn)之間邊的權(quán)重,同時(shí)利用可視化軟件來(lái)呈現(xiàn)[6]。
可以看出,對(duì)于詩(shī)詞的數(shù)字人文研究還主要集中在以文學(xué)視角為主要學(xué)科理論基礎(chǔ),以詩(shī)詞概況信息或詩(shī)詞相關(guān)性信息為研究對(duì)象的統(tǒng)計(jì)分析和可視化上。而從數(shù)字人文角度,研究詩(shī)詞內(nèi)部意象的語(yǔ)義方面的成果還并不多。本文主要關(guān)注數(shù)字人文方法對(duì)于詩(shī)詞意象的分析,重點(diǎn)介紹現(xiàn)有的意象研究方法以及數(shù)字人文技術(shù)在中國(guó)古典詩(shī)詞的三項(xiàng)代表性研究,進(jìn)而提出分析意象語(yǔ)義對(duì)于研究詩(shī)詞的重要性,強(qiáng)調(diào)意象的字面義和深層情感義的區(qū)別與聯(lián)系,最后提出建設(shè)大規(guī)模的詩(shī)詞數(shù)字人文知識(shí)庫(kù),推動(dòng)詩(shī)詞意象數(shù)字人文研究的構(gòu)想。
意象是古詩(shī)詞表達(dá)情感和內(nèi)容的重要手段,也是詩(shī)詞整體語(yǔ)義的重要組成要素,是詩(shī)歌藝術(shù)最重要的組成部分之一[7]。多數(shù)學(xué)者認(rèn)為,意象可以理解為“意中之象”或是“表意之象”[8],“象”即物象,是客觀存在的事物,具有物理形態(tài),也包括如“風(fēng)”“聲音”視覺不可見的物質(zhì)表現(xiàn)[9]。例如“柳樹”就是一個(gè)物象,它是一種被子植物門雙子葉植物綱的植物,枝條細(xì)長(zhǎng),而“意”是指作者主觀的情感和志向、認(rèn)識(shí)活動(dòng)等[9]。一旦物象進(jìn)入詩(shī)人的構(gòu)思,就將成為詩(shī)人主觀情感的載體,即認(rèn)為意象是融入了主觀情意的客觀物象[10]。當(dāng)柳樹進(jìn)入詩(shī)人的筆下,其語(yǔ)義則不簡(jiǎn)簡(jiǎn)單單是一種植物,它成為“離別”情感的寄托,也因?yàn)槌3⒚琅拿济暼袅~,而成為了美女的代稱。
“意象”的文學(xué)傳統(tǒng)古已有之,從早期的“比興”傳統(tǒng)和楚辭的“香草美人”寄托手法,以及《周易·系辭》“圣人立象以盡意”論,陸機(jī)《文賦》中“喻巧”說等。當(dāng)然,對(duì)“意象”理論集中闡釋和明確論證的當(dāng)屬劉勰的《文心雕龍》,《文心雕龍·神思》中明確提到“玄解之宰,尋聲律而定墨;獨(dú)照之匠,窺意象而運(yùn)斤。此蓋馭文之首術(shù),謀篇之大端?!盵9]劉勰認(rèn)為除了聲律辭藻之外,另一謀篇首要的技術(shù)細(xì)節(jié)就是對(duì)意象的選取和加工。中華民族的情感表達(dá)一直是含蓄而豐富的,不擅長(zhǎng)于大段的說理和直抒胸臆的抒發(fā)感情,總是希望能夠?qū)⑶楦泻驼Z(yǔ)義委婉地表達(dá)出來(lái),故形成了源遠(yuǎn)流長(zhǎng)的托物言志傳統(tǒng)。同時(shí),“言不盡意”,人的情感是豐富的,而語(yǔ)言文字總是有局限的。因此,表達(dá)情感就需要使用一定技巧,能夠?qū)⑶楦泻透顚哟蔚恼Z(yǔ)義在有限的文字符號(hào)承載下表征出盡量豐富的情感和語(yǔ)義,從而達(dá)到“不著一字,盡得風(fēng)流”的藝術(shù)效果,這時(shí)就需要尋找一定的意象去物化人的情感,使抽象的情感變得具體而客觀,借助客觀物象表現(xiàn)主觀情意[11]。
詩(shī)人構(gòu)思意象的方式也無(wú)外乎兩種,一種是先有具體的物象觸發(fā)了詩(shī)人的情感,繼而使用此意象去承載情感。另一種是詩(shī)人先已有情感和內(nèi)容需要去抒發(fā),再去苦苦地尋找合適的語(yǔ)言符號(hào)的物象載體去表達(dá)。而無(wú)論哪種方式,選取的意象一定是和作者想要表達(dá)的情感或語(yǔ)義內(nèi)容是有所關(guān)聯(lián)的。這種關(guān)聯(lián),尤其在讀者去接受詩(shī)詞意象時(shí)表現(xiàn)的最為直觀。我們可以用當(dāng)代的認(rèn)知理論去闡釋,讀者首先接觸到的是語(yǔ)言表征符號(hào),這種語(yǔ)言符號(hào)通常是指稱的一個(gè)具體的物象,即通過語(yǔ)言符號(hào)激活了一個(gè)特定的物象概念。例如,我們看到“柳”這個(gè)字,腦海中總會(huì)浮現(xiàn)高大的軀干、細(xì)長(zhǎng)的柳枝、綠色的柳葉以及在春天里肆意生長(zhǎng)的姿態(tài),這些知識(shí)來(lái)源于人們的認(rèn)知經(jīng)驗(yàn),來(lái)源于生活和情感的經(jīng)歷,這些是柳樹帶給我們其作為物象的特征和屬性。進(jìn)而,由于“柳”的諧音,我們會(huì)和“離別”的情感和內(nèi)容發(fā)生聯(lián)想,柳葉的形態(tài)會(huì)使我們與“眉毛”發(fā)生聯(lián)想,進(jìn)而獲取“美女”的概念,而“柳樹”帶給人視覺上“熙熙攘攘”的綠又使讀者和春天、和旺盛的生命力聯(lián)系起來(lái),當(dāng)然,意象呈現(xiàn)系統(tǒng)性,難以孤立存在。一個(gè)意象往往要通過周圍詞語(yǔ)形成的語(yǔ)境來(lái)確定當(dāng)前的意義。在讀者那里,又通過詩(shī)句整體的藝術(shù)效果,投射在接受主體的認(rèn)知中,就可以對(duì)具體詞語(yǔ)承載的意象情感進(jìn)行確定。這時(shí)接受主體腦海中的畫面就是意境,這樣也就完成了“符號(hào)-物象-情感”的語(yǔ)義鏈的映射[8],可以將意象視作“以具體名詞為主體的象征符號(hào)系統(tǒng)”[12],物象是意象得以存在的基礎(chǔ)。因此,我們也可以抽象出這樣的一個(gè)鏈條,即“詞語(yǔ)-物象-意象”。在詩(shī)詞中,詞語(yǔ)符號(hào)對(duì)應(yīng)的物象概念,在一定的語(yǔ)境中形成獨(dú)特的意象。
可以看到,物象的語(yǔ)義和意象的語(yǔ)義是有一定區(qū)別的。物象作為語(yǔ)義載體,一定有意象深層語(yǔ)義的典型屬性。這種屬性是認(rèn)知語(yǔ)義上的屬性,也就是說,在選取物象時(shí),和所有表達(dá)情感和語(yǔ)義內(nèi)容一定是有所關(guān)聯(lián)的。否則,上述提到的“符號(hào)-物象-情感”的語(yǔ)義鏈條便很難實(shí)現(xiàn),因?yàn)樽髡吆妥x者都無(wú)法去實(shí)現(xiàn)語(yǔ)義的聯(lián)想。
我們能夠通過意象去接受意象背后的情感和豐富的語(yǔ)義內(nèi)容,是因?yàn)樵?shī)人在選擇意象時(shí)會(huì)特別注重二者的關(guān)系。這種關(guān)系我們可以理解為意象構(gòu)思的過程,也就是從物象到意象的認(rèn)知軌跡。首先是基于物象義和意象義之間的相似性,也就是常說的象征。象征經(jīng)過了漫長(zhǎng)的積淀,成為民族文化中非常自然的部分。傳統(tǒng)修辭中的象征從屬于隱喻[13],是基于事物相似性的認(rèn)知操作。如上文提到的由于柳葉形狀和美女的眉毛形狀的相似性。在“浮云游子意,落日故人情”中,由于“浮云”有漂浮不定的特點(diǎn),而“游子”也在不斷輾轉(zhuǎn),因此用“浮云”象征“游子”,再比如用“蓮花”象征高潔的品質(zhì),是由于蓮花生長(zhǎng)在淤泥中而花瓣依舊白凈不受沾染,“松柏”象征堅(jiān)貞?yīng)毩⑹怯捎谥Ω纱謮压P直,疾風(fēng)吹卷而不為所動(dòng)等等。
第二種方式是因?yàn)橐庀蠛臀锵笾g存在某種關(guān)系[9],即基于物象義和意象義之間的相關(guān)性。這種關(guān)系可能是處所關(guān)系,組成關(guān)系,領(lǐng)屬關(guān)系,包含關(guān)系,也可能是對(duì)立關(guān)系等。如“燕草如碧絲,秦桑低綠枝”,這里“燕草”和“秦?!敝复亩际茄嗟睾颓氐?,但未直言二地,而是借助于兩處的植物。類似地,“子交手兮東行,送美人兮南浦”,而本來(lái)“送別”和“南浦”并沒什么關(guān)系。再如“冠蓋滿京華,斯人獨(dú)憔悴”,其中“冠蓋”指的是“達(dá)官貴人”,是由于“冠蓋”分別是衣服和車馬的一部分,而官吏常穿華麗的服裝和車馬出行,從而利用領(lǐng)屬關(guān)系來(lái)實(shí)現(xiàn)這種聯(lián)系。
第三種聯(lián)系方式是借助于其他的一些修辭手段,比如通感或比喻,抑或借助于典故,或借助于漢字“音”“義”的多義性,如常見的“蓮”同“憐”,表示喜愛等。
意象是極富創(chuàng)造性和包容性的語(yǔ)義單位,不同時(shí)期、不同詩(shī)人的筆下,同一意象可能呈現(xiàn)了不同的深層語(yǔ)義和情感,意象的選取極富詩(shī)人特色。同是以“蟬”作為意象,駱賓王的《在獄詠蟬》、李商隱的《蟬》和虞世南的《蟬》因?yàn)樽髡卟煌碾H遇和主觀情感表達(dá)的需要,賦予其不同的語(yǔ)義。同樣是月亮,月亮由于自轉(zhuǎn)和太陽(yáng)的公轉(zhuǎn)導(dǎo)致了陰晴圓缺的狀態(tài),極易與人的悲歡離合相聯(lián)系。而對(duì)比月亮恒久,人生朝露易逝之感又襯托人生的短暫和渺小,而又通過意象之間不同的組合方式,或遞進(jìn),或?qū)αⅲ驎r(shí)空交錯(cuò),但都以巧妙的方式限定了每一種意象在當(dāng)前意境下的所指,又能夠使人通過意境所傳達(dá)的整體語(yǔ)義來(lái)感受強(qiáng)烈又熾熱的詩(shī)歌整體情感與語(yǔ)義。
由此可見,通過對(duì)意象語(yǔ)義的研究,實(shí)際上是對(duì)字面和深層兩層語(yǔ)義之間關(guān)系的研究,可以關(guān)涉人復(fù)雜的認(rèn)知過程,可以關(guān)涉隱喻中源域和目標(biāo)域語(yǔ)義感官的變化[14],也可以關(guān)涉語(yǔ)義變化與時(shí)代、個(gè)人際遇之間的關(guān)系。
進(jìn)行古詩(shī)詞意象語(yǔ)義的數(shù)字人文研究并非易事,需要同時(shí)掌握數(shù)字人文的研究手段和相關(guān)技術(shù)方法,還要具備一定的文學(xué)素養(yǎng),能夠從詩(shī)詞微觀發(fā)現(xiàn)問題。在這方面主要是計(jì)算語(yǔ)言學(xué)背景的學(xué)者,已經(jīng)有了一些較有開創(chuàng)性的研究工作來(lái)介紹,本文選擇其中最有代表性的三項(xiàng)工作來(lái)介紹。與傳統(tǒng)的詩(shī)詞研究不同,這三項(xiàng)研究都致力于將意象的語(yǔ)義進(jìn)行形式化的刻畫和成體系的構(gòu)建,以滿足檢索、計(jì)量分析等方面的應(yīng)用需求。
中國(guó)臺(tái)灣元智大學(xué)羅鳳珠教授,花費(fèi)了大量精力進(jìn)行古典詩(shī)詞數(shù)字化整理和詩(shī)詞知識(shí)庫(kù)的建設(shè),由淺入深地完成了詩(shī)詞(特別是宋詞)的韻律、詞語(yǔ)和意象的標(biāo)注與量化分析研究。,其對(duì)詩(shī)詞意象語(yǔ)義的研究是建立在對(duì)詩(shī)歌表層信息標(biāo)注的基礎(chǔ)上的。在起步階段,與北大計(jì)算語(yǔ)言學(xué)研究所合作,對(duì)詩(shī)詞聲律信息進(jìn)行標(biāo)注與計(jì)量分析研究[5]。在建立全宋詞的詞牌、詞韻等相關(guān)知識(shí)庫(kù)之后,能夠自動(dòng)檢查詩(shī)句是否符合格律,并能夠?yàn)椴缓掀截频淖衷~提出修改建議。還開發(fā)出能夠針對(duì)多音字消歧而實(shí)現(xiàn)自動(dòng)注音的系統(tǒng),提供韻律知識(shí)查詢等相關(guān)功能[4][5]。在此基礎(chǔ)上,羅鳳珠進(jìn)行了由形式到內(nèi)容,由語(yǔ)音到語(yǔ)義,由符號(hào)到意義的研究嘗試,結(jié)合一系列知識(shí)庫(kù)諸如語(yǔ)法信息知識(shí)庫(kù)、語(yǔ)義知識(shí)庫(kù)之后,先提出了結(jié)合宋詞的韻律特征的詞語(yǔ)分詞策略,構(gòu)建出一個(gè)龐大的詞匯概念體系。共分為人、事、時(shí)、地、物、其他等6個(gè)大類,50個(gè)中類,386個(gè)小類,義類體系比較全面。而后對(duì)切分出的詞語(yǔ)一一標(biāo)注了其建立的詞匯語(yǔ)義概念體系中的語(yǔ)義標(biāo)記。在標(biāo)注時(shí),考慮到了如“桑麻”之類詞匯是由兩個(gè)詞進(jìn)行組合而產(chǎn)生了更加豐富意味的情況。此時(shí),完成了對(duì)意象字面義的語(yǔ)義研究工作。
在字面義標(biāo)注的基礎(chǔ)上,羅鳳珠進(jìn)一步研究了詩(shī)歌的情感。首先,分析了風(fēng)格朝代迥異的六位知名作者(如蘇軾、李清照等)作品中不同情感詞的分布情況[15][16]。然后,考慮到季節(jié)、晨夜、星月都可能對(duì)詩(shī)歌的情感產(chǎn)生一定影響,又分上述類別進(jìn)行了統(tǒng)計(jì)。數(shù)據(jù)表明,六位作者作品中情感詞匯均悲多于喜;在季節(jié)詞匯上,以春秋為主;時(shí)間詞匯分布上,以清晨和黃昏居多。研究注意到了詩(shī)詞語(yǔ)言的特性和詩(shī)詞語(yǔ)義的復(fù)雜性,并通過統(tǒng)計(jì)的數(shù)據(jù)結(jié)合文學(xué)鑒賞,對(duì)六位詩(shī)人的作品情感風(fēng)格與詞匯使用之間關(guān)聯(lián)做了探究,打破了以往主要建立詞型語(yǔ)言表征符號(hào)的研究范式。
最后,研究意象的“言外之意”。這個(gè)層次的語(yǔ)義,分析難度很大,包括詞匯的語(yǔ)義概念——即袁行霈先生所說的“宣示義”和意象承載的超越了詞匯語(yǔ)言符號(hào)指稱的主觀情意——即啟示義[17],對(duì)詞匯又加標(biāo)了一層意象義概念標(biāo)記[18]。這層意象語(yǔ)義標(biāo)記體系也和之前的字面義語(yǔ)義概念標(biāo)記相輔相成,采用了袁行霈對(duì)意象的分類標(biāo)準(zhǔn),共五大類,分別是自然界的,如天文、地理、動(dòng)物、植物;社會(huì)生活的,如戰(zhàn)爭(zhēng)、游宦、漁獵等;人類自身的,如四肢、五官、肺腑、心理;人的創(chuàng)造物,如建筑、器物、服飾、城市;人的虛構(gòu)物,如神仙、鬼怪、冥界等。例如,李白《下終南山過斛斯山人宿置酒》中,“綠竹入幽徑”中的“綠竹”,原有的字面義標(biāo)記從大類到小類分別是“物”“生物名稱”“植物通名(禾本)”,而根據(jù)新的意象義體系,其標(biāo)記從大類到小類分別為“自然界”“隱逸”和“心境”。這樣字面義和意象義的雙層標(biāo)注使得詞語(yǔ)在古詩(shī)詞中的語(yǔ)義更加豐富和完整。
所謂知識(shí)本體(Ontology),在Neches的定義中指的是領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系[19],以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延規(guī)則定義。Gruber給出的定義是Ontology是概念模型的明確規(guī)范說明,Ontology提供的是領(lǐng)域知識(shí),確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次給出詞匯和詞匯之間關(guān)系的定義[20]。Ontology包含5個(gè)建模元語(yǔ),可以看做是知識(shí)本體的結(jié)構(gòu)要素,分別是概念、關(guān)系、函數(shù)、公理和實(shí)例,主要是一些具體詞匯的集合的定義,然后是概念之間的關(guān)系,如父子關(guān)系,函數(shù)是特殊的關(guān)系,具有確定的唯一輸出,公理代表永真的斷言,可以用于推理,實(shí)例即概念中的元素,可以理解為具體的詞匯[21]。
Ontology被廣泛用于信息檢索、語(yǔ)義網(wǎng)和推理系統(tǒng),通過構(gòu)建知識(shí)本體,可以將領(lǐng)域的知識(shí),尤其是各種概念通過關(guān)系聯(lián)系起來(lái),并根據(jù)函數(shù)和公理進(jìn)行一定的邏輯推導(dǎo),相當(dāng)于將領(lǐng)域的各種知識(shí)通過特殊的結(jié)構(gòu)化語(yǔ)言儲(chǔ)存成數(shù)據(jù)的形式并教給計(jì)算機(jī),計(jì)算機(jī)通過這些知識(shí)進(jìn)行領(lǐng)域中的語(yǔ)義推理。Ontology的性質(zhì)和作用大致相當(dāng)于人工智能中的知識(shí)圖譜。而SUMO(Suggested Upper Merged Ontology)是一種抽象頂層知識(shí)本體,由IEEE發(fā)起,目的為突破領(lǐng)域知識(shí)的界限,構(gòu)建出一種超越領(lǐng)域界限的、普適的、通用的抽象知識(shí)本體[22]。其蘊(yùn)含了20000個(gè)概念和700000個(gè)公理,但是由于是高度抽象的普適性知識(shí)本體,就與領(lǐng)域中的具體詞匯之間形成了巨大的隔閡,導(dǎo)致普遍性與特殊性之間的矛盾,SUMO中的概念比較寬泛,但缺乏更細(xì)顆粒度的語(yǔ)義關(guān)系和概念,因此SUMO的實(shí)用性較差,人工的一一標(biāo)注比較耗時(shí)耗力。目前比較有效的映射機(jī)制是使用語(yǔ)義資源WordNet(詞網(wǎng))作為中介,進(jìn)行詞匯和抽象概念之間的映射,由于WordNet和SUMO之間存在比較明顯的對(duì)應(yīng)關(guān)系,因此較多學(xué)者自然想到使用WordNet作為中介連接具體詞匯和SUMO上層知識(shí)本體[23][24]。
中國(guó)臺(tái)灣“中研院”致力于構(gòu)建各種領(lǐng)域的知識(shí)本體,黃居仁教授的研究是以建立在“中研院”已有的一些資源[25],如Academia Sinica漢語(yǔ)分詞系統(tǒng)、Sinica BOW(雙語(yǔ)詞典的數(shù)據(jù)庫(kù)、WordNet和SUMO)。其研究以《唐詩(shī)三百首》作為原始語(yǔ)料,選擇其中出現(xiàn)頻次較高且?guī)в胸S富的深層意象義的動(dòng)物、植物和人造物三個(gè)語(yǔ)義類,構(gòu)建唐詩(shī)三百首的知識(shí)本體,進(jìn)而利用SUMO的公理、關(guān)系進(jìn)行唐詩(shī)三百首領(lǐng)域的知識(shí)推理等應(yīng)用。在他的研究中,WordNet作為具體詞匯詞義的表示資源,在WordNet中,具有相同或相似的詞會(huì)在同一節(jié)點(diǎn)上,表示一組同義詞集(synset),而不同的節(jié)點(diǎn)之間又會(huì)形成上下位、同義、反義等各種語(yǔ)義關(guān)系,而上層的概念表示使用SUMO。SUMO和WordNet二者之間的映射已經(jīng)由Sinica BOW完成,每個(gè)詞匯只需要標(biāo)注其在WordNet中的對(duì)應(yīng)ID,即可自動(dòng)映射到SUMO中的概念節(jié)點(diǎn),從而構(gòu)建出唐詩(shī)三百首的領(lǐng)域知識(shí)本體。可以看作是借助WordNet的體系標(biāo)注出唐詩(shī)三百首的字面義體系。相比于羅鳳珠的語(yǔ)義體系,這個(gè)知識(shí)本體的通用性更好,能夠與世界上其他語(yǔ)言方便地進(jìn)行對(duì)比分析。
目前,市面上有許多詩(shī)詞檢索系統(tǒng),一般僅僅考慮字符串匹配的全文檢索,并不考慮內(nèi)部語(yǔ)義。如要獲得與待查詢?cè)娋湔Z(yǔ)義相近的詩(shī)句,處理流程通常采用是直接用字符串匹配,返回與查詢語(yǔ)句最匹配的的詩(shī)句。這樣做有兩個(gè)問題,首先唐詩(shī)中的詞有豐富的語(yǔ)義,相同的詞所表達(dá)的語(yǔ)義不一定相同,而基于字符串匹配很可能會(huì)遇到匹配數(shù)較少的情況,查詢效果并不理想。其二,使用字符串匹配勢(shì)必會(huì)忽略相同語(yǔ)義但不同詞匯所組成的詩(shī)句,也會(huì)導(dǎo)致查詢效果表現(xiàn)不佳。
針對(duì)以上問題,大連理工大學(xué)的畢旭提出,需要建立在語(yǔ)義相似基礎(chǔ)上的查詢,在詩(shī)詞語(yǔ)義元素中,關(guān)注到意象信息對(duì)于詩(shī)詞語(yǔ)義的貢獻(xiàn)。然后,設(shè)計(jì)出以意象為基礎(chǔ)的詩(shī)句相似度查詢系統(tǒng)。系統(tǒng)建立了一個(gè)小型唐詩(shī)語(yǔ)料庫(kù),并標(biāo)注了意象詞匯在《同義詞詞林》[26]中的編號(hào)與主題(思想、離別)。查詢流程設(shè)計(jì)如下[27]:第一步,由于《同義詞詞林》與WordNet采用相似的樹型結(jié)構(gòu),將同義的詞歸置于同一節(jié)點(diǎn)下,基于樹中不同節(jié)點(diǎn)之間的路徑,設(shè)計(jì)相似度算法,可以提取出與待查詢?cè)娋渲幸庀笳Z(yǔ)義相似的意象。但是,考慮到詩(shī)詞意象往往是多義的,意象的具體意義往往在與其他意象的共現(xiàn)中得以體現(xiàn),相同的意象序列可能表達(dá)了相同的主題。因此,第二步則選擇了兩類主題中的高頻意象作為特征,將第一步得到的含有相似意象的詩(shī)句編碼成特征向量,并輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,最終得出待查詢?cè)娋鋵儆谕惖脑?shī)句。這樣檢索出來(lái)的結(jié)果,既與待查詢?cè)娋涫褂昧苏Z(yǔ)義相似的意象詞匯,同時(shí)詩(shī)句間屬于同一主題。在實(shí)驗(yàn)中,對(duì)李白《秋浦歌十七首》中“不知明鏡里,何處得秋霜”查詢,得到曹鄴《四怨三愁五情詩(shī)十二首·一愁》中“遠(yuǎn)夢(mèng)如水急,白發(fā)如草新。歸期待春至,春至還送人”。系統(tǒng)就可以查詢出這類不存在相同關(guān)鍵詞的相似詩(shī)句,檢索的智能度頗高。該工作是一個(gè)有益的算法嘗試,目前受限于語(yǔ)料庫(kù)標(biāo)注規(guī)模尚小,如果不斷擴(kuò)大其規(guī)模,則可以為古典詩(shī)詞的智能檢索服務(wù)帶來(lái)重大提升。
上述研究的側(cè)重點(diǎn)不一,如羅鳳珠教授是從典籍?dāng)?shù)字化和文學(xué)計(jì)量研究的視角出發(fā)的,其研究目的主要是為了通過構(gòu)建知識(shí)庫(kù)的技術(shù)手段,以計(jì)量的方法計(jì)算得到與文學(xué)研究有關(guān)選題的數(shù)據(jù),并根據(jù)數(shù)據(jù)進(jìn)行文學(xué)選題的分析,比如上文提到的六位詞人詩(shī)詞作品悲喜風(fēng)格的分析。黃居仁教授是建立在領(lǐng)域知識(shí)本體構(gòu)建動(dòng)機(jī)上的研究,其應(yīng)用場(chǎng)景主要在于知識(shí)推理、信息檢索等方面,是為了計(jì)算機(jī)獲取人類知識(shí)而服務(wù)的。其方法主要是利用Sinica BOW中的資源結(jié)合人工標(biāo)注進(jìn)行詞匯-概念的映射,這幾乎已經(jīng)成為“中研院”構(gòu)建領(lǐng)域知識(shí)本體的一種范式。畢旭的研究目的主要是詩(shī)句查詢,使用的方法主要是數(shù)據(jù)庫(kù)算法和機(jī)器學(xué)習(xí)技術(shù)。在小規(guī)模標(biāo)注了字面義和意象義的語(yǔ)料庫(kù)基礎(chǔ)上,就可以形成深層語(yǔ)義的檢索。
三項(xiàng)研究比較有代表性,也都以技術(shù)手段實(shí)現(xiàn)了對(duì)詩(shī)詞意象語(yǔ)義信息的挖掘,但普遍存在數(shù)據(jù)庫(kù)規(guī)模過小、對(duì)意象語(yǔ)義內(nèi)部語(yǔ)義特征以及意象表層宣示義與深層啟示義的探究,羅鳳珠教授關(guān)注了意象詞匯語(yǔ)義和意象義的區(qū)別,但是關(guān)于意象語(yǔ)義如何表示、意象標(biāo)記體系設(shè)計(jì)的技術(shù)細(xì)節(jié)等問題沒有展開論證。尤其是在古詩(shī)詞語(yǔ)義領(lǐng)域,對(duì)于標(biāo)記集設(shè)計(jì)常會(huì)出現(xiàn)主觀化過重導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)稀疏,亦或是標(biāo)記集交叉的技術(shù)問題,而探尋意象詞匯義根據(jù)何種方式與意象義發(fā)生關(guān)聯(lián)也是應(yīng)在詞匯語(yǔ)義與意象語(yǔ)義研究時(shí)必須考慮的因素。黃居仁和畢旭的研究都屬于案例式研究工作,沒有形成較大的語(yǔ)料規(guī)模,因此對(duì)于意象語(yǔ)義分析都顯得較為單薄,同時(shí)意象的多義性、意象詞匯語(yǔ)義和意象語(yǔ)義也應(yīng)當(dāng)同時(shí)作為研究對(duì)象考察,而不是僅選取單方面語(yǔ)義展開研究。
意象語(yǔ)義研究必須充分挖掘意象語(yǔ)義的相關(guān)信息,同時(shí)應(yīng)該結(jié)合詩(shī)詞整體語(yǔ)義的特點(diǎn),應(yīng)特別將意象研究單位、意象層次間語(yǔ)義關(guān)系等方面作為主要研究要素。
作為意象語(yǔ)義的研究,首先要確定意象語(yǔ)義的研究對(duì)象,但是目前對(duì)意象單位的界定都沒有統(tǒng)一的標(biāo)準(zhǔn)。意象作為表意之象,首先應(yīng)該借助于“象”的單位,而“象”大部分情況下是以詞匯的形式出現(xiàn)的,有學(xué)者據(jù)此認(rèn)為應(yīng)該以詞匯來(lái)界定。如馬致遠(yuǎn)《天凈沙·秋思》“枯藤老樹昏鴉,小橋流水人家,古道西風(fēng)瘦馬”是3組9個(gè)意象。但也有學(xué)者提出上述詞匯組合在同一畫面下,應(yīng)該視作是統(tǒng)一意象,任何一個(gè)單獨(dú)詞匯對(duì)于意象來(lái)說都沒有意義[12]。由于是建立在數(shù)字人文手段下的研究,勢(shì)必將利用統(tǒng)計(jì)數(shù)據(jù),不同的意境畫面判斷對(duì)計(jì)量研究會(huì)造成巨大的障礙,因此本文支持前者的觀點(diǎn)。同時(shí)應(yīng)注意到,意象單位和詞存在復(fù)雜的對(duì)應(yīng)關(guān)系,詞匯是詞和固定短語(yǔ)的總和,但是意象中,如“柳葉”“荷葉”應(yīng)作為一個(gè)整體意象看待,“葉”和“柳”單獨(dú)視作詞,而“柳”和“葉”單獨(dú)作為意象和“柳葉”作為一個(gè)意象整體的意義又有所不同,在羅鳳珠的研究中,基于詞匯的語(yǔ)義標(biāo)記方法會(huì)割裂開意象整體單位。研究意象的語(yǔ)義單位實(shí)際上是在橫向視角對(duì)意象內(nèi)部組成詞匯語(yǔ)義關(guān)系的探究。
意象語(yǔ)義由于具備其字面義和意象義的雙重語(yǔ)義,因此必須要對(duì)兩個(gè)語(yǔ)義層次進(jìn)行分析。在研究時(shí)應(yīng)關(guān)注字面義和意象義通過何種方式產(chǎn)生聯(lián)系的,即在創(chuàng)作時(shí)詩(shī)人是為何選擇以此“象”來(lái)承載此“意”,從認(rèn)知語(yǔ)義視角切入比較符合詩(shī)人創(chuàng)作的過程,有可能是由于后者的情感或品質(zhì)與前者在其外型、習(xí)性上具有相似性。而這種相似性很有可能已經(jīng)積淀為民族文化認(rèn)知的一部分[9][11]。我們觀察到意象的象征情感、烘托的氛圍很多都是人們認(rèn)知屬性的反映。查詢體現(xiàn)現(xiàn)代漢語(yǔ)詞語(yǔ)認(rèn)知意義的認(rèn)知屬性庫(kù)[28][29],“菊花”頻率最高的五個(gè)認(rèn)知屬性分別是高傲、高潔、堅(jiān)定、傳統(tǒng)、美麗。其中,高傲、高潔符合“菊花”的象征寓意。查詢“落葉”,前五個(gè)屬性分別是輕、頹廢、灑脫、無(wú)聲無(wú)息、飄灑??梢钥吹?,落葉中的頹廢、秋風(fēng)的蕭瑟,都是其意象義?,F(xiàn)代漢語(yǔ)的認(rèn)知屬性庫(kù)是基于當(dāng)代中國(guó)人的認(rèn)知。在將來(lái)的研究中,應(yīng)該建立面向古典詩(shī)詞的古代認(rèn)知屬性庫(kù),這樣可以更好地研究古詩(shī)詞中的意象義。
上述兩大問題其實(shí)都可以歸入這個(gè)議題。目前學(xué)界所建立的深標(biāo)注的詩(shī)詞語(yǔ)料庫(kù)規(guī)模尚小,難以滿足古典詩(shī)詞的教育、傳播等方面的需求。如果能夠先基于中國(guó)古典詩(shī)詞,建立起詞語(yǔ)字面意義和深層情感義的語(yǔ)義體系,進(jìn)而通過標(biāo)注大量詩(shī)詞的方式,構(gòu)建起古典詩(shī)詞數(shù)據(jù)庫(kù),則可以在很大程度上滿足詩(shī)詞教學(xué)、推廣、創(chuàng)作等方面的需求。進(jìn)一步地,可以基于這個(gè)框架,囊括現(xiàn)代漢語(yǔ)甚至英語(yǔ)、法語(yǔ)、日語(yǔ)等多語(yǔ)言的詩(shī)詞。這樣,不僅可以根據(jù)不同語(yǔ)言文化,優(yōu)化調(diào)整出更好的語(yǔ)義體系,而且能夠進(jìn)行跨語(yǔ)言的對(duì)比分析和研究,對(duì)于跨文化交際、翻譯都有著非常重要的價(jià)值。因此,我們倡議構(gòu)建這種存儲(chǔ)在計(jì)算機(jī)內(nèi)的、可復(fù)用、可檢索、可深度分析、可多種應(yīng)用的新型文學(xué)知識(shí)庫(kù)。