国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于依存樹庫的彈幕語言句法特征研究

2024-01-01 00:00:00王紫悅阿孜古麗?夏力甫
現(xiàn)代語文 2024年5期

摘" 要:基于哈爾濱工業(yè)大學LTP語言云系統(tǒng)的依存句法樹庫,從依存關系類型、依存距離、依存方向百分比三個方面,對彈幕語言的句法特征進行探究。研究發(fā)現(xiàn),彈幕語言的依存類型以狀中關系、主謂關系、右附加關系、定中關系、動賓關系為主。彈幕語言的句長較短,以簡單句為主,復句為輔;單句的句長集中在1—5個詞語之內,復句的句長集中在10—15個詞語之內。彈幕語言單、復句的平均依存距離隨著句長的增加而緩慢增長,二者具有顯著相關性。彈幕語言的依存方向主要表現(xiàn)為支配詞在后。

關鍵詞:彈幕語言;依存樹庫;依存關系類型;依存距離;依存方向;句法特征

一、引言

“彈幕”一詞發(fā)源于日本,是在日本的網絡文化中產生的,2006年12月由Niconico網站推出,其功能是即時留言字幕。2007年,國內首家彈幕視頻網站AcFun(以下簡稱“A站”)成立,彈幕文化逐漸在國內興起。之后,在bilibili網站(以下簡稱“B站”)手中進一步發(fā)展壯大,目前,B站作為國內彈幕文化的代表,已成為深受當代青年喜愛的文化社區(qū)和視頻網站。隨著彈幕文化的風行,彈幕語言自然而然進入學術界和大眾的視野,基于其獨特的功能屬性,彈幕語言呈現(xiàn)出短小精煉、簡潔明了、主觀性強等特點。

國內學者對彈幕的研究主要是從社會互動機制和文化動因的角度進行的,涉及以下兩個方面:第一,對彈幕評論行為的驅動因素進行研究,主要是通過彈幕內容來分析彈幕用戶的行為動機。馮鈺茹、鄧小昭從統(tǒng)計學的角度出發(fā),驗證了自我效能感和信任這兩個指標對彈幕評論行為具有顯著的正向影響[1]。陳憶金等對視頻彈幕的交互模式進行了探究,分析某一類視頻彈幕發(fā)送的時間以及彈幕內容的從眾性[2]。張寧等則以數(shù)字人文視頻為例,闡述了用戶彈幕評論行為的生成路徑:情境—認知情感單元—行為[3]。第二,對彈幕評論的情感分析,即通過彈幕內容來探究其背后的文化因素、情感表達和思想傾向。曾一果論述了青年群體熱衷于彈幕文化的背后所體現(xiàn)出的情感需要和價值訴求,折射出青年人在數(shù)字媒介時代所處的“群體性孤獨”境況[4]。董天策、楊龍夢玨則探討了青年群體在觀看視頻《中國歷代疆域變化》時如何共同分享國族的幻想,民眾在這一空間共享歷史的輝煌和面臨苦難的拼搏,并建構國族認同,形塑國族身份[5]。在傳統(tǒng)質性分析的基礎上,也有學者基于數(shù)字化手段進行情感分析研究。邱全磊等專門構建了一種新的基于表情和語氣的情感詞典,用于彈幕情感分析[6]。曾誠等利用機器學習和神經網絡的情感分析模型,進行彈幕語言的情感分析,以解決傳統(tǒng)方法無法區(qū)分同一個詞在具體語境中含義不同等問題[7]。

總的來看,國內學界關于彈幕語言的研究,主要集中在由彈幕內容衍生出來的情感表達或行為機制方面,而對于彈幕語言本體特征的分析則較少關注。近些年來,僅有幾位學者從詞匯、文字形式、語體等角度入手,闡述了彈幕語言的特點[8]-[11]。有鑒于此,本文在依存語法理論的指導下,構建彈幕語言小型依存樹庫,采用計量語言學的研究方法,分析彈幕語言的句法依存關系。

二、彈幕語言的功能特點

彈幕文化是一種新興的網絡亞文化,它反映的是青年群體日趨多樣化的情感訴求和價值立場,具有即時性、互動性、參與性和娛樂性等特征。作為一種即時評論技術,彈幕語言為青年群體搭建了一個社會交往、情感交流的平臺,這既體現(xiàn)在其鮮明的表達特點上,也體現(xiàn)在強烈的交互主觀性上。

(一)彈幕語言的表達特點

彈幕語言首先產生于發(fā)起者在網絡語言特區(qū)中的即興表達,因此,該類語言并不遵照傳統(tǒng)語言學的語法規(guī)則造句,而是呈現(xiàn)出多元化、碎片化、個性化的特點。

1.語言構成多元化

彈幕語言的構成具有多樣性、多元化的特點。首先,表現(xiàn)在它的語言構成不僅限于漢語、英語、日語等不同國家或民族的語言;其次,表現(xiàn)在網絡語言及數(shù)字化、口語化語言,如“天選之人”“前方高能”“hhhhhh”“666”等;再次,還表現(xiàn)在各種語言形式的雜糅。因此,彈幕語言作為近些年新興的媒體語言形式,語言構成豐富多樣,具有極強的靈活性。

2.語言形式碎片化

碎片化的表達方式是彈幕語言的基本特征之一。彈幕語言具有句式短小精煉的特征,其碎片化的表達顯然是符合語言的經濟原則的。同時,這一特點也是由彈幕語言的即時性所決定的。如本文所收集的語料“好嚇人”,這一句子即使是省略了主語,但是共同觀看《河西走廊》紀錄片的觀眾們,仍然能夠很好地理解該語言所表達的意義,在該紀錄片中,它指的是壁畫中人物的舌頭好嚇人。

3.語言表現(xiàn)個性化

由于彈幕具有即時性以及隱蔽性,受眾所表達的語言往往是他們產生的第一感受。這些感受不僅與視頻的主旨內容和價值導向有關,還和個人的文化背景、道德觀念、現(xiàn)場情緒等因素緊密相關。因此,彈幕語言往往帶有濃厚的個人色彩,同時,彈幕的內容也往往表現(xiàn)出強烈的認同或強烈的反對立場。就此而言,個人的主觀認識、情感傾向在彈幕語言中占據(jù)顯著地位。

(二)彈幕語言的交互主觀性

沈家煊指出,主觀性是指語言的一種特性,即在話語中多多少少總是含有說話人“自我”的表現(xiàn)成分。在各種語言中,對話語標記的選擇和使用,往往是在說話者元語用意識監(jiān)控下完成的,具有強烈的主觀色彩,表達說話者豐富的情感[12]。彈幕語言的“交互主觀性”是指由于彈幕具有互動功能,受眾們可以共同表達對所觀看內容的感受和看法。因此,每一條彈幕語言的形成都會受到之前彈幕的影響,并對之后的彈幕產生影響,具有交流互動性質,能夠讓觀眾對視頻內容進行及時反饋、產生情感共鳴,并在共同的主題下維持話題的延續(xù)。

1.即時反饋

彈幕語言的交互主觀性首先基于其即時反饋的運作機制,即時的反饋功能為觀眾之間的互動提供了基本條件。觀眾作為第一視角,對視頻發(fā)表的看法、表達的情感,都能在第一時間反映在彈幕中。其他觀眾不僅擁有第一視角,可以對視頻發(fā)表自己的見解,同時,他還擁有第三視角的功能,可以對先前觀眾所發(fā)表的看法予以評價。因此,觀眾們所發(fā)表的彈幕內容,既包括對視頻本身的看法,也包括對之前彈幕的看法。尤其值得注意的是,由第三視角得到的彈幕反饋,對于第一視角的看法具有促進或反對的作用。

2.情感共鳴

通過我們所收集的語料信息,可以發(fā)現(xiàn),每一條彈幕都具有極強的觀眾互動性,即發(fā)彈幕的人始終試圖在與其他受眾之間建立一種精神上的聯(lián)系,并通過不同語言形式的表達,力圖引起大家的情感共鳴。如彈幕語料中的“我不信?!焙汀疤珟浟税?!”這樣的評論,既傳遞了發(fā)言者本人的即時情感反應,也揭示了一種潛在的期待:他們希望自己的看法能夠得到其他觀眾的認同或回應。此時,發(fā)彈幕的觀眾并不是在獨自發(fā)表看法,而是企圖與他人發(fā)生情感的共鳴。

3.話題延續(xù)

話題延續(xù)的交互主觀性主要體現(xiàn)在,當一條彈幕開始引發(fā)共鳴時,其他觀眾可能會采用更多的彈幕來回應這一原始評論,或者是表達同意、反駁,或者是進一步的思考,并借此來延展話題。比如,語料“我的家鄉(xiāng)武威”之后,又出現(xiàn)了“我去過武威”“想家”等話題,從而構成了一組話題集群??梢?,受眾通過某一條即時評論,在產生情感共鳴的基礎上,從不同視角進行話題互動。

三、研究理論與語料收集

現(xiàn)代依存語法的創(chuàng)始人,一般認為是法國語言學家呂西安·泰尼埃(Lucien Tesnière)。他在1959年出版的《結構句法基礎》(Eléments de Syntaxe Structurale)[13]一書中,集中闡述了依存語法的主要觀念體系。依存語法又稱為“從屬關系語法”,主要用于描述句子中支配詞與從屬詞之間的二元依存關系。其中,帶箭頭的弧線具備有向性,從支配詞指向從屬詞,并將動詞作為依存關系樹的根節(jié)點。

這里以“我愛我的祖國”為例,對依存句法關系加以說明。在該例句中,動詞“愛”作為句子的根節(jié)點,支配人稱代詞“我”,形成主謂依存關系(SBV);支配名詞“祖國”,形成動賓依存關系(VOB)。同時,名詞“祖國”與人稱代詞“我”形成定中依存關系(ATT),“我”和助詞“的”之間形成右附加依存關系(RAD)。“我愛我的祖國”的句法依存關系,具體如圖1所示:

圖1" “我愛我的祖國”句法依存關系圖示

通過上述依存關系,可以更加直觀地了解該句子的句法、語義結構。同時,依存距離(DD)和依存方向也是依存語法理論研究的兩個重要指標?!耙来婢嚯x”一詞由Hudson于1995年引入,他將依存距離定義為支配詞和從屬詞之間所隔詞語的數(shù)量。劉海濤則將依存距離定義為支配詞序號減從屬詞序號的差[14](P252-258)。如“我愛我的祖國”中,“我—愛”之間的依存距離為:2-1=1,“愛—祖國”之間的依存距離為:2-5=-3。同時,利用依存距離的絕對值可以計算某句話依存距離的均值,依存距離均值的結果與句子的句法復雜度密切相關,其計算公式為:

這里的“依存方向”是指支配詞與從屬詞之間的位置關系。由上述依存距離的結果,可以獲知依存距離具有方向性:如果支配詞在從屬詞之后,則方向為正;如果支配詞在從屬詞之前,則方向為負。劉海濤提出了計算句子依存方向百分比的公式[14](P259-265):

支配詞置后依存關系百分比=支配詞置后依存關系個數(shù)/所有依存關系個數(shù)*100;

支配詞居前依存關系百分比=支配詞居前依存關系個數(shù)/所有依存關系個數(shù)*100。

基于上述依存語法理論,本文將依存關系比例、依存距離、依存方向作為指標,探究彈幕語言的句法依存特點。

就語料收集來說,首先利用Python爬蟲技術,爬取了B站《河西走廊》紀錄片相關彈幕內容1022條,共計10829字。然后通過正則表達式進行語料清洗,并利用Python第三方jieba庫分詞,去除停用詞,得到1663個詞語。最后,借助哈爾濱工業(yè)大學LTP依存句法分析樹庫,對彈幕語料進行依存分析。

四、結果與討論

基于依存語法研究相關理論成果,我們對所收集的彈幕語料進行了依存句法計算,在此基礎上,對彈幕語言的依存關系進行深入分析。

(一)彈幕語言依存關系類型占比分析

基于哈工大LTP句法分析器對彈幕語料的分析,可以得到彈幕語料所具有的依存關系類型共有12種,它們分別是:核心關系(HED)、主謂關系(SBV)、狀中關系(ADV)、定中關系(ATT)、動賓關系(VOB)、動補關系(CMP)、介賓關系(POB)、兼語關系(DBL)、左附加關系(LAD)、右附加關系(RAD)、前置賓語關系(FOB)、并列關系(COO)。除去必有的核心關系(HED)之外,其余11種依存關系類型的出現(xiàn)頻次和百分比,具體如表1所示:

從表1可以看出,在彈幕語言的依存關系類型中,狀中關系(ADV)的占比最高;主謂關系(SBV)、右附加關系(RAD)、定中關系(ATT)、動賓關系(VOB)次之;左附加關系(LAD)、兼語關系(DBL)、前置賓語關系(FOB)則占比很低。

狀中短語是由狀語和中心語組成的短語,狀語起修飾、限制作用,中心語即狀語所修飾的動詞或形容詞。在彈幕語料中,狀中關系的出現(xiàn)頻次最高,表明動詞和形容詞占有更重要的地位。由于彈幕語言具有即時性特點,其內容更多地是反映觀眾當下的感受和狀態(tài),而動詞和形容詞最適合表達觀眾當下的情狀,因此,狀中短語使用頻次相對較高,共出現(xiàn)638次。如“這舌頭好嚇人”中的“好嚇人”,即為副詞修飾形容詞的狀中關系,這類短語在彈幕語言中比比皆是。

主謂短語是由主語名詞和謂語構成的短語,它們之間為陳述與被陳述的關系。在彈幕語料中,此類關系位列第二,共出現(xiàn)616次。主謂短語往往用來表示觀眾對視頻內容的陳述或見解,如“嘴型像尊龍”中的“嘴型像”即為主謂關系,全句表達觀眾對視頻的實時看法。

右附加關系是附屬詞語對名詞等成分的補充說明,使要表達的意思更加完整。在彈幕語料中,此類關系位列第三,共出現(xiàn)579次。右附加式關系主要包括“……的”的組合句式,如“手撕面包的是魔鬼嗎?”“這可是央視的”句中的“手撕面包的”“央視

的”,即為右附加式關系。同時,以“了”結尾的彈幕語句,也是彈幕語言的主要句式之一,如“我悟了”“老神棍了”,這些句式以名詞后附加助詞補充說明的形式,陳述對視頻的實時觀點。

同狀中關系一樣,定中關系也是由修飾語和中心語構成的依存關系類型,兩者的區(qū)別在于定中關系的中心語由體詞性成分充當。在彈幕語料中,此類關系位列第四,共出現(xiàn)566次。如“滑稽臉”“混血美男”,就是由形容詞修飾名詞的定中短語。由于彈幕語言與視頻具有實時關系,定中短語能夠以最短的句長形式,在觀眾之間表達最直接的語義信息,符合省力原則下自然語言的最短距離化傾向的特點,因此,它在彈幕語言中使用頻次較高。

動賓關系是人類語言中最常見的關系類型之一,在彈幕語料中位列第五,共出現(xiàn)558次。如“悲傷淹沒了你”“智者不入愛河”,表達的是一種支配與被支配的關系。

通過上文的分析,可以發(fā)現(xiàn),彈幕語言的依存類型特點與漢語自然語言略有不同。在漢語自然語言對話中,主謂、動賓關系的使用頻次更高;在彈幕語言中,則是狀中關系的使用頻次最多,右附加關系也占有很大比重。

(二)彈幕語言的句長及依存距離分析

如前所述,短小精煉是彈幕語言的顯著特點,因此,彈幕語言的句長總體較短,以單句為主。與此同時,彈幕語言的靈活性較大,也存在不少復句。筆者對所收集的1022個彈幕語料的單句、復句的句長、依存距離進行了分類統(tǒng)計,以探求彈幕語言的句長規(guī)律,并對句長與依存距離的關系進行分析。

1.彈幕語料句長分析

基于哈工大LTP句法分析器對彈幕語料的分析,可以得到1022個彈幕語料中單句和復句句子的句長,并求出平均句長。具體如表2所示:

從表2可以看出,彈幕語言以單句為主,共計761條,是復句數(shù)量的三倍以上。其中,句長為1—5單位的彈幕語言數(shù)量最多,共計530條,主要是單句;句長為6—10單位的彈幕語言次之,共計347條,復句占了很大的比重。單句、復句的占比分別是74.5%、25.5%,比例約為3:1。

2.彈幕語料平均依存距離分析

依存距離是反映句子句法復雜度的重要指標之一,我們在上文已經列出了依存距離的計算公式。在哈爾濱工業(yè)大學所提供的句法依存樹庫的基礎上,筆者采用了劉海濤提出的依存距離計算方法,來計算彈幕語言的平均依存距離(MDD)。此處以彈幕語料“歷史真的很神奇”為例,對此加以說明。該例句的依存關系有向圖,可如圖2所示:

該例句的平均依存距離是:

MDD=(|4-3|+|4-2|+|4-1|)/4=1.5

在彈幕語料中,不僅有很多簡單句,還存在一些復句。筆者根據(jù)簡單句平均依存距離的計算方法,對復句的平均依存距離進行計算。其方法是先算出各個分句的平均依存距離,然后相加,再除以分句個數(shù)。這里以彈幕語料“真用心了,演員找的真好”為例,對此加以說明。該例句的依存關系有向圖,可如圖3所示:

1" " 2" " 3" " 4" " 5" "6" "7" "8

該例句的平均依存距離是:

MDD=[(|2-1|+|2-3|)/3+(|5-4|+|5-6|+|8-7|+|5-8|)/5]/2=0.93

運用以上計算方法,我們可以得到1022個彈幕語料的平均依存距離以及其與句長的關系。具體如表3所示:

如表3所示,筆者對彈幕語料句長為1—20的單復句的平均依存距離進行了計算。可以看出,隨著句長的增加,單句和復句的平均依存距離也在緩慢增加,二者呈正相關關系。這也符合劉海濤的結論:依存距離越小,句法復雜度越低[14](P253)。

我們還將表3中的句長與總MDD導入SPSS,進行斯皮爾曼相關性分析。具體如表4所示:

表4中,斯皮爾曼的顯著性分析<0.01,因此,句長和平均依存距離(MDD)具有顯著相關性。從表3還可看出,在句長一致的情況下,復句的平均依存距離要明顯小于單句的平均依存距離。一般來說,復句應比單句更為復雜,這似乎與上述結論不符。那么,應該如何解釋這一現(xiàn)象呢?我們認為,復句的依存距離是在各分句的基礎上進行計算的,也就是說,產生差異的主要原因是:構成復句的各個分句的內部句法結構,要比一個獨立的單句的句法結構簡單。這也與人們的認知結構相關,要表達同一種含義,相對于一個單句來說,使用包含幾個分句的復句來表達,大腦進行語言組織的復雜度更低。這同樣可以解釋,為什么兒童在語言表達時,更擅長使用多個分句來表示意義。因此,單、復句平均依存距離的差異,往往與人的大腦和認知相關。該現(xiàn)象是在劉海濤所得結論基礎上的補充,進一步探究了單、復句平均依存距離的差異與認知的關系。

(三)彈幕語言的依存方向百分比

作為語言類型學的重要指標之一,依存方向主要是探究支配詞與從屬詞的前置與后置關系。劉海濤曾對漢語的句法進行了計量研究,認為漢語是一種支配詞居后的語言類型[14](P259-265)。本文利用依存方向百分比計算公式,對彈幕語言依存方向的確定進行計算,結果如表5所示:

從表5可以看出,彈幕語言支配詞在后的依存類型比例明顯高于支配詞在前的依存類型比例。

五、結語

基于哈爾濱工業(yè)大學LTP語言云系統(tǒng)的依存句法樹庫,本文從依存關系類型、依存距離、依存方向百分比三個方面,對彈幕語言的依存句法特征進行了探究。研究顯示,彈幕語言的依存句法特征表現(xiàn)在四個方面。第一,彈幕語言的依存類型以狀中關系、主謂關系、右附加關系、定中關系、動賓關系為主。第二,彈幕語言的句長較短,以簡單句為主,復句為輔。單句的句長集中在1—5個詞語之內,復句的句長集中在10—15個詞語之內。第三,彈幕語言單、復句的平均依存距離隨著句長的增加而緩慢增長,二者具有顯著相關性。第四,彈幕語言的依存方向主要表現(xiàn)為支配詞在后??梢?,彈幕語言的語言學結構具有顯著特征。

需要指出的是,本文的研究雖然是基于Python爬取的彈幕語言的真實語料,但語料的數(shù)量較少,并且語料來源僅是紀錄片的彈幕,而未涉及綜藝、動漫等其他視頻形式的彈幕語料,因此,研究結果具有一定局限性。同時,在單句、復句依存距離的計算過程中,并未考慮到一些復句中各分句之間的語義依存關系。因此,本文所得出的結論,是否適用于所有的彈幕語言的依存類型、依存距離和依存方向,尚需進一步探究。

參考文獻:

[1]馮鈺茹,鄧小昭.彈幕視頻網站用戶彈幕評論行為的影響因素研究——以Bilibili彈幕視頻網站為例[J].圖書情報工作,2021,(17).

[2]陳憶金,卓林鍇,趙一鳴.學習類視頻彈幕用戶的交互行為研究[J].圖書館論壇,2021,(9).

[3]張寧,段小宣,袁勤儉.數(shù)字人文視頻的用戶彈幕評論行為生成機制[J].圖書館論壇,2022,(8).

[4]曾一果.彈幕背后青年群體的情感需要與價值訴求[J].人民論壇,2021,(10).

[5]董天策,楊龍夢玨.國族的想象:作為修辭實踐的網絡民族主義——對B站《中國歷代疆域變化》彈幕的幻想主題分析[J].國際新聞界,2021,(4).

[6]邱全磊,崔宗敏,喻靜.基于表情和語氣的情感詞典用于彈幕情感分析[J].計算機技術與發(fā)展,2020,(8).

[7]曾誠,溫超東,孫瑜敏,潘列,何鵬.基于ALBERT-CRNN的彈幕文本情感分析[J].鄭州大學學報(理學版),2021,(3).

[8]王文博.試析彈幕語言在詞匯、漢字上的創(chuàng)新機制——基于嗶哩嗶哩彈幕網的分析[J].漢字文化,2022,(1).

[9]洪曉旭.認知語言學視角下B站彈幕的名詞活用現(xiàn)象考察[J].科技傳播,2022,(19).

[10]趙雪.一種新的網絡評論語體:彈幕語體[J].天津外國語大學學報,2022,(2).

[11]馮韶丹.彈幕視頻語言的四大特征[J].傳媒,2018,(11).

[12]沈家煊.語言的“主觀性”和“主觀化”[J].外語教學與研究,2001,(4).

[13]Tesnière,L.Eléments de Syntaxe Structurale[M].Paris:Klincksieck,1959.

[14]劉海濤.依存語法的理論與實踐[M].北京:科學出版社,2009.

Research on the Syntactic Features of Bullet Screen Language Based on Dependency Tree Library

Wang Ziyue,Aziguli Xalifu

(School of Chinese Language and Literature, Xinjiang University, Urumqi 830002, China)

Abstract:Based on the dependency syntax tree library of LTP language Cloud system of Harbin Institute of Technology, this paper explores the syntactic features of bullet screen language from three aspects: dependency type, dependency distance and dependency direction percentage. It is found that the dependency types of bullet screen language are mainly in the form of the relationship, the subject-predicate relationship, the right attachment relationship, the fixed middle relationship and the verb-object relationship. The sentences of bullet screen language are short, mainly simple sentences, supplemented by complex sentences; The sentence length of a single sentence is concentrated within 1—5 words, and the sentence length of a complex sentence is concentrated within 10—15 words. The average dependency distance of single complex sentences in bullet screen language increases slowly with the increase of sentence length, and there is a significant correlation between them. The dependent direction of bullet screen language is mainly manifested as the dominant word after.

Key words:bullet screen language;dependency tree library;dependency type;dependency distance;dependency direction;syntactic feature

屏山县| 监利县| 博客| 广昌县| 德保县| 黔西县| 花垣县| 肇源县| 板桥市| 石河子市| 平罗县| 连城县| 科尔| 绥滨县| 盈江县| 盱眙县| 清新县| 花莲市| 绩溪县| 大关县| 嵊泗县| 九龙坡区| 房产| 呼和浩特市| 隆昌县| 阿坝县| 桂阳县| 邵东县| 渑池县| 平和县| 裕民县| 平乐县| 长子县| 沐川县| 富阳市| 松潘县| 饶阳县| 蓬安县| 万盛区| 茂名市| 吉木萨尔县|