趙紅改,肖詩斌,王洪俊,呂學(xué)強
(北京信息科技大學(xué)中文信息處理研究中心,北京100101)
隨著萬維網(wǎng)的不斷發(fā)展與互聯(lián)網(wǎng)信息量的增加,搜索引擎成為人們獲取新知識的重要手段,而如何提高搜索引擎的檢索效率和精度逐漸成為近幾年信息檢索中的熱點關(guān)注方向。當(dāng)今主流的搜索引擎都是以關(guān)鍵詞匹配來查找信息,這樣對用戶輸入的關(guān)鍵詞要求很高。余慧佳[1]對用戶提交的查詢關(guān)鍵詞的長度進行了分析,發(fā)現(xiàn)查詢的長度通常比較短,而且以短語的形式出現(xiàn)。由此可見,基于搜索引擎日志,將搜索引擎用短語詞典中的短語進行定義,進一步對其語法結(jié)構(gòu)進行分析研究顯得尤為重要,它有利于提高搜索引擎的檢索準(zhǔn)確度。
在現(xiàn)代漢語中,“N+V”型組合是一種比較常見的組合,這種組合包含三種不同句法關(guān)系:①定中偏正結(jié)構(gòu)(如銀/飾);②狀中偏正結(jié)構(gòu)(童心/處事);③主謂結(jié)構(gòu)(飛機/墜毀、孩子/發(fā)燒、螞蟻/搬家)。在之前唐昱[2]就對同形異構(gòu)的偏正結(jié)構(gòu)進行了詳細(xì)的介紹,但對主謂短語的研究不夠詳盡。本文是建立在搜狗日志語料的基礎(chǔ)上,從短語的各組成要素、音節(jié)特點和功能用法三個方面對“N+V”型主謂短語進行詳細(xì)研究,這為后期對“N+V”型短語的句法消歧提供參考意見,為搜索引擎用短語詞典構(gòu)建提供重要的理論依據(jù)。此外,還介紹了該類型短語挖掘與校對的基本方法,從而為短語在搜索引擎中的應(yīng)用以及搜索引擎用短語詞典構(gòu)建提供基礎(chǔ)研究服務(wù)。
“N+V”型主謂短語中的“N”主要具有陳述意義,雙音節(jié)名詞占絕大多數(shù),此外還有少量的單音節(jié)名詞、三音節(jié)名詞和四音節(jié)名詞。參考劉順[3]的《現(xiàn)代漢語名詞研究述評》中提到的關(guān)于名詞的分類相關(guān)方法,對進入“N+V”型主謂短語中的“N”進行研究。
對搜狗日志語料中的“N+V”型主謂短語進行分析與統(tǒng)計,將“N”分為指人名詞、指物名詞、機構(gòu)名、專名、地域名五類。
【指人名詞】:阿妹/n出嫁、鄧小平/nr逝世、劉真/nr表演、倪萍/nr離婚、張佩昌/nr受賄、人民警察/n辭職
【指物名詞】:貓/n撲、手/n放開、右眼/n跳、鼻/ng出血、肌/ng無力、獅/ng跑
【專名】:瑞星/nz升級、超女/nz勁舞、百度/nz裁員/vi、黑鷹/nz墜落、獵豹/nz飛騰
【地域名】:蒙古/ns回歸、江西/ns崛起、緬甸/ns遷都、甘肅/ns缺水/v、遂溪縣/ns換屆/vi、金城/ns開業(yè)/vi
【機構(gòu)名】:北京大學(xué)/nt招生、北京銀行/nt面試、聯(lián)合國/nt降半旗、蘇寧電器/nt連鎖、審計局/nt檢查
基于搜狗日志語料,通過分析“N+V”型主謂短語中的“N”,其在各類名詞中的分布是有差異的,指物的名詞在語料中出現(xiàn)的次數(shù)最多,其次依次是指人的名詞、專名、其他,地域名和機構(gòu)名則出現(xiàn)最少。出現(xiàn)這種不均勻分布的原因主要依賴于搜狗日志語料,指物和指人的名詞多為高生命度的名詞,它出現(xiàn)在“V”前,激活了“V”的典型功能而專名則屬于高個體度的名詞,它能進入“N+V”型主謂短語。
動詞的典型性功能是充當(dāng)謂語,搜索引擎日志中“N+V”型主謂短語中的“V”體現(xiàn)的是動詞的典型功能?!癗+V”型主謂短語中的“V”可按不同的標(biāo)準(zhǔn)來分類,不同的分類有不同的意義和用途。本文借鑒趙元任先生[4]對動詞的分類標(biāo)準(zhǔn),從意義角度出發(fā),結(jié)合搜狗日志語料的特點,進行以下分類。
(1)動作動詞
動作動詞是表示動作行為的動詞,在動詞中占多數(shù)。它包括及物的動作動詞和不及物的動作動詞。由它構(gòu)成的“N+V”型主謂短語或表示動作發(fā)出者做某件事的過程,或表示通過講話交流信息的過程,下面進行分類論述。
1)表示動作發(fā)出者做某件事的過程。例如,“嬰兒打噴嚏”,“嬰兒”是動作發(fā)出者,“噴嚏”是目標(biāo),整個主謂短語以謂語動詞“打”為核心,表示動作發(fā)出者做“打噴嚏”這件事的過程。按照動詞的具體語義,分為以下四類。
【表全身動作的】:妃子/n笑/v、鷓鴣/n飛/vi、周恩來/nr落淚/vi
【表行為的】:橋/n斷/v、黑鷹/nz墜落/v、李衛(wèi)/nr當(dāng)官/vi
【表腿部動作的】:兒童/n摔倒/v、獅/ng跑/v
【表手臂動作的】:手腕/n扭傷/vi、幼兒/n畫畫/v
2)表示通過講話交流信息的過程。例如,“區(qū)長談解放思想”,講話者“區(qū)長”講話,交流的信息是“解放思想”。
【表口部動作的】:王宏偉/nr演唱/v、歌女/n唱/v、阿六頭/nr說/v
【其他言語類的】:幸存者/n講述/v、妓女/n口述/v、陳安之/nr演講/vi
(2)狀態(tài)動詞
狀態(tài)動詞主要表示人或動物的心理和生理狀態(tài)。同樣地,由它構(gòu)成的“N+V”型主謂短語多表示“感覺”、“反應(yīng)”和“認(rèn)知”等心理活動或生理狀態(tài)的過程。因此,可以分為以下兩類。
【表心理狀態(tài)的】:陳慧琳/nr希望/v、企業(yè)家/n喜歡/vi、顧客/n滿意/v
【表生理狀態(tài)的】:口腔/n起泡/vi、寶寶/n嘔吐/vi、月經(jīng)/n延長/v
郝倩[5]指出詞的語音構(gòu)成單音節(jié)與雙音節(jié)形式,語音形式也制約著詞語的組合和詞語的搭配。從搜狗日志語料提取出的“N+V”型主謂短語,對單音節(jié)動詞,與其搭配的名詞成分在音節(jié)選擇上比較自由;對于雙音節(jié)動詞,在音節(jié)選擇上卻受到限制,一般只跟雙音節(jié)名詞搭配,極少數(shù)可與單音節(jié)和多音節(jié)搭配;除此之外的三音節(jié)動詞一般與雙音節(jié)名詞搭配。
(1)“2+2”音組模式
漢語的組合一般要求成雙成對,節(jié)奏對稱。搜索引擎日志中“N+V”型主謂短語也不例外,“2+2”音組模式是語料最基本的音節(jié)組合模式。
第一組指人:孕婦/n感冒/vi、阿妹/n出嫁/vi、農(nóng)民/n增收/v、倪萍/nr離婚/v、妓女/n口述/v、蘇三/nr說/v
第二組指物:污水/n發(fā)紅/vi、蟒蛇/n捕食/vi、汽車/n降價/vi、細(xì)雨/n紛飛/vi
第三組專名:博客/nz升級/vi、超女/nz勁舞/v、百度/nz裁員/vi
第四組地域:江西/ns崛起/v、蒙古/ns回歸/v、三峽/ns蓄水/vi
在搜狗語料中,“2+2”音組模式下,N部分多分布于指物名詞,其次是指人的名詞,再者是專名和地域名詞;V部分主要是動作性較強的行為動詞、生理狀態(tài)的動詞,而表示心理狀態(tài)的動詞出現(xiàn)較少。
(2)“3+2”音組模式
第一組指物:人民幣/n升值/vi、霓虹燈/n耗電/vi
第二組指人:宋丹丹/nr再婚/vi、張佩昌/nr受賄/vi、金靜華/nr主演/v、中年人/n再婚/vi
第三組地域:石獅市/ns擴大/v、崇文區(qū)/ns招租/vi
第四組表其他言語類:陳安之/nr演講/vi、黃健翔/nr解說/v
第五組表生理心理狀態(tài):內(nèi)分泌/n失調(diào)/vi、嬰幼兒/n發(fā)燒/vi、企業(yè)家/n喜歡/vi
在“3+2”音組模式中,N部分多分布于指物的名詞,其次是指人的名詞,再者地域的名詞;V部分主要是動作性很強的行為動詞、生理狀態(tài)的動詞和其他言語類的動詞,而表心理狀態(tài)的動詞出現(xiàn)較少。
(3)“2+1”音組模式
第一組指人:專家/n說/v、歌女/n唱/v、區(qū)長/n談/v、明星/n哭/v
第二組:鷓鴣/n飛/vi、貴妃/n醉/v、右眼/n跳/vi、肚子/n疼/v
在“2+1”音組模式中,N多為高生命度的名詞,表人身體某一部位的名詞、指人的名詞;V部分主要是表生理狀態(tài)的動詞、言語類的動詞、動作性很強的動詞,而表腿部、眼睛和手臂動作的動詞出現(xiàn)較少。
(4)“1+2”音組模式
第一組表生理狀態(tài):牙/n出血/vi、腦/n出血/vi、腦/n 梗塞/vi、手/n 浮腫/vi
第二組表行為動作:鉛/n超標(biāo)/vi、手/n放開/v、心/n飛揚/vi
第三組名詞性語素:鼻/ng出血/vi、蝶/ng起舞/vi、蝶/ng 飛舞/v、肌/ng 無力/vi
在“1+2”音組模式中,N部分多是指物的高生命度名詞、指人身體某一部位的名詞,而名詞性語素出現(xiàn)的較少;V主要是動作性較強的行為動詞、表生理狀態(tài)的動詞。
(5)“1+1”音組模式
第一組表生理狀態(tài):面/n癱/vi、眼/n腫/vi、馬/n瘋/vi
第二組名詞性語素:鳶/ng飛/vi、石/ng破/v、鶴/ng飛/v、獅/ng跑/v
第三組表行為動作:風(fēng)/n吹/v、橋/n斷/v、鶴/n啼/vi
“1+1”音組模式中,N部分多是名詞性語素、高生命度的名詞、身體某一部位的名詞;V部分主要是表全身動作、腿部動作的動詞,其次是表生理狀態(tài)的動詞。
(6)“3+1”音組模式
第一組指人:張火丁/nr唱/v、阿六頭/nr說/v
第二組植物:茉莉花/n開/v、梔子花/n開/v
第三組表生理狀態(tài):小肚子/n疼/v
“3+1”音組模式中,N部分多是指人的高生命度名詞,其次是表身體某一部位的名詞,而表植物的名詞則出現(xiàn)較少;V部分主要是表言語類的動詞,其次是表全身動作的動詞,表生理的動詞出現(xiàn)較少。
(7)多音節(jié)的組合模式
第一組指人:歐陽中石/nr題詞、韓李東旭/nr報導(dǎo)/v、民主黨派/n換屆/vi、人民警察/n辭職/vi
第二組機構(gòu)名:北京大學(xué)/nt招生/vi、北京銀行/nt面試/vi、蘇寧電器/nt連鎖/v
第三組專名:維吾爾族/nz居住/v
第四組三音節(jié)動詞:嬰兒/n打噴嚏/vi
由上面的幾組例子,可以得出:N由多音節(jié)構(gòu)成的“N+V”型主謂短語中,N大多是機構(gòu)名、專有名詞;V多為雙音節(jié)行為動詞,三音節(jié)動詞出現(xiàn)較少。
綜上所述,對“N+V”型主謂短語從語義、音節(jié)方面對各組成要素進行了詳細(xì)的分析,這為后期借助語義信息資源和音節(jié)語言學(xué)知識,將其作為對“N+V”型短語進行結(jié)構(gòu)消歧的候選特征,為“N+V”型短語的句法結(jié)構(gòu)消歧提供了理論依據(jù)。
康健[6]對主謂短語的功能類別進行詳細(xì)研究,他指出主謂短語的造句功能很強,可以充當(dāng)主語、謂語、賓語、定語、狀語和補語。搜索引擎日志中的“N+V”型主謂短語,可以在句子中充當(dāng)主語、謂語、賓語、定語和狀語。除此之外,還可以單獨作為一個查詢關(guān)鍵詞,進行信息檢索。
(1)作主語
“N+V”型主謂短語作主語,一般是出現(xiàn)在判斷句、說明句、描寫句中,謂語往往具有判斷性、評論性或者描寫性,謂語動詞大多為表示判斷或者說明的動詞,也有少數(shù)的動作性很強的動詞[7]。例如:
A.【月經(jīng)/推遲】主要考慮兩個方面的原因。
B.【手/浮腫】是什么病?
(2)作謂語
“N+V”型主謂短語作謂語,主語大都含有話題的性質(zhì),謂語一般是對主語進行描寫或者說明。一般句子的主語與N之間有領(lǐng)屬關(guān)系或者整體與部分的關(guān)系,而且N是V的強制性語義成分,N與V有語義上的選擇關(guān)系[8]。例如:
A.兒童【喉嚨/發(fā)炎】。
B.小兒【面/癱】。
C.小兒【支氣管/感染】。
(3)作賓語
“N+V”型主謂短語作賓語,做句子謂語的動詞不能附帶“著、了、過、起來、下去”等體標(biāo)記,而且不能重疊,不能用反復(fù)體,而且“N+V”型主謂短語多為體謂型的主謂短語[9]。例如:
A.如何治療【內(nèi)分泌/失調(diào)】?
B.怎樣使【頭發(fā)/增多】?
C.如何寫【領(lǐng)導(dǎo)/重視】?
(4)作定語
“N+V”型主謂短語作定語,N主要為受事型名詞或者施事型名詞[10],起限制作用。針對搜狗日志語料,N主要為施事性名詞。例如:
A.【鄧小平/逝世】記錄片、【農(nóng)民/增收】措施、【吉雪萍/結(jié)婚】照
B.【心肌/缺血】癥狀、【兒童/識字】卡片、【孕婦/分娩】視頻
C.【月經(jīng)/推遲】的原因、【顧客/滿意】的案例、【小兒/咳嗽】的治療方法
(5)作狀語
A.【嬰兒/便秘】怎么辦?
B.【月經(jīng)/不調(diào)】怎么辦?
(6)作為獨立查詢
“N+V”型主謂短語可以獨立地作為查詢關(guān)鍵詞,進行信息檢索。例如:
A.【明星/卸妝】
B.【螞蟻/搬家】
C.【女兵/蒙難】
由以上的分析可以看出,“N+V”型主謂短語在句子中可以充當(dāng)多種成分。因此,針對“N+V”型短語的結(jié)構(gòu)消歧,可以考慮利用“N+V”型短語的上下文信息,作為短語消歧的候選特征。
“N+V”型主謂短語的挖掘與校對是通過自動、半自動的語言知識挖掘技術(shù)相結(jié)合的方法實現(xiàn)的。下面介紹“N+V”型主謂短語的挖掘與校對的步驟。
(1)數(shù)據(jù)預(yù)處理:對搜狗日志語料進行詞條去重、分詞、詞性標(biāo)注工作;
(2)“N+V”型短語的界定:用二元統(tǒng)計模型和互信息方法對短語進行界定;
(3)“N+V”型短語的抽?。焊鶕?jù)“N+V”型短語的特點,建立規(guī)則知識庫,對合法短語進行抽取;
(4)人工校對:對抽取的“N+V”型短語進行標(biāo)記的改寫工作,得到最終的“N+V”型主謂短語、“N+V”型短語,以及“N+V”型非短語;
(5)數(shù)據(jù)統(tǒng)計:對“N+V”型主謂短語按照名詞和動詞的分類標(biāo)準(zhǔn)進行分類統(tǒng)計。
其中,前三個步驟和第五步驟通過程序?qū)崿F(xiàn),提高了短語挖掘的高效性;而第四步驟主要通過人工校對的方法,提高了短語識別的準(zhǔn)確性。最終,完成了“N+V”型主謂短語識別。同樣地,這種校對方法,也適合于搜索引擎日志中的其他類型短語。
本文通過二元統(tǒng)計模型和互信息的方法實現(xiàn)了搜狗日志中“N+V”型短語的自動識別。其中,規(guī)則方法是根據(jù)搜狗日志語料的特點和“N+V”型短語的詞法特點而獲取的規(guī)則知識,下面主要介紹規(guī)則方法。
按照中國科學(xué)院分詞系統(tǒng)中詞性標(biāo)注的特點,規(guī)則“N+V”短語的識別步驟如下。
(1)將每個短語分割成為詞語序列、詞性序列存入字符串?dāng)?shù)組中;
(2)將第一個單詞詞性和第二個單詞的詞性與模式串(名詞匹配串和動詞匹配串)進行匹配,如果相匹配,則說明該短語是“N+V”短語,將其在文本中輸出,并用符號(dj)進行標(biāo)注說明;
(3)短語的匹配,直到短語識別完畢。
漢語中詞語定義的模糊性、大量新詞語的涌現(xiàn),以及“N+V”型短語在句法語義關(guān)系上存在著三種不同的結(jié)構(gòu),使得在“N+V”型主謂短語的識別上存在著錯誤識別的現(xiàn)象。因此,需要通過人工校對的方法將非“N+V”型主謂短語過濾掉。本文主要通過對非“N+V”型主謂短語的標(biāo)記改寫來實現(xiàn)校對,具體步驟如下。
(1)如果是“N+V”型短語,如果格式部分和要求,要修改格式,使其規(guī)范規(guī)則“N+V”短語的識別語料中的詞語以一個空格為分隔符規(guī)則“N+V”短語的識別,標(biāo)注范例見表1。
表1 格式校對規(guī)范
(2)如果不是“N+V”型主謂短語,則在該短語后標(biāo)記“no”。其中包括不完整詞串和搭配不合適的詞串;如果不是“N+V”型主謂短語,則在該短語后標(biāo)記“nd”。標(biāo)注示例見表2。
表2 非“N+V”型主謂短語標(biāo)注示例
續(xù)表
將識別出的短語按照N、V的分類標(biāo)準(zhǔn),以及音節(jié)模式的特點,將識別出的每一條短語主謂短語進行分類,將其存儲在不同的記錄文件中,并進行分類統(tǒng)計。
(1)表3為“N+V”型短語在整個“N+V”詞串中的分布情況。
表3 “N+V”型短語分布
挖掘方法是否有效主要是通過抽取出的“N+V”型短語的正確率來衡量的。從表3可以看出,挖掘方法是高效性的,正確率高達(dá)95.21%。
(2)表4給出了“N+V”型主謂短語在“N+V”型短語中所占比例。
表4 “N+V”型主謂短語分布
從表4可以看出“N+V”型主謂短語在“N+V”型短語中僅占36.58%,造成這種現(xiàn)象的原因是:①“N+V”型短語存在三種不同的句法關(guān)系:狀中偏正結(jié)構(gòu)、定中偏正結(jié)構(gòu)和主謂結(jié)構(gòu);②同一個“N+V”短語可以分析為兩種不同的句法關(guān)系,如“大學(xué)畢業(yè)”,本實驗將有歧義的“N+V”型短語視為非主謂結(jié)構(gòu),這種結(jié)構(gòu)歧義需要借助音節(jié)等語言學(xué)知識和語義知識資源,尋找漢語語義類之間存在的句法關(guān)系,實現(xiàn)對“N+V”型短語的句法歧義消歧。
(3)“N+V”型主謂短語音節(jié)分布情況,見表5。
表5 “N+V”型主謂短語音節(jié)分布
表5給出了“N+V”型主謂短語在音節(jié)上對詞語的組合和詞語的搭配的制約程度。從表中的數(shù)據(jù)可以發(fā)現(xiàn),“2+2”音組模式所占比例最大,為60.71%,出現(xiàn)這種現(xiàn)象主要原因為:漢語的組合一般要求成雙成對,節(jié)奏對稱,這使得人們習(xí)慣用這種音組模式進行信息查詢;其次,“3+2”音組模式在所有的音組模式中占21.05%,其中“N”多為專有名詞和生命度比較高的指人名詞。其他的音組模式在“N+V”型主謂短語所占比例較少,總共為11.53%。
(4)表6給出了各類動詞在“N+V”型主謂短語分配情況。
表6 動詞的分類情況表
通過表6的數(shù)據(jù)分布,可以得出行為動詞短語在所有短語中所占的比例最大,為84.06%;其次是涉及生理狀況的短語,占9.85%,剩余短語只占6.09%。這些數(shù)據(jù)反映了人們的興趣愛好和對某領(lǐng)域信息的關(guān)注程度。由此可見,基于搜索引擎日志對“N+V”型主謂短語進行研究,對挖掘用戶興趣和目的,研究用戶行為,提高搜索引擎的檢索質(zhì)量,具有重要意義。
本文針對搜狗日志語料,對“N+V”型主謂短語進行分析研究。從其各組成要素特點、音節(jié)特點和功能用法三個方面進行了論述,為網(wǎng)絡(luò)信息檢索提供極其重要的理論依據(jù)和重要的應(yīng)用背景。此外,還介紹了“N+V”型主謂短語的挖掘和校對方法,這種方法也適合于搜索引擎日志中的其他類型短語。在對搜狗日志語料中的“N+V”型主謂短語進行校對時,發(fā)現(xiàn)“N+V”型短語存在同形異構(gòu)的現(xiàn)象,針對這種結(jié)構(gòu)消歧,需要借助音節(jié)等語言學(xué)知識,以及知網(wǎng)和同義詞林等語義知識資源,來實現(xiàn)對“N+V”型短語的句法結(jié)構(gòu)消歧。下一步的研究任務(wù)是利用音節(jié)、N和V的語義類別,以及“N+V”型短語的上下文信息,實現(xiàn)對“N+V”型短語的句法結(jié)構(gòu)消歧。
[1]余慧佳,劉奕群,張敏,等.基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶行為研究[C]//第三屆學(xué)生計算語言學(xué)研討會,2006:204-205.
[2]唐昱.現(xiàn)代漢語名動式偏正結(jié)構(gòu)研究[D].華中科技大學(xué),2006:1-8.
[3]劉順.現(xiàn)代漢語名詞研究述評[J].韓山師范學(xué)院學(xué)報,2004,25(1):77-78.
[4]黃宇紅.現(xiàn)代漢語主謂結(jié)構(gòu)的語義研究[D].蘇州:蘇州大學(xué),2009:4-10.
[5]郝倩.近義單雙音節(jié)名詞對比研究[D].上海:上海師范大學(xué),2007:21-24.
[6]唐建.談?wù)勚髦^短語的功能類別[J].四川師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),2003,2(2):98-102.
[7]豐愛靜.現(xiàn)代漢語主謂結(jié)構(gòu)作主語考察[D].武漢:華中科技大學(xué),2005:5-24.
[8]馮麗萍,肖青.主謂謂語句研究中有關(guān)主語的分歧及其原因探討[J].云南師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2007,39(6):132-134.
[9]郭家翔.賓位主謂結(jié)構(gòu)及其述語的相關(guān)考察[D].武漢:華中科技大學(xué),2004:2-30.
[10]江軼.現(xiàn)代漢語中主謂結(jié)構(gòu)作定語的多角度考察[D].山東:山東大學(xué),2004:16-41.