摘 要:本文運用統(tǒng)計和數(shù)學建模方法,對1988年以來收錄在中國知網(wǎng)(CNKI)中的有關漢語水平考試(HSK)研究的論文進行分析。在論文年度分布、作者分布、機構分布、出版物分布等方面進行數(shù)學建模。應用普賴斯公式和布拉德福定律推算出49名核心作者、9個核心機構、15種核心出版物等。本文論述了HSK研究現(xiàn)狀與發(fā)展趨勢,總結文獻特征及其分布規(guī)律,為HSK計量研究提供依據(jù)和參考。
關鍵詞:漢語水平考試(HSK) 洛特卡定律 布拉德福定律 邏輯斯蒂模型
一、引言
漢語水平考試(HSK)是為母語非漢語考生(如外國人、華僑及國內(nèi)少數(shù)民族)設立的官方標準化漢語能力測試[1]。漢語水平考試從1984年開始研制,1990年在國內(nèi)組織實施,1991年正式推向海外,1992年升為國家級考試。1992年《漢語水平詞匯與漢字等級大綱》[2]、1996年《漢語水平等級標準與語法等級大綱》[3]、2007年《國際漢語能力標準》[4]、2009年《漢語水平考試HSK(基礎、初中等、高等)大綱》[5]、2013年《新漢語水平考大綱(一至六級)》[6]相繼出版,并推出了新HSK[7],在實現(xiàn)“以考促教、以考促學”方面,發(fā)揮了積極作用。HSK已成為考核漢語交際能力和掌握語言知識面的衡量標尺,受到了對外漢語教學工作者和漢語學習者的廣泛關注。截至2016年底,全球125個國家(地區(qū))設立1066個考點(中國大陸371個,海外695個),全年各類漢語考試考生達600萬人[8],這說明HSK需求強勁。同時,關于漢語水平考試的相關研究也不斷出現(xiàn),如HSK科學性質和特點[9],漢語水平考試歷史演變[10],HSK詞匯等級表[11],相關詞匯教學研究[12],漢字偏誤分析[13]等等。為了更好地發(fā)揮HSK測試平臺的作用,推進漢語水平考試發(fā)展,有必要對過去的30年間(1988~2017年)HSK研究狀況進行分析,挖掘文獻特征及其分布規(guī)律,預測HSK今后發(fā)展趨勢,對HSK的完善具有重要意義。
本文以1988~2017年CNKI收錄的3188篇HSK論文作為研究對象,對論文增長、作者分布、發(fā)文機構和載文出版物等進行了統(tǒng)計。首次將科學計量方法應用到HSK研究,并闡明HSK發(fā)展現(xiàn)狀、趨勢和文獻特征及其分布規(guī)律,為HSK的深入研究提供參考。
二、數(shù)據(jù)采集
本文研究數(shù)據(jù)收集于中國知網(wǎng)CNKI的學術文獻總庫n,其中包括:學術期刊、學術輯刊全文數(shù)據(jù)庫、博士學位論文和優(yōu)秀碩士學位論文。學科領域=人文與社會科學文獻+信息科技;時段=1988~2017年,主題=“漢語水平考試”或含“HSK”進行精確檢索,共檢索到4252篇。刪除無作者、無單位、書訊、會訊、新聞報道、簡介等非規(guī)范文獻后,得到有效論文3188篇。對這部分數(shù)據(jù)先采用Excel進行統(tǒng)計,再使用Origin軟件對這些文獻進行數(shù)學建模分析。
三、結果與分析
(一)年度分布
自1984年漢語水平考試研制以來,不少學者對其進行了相關研究,相關論文發(fā)表情況見表1。
1988~1996年,年均論文發(fā)表量少于20篇,年均5.2篇;1997~2003年,年均論文發(fā)表量少于30篇,年均22.9篇;2004~2010年,年均論文發(fā)表量68.9篇;2011~2017年,年均論文發(fā)表超過200篇,年均論文357篇,總體來說,漢語水平考試研究量呈增長態(tài)勢。
從1984年開始研制,到1996年《漢語水平等級標準與語法等級大綱》發(fā)布,相關研究也處于萌芽階段;從1997年到2003年新HSK大綱發(fā)布之前,相關研究處于起步階段;自2003年新HSK大綱發(fā)布之后,2004年至2010年,研究處于緩慢發(fā)展階段;2011年至今,論文數(shù)量飛速增長,處于快速增長階段。
圖1是論文增長曲線,橫坐標為時間(t=實際年度-1987),縱坐標為論文累計量。根據(jù)馬春雨(2017)的方法[15],利用Origin軟件分析,采用指數(shù)函數(shù):y=aexp(bt),對表1數(shù)據(jù)進行數(shù)學建模,得到理論擬合曲線:y=7.825e0.2028t,其擬合度為R2=0.992,擬合效果達99.2%,數(shù)據(jù)擬合度越高,擬合效果越高,說明理論結果與實際觀察數(shù)據(jù)越符合,表明HSK研究論文符合指數(shù)增長規(guī)律。其文獻增長速度,即文獻翻倍所需要的時間=ln2÷b=ln2÷0.2028=3.4年??傮w來說,從1988年至今,漢語水平考試相關研究越來越受關注。
(二)作者分布與核心作者
1.作者分析
根據(jù)只統(tǒng)計第一作者的原則,采集數(shù)據(jù),列表2。
利用洛特卡定律(Lotas Law)描述論文與作者之間的數(shù)量關系,其一般形式[16]:
,C>0,x=1,2,3,…,m(1)
x為每位作者發(fā)文量,其取值從1到最大值(m);n是指數(shù)常量;y為作者人數(shù),為作者總數(shù)(=2853,表2),洛特卡定律常數(shù)是,即發(fā)表1篇論文的作者百分比。在表2中,C=92.114%,即發(fā)表1篇HSK論文的作者占92.114%,高于經(jīng)典洛特卡定律常數(shù)C經(jīng)典=60.79%[17],反映新作者不斷參加HSK研究,漢語水平考試不斷受到關注,擁有廣泛的研究群體,也代表HSK屬于熱點課題之一。
圖2是論文與作者分布圖,它由表2數(shù)據(jù)繪制而成,從表2可知:發(fā)文1篇的作者占優(yōu)(92.114%),發(fā)文2篇的作者居次(6.169%),發(fā)文≥3篇的作者僅占1.717%。利用公式(1)和Origin軟件,對表2數(shù)據(jù)進行數(shù)學建模,得到理論擬合曲線是冪函數(shù):,其曲線擬合度R2=0.99999,擬合效果達99.999%。說明HSK作者分布適合負冪律,即:隨發(fā)文量的增加,作者數(shù)以負冪函數(shù)減少,說明許多學者已關注到HSK發(fā)展,并為此做出貢獻。但是,作者數(shù)與論文數(shù)之間存在圖2所示的“長尾巴”不均衡現(xiàn)象。
2.核心作者
在表2中,核心作者的發(fā)表論文最大值Nmax=13篇。依據(jù)普賴斯公式[17],核心作者發(fā)文閾值=2.7?3(鄰近最大整數(shù))。發(fā)文量≧3篇的49位高產(chǎn)作者,屬于核心作者,他們共發(fā)表208篇論文,分別占作者總數(shù)和論文總數(shù)的6.52%和1.72%。普賴斯定律規(guī)定“核心作者群”條件:核心作者占作者總數(shù)的20%,論文占總數(shù)的50%。理論核心作者數(shù)=642人,與實際核心作者(49名)相差太大。由此可見,在漢語水平考試領域,還沒有形成核心作者群。表2列出部分核心作者。
(三)機構分布
采用第一作者機構統(tǒng)計原則,本文研究的3188篇論文來自297個機構。按每個機構發(fā)文量的遞減順序編排制成表3,D是機構數(shù)量,機構累計量x=∑Di,E是每個機構發(fā)文量,論文累計量y=∑(Di×Ei)。
布拉德福定律認為,在發(fā)文量基本相同的情況下,表3的論文產(chǎn)出機構可分成:核心區(qū)、相關區(qū)和離散區(qū),見表4。
在表4中,三個區(qū)的機構數(shù)存在等比關系,即9:28:260≈1:5:52≈1:a:a2,布拉德福系數(shù)a=5。表明HSK研究機構分布符合布拉德福定律的集中與離散規(guī)律[18],即核心區(qū)的9個機構,占機構總數(shù)的3.03%,集中發(fā)表論文32.999%;而離散區(qū)的260個機構,占總數(shù)87.54%,離散地發(fā)表論文33.501%。
布拉德福定律認為,核心區(qū)的機構就是“核心機構”,即發(fā)文量≧63篇的機構。表3列出了9個核心機構的名稱,包括:4所綜合大學、3所師范大學和1所語言大學。其中,北京語言大學居首。
圖3是論文與機構的分布圖。它由表3數(shù)據(jù)繪制而成,從圖3曲線形態(tài)可以看出,HSK機構分布近似“S”型曲線,即:隨發(fā)文機構數(shù)量的增加,論文累計量呈現(xiàn)“緩慢發(fā)展期—快速遞增期—穩(wěn)定飽和期”的變化過程。通?!癝型曲線”采用邏輯斯蒂函數(shù)(Logistic function)建模。因此,對表3數(shù)據(jù)進行數(shù)學建模分析[19],得到邏輯斯蒂增長函數(shù):,曲線擬合度R2=0.9939,擬合效果達99.39%,表明HSK論文產(chǎn)出機構分布符合邏輯斯蒂增長規(guī)律。即HSK產(chǎn)出機構經(jīng)過不斷的累計,發(fā)文數(shù)量先經(jīng)歷一段緩慢增長期,之后,才進入快速增長階段;隨后,盡管機構累計增加,但發(fā)文量變化不大,處于穩(wěn)定的飽和期,其飽和期越長,HSK研究就越接近完備狀態(tài)。
(四)出版物分布與核心出版物
本文統(tǒng)計的3188篇論文登載于463種出版物(期刊、碩士和博士論文)。表5是按每種出版物發(fā)文量的遞減順序制成,F(xiàn)為出版物數(shù)量,出版物累計量x=∑Fi,G為每種出版物載文量,論文累計量y=∑(Fi×Gi)。
按發(fā)文數(shù)量基本相同原則,表5的出版物可分成:核心、相關和離散三個區(qū),見表6。
在表6中,三個區(qū)的出版物數(shù)量構成比值為14:39:350≈1:5:52,即布拉德福系數(shù)a=5。說明HSK出版物分布也符合布拉德福定律。核心區(qū)的出版物就是HSK研究的“核心出版物”,即載文量≧43篇的出版物。在表5,列出了15種核心出版物,包括12篇高校碩士論文和3種期刊。其中,吉林大學碩士畢業(yè)論文居首。
圖4是出版物與論文的關系曲線。HSK出版物分布也呈現(xiàn)“S”型曲線,即:隨載文出版物數(shù)量的增加,論文累計量呈現(xiàn)“緩慢增長期—快速遞增期—穩(wěn)定飽和期”的變化過程。
利用邏輯斯蒂模型(Logistic model),對表5數(shù)據(jù)進行數(shù)學建模,獲得邏輯斯蒂增長函數(shù):,其擬合度R2=0.9978,擬合效果達99.78%。表明邏輯增長函數(shù)滿足HSK論文出版物分布規(guī)律。說明有關漢語水平考試的出版物不斷發(fā)展,相關研究日趨完善。
四、結語
通過上述統(tǒng)計和數(shù)學建模方法,我們可以得出以下結論:
(一)從論文增長規(guī)律來看,符合指數(shù)增長規(guī)律,HSK研究總體呈上升趨勢。
(二)從作者來看,符合洛特卡定律,即隨每人發(fā)文量的增加,作者人數(shù)呈負冪函數(shù)減少。從作者群體而言,HSK具有廣泛的作者群體。但是,核心作者(49人)較少,沒有形成“核心作者群(642人)”,這是HSK領域的不足,需要增加核心作者數(shù)量。
(三)從發(fā)文機構分布和載文出版物分布來看,符合集中與離散的布拉德福定律,且可用邏輯斯蒂增長函數(shù)表征。
總之,本文提出的HSK論文具有增長性;作者具有廣泛性;發(fā)文機構和載文出版物具有集中性;論文的表述具有規(guī)律性(指數(shù)規(guī)律、洛特卡定律、布拉德福定律);可以采用數(shù)學建模(指數(shù)函數(shù)、Logistic模型)的方法進行分析,為HSK研究提供一種新的研究方法與思路。
參考文獻:
[1]袁藝銘.淺析新漢語水平考試——口語測試[J].現(xiàn)代語文(語言研究版),2017,(10).
[2]國家漢辦漢語水平考試部.漢語水平詞匯與漢字等級大綱[Z].北京:北京語言學院出版社,1992.
[3]國家漢辦.漢語水平等級標準與語法等級大綱[Z].北京:高等教育出版社,1996.
[4]國家漢辦.國際漢語能力標準[M].北京:外語教學與研究出版社,2007.
[5]國家漢辦/孔子學院總部.漢語水平考試HSK(基礎、初中等、高等)大綱[Z].北京:商務印書館,2009.
[6]國家漢辦/孔子學院總部.新漢語水平考試大綱(一至六級)[Z].北京:商務印書館,2013.
[7]張晉軍,解妮妮,王世華,李亞男,張鐵英.新漢語水平考試(HSK)研制報告[J].中國考試,2010,(9):38-43.
[8]國家漢辦.2016孔子學院年度發(fā)展報告[EB/OL].
http://www.hanban.edu.cn/report/2016.pdf.(2017-10-20).
[9]劉英林,郭樹軍,王志芳.漢語水平考試(HSK)
的性質和特點[J].世界漢語教學,1988,(2):110-120.
[10]楊翼.對外漢語測試與評估的歷史演變與發(fā)展趨勢[J].中國考試,2009,(1):35-40.
[11]高松.《新漢語水平考試大綱》詞匯等級表的名詞考察[J].現(xiàn)代語文(語言研究版),2014,(10).
[12]辛慧.留學生HSK漢語水平考試詞匯教學研究——以離合詞類為例[J].現(xiàn)代語文(學術綜和版),2017,(2).
[13]劉曉朦,高松.高級階段日本留學生漢字偏誤分析[J].現(xiàn)代語文(語言研究版),2013,(3).
[14]清華同方.CNKI數(shù)據(jù)庫[EB/OL].(2017-10-20),http://epub.cnki.net/grid2008/index/ZKCALD.htm.
[15]馬春雨.基于文獻計量的孔子學院研究[J].云南
師范大學學報(對外漢語教學與研究版),2017,(2).
[16]Sen BK.Lotka's Law:a viewpoint[J].Ann Lib Inf Stu,2010,(2):166-167.
[17]邱均平.信息計量學[M].武漢:武漢大學出版社,2007.
[18]Goffman W,MorrisTG.Bradford's law and library acquisitions[J].Nature,1970,(5249):922-923.
[19]蘭月新.基于動態(tài)logistic模型的文獻增長規(guī)律研究[J].科學情報,2014,(3):86-89+97.
Research Status and Literature Characteristics of Chinese Proficiency Test(HSK)
Ma Chunyu
(School of Chinese Studies,Beijing Language University,Beijing 100083,China)
Abstract:By using statistics and mathematical modeling methods,This article analyses the literature on Chinese Proficiency Test(HSK)research that has been included in the CNKI database since 1988.The mathematical modeling is established in the annual distribution of the literature,the distribution of the authors,the distribution of institutions and the distribution of publications.Using Price's law and Bradford's law,49 core authors,9 core institutions and 15 core publications are calculated.This paper expounds thepresent status and development trend of HSK research, and the characteristics and rules of the literature are excavated to provide the basis and reference for the HSK bibliometric research.
Key words:Chinese Proficiency Test(HSK);Lotka's law;Bradford's law;Logistic model