○熱西旦·玉素甫
(新疆師范大學,新疆 烏魯木齊830054)
詞頻統(tǒng)計是數(shù)據(jù)與信息處理、知識挖掘與傳播中的中心和基礎(chǔ)性工作,只有比較準確地在文章中統(tǒng)計出詞及其頻度,才能進行所有的下一步工作。維吾爾語是新疆地區(qū)少數(shù)民族使用較為廣泛的一種語言,系跨境語言,有自己的特點,維吾爾文有32個字母,其中8個元音字母,24個輔音字母,在對維吾爾語統(tǒng)計時發(fā)現(xiàn)表面上毫無關(guān)系的詞頻之間實際上存在著內(nèi)在的聯(lián)系。
19世紀90年代初,一項龐大的語言調(diào)查工程在德國展開。克定(Kaeding,F(xiàn).W.)在眾多合作者的協(xié)作下,耗時七年,手工統(tǒng)計了以報刊為主的14個語料來源的資料。在110份語料中,總詞匯量達10,910,777條。經(jīng)統(tǒng)計,頻率在4以上的詞共79,716個。調(diào)查結(jié)果形成一部厚達671頁的《德語頻率詞典》,于1898年出版。這是第一次現(xiàn)代意義上的以統(tǒng)計調(diào)查方法完成的詞匯研究工作。緊隨克定詞表出現(xiàn)的是1920年美國學者凱尼斯頓(KOiston)的《西班牙語常用詞匯》和1921年美國教育學家兼心理學家桑代克(Thorndidc,E,L。1874~1949)編寫的《教師一萬詞詞書》、《教師二萬詞詞書》。
2003年,全球語言監(jiān)測網(wǎng)建立,總部設(shè)在美國圣地亞哥。它的主要任務(wù)是公布英語語言生活中產(chǎn)生廣泛影響的語言現(xiàn)象,包括各種新詞語、流行語、外來語以及政治性錯誤用語,對于語言發(fā)展趨勢以及其對政治、文化和經(jīng)濟影響的專業(yè)分析等。目前,在現(xiàn)代維語詞語使用頻率和分布情況方面,雖然有一定的研究,但是沒有對初中維吾爾文數(shù)學教材進行真實語料的統(tǒng)計和研究,無法提供初中維吾爾文用詞分布情況具有科學性的依據(jù)。初中數(shù)學維吾爾文教材是九年義務(wù)教育課程的重要教學資源,其用詞狀況直接關(guān)系到數(shù)學教學的效果。為了研究初中數(shù)學維吾爾文教材中的用詞狀況,寫出了本文章。
構(gòu)建初中數(shù)學維吾爾文教材語料庫,語料文件格式轉(zhuǎn)換(語料庫來源:新疆師范大學人文社會科學重點研究基地和重點實驗室提供)文本分類(初中維吾爾文各冊數(shù)學書的課文,練習等)文本統(tǒng)計(圖片統(tǒng)計、公式統(tǒng)計、表格統(tǒng)計、定義統(tǒng)計等)構(gòu)建生語料庫(通過轉(zhuǎn)換工具把doc文件轉(zhuǎn)換成txt文件,內(nèi)容保持一致)。
隨著計算機技術(shù)的飛速發(fā)展,詞匯的計量研究近十幾年來逐漸成熟,人們更多、更廣地利用詞匯計量方式探索各領(lǐng)域的詞匯規(guī)律與特點?;诂F(xiàn)代維吾爾語詞匯統(tǒng)計研究也需要諸多的新成果,本文利用維吾爾文信息處理技術(shù),對人教版(維吾爾文)全日制普通初中數(shù)學教材的文本與詞匯進行相關(guān)統(tǒng)計并將統(tǒng)計結(jié)果進行比較分析概貌,對初中數(shù)學教材的文本與詞匯進行相關(guān)統(tǒng)計并分析初中數(shù)學教材指出相關(guān)的觀點。在文章中要做語料的準備,分類,調(diào)整,開發(fā)軟件,對語料進行統(tǒng)計等等重要工作。通過分詞及詞頻統(tǒng)計軟件,筆者將先前獲得的生語料進行了初步的分詞,并將詞頻表導出為微軟的表格文件,微軟辦公軟件中的表格數(shù)據(jù)處理文件是一個功能十分強大而且非常易用的數(shù)據(jù)統(tǒng)計工具,可以在其中做出相應(yīng)的用詞調(diào)查報告。
本次的調(diào)查對象主要是維吾爾文初中數(shù)學語料中的詞。對這些詞的調(diào)查項目主要有頻次、頻率、詞匯長度、文本書等。頻次詞是在實際應(yīng)用中,出現(xiàn)次數(shù)多、使用較頻繁的詞,頻率即每一調(diào)查對象的頻次與整個語料所含調(diào)查對象總次數(shù)的比值,抽樣一定數(shù)量的語料,計算其中各個不同詞語的出現(xiàn)次數(shù),每個詞語的出現(xiàn)次數(shù),叫做這個詞語的頻度。每個詞語的頻度與總頻度和之比,叫做頻率。這就是詞頻統(tǒng)計工程最主要的方法,或稱頻度(或頻率)的方法。
本人在研究中通過一些相關(guān)的系統(tǒng)處理了以下的結(jié)果,在系統(tǒng)中本人主要處理了一些關(guān)于詞匯的頻次、頻率、詞匯長度、文本書等等數(shù)據(jù),下面的表格有一部分數(shù)據(jù),在結(jié)果里可以看出來在初中維吾爾文數(shù)學教材中用得最多的詞是等等。
教材每冊詞匯分布情況表
初中數(shù)學維吾爾文詞頻統(tǒng)計系統(tǒng)是在計算語言學、統(tǒng)計學的軟件開發(fā)思想基礎(chǔ)上,根據(jù)系統(tǒng)需求設(shè)計和實現(xiàn)詞頻的統(tǒng)計系統(tǒng)。本文作者根據(jù)初中數(shù)學維吾爾語信息處理的工作流程,完成了對初中數(shù)學維吾爾文詞頻統(tǒng)計系統(tǒng)的設(shè)計和實現(xiàn)。系統(tǒng)實現(xiàn)了使用真實的語料,以顯示系統(tǒng)進度方式,通過構(gòu)詞規(guī)則的方法來判斷是否維吾爾文的詞,并在分析每一個文本的過程中一邊存儲詞匯,一邊對詞匯的頻次、頻率、詞匯長度、文本書數(shù)據(jù),對系統(tǒng)統(tǒng)計結(jié)果進行分析。目前,該系統(tǒng)還有不少問題需要進一步解決。比如,進行詞頻統(tǒng)計之前準備的電子資料非常費時,而且人工調(diào)整會有失誤,為解決此問題,文本的調(diào)整就很重要,要是在統(tǒng)計功能之前有一個文本調(diào)整功能,就能保證統(tǒng)計的準確率。
[1]艾孜爾古麗,等.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計算機應(yīng)用與軟件,2012(2).
[2]艾孜爾古麗,等.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應(yīng)用[J].計算機應(yīng)用與軟件,2012(3).
[3]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞尾切分和應(yīng)用研究[J].計算機應(yīng)用與軟件,2012(4)
[4]哈米提·鐵木爾.現(xiàn)代維吾爾語法[M].民族出版社,1987.
[5]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計算機應(yīng)用與軟件,2012(5).
[6]艾斯卡爾·亞庫甫,艾孜爾古麗,玉素甫.維吾爾文語料庫建設(shè)中文件格式轉(zhuǎn)換技術(shù)研究[J].計算機應(yīng)用與軟件,2012(6)(已錄用No 803783).