国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

初中數(shù)學維吾爾文教材詞頻統(tǒng)計分析

2014-03-19 02:54:24熱西旦玉素甫
語文學刊 2014年2期
關(guān)鍵詞:維吾爾文維吾爾語用詞

○熱西旦·玉素甫

(新疆師范大學,新疆 烏魯木齊830054)

詞頻統(tǒng)計是數(shù)據(jù)與信息處理、知識挖掘與傳播中的中心和基礎(chǔ)性工作,只有比較準確地在文章中統(tǒng)計出詞及其頻度,才能進行所有的下一步工作。維吾爾語是新疆地區(qū)少數(shù)民族使用較為廣泛的一種語言,系跨境語言,有自己的特點,維吾爾文有32個字母,其中8個元音字母,24個輔音字母,在對維吾爾語統(tǒng)計時發(fā)現(xiàn)表面上毫無關(guān)系的詞頻之間實際上存在著內(nèi)在的聯(lián)系。

一、詞頻統(tǒng)計的產(chǎn)生

19世紀90年代初,一項龐大的語言調(diào)查工程在德國展開。克定(Kaeding,F(xiàn).W.)在眾多合作者的協(xié)作下,耗時七年,手工統(tǒng)計了以報刊為主的14個語料來源的資料。在110份語料中,總詞匯量達10,910,777條。經(jīng)統(tǒng)計,頻率在4以上的詞共79,716個。調(diào)查結(jié)果形成一部厚達671頁的《德語頻率詞典》,于1898年出版。這是第一次現(xiàn)代意義上的以統(tǒng)計調(diào)查方法完成的詞匯研究工作。緊隨克定詞表出現(xiàn)的是1920年美國學者凱尼斯頓(KOiston)的《西班牙語常用詞匯》和1921年美國教育學家兼心理學家桑代克(Thorndidc,E,L。1874~1949)編寫的《教師一萬詞詞書》、《教師二萬詞詞書》。

二、語料資源的采集與預(yù)處理

(一)采集對象的確定

2003年,全球語言監(jiān)測網(wǎng)建立,總部設(shè)在美國圣地亞哥。它的主要任務(wù)是公布英語語言生活中產(chǎn)生廣泛影響的語言現(xiàn)象,包括各種新詞語、流行語、外來語以及政治性錯誤用語,對于語言發(fā)展趨勢以及其對政治、文化和經(jīng)濟影響的專業(yè)分析等。目前,在現(xiàn)代維語詞語使用頻率和分布情況方面,雖然有一定的研究,但是沒有對初中維吾爾文數(shù)學教材進行真實語料的統(tǒng)計和研究,無法提供初中維吾爾文用詞分布情況具有科學性的依據(jù)。初中數(shù)學維吾爾文教材是九年義務(wù)教育課程的重要教學資源,其用詞狀況直接關(guān)系到數(shù)學教學的效果。為了研究初中數(shù)學維吾爾文教材中的用詞狀況,寫出了本文章。

(二)語料資源的采集

構(gòu)建初中數(shù)學維吾爾文教材語料庫,語料文件格式轉(zhuǎn)換(語料庫來源:新疆師范大學人文社會科學重點研究基地和重點實驗室提供)文本分類(初中維吾爾文各冊數(shù)學書的課文,練習等)文本統(tǒng)計(圖片統(tǒng)計、公式統(tǒng)計、表格統(tǒng)計、定義統(tǒng)計等)構(gòu)建生語料庫(通過轉(zhuǎn)換工具把doc文件轉(zhuǎn)換成txt文件,內(nèi)容保持一致)。

(三)語料資源的預(yù)處理

隨著計算機技術(shù)的飛速發(fā)展,詞匯的計量研究近十幾年來逐漸成熟,人們更多、更廣地利用詞匯計量方式探索各領(lǐng)域的詞匯規(guī)律與特點?;诂F(xiàn)代維吾爾語詞匯統(tǒng)計研究也需要諸多的新成果,本文利用維吾爾文信息處理技術(shù),對人教版(維吾爾文)全日制普通初中數(shù)學教材的文本與詞匯進行相關(guān)統(tǒng)計并將統(tǒng)計結(jié)果進行比較分析概貌,對初中數(shù)學教材的文本與詞匯進行相關(guān)統(tǒng)計并分析初中數(shù)學教材指出相關(guān)的觀點。在文章中要做語料的準備,分類,調(diào)整,開發(fā)軟件,對語料進行統(tǒng)計等等重要工作。通過分詞及詞頻統(tǒng)計軟件,筆者將先前獲得的生語料進行了初步的分詞,并將詞頻表導出為微軟的表格文件,微軟辦公軟件中的表格數(shù)據(jù)處理文件是一個功能十分強大而且非常易用的數(shù)據(jù)統(tǒng)計工具,可以在其中做出相應(yīng)的用詞調(diào)查報告。

三、用詞使用情況

(一)調(diào)查內(nèi)容

本次的調(diào)查對象主要是維吾爾文初中數(shù)學語料中的詞。對這些詞的調(diào)查項目主要有頻次、頻率、詞匯長度、文本書等。頻次詞是在實際應(yīng)用中,出現(xiàn)次數(shù)多、使用較頻繁的詞,頻率即每一調(diào)查對象的頻次與整個語料所含調(diào)查對象總次數(shù)的比值,抽樣一定數(shù)量的語料,計算其中各個不同詞語的出現(xiàn)次數(shù),每個詞語的出現(xiàn)次數(shù),叫做這個詞語的頻度。每個詞語的頻度與總頻度和之比,叫做頻率。這就是詞頻統(tǒng)計工程最主要的方法,或稱頻度(或頻率)的方法。

(二)調(diào)查結(jié)果

本人在研究中通過一些相關(guān)的系統(tǒng)處理了以下的結(jié)果,在系統(tǒng)中本人主要處理了一些關(guān)于詞匯的頻次、頻率、詞匯長度、文本書等等數(shù)據(jù),下面的表格有一部分數(shù)據(jù),在結(jié)果里可以看出來在初中維吾爾文數(shù)學教材中用得最多的詞是等等。

教材每冊詞匯分布情況表

四、結(jié)語

初中數(shù)學維吾爾文詞頻統(tǒng)計系統(tǒng)是在計算語言學、統(tǒng)計學的軟件開發(fā)思想基礎(chǔ)上,根據(jù)系統(tǒng)需求設(shè)計和實現(xiàn)詞頻的統(tǒng)計系統(tǒng)。本文作者根據(jù)初中數(shù)學維吾爾語信息處理的工作流程,完成了對初中數(shù)學維吾爾文詞頻統(tǒng)計系統(tǒng)的設(shè)計和實現(xiàn)。系統(tǒng)實現(xiàn)了使用真實的語料,以顯示系統(tǒng)進度方式,通過構(gòu)詞規(guī)則的方法來判斷是否維吾爾文的詞,并在分析每一個文本的過程中一邊存儲詞匯,一邊對詞匯的頻次、頻率、詞匯長度、文本書數(shù)據(jù),對系統(tǒng)統(tǒng)計結(jié)果進行分析。目前,該系統(tǒng)還有不少問題需要進一步解決。比如,進行詞頻統(tǒng)計之前準備的電子資料非常費時,而且人工調(diào)整會有失誤,為解決此問題,文本的調(diào)整就很重要,要是在統(tǒng)計功能之前有一個文本調(diào)整功能,就能保證統(tǒng)計的準確率。

[1]艾孜爾古麗,等.現(xiàn)代維吾爾文網(wǎng)絡(luò)媒體用詞研究[J].計算機應(yīng)用與軟件,2012(2).

[2]艾孜爾古麗,等.基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞干提取和應(yīng)用[J].計算機應(yīng)用與軟件,2012(3).

[3]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞尾切分和應(yīng)用研究[J].計算機應(yīng)用與軟件,2012(4)

[4]哈米提·鐵木爾.現(xiàn)代維吾爾語法[M].民族出版社,1987.

[5]玉素甫,艾孜爾古麗,基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究[J].計算機應(yīng)用與軟件,2012(5).

[6]艾斯卡爾·亞庫甫,艾孜爾古麗,玉素甫.維吾爾文語料庫建設(shè)中文件格式轉(zhuǎn)換技術(shù)研究[J].計算機應(yīng)用與軟件,2012(6)(已錄用No 803783).

猜你喜歡
維吾爾文維吾爾語用詞
需注意的規(guī)范醫(yī)學用詞
強化詩詞用詞的時代性
中華詩詞(2022年2期)2022-12-31 05:57:58
蒼涼又喧囂:《我與地壇》中的用詞
西部少數(shù)民族語言對阿拉伯文獻的譯介及其特點
北方文學(2017年36期)2018-01-18 13:10:40
寫話妙計之用詞準確
統(tǒng)計與規(guī)則相結(jié)合的維吾爾語人名識別方法
自動化學報(2017年4期)2017-06-15 20:28:55
維吾爾語話題的韻律表現(xiàn)
維吾爾語詞重音的形式判斷
語言與翻譯(2015年4期)2015-07-18 11:07:45
維吾爾文研究與Android維文閱讀器的實現(xiàn)?
察合臺維吾爾文古籍的主要特點
定陶县| 湛江市| 延吉市| 神木县| 大新县| 山东| 东乡县| 射阳县| 泾源县| 离岛区| 安庆市| 岑溪市| 迭部县| 唐海县| 精河县| 武清区| 云和县| 于都县| 桐乡市| 东乌珠穆沁旗| 太湖县| 松阳县| 岚皋县| 古丈县| 昌图县| 宕昌县| 华阴市| 苍山县| 津南区| 洪江市| 广宗县| 鹿邑县| 曲松县| 澳门| 南木林县| 安阳市| 阳高县| 松阳县| 凌源市| 木里| 自治县|