国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自制語料庫(第4講)制作簡易語料庫

2011-07-13 03:18日本關西學院大學
東北亞外語研究 2011年11期
關鍵詞:文件名文件夾語料

日本關西學院大學 于 康

4.1 制作“語料庫”時需要使用的軟件

前幾講我們介紹了制作語料庫時所需要的一些前期操作程序,這一講主要介紹如何制作自己專用的語料庫。制作語料庫時需要使用的軟件叫作「ひまわり」,電腦上顯示的文件名為Himawari_1_3b05(版本會不斷升級,升級后的文件名會有所變動)。不過,「ひまわり」只是一個具有檢索功能的軟件,其本身不帶可供檢索的語料。語料需要自己收集,收集到的語料放進檢索軟件「ひまわり」后就可以進行檢索了。

第3講我們介紹了收集到的語料是不能直接放進「ひまわり」中去的,因為,「ひまわり」不能識別文本格式的文件,需要用「えだまめ」將收集到的語料進行一次文件格式的轉換。用「えだまめ」轉換完畢的文件會直接保存在電腦的Desktop上,保存在Desktop上的文件有兩個,一個是「Corpora」,一個是「config_日本語書き言葉コーパス(或讀者自己命名的文件名)」。有了這兩個文件我們就可以制作語料庫了。

4.2 語料庫制作的程序

①點擊文件夾中的Himawari_1_3b05。出現(xiàn)下圖。

②將保存在Desktop上的「Corpora」文件拖放至Himawari_1_3b05中的空白處,出現(xiàn)問話框,點擊「はい」,這時Desktop上的「Corpora」便會移至Himawari_1_3b05中去。

③ 將保存在Desktop上的「config_日本語書き言葉コーパス」拖放至Himawari_1_3b05中的空白處。如果界面上出現(xiàn)「config_日本語書き言葉コーパス(或讀者自己命名的文件名)」文件名,表示操作正常結束。

④點擊Himawari,啟動檢索軟件。

⑤點擊「実行」,出現(xiàn)檢索用圖框。

⑥點擊「ツール」,選擇最后一行的「インデックス生成」。

⑦出現(xiàn)問話框,點擊「はい」。

⑧如果操作正常結束的話,會出現(xiàn)正常結束的通知,點擊「了解」結束操作。有的時候該操作要花費一些時間,需要耐心等待。所需時間的長短將根據(jù)語料量的大小來決定。

⑨至此為止,取名為『日本語書き言葉コーパス』的語料庫便制作完畢,最后一步就是如何檢索了。

4.3 小結

制作語料庫,最重要的是切勿忘記將兩個文件放進檢索軟件Himawari_1_3b05后,需要進行一次「インデックス」,這是保證語料庫正常使用的一個非常關鍵的步驟。

有的時候,實行「インデックス」之后會出現(xiàn)錯誤。此時不用慌張,請按照下列程序,刪除兩個文件,回到原來的狀態(tài),重復一遍保存和進行「インデックス」的程序,通常就可以解決問題了。

① 在Himawari_1_3b05中找到「config_日本語書き言葉コーパス」這個文件,并刪除它。

② 在Himawari_1_3b05中找到文件夾「Corpora」,并打開文件夾,找到文件夾中的「日本語書き言葉コーパス」這個文件,刪除它。

③ 用「えだまめ」重新進行文件的格式轉換。當電腦的Desktop上出現(xiàn)「Corpora」和「config_日本語書き言葉コーパス」這兩個文件后,從本講介紹的第一個步驟開始重新進行操作。

猜你喜歡
文件名文件夾語料
右鍵調(diào)用多重更名更方便
Excel輕松提取文件名
把我的秘密藏起來
摸清超標源頭 大文件夾這樣處理
調(diào)動右鍵 解決文件夾管理三大難題
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
掛在墻上的文件夾
華語電影作為真實語料在翻譯教學中的應用
不容忽視的空文件夾
《苗防備覽》中的湘西語料