日本關西學院大學 于 康
前幾講我們介紹了制作語料庫時所需要的一些前期操作程序,這一講主要介紹如何制作自己專用的語料庫。制作語料庫時需要使用的軟件叫作「ひまわり」,電腦上顯示的文件名為Himawari_1_3b05(版本會不斷升級,升級后的文件名會有所變動)。不過,「ひまわり」只是一個具有檢索功能的軟件,其本身不帶可供檢索的語料。語料需要自己收集,收集到的語料放進檢索軟件「ひまわり」后就可以進行檢索了。
第3講我們介紹了收集到的語料是不能直接放進「ひまわり」中去的,因為,「ひまわり」不能識別文本格式的文件,需要用「えだまめ」將收集到的語料進行一次文件格式的轉換。用「えだまめ」轉換完畢的文件會直接保存在電腦的Desktop上,保存在Desktop上的文件有兩個,一個是「Corpora」,一個是「config_日本語書き言葉コーパス(或讀者自己命名的文件名)」。有了這兩個文件我們就可以制作語料庫了。
①點擊文件夾中的Himawari_1_3b05。出現(xiàn)下圖。
②將保存在Desktop上的「Corpora」文件拖放至Himawari_1_3b05中的空白處,出現(xiàn)問話框,點擊「はい」,這時Desktop上的「Corpora」便會移至Himawari_1_3b05中去。
③ 將保存在Desktop上的「config_日本語書き言葉コーパス」拖放至Himawari_1_3b05中的空白處。如果界面上出現(xiàn)「config_日本語書き言葉コーパス(或讀者自己命名的文件名)」文件名,表示操作正常結束。
④點擊Himawari,啟動檢索軟件。
⑤點擊「実行」,出現(xiàn)檢索用圖框。
⑥點擊「ツール」,選擇最后一行的「インデックス生成」。
⑦出現(xiàn)問話框,點擊「はい」。
⑧如果操作正常結束的話,會出現(xiàn)正常結束的通知,點擊「了解」結束操作。有的時候該操作要花費一些時間,需要耐心等待。所需時間的長短將根據(jù)語料量的大小來決定。
⑨至此為止,取名為『日本語書き言葉コーパス』的語料庫便制作完畢,最后一步就是如何檢索了。
制作語料庫,最重要的是切勿忘記將兩個文件放進檢索軟件Himawari_1_3b05后,需要進行一次「インデックス」,這是保證語料庫正常使用的一個非常關鍵的步驟。
有的時候,實行「インデックス」之后會出現(xiàn)錯誤。此時不用慌張,請按照下列程序,刪除兩個文件,回到原來的狀態(tài),重復一遍保存和進行「インデックス」的程序,通常就可以解決問題了。
① 在Himawari_1_3b05中找到「config_日本語書き言葉コーパス」這個文件,并刪除它。
② 在Himawari_1_3b05中找到文件夾「Corpora」,并打開文件夾,找到文件夾中的「日本語書き言葉コーパス」這個文件,刪除它。
③ 用「えだまめ」重新進行文件的格式轉換。當電腦的Desktop上出現(xiàn)「Corpora」和「config_日本語書き言葉コーパス」這兩個文件后,從本講介紹的第一個步驟開始重新進行操作。