日本關(guān)西學(xué)院大學(xué) 于 康
2.1 收集和保存語料的條件
收集和保存語料需要一個軟件、兩道手續(xù)和一個絕對條件。軟件指的是「秀丸」,兩道手續(xù)指的是在電腦里建立文件夾和給需要保存的文件起名,絕對條件指的是文件必須以文本文件即以擴(kuò)展名為“.txt”的格式保存。
2.2 建立文件夾
建立文件夾也就是建立保存語料的倉庫,為了便于提取貨物,需要在倉庫里按貨物的內(nèi)容建立不同的貨架。為了達(dá)到這個目的,首先必須在“我的文檔”中建立一個文件夾,然后再在這個文件夾里根據(jù)需要建立各種小類的文件夾。比如,以制作「現(xiàn)代日本語書き言葉コーパス」為例,先在“我的文檔”中建立新文件夾「現(xiàn)代日本語書き言葉コーパス」,然后在這個文件夾里再建立「現(xiàn)代小説」「社説」「國會議事録」「新聞記事」「週刊誌」等小類文件夾。這樣就可以將下載和剪貼下來的各類文章分門別類地保存在專門的文件夾里。這里需要注意的是,制作語料庫時(shí),包括文件夾在內(nèi),所有的文件名都不能使用中國漢字,或用日語、或用英語、或用拼音,否則會因亂碼而無法保證檢索的順利進(jìn)行。
2.3 收集和保存語料
2.3.1 直接下載和保存
下面以下載和保存夏目漱石的小說『三四郎』為例來說明操作程序。先在「現(xiàn)代日本語書き言葉コーパス」文件夾里建立小類文件夾「夏目漱石」,然后進(jìn)行以下操作:
①上網(wǎng),在檢索框中輸入「青空文庫」,打開「青空文庫」網(wǎng)頁,點(diǎn)擊「公開中作家別」中的「な行」,找到「21.夏目漱石(公開中:102)」,下載「30.三四郎」。
下載步驟為:a.點(diǎn)擊「30.三四郎」。b.點(diǎn)擊「ファイルのダウンロード」中「テキストファイル(ルビあり)」后的「773_ruby_5968.zip」。c.保存文件。此為壓縮文件,解壓后將解壓的文件直接拖放到「夏目漱石」文件夾中,此時(shí)文件夾中會出現(xiàn)兩個文件,一個是解壓后的文件「kokoro」,一個是壓縮的文件「心」,刪除壓縮文件「心」。
②確認(rèn)保存格式。當(dāng)電腦中已裝有「秀丸」時(shí),下載的小說會自動保存為「秀丸」(.txt)的格式,只要點(diǎn)擊文件名,「秀丸」就會自動啟動并打開文件,而無需其他操作。此時(shí)保存的小說中,如「私は実に先生をこの雑沓(ざっとう)の間(あいだ)に見付け出したのである。」所示,漢字的讀法以「ざっとう」的形式出現(xiàn),在實(shí)際引用時(shí),這個部分是多余的。如何一次性刪除這些多余的信息,將在以后的高級篇中討論。
2.3.2 信息的剪貼和保存
當(dāng)網(wǎng)站不提供下載服務(wù)時(shí),需要自己從網(wǎng)上剪貼所需的信息。下面以剪貼日文版yahoo的信息為例來說明剪貼和保存的程序。先在「現(xiàn)代日本語書き言葉コーパス」文件夾里建立小類文件夾「yahoo記事」,然后進(jìn)行以下操作:
①上網(wǎng),在日文版yahoo網(wǎng)頁中選擇所需的信息,復(fù)制該信息。
②啟動「秀丸」。③將剪取的信息粘貼在「秀丸」中。④給文件取名并保存。
2.4 小結(jié)
保存文件時(shí)有兩個非常重要的內(nèi)容。一個是文件保存的格式,一個是如何給文件取名。文件名是顯示例句信息來源的重要手段,因此,在保存文件時(shí),需要充分考慮到如何給文件取名這個問題。