錢 鋒
一九六四年九月,由執(zhí)世界計(jì)算機(jī)牛耳的美國(guó)IBM公司資助,在該公司新設(shè)立的約克敦高地研究機(jī)構(gòu)中召開了一次學(xué)術(shù)會(huì)議。這個(gè)會(huì)議的主題新穎而又大膽:要公開確認(rèn)計(jì)算機(jī)這種先進(jìn)工具在人文科學(xué)中占有一席之地。這在當(dāng)時(shí)是一件吃力不討好的事:計(jì)算機(jī)剛問世十余年,機(jī)種和類型還很少,系列機(jī)IBM/360剛剛脫離實(shí)驗(yàn)室的懷抱投入生產(chǎn)線,小型計(jì)算機(jī)還沒有為人知曉,要再過十年,世界上方才透出關(guān)于微型計(jì)算機(jī)的信息。這次會(huì)議的名稱也是空前絕后:“IBM文學(xué)數(shù)據(jù)處理會(huì)議”(IBMLiteravyDataProcessingCon-ference)。這時(shí)的人們,還處在發(fā)現(xiàn)計(jì)算機(jī)居然有著不可窮盡作用的巨大震驚之中;計(jì)算機(jī),不論是在公開場(chǎng)合或是在日常交談中,還在被稱為“巨腦”(giantbrain)。這里的giant可說是一語雙關(guān):一則以體形的巨,動(dòng)輒就占了一間屋子;一則以能力的巨。這不用多說
在這次會(huì)議上,與會(huì)者懷著一種戰(zhàn)戰(zhàn)兢兢而又不無驕傲之感的心情,報(bào)告了他們把計(jì)算機(jī)用之于人文科學(xué)的工作。大部分研究工作集中在利用計(jì)算機(jī)編纂“勘靠燈”(Concordance)。這種東西即是呂叔湘先生所說的“‘索引,過去又叫‘通檢”,我們現(xiàn)在也叫逐詞索引。這種計(jì)算機(jī)索引的作用,也如呂叔湘先生所說,“可以在計(jì)算機(jī)上對(duì)語含工作者提出的任意字、詞、詞組、短語進(jìn)行檢索,打印含有這些字、詞、詞組、短語的全句原文?!眳问逑嫦壬Q這種工作為“語含研究手段現(xiàn)代化”,“可以免除一大部分用手工搜集語言資料的勞動(dòng)。對(duì)于研究文學(xué)的人,這樣一套索引,也將是很有用的”。計(jì)算機(jī)一進(jìn)入文學(xué)研究的“大觀園”,所關(guān)注的就是這件研究手段現(xiàn)代化的大事。這件檢索鉤沉的事,以前一直是用手工做的,中國(guó)學(xué)者關(guān)在書齋里皓首窮經(jīng),外國(guó)學(xué)者也是如此,下的都是“笨功夫”,而且都頗以此為榮、為幸,在其中發(fā)現(xiàn)廣大的天地、無窮的樂趣。這種樂趣可能就是學(xué)者們經(jīng)年累月、孜孜不倦工作的一種動(dòng)力??梢耘e一個(gè)例子。姚納·楊(IoneDodsonYoung)用手工為英國(guó)詩人拜倫編了逐詞索引,整整用去了他二十五年的寶貴年華。難怪這套洋洋四卷的書在一九六五年正式出版時(shí),他不無惋惜地說,這恐怕是手編逐詞索引的絕響了。我們這里還得要舉一個(gè)計(jì)算機(jī)編輯的例子。一九七五年有人進(jìn)行了一次演示,一臺(tái)IBM公司的360/65計(jì)算機(jī),打印美國(guó)現(xiàn)代小說家菲茨杰拉德的名著《偉人蓋茨比》(TheGreatGatsby)的全部逐詞索引,僅用了六分鐘!有人用計(jì)算機(jī)編制俄羅斯詩人奧西普·曼捷爾斯坦詩集的逐詞索引,加上事前編輯、編制和調(diào)試計(jì)算機(jī)程序的時(shí)間,也只用了二千個(gè)人時(shí),即相當(dāng)一年的時(shí)間。無怪乎書齋中的學(xué)者感到世風(fēng)的日新月異,計(jì)算機(jī)取代手工的不可逆轉(zhuǎn)。但是,他們又感慨系之地說,手工編纂的許多樂趣,都將湮滅在沒有頭腦的機(jī)器中去了。
可以說,一九六四年IBM文學(xué)數(shù)據(jù)處理會(huì)議所昭示于世人的,正是這么一種勢(shì)頭。
隨著計(jì)算機(jī)在文科中應(yīng)用的擴(kuò)展,逐詞索引的概念也在擴(kuò)大和進(jìn)步。一九八五年在愛荷華州的格林尼爾和猶他州的普拉沃召開的兩次國(guó)際會(huì)議的兩個(gè)報(bào)告中,介紹了作為文學(xué)研究者智能工具的ETRA系統(tǒng),提出了隨機(jī)逐句索引(randomconcodance)的新概念。原來所有的書籍都是線性安排(linearorganization),這種組織當(dāng)然是小說之為小說的唯一形式。但是,這對(duì)于研究者卻很不方便,線性次序把許多有用信息都掩蓋起來了。逐詞索引打破了原先的線性次序,運(yùn)用信息的觀點(diǎn),把信息的標(biāo)引——詞和短語——取出來,并把每一信息標(biāo)引下與之有關(guān)的所有有用信息——包含這個(gè)詞或短語的所有句子,一一列于這個(gè)信息標(biāo)引之后,這樣,按詞或短語檢索與之有關(guān)的信息就方便了。但是,逐詞索引在打破原來的線性安排的同時(shí),又引入了一種新的線性安排,這就是所有的詞或短語又形成了一種線性次序,要檢索到所需信息的詞或短語還得費(fèi)一番折騰,也就是需要兩次檢索。隨機(jī)索引把這種線性也打破了。只要把需要其信息的詞或短語輸入,計(jì)算機(jī)就能在所存貯的有關(guān)文學(xué)作品中自動(dòng)檢索,從而把包含這個(gè)詞或短語的句子打印出來。計(jì)算機(jī)編纂文學(xué)作品,甚至作家全集的逐詞索引,其方法是把這些作品用打鍵的方法輸送入計(jì)算機(jī)。這種以計(jì)算機(jī)存貯介質(zhì)形式(media)出現(xiàn)的某一文學(xué)作品,我們稱之為文本庫(textbase)。用一套編制逐詞索引的軟件對(duì)這種文本庫進(jìn)行加工,就能輸出自A到ZZZ(英文的最后一個(gè)詞,表示打鼾聲)的逐詞索引。
IBM文學(xué)數(shù)據(jù)處理會(huì)議前后,計(jì)算機(jī)應(yīng)用于人文科學(xué)的另一個(gè)大宗是計(jì)算機(jī)用于辭典編纂。用計(jì)算機(jī)來編索引和編辭典,這兩種技術(shù)既有差別又有連系。編索引時(shí)只需要輸入(key-in)相應(yīng)的文學(xué)作品。編辭典涉及全民語含,所以文本庫里應(yīng)收入反映全民語含的語含素材;而且,關(guān)于某一詞或是短語所出現(xiàn)場(chǎng)合的句子,也應(yīng)該是有關(guān)這個(gè)詞的全面的解釋。自那時(shí)以來,已經(jīng)使用計(jì)算機(jī)編辭典的語種,包括英語、意大利語、荷蘭語,還包括古英語、中世英語、古蘇格蘭語、古西班牙語,甚至還有印第安語和藏語。最近,《牛津英語辭典》從英國(guó)政府和IBM公司雙方得到資助,將用計(jì)算機(jī)進(jìn)行重編。計(jì)劃最大的是《法語語言寶庫辭典》(TrésordelaLangueFrancaise)。為了用計(jì)算機(jī)編纂,法國(guó)政府投資在南希大學(xué)建了一幢高樓。計(jì)劃中要把一千六百部完整的文學(xué)作品送入計(jì)算機(jī),以便反映一七八九年法國(guó)大革命以來書面法語變化的全景和現(xiàn)狀。這數(shù)以千計(jì)的作品將首先用計(jì)算機(jī)編成逐詞索引。
計(jì)算機(jī)應(yīng)用于文科初見成效,政府和工業(yè)界開始投資,反過來又刺激了研究人員薈萃之地——大學(xué)。有條件的大學(xué)紛紛設(shè)立了自己的計(jì)算機(jī)人文科學(xué)應(yīng)用課題,他們既致力于某一專門論題的研究,又對(duì)這整個(gè)新興領(lǐng)域的繁榮作出貢獻(xiàn)。舉一些例子就可以看出,這種情況如何饒有興味,又洋洋大觀:法國(guó)盧萬大學(xué)研究宗教文獻(xiàn),挪威卑爾根大學(xué)編制易卜生等挪威作家的逐詞索引,波恩大學(xué)編制康德的逐詞索引,這些大學(xué)都為此成立了專門的研究室或中心。這些中心都或緊或松地與大學(xué)新近建立的計(jì)算語言學(xué)(computationaltinguisties)系科聯(lián)系著。這是因?yàn)樗鼈兌柬殢挠?jì)算語含學(xué)這門新興的高等學(xué)科中汲取指導(dǎo)思想和具體方法。另外,更多的大學(xué)雖沒有建立中心或研究所之類的專門機(jī)構(gòu),但往往是在一個(gè)學(xué)術(shù)上很活躍的教授領(lǐng)銜之下,組織課題小組研究。加州大學(xué)歐萬分校(UniversityofCalifornia,Irvine)的布魯納教授(Prof.T.F.Bruner)領(lǐng)導(dǎo)下的《希臘文薈》(The-saurusLingualGraecae),就是一個(gè)很好的例子?!段乃C》計(jì)劃把自荷馬開始到公元二○○年的所有現(xiàn)存希臘文著作都存入計(jì)算機(jī)中去。
這便又引出了計(jì)算機(jī)用于文科的另一個(gè)有趣課題:機(jī)器可讀文本(machine-readabletext)的建立。實(shí)際上,上面所說的逐詞索引、辭典等的編纂,都少不了要把相應(yīng)的文字材料送入計(jì)算機(jī),以磁性介質(zhì)的形式存貯起來,這便是同一語言文字材料的機(jī)器可讀文本了。不但索引和辭典的編纂得用到機(jī)器文本;一旦有了它,也就可以利用其他專用的軟件對(duì)這些語含材料作各種分析處理。所以,機(jī)器文本的創(chuàng)建,雖說只是介質(zhì)的轉(zhuǎn)換,其意義卻遠(yuǎn)大于編輯出版一套古籍,而簡(jiǎn)直是象大司務(wù)把菜都配好了,可以使您根據(jù)眾口的不同要求來烹調(diào)佳肴。正因?yàn)槿绱?,機(jī)器文本本身也就成了一種研究事業(yè)。上面所談到的《法語語言寶庫辭典》、《希臘文薈》等,在一定意義上就是機(jī)器文本的問題。
計(jì)算機(jī)文科應(yīng)用的另一個(gè)大有前途的領(lǐng)域,是在高等教育中的應(yīng)用。但是,正象計(jì)算機(jī)在其他文科學(xué)科中的應(yīng)用一樣,這在目前還沒有統(tǒng)一的理論,系統(tǒng)的方法;使用計(jì)算機(jī)來教大學(xué)的文科課程,也是見仁見智,各有千秋(Adhoc)。按作者的看法,統(tǒng)一的指導(dǎo)理論和系統(tǒng)的基本方法是絕對(duì)必要的,而且,首先得對(duì)這門科學(xué)有一個(gè)基本的界說,作者擬把計(jì)算機(jī)在文科教學(xué)(泛言之,理、工科教學(xué)也大致適用)的應(yīng)用分成以學(xué)生為對(duì)象的(studentoriented)和以教師為對(duì)象的(teacheroriented)兩類。目前,國(guó)際上這方面的研究絕大部分集中在前者,而且多半又傾注于語言教學(xué)。例如,讓計(jì)算機(jī)給學(xué)生出各種操練題,學(xué)生就著計(jì)算機(jī)回答,然后計(jì)算機(jī)給出評(píng)分,等等。用計(jì)算機(jī)來代替教師,有著種種前所未有的好處,例如因材施教,學(xué)生可以根據(jù)自己的水平自定步調(diào),計(jì)算機(jī)不會(huì)對(duì)后進(jìn)學(xué)生“假以顏色”等等。但是,要讓計(jì)算機(jī)來代替教師的課堂教學(xué)活動(dòng),目前在模擬教師的智能活動(dòng)方面還受著許多限制,同時(shí),也還受著教育界某種感情上的排斥。以教師為對(duì)象的各項(xiàng)研究,其情況就不同了,但卻還沒有象前者那樣普及,特別沒有作為一個(gè)獨(dú)立的研究方面提出。前面所提到的ETRA系統(tǒng),就是把一個(gè)語言教師(包括文學(xué)語言研究者)的某些智力勞動(dòng)加以形式化,抽象出算法,并用計(jì)算機(jī)程序加以實(shí)現(xiàn)。在建立了機(jī)器文本的條件下,ETRA可以幫助語言教師分析課文、選取例句和搭配關(guān)系,作統(tǒng)計(jì)等等,從而減輕了教師的手工勞動(dòng)。
計(jì)算機(jī)在文科的應(yīng)用應(yīng)當(dāng)說僅僅是開始,發(fā)展下去,前途無窮。中國(guó)的文科學(xué)者,萬勿忽視這一工具!