胡佩 李小青
摘要:當(dāng)前計(jì)算機(jī)校對(duì)技術(shù)整體報(bào)錯(cuò)率高,對(duì)整句的糾錯(cuò)能力較差,對(duì)古籍的校對(duì)能力不足,對(duì)科技名詞的糾錯(cuò)能力弱,對(duì)圖表、公式及版式的校對(duì)能力弱。人工智能技術(shù)應(yīng)用于校對(duì)有望提高字詞校對(duì)的準(zhǔn)確性、整句校對(duì)質(zhì)量、校對(duì)結(jié)果的時(shí)效性、高科技名詞的校對(duì)能力和古籍校對(duì)能力。人機(jī)協(xié)作趨勢(shì)下,校對(duì)人員應(yīng)熟悉機(jī)器特點(diǎn),更新自身知識(shí)結(jié)構(gòu),增強(qiáng)自身工作創(chuàng)造性。
關(guān)鍵詞:人工智能;校對(duì);人機(jī)協(xié)作;應(yīng)用前景
人工智能是研究開發(fā)能夠模擬、延伸和擴(kuò)展人類智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),研究目的是促使智能機(jī)器會(huì)聽(語(yǔ)音識(shí)別、機(jī)器翻譯等)、會(huì)看(圖像識(shí)別、文字識(shí)別等)、會(huì)說(語(yǔ)音合成、人機(jī)對(duì)話等)、會(huì)思考(人機(jī)對(duì)弈、定理證明等)、會(huì)學(xué)習(xí)(機(jī)器學(xué)習(xí)、知識(shí)表示等)、會(huì)行動(dòng)(機(jī)器人、自動(dòng)駕駛汽車等)。①杰弗里·辛頓及其合作者完善了深度學(xué)習(xí)算法,為人工智能的商業(yè)應(yīng)用奠定了基礎(chǔ),由此帶動(dòng)人工智能研究和應(yīng)用的熱潮并持續(xù)至今。
由于人工智能廣闊的應(yīng)用前景和強(qiáng)大的產(chǎn)業(yè)驅(qū)動(dòng)力量,包括美國(guó)、日本、歐洲在內(nèi)的世界主要發(fā)達(dá)經(jīng)濟(jì)體紛紛從國(guó)家戰(zhàn)略高度引導(dǎo),在產(chǎn)業(yè)政策上培育人工智能技術(shù)。中國(guó)也于2017年7月發(fā)布《新一代人工智能發(fā)展規(guī)劃》,制定了新一代人工智能發(fā)展“三步走”戰(zhàn)略目標(biāo)。國(guó)家層面的扶植和投入,極大地推動(dòng)了人工智能的基礎(chǔ)研究和商業(yè)應(yīng)用,成為人工智能技術(shù)未來發(fā)展和普及的重要保障。
人工智能的應(yīng)用領(lǐng)域十分廣泛。在新聞出版領(lǐng)域,人工智能在寫作、組稿等方面已有所嘗試,如騰訊的Dreamwriter、華盛頓郵報(bào)的Heliograf等。②校對(duì)是新聞出版領(lǐng)域中的一項(xiàng)基礎(chǔ)性工作,本身具有相對(duì)客觀化、規(guī)范化的特點(diǎn),較之寫作或組稿等工作更易于人工智能技術(shù)的實(shí)施。在智能化編校方面,一些最新的文獻(xiàn)以及相應(yīng)的數(shù)字出版產(chǎn)業(yè)年度報(bào)告均有提及,但未進(jìn)行過深入分析,且未見實(shí)際應(yīng)用。可見目前人工智能在校對(duì)領(lǐng)域的應(yīng)用尚未普及。隨著人工智能研究的深入和應(yīng)用的推進(jìn),未來計(jì)算機(jī)校對(duì)有望從目前的自動(dòng)化階段提升到智能化階段,從而大幅度節(jié)省人力資源。
一、當(dāng)前計(jì)算機(jī)校對(duì)技術(shù)的現(xiàn)狀和不足
當(dāng)前市場(chǎng)上計(jì)算機(jī)校對(duì)軟件種類繁多,既有文字處理軟件自帶的簡(jiǎn)單校對(duì)模塊,也有功能更為強(qiáng)大的專業(yè)校對(duì)軟件。中文校對(duì)方面,技術(shù)上較為成熟的主要是黑馬校對(duì)和方寸校對(duì)兩款產(chǎn)品。目前的校對(duì)軟件是以主要由人工維護(hù)的字詞庫(kù)或語(yǔ)法庫(kù)為依托,通過軟件進(jìn)行比對(duì)識(shí)別,查找錯(cuò)誤并給出修正建議的。這一模式主要圍繞字、詞展開,對(duì)整句的語(yǔ)義解讀和校對(duì)乏善可陳,且存在著字詞庫(kù)擴(kuò)容之后誤報(bào)率上升的固有缺陷。因此,這只能稱為自動(dòng)化,尚不足以稱為智能化。雖然黑馬校對(duì)和方寸校對(duì)兩款主流軟件在產(chǎn)品宣傳中都宣稱應(yīng)用了人工智能技術(shù),但筆者實(shí)際使用過程中的效果感受并不明顯,例如字、詞校對(duì)結(jié)果中并沒有將一些常見的誤報(bào)濾去,整句校對(duì)能力依然十分薄弱,數(shù)據(jù)庫(kù)的更新仍主要依賴于人工維護(hù)而使時(shí)效性顯得不足?,F(xiàn)階段校對(duì)軟件普遍存在的不足主要有以下五點(diǎn):
一是整體報(bào)錯(cuò)率高。由于校對(duì)軟件對(duì)錯(cuò)誤的檢查主要基于自身數(shù)據(jù)庫(kù)與待校文稿內(nèi)容的比對(duì)實(shí)現(xiàn),對(duì)發(fā)現(xiàn)的不一致之處缺乏進(jìn)一步核驗(yàn)機(jī)制,誤報(bào)的情況比較普遍。隨著軟件自身數(shù)據(jù)庫(kù)規(guī)模的不斷擴(kuò)大,誤報(bào)率往往隨之上升。有人根據(jù)經(jīng)驗(yàn)評(píng)估,初次使用黑馬校對(duì)時(shí)報(bào)紅(軟件認(rèn)為肯定存在錯(cuò)誤)的準(zhǔn)確率在50%上下,報(bào)粉(軟件認(rèn)為疑似存在錯(cuò)誤)的準(zhǔn)確率在15%上下;經(jīng)過手工添加針對(duì)性的專業(yè)字庫(kù)并添加常用詞維護(hù)后,報(bào)紅準(zhǔn)確率在70%上下,報(bào)粉準(zhǔn)確率在20%上下。③鑒于此,大多數(shù)出版社在實(shí)際工作中都釆用人工校對(duì)后輔以軟件校對(duì)的方式。
二是對(duì)整句的糾錯(cuò)能力較差。軟件一般只能簡(jiǎn)單地比對(duì)字詞庫(kù),在語(yǔ)義層面并不能具體問題具體分析。比如在一篇關(guān)于資產(chǎn)減值方面的文章中,作者用五筆打字連續(xù)輸入時(shí),某一處“計(jì)提的差值準(zhǔn)備不低于監(jiān)管標(biāo)準(zhǔn)”,其中的“差值”應(yīng)為“減值”,但校對(duì)軟件無法根據(jù)上下文提示這一錯(cuò)誤。又如,對(duì)于用拼音輸入法輸入的“曹操親統(tǒng)大軍與六倍的軍隊(duì)交鋒”,“六倍”為“劉備”之誤,校對(duì)軟件同樣沒有任何錯(cuò)誤提示。而類似的輸入法錯(cuò)誤在稿件中會(huì)經(jīng)常遇到。
三是對(duì)古籍的校對(duì)能力不足。由于古籍中文言文用字較少、語(yǔ)法結(jié)構(gòu)復(fù)雜,且涉及通假字等情況,目前的校對(duì)軟件基本無法有效識(shí)別文稿中存在的錯(cuò)誤。
四是對(duì)科技名詞(即專業(yè)術(shù)語(yǔ))的糾錯(cuò)能力弱??萍济~是漢語(yǔ)詞匯中比較特殊的、專業(yè)性很強(qiáng)的一部分詞匯,一般由西文翻譯而來,經(jīng)常出現(xiàn)同一概念在同一書稿中有不同叫法的情況。黑馬校對(duì)對(duì)科技名詞幾乎無能為力;方寸校對(duì)有一定的術(shù)語(yǔ)識(shí)別能力,但仍十分薄弱。
五是對(duì)圖表、公式及版式的校對(duì)能力弱。目前校對(duì)軟件對(duì)圖表、公式等的校對(duì)僅停留在文本層面,而諸如圖文不符、圖(表)序錯(cuò)誤、圖表設(shè)計(jì)不合理以及圖表或各級(jí)標(biāo)題的版式等其他常見問題基本上只能依賴人工校對(duì)。
二、人工智能技術(shù)在校對(duì)工作中的應(yīng)用前景
現(xiàn)階段的人工智能技術(shù),主要建立在以深度學(xué)習(xí)算法為核心的理論基礎(chǔ)之上,借助于計(jì)算機(jī)并行運(yùn)算能力的大幅提高,通過優(yōu)化的算法對(duì)海量標(biāo)準(zhǔn)化數(shù)據(jù)進(jìn)行處理和分析,得出一些有用的經(jīng)驗(yàn)或結(jié)論,從而幫助人類在一些基礎(chǔ)性的工作中提高決策效率。技術(shù)的邊界,決定了現(xiàn)階段的人工智能技術(shù)只能服務(wù)于一些簡(jiǎn)單且具備大數(shù)據(jù)支撐的基礎(chǔ)領(lǐng)域。
人工智能校對(duì),是人工智能技術(shù)在自然語(yǔ)言處理方面應(yīng)用的一個(gè)分支。相對(duì)于新聞撰寫等主觀性更強(qiáng)的領(lǐng)域,人工智能在校對(duì)中的應(yīng)用更為便利。一方面,校對(duì)工作的客觀性和規(guī)范性較強(qiáng),這意味著人工智能在進(jìn)行海量數(shù)據(jù)(語(yǔ)料庫(kù))訓(xùn)練后可以具備比人工更強(qiáng)的查錯(cuò)糾錯(cuò)能力;另一方面,校對(duì)工作中不可或缺的常識(shí)、分散化的專業(yè)知識(shí)、情感表達(dá)及審美等主觀性、創(chuàng)造性的能力,又是當(dāng)前階段的人工智能不具備的。
1.人工智能有望實(shí)現(xiàn)的功能
一是提高字、詞校對(duì)的準(zhǔn)確性。字、詞校對(duì)是校對(duì)軟件的基本能力,但目前其突出問題是錯(cuò)誤識(shí)別率高的同時(shí)問題報(bào)錯(cuò)率也高,因而校對(duì)的結(jié)果仍需人工進(jìn)行大量復(fù)核確認(rèn)工作,使用價(jià)值大打折扣。校對(duì)軟件有望借助人工智能技術(shù)對(duì)已出版的規(guī)范文獻(xiàn)或圖書內(nèi)容進(jìn)行訓(xùn)練學(xué)習(xí),以及對(duì)校樣文本進(jìn)行語(yǔ)義識(shí)別,自主對(duì)校樣進(jìn)行審核和糾錯(cuò),將報(bào)錯(cuò)率降至可接受的水平。
二是提高整句校對(duì)質(zhì)量。目前的校對(duì)軟件在文稿的整句校對(duì)層面較為薄弱,人工智能在語(yǔ)言處理方面的積累和進(jìn)步有望在這方面提升校對(duì)質(zhì)量。借助人工智能,可通過對(duì)文稿內(nèi)容的解析以及對(duì)已出版的規(guī)范文獻(xiàn)或圖書內(nèi)容的對(duì)比,評(píng)估待校語(yǔ)句可能存在的語(yǔ)義錯(cuò)誤并給出可靠提示。
三是提高校對(duì)結(jié)果的時(shí)效性。以黑馬校對(duì)單機(jī)版軟件為例,其內(nèi)含79個(gè)專業(yè)詞庫(kù)、8,000萬條海量詞匯。人工智能技術(shù)介入后,有望在數(shù)據(jù)庫(kù)更新時(shí)實(shí)現(xiàn)批量讀取和分析,及時(shí)淘汰過期或錯(cuò)誤的數(shù)據(jù)庫(kù)內(nèi)容,這對(duì)于一些時(shí)效性較強(qiáng)的政策語(yǔ)、流行語(yǔ)和新科技術(shù)語(yǔ)等的校對(duì)工作非常有幫助。
四是提高科技名詞的校對(duì)能力。通過將全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)公布的科技名詞實(shí)時(shí)納入數(shù)據(jù)庫(kù),并通過語(yǔ)義分析評(píng)判文稿中名詞使用的合理性,從而給出準(zhǔn)確的校對(duì)結(jié)果。
五是具備古籍校對(duì)能力。人工智能有望發(fā)揮其在大數(shù)據(jù)訓(xùn)練方面的優(yōu)勢(shì),通過對(duì)大量規(guī)范化處理后的古代文獻(xiàn)的解析,在語(yǔ)義層面更好地理解文言文的語(yǔ)法結(jié)構(gòu)和表達(dá)方式,彌補(bǔ)當(dāng)前軟件在古籍校對(duì)方面的短板。
2.人工智能短期內(nèi)無法實(shí)現(xiàn)的功能
一是無法校對(duì)圖表、公式等非文本內(nèi)容。一些專業(yè)圖書或文獻(xiàn)中會(huì)出現(xiàn)較多的圖表、公式,這些內(nèi)容由于格式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn),也缺乏足夠數(shù)量的可比較樣本,無論是傳統(tǒng)的校對(duì)軟件還是人工智能軟件對(duì)此都無能為力,即使是可見的將來也仍然需要靠人工進(jìn)行有效的校對(duì)。
二是無法校對(duì)常識(shí)。文稿中涉及的諸多常識(shí),如歷史朝代、國(guó)家毗鄰關(guān)系、人物生平等,在編輯看起來非常簡(jiǎn)單,但機(jī)器處理起來卻異常困難。目前的基于深度學(xué)習(xí)的人工智能技術(shù),對(duì)此并無良策。
三是無法校對(duì)邏輯性錯(cuò)誤。目前的人工智能技術(shù)在跨領(lǐng)域推理和抽象能力方面還不成熟,基本上無法識(shí)別文稿中可能存在的敘事先后、因果、并列不當(dāng)?shù)冗壿嬯P(guān)系的錯(cuò)誤。
三、人機(jī)協(xié)作趨勢(shì)下對(duì)校對(duì)人員的建議
在當(dāng)前人工智能的技術(shù)條件下,放棄完全依靠人工智能的幻想,充分利用機(jī)器在基礎(chǔ)工作中的高效率和人工在創(chuàng)造性領(lǐng)域的獨(dú)有優(yōu)勢(shì),走人機(jī)協(xié)作道路,是兼顧校對(duì)工作效率和質(zhì)量的現(xiàn)實(shí)選擇。在人機(jī)協(xié)作趨勢(shì)下,校對(duì)人員應(yīng)注意從以下幾方面提高自身的職業(yè)能力。
一是熟悉機(jī)器的特點(diǎn),做到揚(yáng)長(zhǎng)避短。就傳統(tǒng)的校對(duì)軟件而言,其對(duì)字、詞的校對(duì)是強(qiáng)項(xiàng),對(duì)整句、語(yǔ)義的校對(duì)是弱項(xiàng);就未來的校對(duì)軟件而言,在字、詞的校對(duì)上功能可能會(huì)更加強(qiáng)大,對(duì)整句、語(yǔ)義的校對(duì)也有可能取得突破,但對(duì)于常識(shí)、邏輯關(guān)系等的校對(duì)依然會(huì)是弱項(xiàng)。校對(duì)人員在使用軟件的過程中,可以結(jié)合具體的文稿,摸清機(jī)器校對(duì)的長(zhǎng)處和短處,合理安排工作重點(diǎn)和軟件使用的時(shí)機(jī),以人機(jī)互補(bǔ)的方式提高工作效率和工作質(zhì)量。
二是關(guān)注前沿科技,更新自身知識(shí)結(jié)構(gòu)??茖W(xué)技術(shù)的更新迭代,可能讓人類引以為傲的傳統(tǒng)工作能力瞬間失去市場(chǎng)價(jià)值,例如計(jì)算器取代算盤、自動(dòng)駕駛未來極有可能取代駕駛員等。在校對(duì)領(lǐng)域,新技術(shù)的出現(xiàn)也會(huì)使得一些過去積累的經(jīng)驗(yàn)或技能失去價(jià)值。校對(duì)人員在平時(shí)的工作中可以適當(dāng)關(guān)注科技熱點(diǎn),通過使用最新版本的校對(duì)軟件等方式了解新技術(shù)的特點(diǎn),及時(shí)淘汰過時(shí)的工作方式,更新自身知識(shí)結(jié)構(gòu),以此適應(yīng)新環(huán)境下的工作要求。
三是增強(qiáng)自身工作的創(chuàng)造性,積累有價(jià)值的工作經(jīng)驗(yàn)。就目前的人工智能技術(shù)而言,它的能力邊界不是無限的。在可見的未來,人類的創(chuàng)造性工作仍然是機(jī)器無法取代的。校對(duì)人員在日常的工作實(shí)踐及學(xué)習(xí)中積累的特定領(lǐng)域的常識(shí)、文本規(guī)范和語(yǔ)言邏輯等方面的知識(shí),是機(jī)器難以掌握和取代的,也是校對(duì)人員價(jià)值的最有力體現(xiàn)。校對(duì)人員可以在日常工作中注重培養(yǎng)和提升此類創(chuàng)造性工作能力,打造專屬于人類自身的價(jià)值。
注釋:
①譚鐵牛.人工智能的歷史、現(xiàn)狀和未來[J].求是,2019(4).
②武菲菲.人工智能技術(shù)與出版行業(yè)的融合應(yīng)用[J].出版廣角,2018(1):26-28.
③張淵.黑馬校對(duì)軟件應(yīng)用當(dāng)議[J].出版廣角,2018(3):58-60.