張耀銘
(《新華文摘》雜志社,北京 100706)
根據(jù)中國人工智能學(xué)會與羅蘭貝格聯(lián)合發(fā)布的《中國人工智能創(chuàng)新應(yīng)用白皮書》報告,人工智能的定義是利用計(jì)算機(jī)模擬人類智能行為的統(tǒng)稱,它涵蓋了訓(xùn)練計(jì)算機(jī)使其能夠完成自主學(xué)習(xí)、判斷、決策等人類行為的范疇。人工智能奔跑的天梯是由移動互聯(lián)網(wǎng)和大數(shù)據(jù)等新技術(shù)搭建的。萬物互聯(lián)后的大數(shù)據(jù)信息流,“除了會改變知識的產(chǎn)生過程和成本,還會顛覆知識傳輸?shù)乃俣?。正因如此,人工智能的力量得以爆發(fā)?!盵注]車品覺:《數(shù)據(jù)的本質(zhì)》,北京:北京聯(lián)合出版公司,2017年版,第63頁。人工智能與大數(shù)據(jù)之間的關(guān)系非常緊密,它們似乎就是天生的一對搭檔。大數(shù)據(jù)作為一種“新能源”,推動著人工智能不斷擴(kuò)展所向披靡,至今已涉及計(jì)算機(jī)視覺、自然語言處理、語音識別、圖像識別、機(jī)器學(xué)習(xí)、智能機(jī)器人和無人駕駛汽車等領(lǐng)域。
人工智能不僅是一次技術(shù)層面的革命,未來必將驅(qū)動中國的經(jīng)濟(jì)轉(zhuǎn)型、社會轉(zhuǎn)型、教育轉(zhuǎn)型和文化轉(zhuǎn)型,當(dāng)然人文社會科學(xué)也不例外。在社會科學(xué)研究領(lǐng)域,推動轉(zhuǎn)型的重要因素是海量數(shù)據(jù),這將促使“小數(shù)據(jù)輔助”研究傳統(tǒng)向“大數(shù)據(jù)發(fā)現(xiàn)”研究范式轉(zhuǎn)換,運(yùn)用“數(shù)據(jù)發(fā)現(xiàn)邏輯”,分析和解構(gòu)知識,“尋找隱藏在數(shù)據(jù)中的模式、趨勢和相關(guān)性,揭示社會現(xiàn)象與社會發(fā)展規(guī)律?!盵注]沈浩,黃曉蘭:《大數(shù)據(jù)助力社會科學(xué)研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播》,2013年第8期。在人文科學(xué)研究領(lǐng)域,“人文計(jì)算的數(shù)據(jù)思維與計(jì)算方法為人文科學(xué)研究引入了新的思維模式,拓展了傳統(tǒng)人文科學(xué)的研究樣式,開闊了傳統(tǒng)人文科學(xué)的研究視界與運(yùn)用場景?!盵注]黃水清:《人文計(jì)算與數(shù)字人文:概念、問題、范式及關(guān)鍵環(huán)節(jié)》,《圖書館建設(shè)》,2019年第2期。顯然,憑借大數(shù)據(jù)獲取和超級算法的模式正在顛覆“憑借經(jīng)驗(yàn)和直覺”的模式,這將促使“大部分人文社會科學(xué)走向具有自然科學(xué)的特征”,“科學(xué)性”顯著增強(qiáng)[注]G.King,“Restructuring the Social Sciences:Reflections from Harvard’s Institute for Quantitative Social Science”,in PS:Political Science &Politics,No.1,Vol.47(2014),p.165.。
自2004年11月Google發(fā)布谷歌學(xué)術(shù),科研工作者便站在了巨人的肩膀上,改變了以往的學(xué)術(shù)文獻(xiàn)檢索方式。學(xué)術(shù)搜索大體分為兩類:一類是搜索引擎公司開發(fā)的,如谷歌學(xué)術(shù)、必應(yīng)學(xué)術(shù)、百度學(xué)術(shù)、搜狗學(xué)術(shù)和360學(xué)術(shù)等;另一類是專業(yè)資源提供商開發(fā)的學(xué)術(shù)搜索,如中國知網(wǎng)、萬方、讀秀和百鏈搜索等。學(xué)術(shù)搜索具有“統(tǒng)一的檢索平臺;涵蓋學(xué)術(shù)研究的各類型資源;一站式獲取結(jié)果,提供全文或線索;結(jié)果按需排列或輸出,能進(jìn)行二次應(yīng)用;能進(jìn)行知識發(fā)現(xiàn)與分析”等特點(diǎn)。[注]胡瑋:《中文學(xué)術(shù)搜索引擎比較研究》,《情報探索》,2018年第1期。但這些傳統(tǒng)的學(xué)術(shù)搜索引擎,面對每年全球發(fā)表超過250萬篇科學(xué)論文海量的數(shù)字化信息,不僅存在速度慢、信息過載、準(zhǔn)確率低等缺陷,更無法像人類一樣理解文獻(xiàn)的內(nèi)容。隨著人工智能逐步應(yīng)用于學(xué)術(shù)搜索,基于網(wǎng)絡(luò)爬蟲的智能化信息抓取、基于語義技術(shù)的用戶意圖自動識別,以及個性化搜索與信息推送,為人文社會科學(xué)帶來了巨大的好處,尤其是它極大地拓展了我們獲取文獻(xiàn)資源與統(tǒng)計(jì)數(shù)據(jù)的渠道,也使得對海量文獻(xiàn)的檢索和利用大為便利。也正是在互聯(lián)網(wǎng)平臺上出現(xiàn)的文獻(xiàn)資源與統(tǒng)計(jì)數(shù)據(jù)的共享性,為改變?nèi)宋纳鐣茖W(xué)研究的方式和性質(zhì)埋下了伏筆。李劍鳴教授認(rèn)為,“過去一些機(jī)構(gòu)和個人借助資料便利而取得的學(xué)術(shù)優(yōu)勢,可能遭到削弱,甚至顛覆。那些原來遠(yuǎn)離資料與信息中心的人,現(xiàn)在也能接觸和利用同樣的資料,于是就可能從原來的知識的接受者變成知識的生產(chǎn)者。”[注]李劍鳴:《“網(wǎng)絡(luò)史學(xué)”的神話與實(shí)際》,《史學(xué)理論與研究》,2011年第4期。
人工智能與學(xué)術(shù)引擎深度融合,在學(xué)科滲透性、內(nèi)容多樣性、搜索便捷性、結(jié)果準(zhǔn)確性等方面大幅度提升了用戶搜索體驗(yàn)。2015年11月,美國艾倫人工智能研究所發(fā)布人工智能學(xué)術(shù)搜索引擎(Semantic Scholar)。這款學(xué)術(shù)搜索引擎,利用“機(jī)器閱讀”技術(shù)從文本中挑選出最重要的關(guān)鍵詞和短語,可以判斷論文所論述的主題;從論文中提取的圖表,可以幫助用戶快速理解論文的內(nèi)容;從論文引用文獻(xiàn)中的被引次數(shù)、每次被引時的位置及上下文背景等“高影響力引用次數(shù)”,評價引用的價值和論文的學(xué)術(shù)影響力。美國微軟公司2016年5月發(fā)布的微軟學(xué)術(shù)(Microsoft Academic),是一個支持訪問超過1.6億篇學(xué)術(shù)論文的智能搜索引擎,可以識別作者、論文、期刊或研究領(lǐng)域?!八ㄟ^遞歸算法(免費(fèi)提供)來判斷:根據(jù)論文被其他重要論文的引用頻次來判斷其重要性,據(jù)此得出每個分支學(xué)科中最具影響力的科學(xué)家和出版物的排行榜,并每日更新排行榜。微軟學(xué)術(shù)在實(shí)體之間建立有意義的關(guān)聯(lián),并自動生成可視化的知識圖譜,引導(dǎo)學(xué)者閱讀。”[注]劉銀娣:《學(xué)術(shù)出版領(lǐng)域的人工智能應(yīng)用:現(xiàn)狀、挑戰(zhàn)與應(yīng)對》,《科技與出版》,2019年第1期。百度學(xué)術(shù)新推出了一項(xiàng)特色功能“開題分析”,用戶只需要輸入自己擬寫的論文題目和關(guān)鍵詞,就可以搜索到相關(guān)領(lǐng)域已有成果的統(tǒng)計(jì)分析。如以“發(fā)現(xiàn)系統(tǒng)”為關(guān)鍵詞進(jìn)行開題分析,就會顯示研究走勢、關(guān)聯(lián)研究、學(xué)科滲透、相關(guān)學(xué)者和相關(guān)機(jī)構(gòu)的情況。“并且還將已有文獻(xiàn)做了‘經(jīng)典論文’‘最新發(fā)表’‘綜述論文’和‘學(xué)位論文’四種類型區(qū)分,滿足不同的文獻(xiàn)需求?!盵注]王新才,謝宇君:《知識發(fā)現(xiàn)系統(tǒng)與通用學(xué)術(shù)搜索引擎文獻(xiàn)資源比較研究》,《福建論壇》,2018年第4期。
總之,智能學(xué)術(shù)引擎開啟了人文社會科學(xué)文獻(xiàn)搜索的新視野,可以更好地理解用戶需求,給用戶更直接的答案,并以一種更便捷、更專業(yè)、更友好的方式呈現(xiàn);用戶也可以隨時隨地獲取數(shù)據(jù)、傳遞數(shù)據(jù),了解和追蹤人文社會科學(xué)研究中的新動向。
2007年1月,美國計(jì)算機(jī)科學(xué)家、圖靈獎獲得者吉姆·格雷(Jim Gray)在加州山景城召開的學(xué)術(shù)會議上宣稱:“科學(xué)世界發(fā)生了變化,對此毫無疑問。新的研究方式是通過儀器捕獲數(shù)據(jù)或通過計(jì)算機(jī)模擬生成數(shù)據(jù),然后用軟件進(jìn)行處理,并且將所得到的信息或知識存儲在計(jì)算機(jī)中??茖W(xué)家們只是在這個系列過程中的最后階段才開始審視他們的數(shù)據(jù)。這種數(shù)據(jù)密集型科學(xué)的技術(shù)和方法是如此不同,因此值得將數(shù)據(jù)密集型科學(xué)與計(jì)算科學(xué)區(qū)分開來,作為科學(xué)探索的新的第四范式?!盵注]董春雨,薛永紅:《數(shù)據(jù)密集型、大數(shù)據(jù)與“第四范式”》,《自然辯證法研究》,2017年第5期。吉姆·格雷認(rèn)為人類科學(xué)研究經(jīng)歷了四種范式:第一范式為實(shí)驗(yàn)科學(xué),以觀察和實(shí)驗(yàn)描述自然規(guī)律;第二范式為理論科學(xué),使用模型或歸納法進(jìn)行研究;第三范式為計(jì)算科學(xué),通過計(jì)算機(jī)對科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真研究;第四范式為數(shù)據(jù)密集型科學(xué),利用超級計(jì)算能力直接分析海量數(shù)據(jù)發(fā)現(xiàn)相關(guān)關(guān)系和新的知識。2009年10月微軟公司出版《The Fourth Paradigm, Data-Intensive Scientific Discovery》論文集,吉姆·格雷的演講《論eScience:科學(xué)方法的一次革命》作為開篇,并邀請國際著名科學(xué)家對“數(shù)據(jù)密集型科學(xué)”的理念、模式、應(yīng)用和影響進(jìn)行了深入研究。此后,關(guān)于“第四范式”的提法被廣泛引用。不過,吉姆·格雷的四種研究范式主要是基于自然科學(xué)的發(fā)展歷史而言的。在人文社會科學(xué)領(lǐng)域,研究范式的演化與吉姆·格雷總結(jié)的有所不同。國內(nèi)有學(xué)者概括:第一研究范式,社會科學(xué)的定性分析;第二研究范式,社會科學(xué)的定量研究;第三研究范式,社會科學(xué)的計(jì)算實(shí)驗(yàn)的仿真研究;第四研究范式,基于數(shù)據(jù)科學(xué)的大數(shù)據(jù)研究。[注]米加寧,章昌平等:《第四研究范式:大數(shù)據(jù)驅(qū)動的社會科學(xué)研究轉(zhuǎn)型》,《學(xué)海》,2018年第2期。
自21世紀(jì)以來,大數(shù)據(jù)和人工智能技術(shù)取得重大進(jìn)展,成為一種新型認(rèn)識工具和影響人類社會生活的有力手段。何為大數(shù)據(jù)?2015年國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》指出:“大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價值高為主要特征的數(shù)據(jù)集合。”大數(shù)據(jù)有多方面的來源:一是來自政府的總體數(shù)據(jù),二是來自企業(yè)公司的銷售交易數(shù)據(jù),三是來自文獻(xiàn)數(shù)據(jù)庫的專業(yè)數(shù)據(jù),四是來自互聯(lián)網(wǎng)與新浪微博的社交數(shù)據(jù)。任何零散的數(shù)據(jù)一旦連接形成大數(shù)據(jù),便會威力無窮。正如維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》所說:“大數(shù)據(jù)絕不會叫囂‘理論已死’,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習(xí)慣將被顛覆,很多舊有的制度將面臨挑戰(zhàn)。”[注][英] 維克托·邁爾-舍恩伯格,肯尼斯·庫克耶:《大數(shù)據(jù)時代》,盛楊燕、周濤譯,杭州:浙江人民出版社,2013年版,第94頁。大數(shù)據(jù)驅(qū)動的人文社會科學(xué)研究對象,是“全樣本”的海量數(shù)據(jù)。與傳統(tǒng)研究通過問卷調(diào)查采集到的“個別樣本”不同,現(xiàn)在的研究者可以借助大數(shù)據(jù)與人工智能等新技術(shù)獲得長時間的、連續(xù)的、大量人群的各種行為記錄甚至情感偏好。這些數(shù)據(jù)包括屬性數(shù)據(jù)、行為數(shù)據(jù)和時空數(shù)據(jù),不僅為人文社會科學(xué)研究提供了更加堅(jiān)實(shí)的基礎(chǔ),而且正在推動研究范式的轉(zhuǎn)變。
第一,由“樣本→總體”進(jìn)化到“樣本=總體”。
傳統(tǒng)的社會科學(xué)研究,尤其是在統(tǒng)計(jì)學(xué)研究中,有個非常著名的準(zhǔn)則是使用樣本來推斷總體。這是在不可收集和分析全部數(shù)據(jù)的情況下捷徑選擇,隨機(jī)采樣的最大優(yōu)點(diǎn)是根據(jù)樣本推論總體時,可用概率的方式客觀地測量推論值的可靠程度,從而使這種推論建立在比較科學(xué)的基礎(chǔ)上。正因?yàn)榇?,隨機(jī)抽樣在社會調(diào)查和社會科學(xué)研究中采用比較廣泛,甚至應(yīng)用于公共部門和商業(yè)領(lǐng)域。但是隨機(jī)采集樣本也存在許多固有的缺陷,首先采集到的永遠(yuǎn)是個別樣本信息,即使最大比例的樣本也不可能窮盡對象,因此所有的結(jié)論都帶有推論性質(zhì)。其次對于復(fù)雜的總體,樣本的代表性難以保證。再次采樣的隨機(jī)性一旦存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。
大數(shù)據(jù)的出現(xiàn),使“樣本→總體”進(jìn)化到“樣本=總體”。采集“全樣本”,提供全數(shù)據(jù),不僅解決了隨機(jī)采樣帶來的樣本代表性問題和因數(shù)據(jù)缺失造成的變量遺漏,而且為社會科學(xué)研究提供了“全景式”的新視野和新方法。在政治研究領(lǐng)域,大數(shù)據(jù)和人工智能技術(shù)已經(jīng)被應(yīng)用到美國的國會政治和總統(tǒng)大選。華盛頓 K 街的游說集團(tuán)通過大數(shù)據(jù),可以仔細(xì)分析各個議員的投票歷史、政治捐款行業(yè)分布、所有選舉數(shù)據(jù),基本能預(yù)測議員的投票情況。大數(shù)據(jù)技術(shù)的興起,為美國總統(tǒng)大選提供了大量的寶貴信息,比如網(wǎng)絡(luò)媒體中民眾政治意見的表達(dá)、政治信息的傳播與獲取、社會動員與社會網(wǎng)絡(luò)聯(lián)絡(luò),選舉動員、競選宣傳、選民投票、社會運(yùn)動與群體行為的產(chǎn)生和發(fā)展,以及政府與民眾的互動、公共政策的制定等[注]唐文方:《大數(shù)據(jù)與小數(shù)據(jù):社會科學(xué)研究方法的探討》,《中山大學(xué)學(xué)報》,2015年第6期。。2016年11月,英國政治數(shù)據(jù)分析公司—劍橋分析公司以不正當(dāng)方式獲取了 5000 萬臉書用戶的個人信息,通過對選民心理進(jìn)行大規(guī)模的分析評估以及大規(guī)模的行為干預(yù),成功助選特朗普當(dāng)選美國總統(tǒng)。大數(shù)據(jù)因其“全數(shù)據(jù)”“大背景”和時空跨度等優(yōu)勢,使得社會科學(xué)研究者得以重新審視和研究經(jīng)典理論和宏大敘事成為可能。大數(shù)據(jù)正在宏觀經(jīng)濟(jì)數(shù)據(jù)挖掘、宏觀經(jīng)濟(jì)預(yù)測、宏觀經(jīng)濟(jì)分析技術(shù)、宏觀經(jīng)濟(jì)政策等領(lǐng)域大顯身手。面對這樣的場景,國內(nèi)已有學(xué)者提出了“大數(shù)據(jù)經(jīng)濟(jì)學(xué)”概念[注]俞立平:《大數(shù)據(jù)經(jīng)濟(jì)學(xué)的概念、框架與學(xué)科定位研究》,《統(tǒng)計(jì)與信息論壇》,2015年第6期。。
第二,由“模型驅(qū)動”到“數(shù)據(jù)驅(qū)動”。
傳統(tǒng)社會科學(xué)研究,特別強(qiáng)調(diào)模型驅(qū)動。首先,選定模型的組成變量并提出基本假設(shè);其次,設(shè)置模型的模擬與求解;再次,收集數(shù)據(jù)實(shí)證檢驗(yàn)并得出分析結(jié)論。模型驅(qū)動的優(yōu)點(diǎn)是直觀、簡潔,具有理論吸引力。但其缺點(diǎn)是在有限的范圍內(nèi),通過有限的參數(shù)、有限的變量,在做“小概率”的實(shí)證分析?!艾F(xiàn)實(shí)中很多這樣的實(shí)證分析純粹是為了湊合假設(shè)。而一旦模型假設(shè)本身不科學(xué)、不符合實(shí)際,模型的分析結(jié)論也就失去了意義,甚至可能會扭曲事實(shí)真相?!盵注]崔俊富,鄒一南等:《大數(shù)據(jù)時代的經(jīng)濟(jì)學(xué)研究:數(shù)據(jù)驅(qū)動范式》,《廣東財經(jīng)大學(xué)學(xué)報》,2016年第1期。
數(shù)據(jù)驅(qū)動是通過移動互聯(lián)網(wǎng)或者其他的相關(guān)軟件為手段,對海量數(shù)據(jù)收集、整理、提煉并總結(jié)出一套規(guī)律。這是一種自下而上的知識發(fā)現(xiàn)過程,是在沒有理論假設(shè)的前提下去預(yù)知社會和洞察學(xué)術(shù)趨勢。其中,“精細(xì)的概率模型、統(tǒng)計(jì)推理、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相結(jié)合,成為大數(shù)據(jù)中提取知識的有力途徑?!盵注]劉濤雄,尹德才:《大數(shù)據(jù)時代與社會科學(xué)研究范式變革》,《理論探索》,2017年第6期。以社會學(xué)為例,大數(shù)據(jù)為研究范式轉(zhuǎn)換創(chuàng)設(shè)了基礎(chǔ)條件:“它以‘總體’數(shù)據(jù)提供了認(rèn)知宏觀社會的數(shù)據(jù)基礎(chǔ);它為社會現(xiàn)象的‘異質(zhì)性假設(shè)’檢驗(yàn)提供了較為全面的數(shù)據(jù);它以實(shí)時記錄的特點(diǎn)排除了獲取數(shù)據(jù)時的人為干擾;它也為恩格斯的‘結(jié)果穩(wěn)定假設(shè)’提供了檢驗(yàn)所用的充分的經(jīng)驗(yàn)材料;它超越抽樣調(diào)查的小數(shù)據(jù),將小數(shù)據(jù)中被視為極端值并且往往被刪節(jié)的個案或變量重新納入統(tǒng)計(jì)分析。”[注]劉林平,蔣和超等:《規(guī)律與因果:大數(shù)據(jù)對社會科學(xué)研究沖擊之反思——以社會學(xué)為例》,《社會科學(xué)》,2016年第9期。大數(shù)據(jù)能夠捕捉并挖掘人際傳播路徑與傳播過程,由此打破了傳統(tǒng)媒體自上而下的傳播方式,并直接影響新聞傳播領(lǐng)域的生態(tài)結(jié)構(gòu)與運(yùn)作方式。近年來數(shù)據(jù)新聞已成為新聞報道的核心,通過對大量數(shù)據(jù)的挖掘、分析和發(fā)現(xiàn),可以將故事以可視化的形式呈現(xiàn)給觀眾,這無疑改變了原有新聞傳播學(xué)的實(shí)踐圖景。
第三,由重視因果關(guān)系到更加重視相關(guān)關(guān)系。
因果關(guān)系是西方哲學(xué)史上最具魅力的問題之一,從18世紀(jì)休謨至今研究者名家輩出影響深遠(yuǎn)。愛因斯坦就曾說過:“在近代,西方科學(xué)的發(fā)展是以兩個偉大的成就為基礎(chǔ)的,那就是希臘哲學(xué)家發(fā)明的形式邏輯體系以及通過系統(tǒng)的實(shí)驗(yàn)有可能找出因果關(guān)系?!盵注]愛因斯坦:《愛因斯坦文集》(第1卷),許良英、范岱年譯,北京:商務(wù)印書館,1976年版,第574頁。盡管因果關(guān)系是現(xiàn)代科學(xué)建立的基石,但大數(shù)據(jù)時代用于因果關(guān)系的傳統(tǒng)的設(shè)立假設(shè)、實(shí)驗(yàn)驗(yàn)證反復(fù)嘗試的方法就變得異常笨拙和落伍。
隨著人工智能科學(xué)的發(fā)展,社會科學(xué)研究由重視因果關(guān)系轉(zhuǎn)化為更加重視相關(guān)關(guān)系。1998年《哈佛商業(yè)評論》發(fā)表沃爾瑪“啤酒與尿布”典型案例,據(jù)此美國學(xué)者提出通過分析購物籃中的商品結(jié)合,從而找出商品之間相關(guān)關(guān)系的相關(guān)算法,并根據(jù)商品之間的關(guān)系,找出購買行為模式并發(fā)現(xiàn)商機(jī)。2009年谷歌公司從相關(guān)關(guān)系入手,通過每天來自全球超過30億條諸如“哪些藥物治療發(fā)熱和咳嗽效果好”的搜索記錄,成功預(yù)測出了冬季流感的傳播源頭、爆發(fā)時間、傳播路徑等,其預(yù)測結(jié)果與官方公布數(shù)據(jù)的一致性高達(dá)97%[注]雷麗娟,李潤珍:《大數(shù)據(jù)背景下的因果關(guān)系與相關(guān)關(guān)系》,《河南理工大學(xué)學(xué)報》,2017年第1期。。受這一研究的啟發(fā),英國沃里克大學(xué)在《美國國家科學(xué)院院刊》發(fā)表報告指出:2004—2012年間,美國網(wǎng)民在谷歌搜索上輸入關(guān)鍵詞的變化與“標(biāo)準(zhǔn)普爾500指數(shù)”的波動呈相關(guān)關(guān)系,美國網(wǎng)民搜索商業(yè)類和政治類關(guān)鍵詞的頻率同時上升,“標(biāo)準(zhǔn)普爾500指數(shù)”往往會下跌。如果根據(jù)大數(shù)據(jù)研究來制定投資策略,則收益率可高達(dá)297%,而同期采取簡單的買入持有策略只能獲得3%的收益[注]陳云松,吳青熹等:《大數(shù)據(jù)何以重構(gòu)社會科學(xué)》,《新疆師范大學(xué)學(xué)報》,2015年第3期。。由此可見,大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見的影響。
第四,由傳統(tǒng)文獻(xiàn)資料分析到“數(shù)字人文”研究。
傳統(tǒng)文獻(xiàn)的載體主要是甲骨、青銅、縑帛、簡牘、紙張,電子文獻(xiàn)是以數(shù)字代碼形式存在的通過計(jì)算機(jī)技術(shù)存取的文獻(xiàn)。隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,“數(shù)字人文”研究在人文學(xué)科領(lǐng)域中的地位突顯。如哈佛大學(xué)包弼德教授帶領(lǐng)的“中國歷代人物傳記數(shù)據(jù)庫”(CBDB)項(xiàng)目組通過掃描等光學(xué)輸入方式將傳統(tǒng)紙質(zhì)文獻(xiàn)的文字轉(zhuǎn)化為圖像信息,再利用文字識別技術(shù)將圖像信息轉(zhuǎn)化為文本,共收錄427000人的傳記資料,大大提升了研究者挖掘史料信息的能力。CBDB數(shù)據(jù)庫不僅能導(dǎo)出數(shù)據(jù)繪制社會關(guān)系網(wǎng)絡(luò),而且可以通過可視化技術(shù)繪制歷史人物地理分布圖等功能。香港科技大學(xué)人文與社會科學(xué)院李中清教授與康文林教授研究團(tuán)隊(duì),依靠以檔案登記為主的史料,圍繞中國近代以來的土地財產(chǎn)、大學(xué)生、職業(yè)技術(shù)人員和官員群體建立四個個人層面的歷史數(shù)據(jù)庫,數(shù)據(jù)跨度超越200年(1800—2000),包含超過200萬人次的個人生命歷程?!斑@四個主題數(shù)據(jù)庫,可以進(jìn)一步幫助學(xué)界從多維度和長時間兩方面推進(jìn)代際遺傳問題研究;從過去以追求財富遺傳為主擴(kuò)張到理解教育和職業(yè)的代際傳遞;從過去強(qiáng)調(diào)血緣、宗族對后代的影響,到更直接地探討官職(職位)的代際傳遞?!盵注]梁晨:《用大規(guī)模量化歷史數(shù)據(jù)庫檢驗(yàn)中國的長期代際遺傳》,《南京大學(xué)學(xué)報》,2019年第2期。大數(shù)據(jù)、“數(shù)字人文”等新技術(shù),確實(shí)為傳統(tǒng)的歷史學(xué)研究帶來極大便利。在概念史研究中,過去往往偏重引述傳統(tǒng)文獻(xiàn)資料進(jìn)行語義分析與考辨,關(guān)注的問題既包括哪些體驗(yàn)與實(shí)情被帶入到概念中,又包括這些體驗(yàn)或?qū)嵡槭侨绾伪桓拍罨摹,F(xiàn)在則借助“數(shù)字人文”方法,通過詞頻分析研究概念的作者鑒定、概念的風(fēng)格特點(diǎn),通過用法和語境分析研究概念含義的形成和流變。有學(xué)者認(rèn)為,“數(shù)字人文”方法發(fā)揮了驗(yàn)證、修正與創(chuàng)新的三重功能:一是透過數(shù)字技術(shù),從巨量數(shù)據(jù)中,借由計(jì)算與分析,量化地驗(yàn)證過去史學(xué)研究者曾提出過的研究結(jié)論;二是透過巨量資料的計(jì)算分析,對過去史學(xué)研究結(jié)論進(jìn)行補(bǔ)充修正工作;三是從巨觀與復(fù)雜計(jì)算視野出發(fā),數(shù)字史學(xué)工作者得以嘗試提問與解答過去難以研究的巨觀歷史問題[注]邱偉云:《驗(yàn)證、修正、創(chuàng)新:數(shù)字史學(xué)方法的三重功能》,《南京大學(xué)學(xué)報》,2019年第2期。。
2010年以來,在國家和省部級重大科研項(xiàng)目中,“專題數(shù)據(jù)庫”建設(shè)成為重點(diǎn)支持的方向,如“漢譯文學(xué)編年考錄及數(shù)據(jù)庫建設(shè)(1896—1949)”“中國新詩傳播接受文獻(xiàn)集成、研究及數(shù)據(jù)庫建設(shè)(1917—1949)”“抗戰(zhàn)大后方文學(xué)史料數(shù)據(jù)庫建設(shè)”“延安時期未刊文獻(xiàn)資料收集、整理與數(shù)據(jù)庫建設(shè)”“中國文學(xué)史著作整理、研究及數(shù)據(jù)庫建設(shè)”“中國近現(xiàn)代文學(xué)期刊全文數(shù)據(jù)庫建設(shè)與研究(1872—1949)”等等。大數(shù)據(jù)方法和“數(shù)字人文”大大拓展了文學(xué)研究的領(lǐng)域,比如利用數(shù)據(jù)庫、互聯(lián)網(wǎng)從事現(xiàn)代文學(xué)版本與圖像史料的研究、作家生平傳記研究、文學(xué)社團(tuán)思潮流派的譜系研究、文學(xué)思想史觀念史研究、文學(xué)文本的風(fēng)格學(xué)語言學(xué)研究等等。上海博物館根據(jù)明代著名書畫家董其昌“年譜、著述等文本資料和他遺留的作品,逐步梳理出對他的書畫生涯產(chǎn)生影響的鑒藏、交游、教育、傳承等多個人文脈絡(luò),從而首次以可視化的形態(tài)為董其昌的研究設(shè)計(jì)了一個‘主體—表達(dá)—時代’的綜合維度,進(jìn)而可以進(jìn)一步探索董其昌的各種身份和相關(guān)表達(dá),以及這些身份和表達(dá)與時代問題之間是如何彼此展開、相互作用的等等?!盵注]童瑩,張彬:《董其昌數(shù)字人文項(xiàng)目的探索與實(shí)踐》,《中國博物館》,2018年第4期。這是利用“數(shù)字人文”技術(shù)做的一次積極探索。為紀(jì)念莎士比亞逝世400周年,有學(xué)者從數(shù)字人文的視角出發(fā),運(yùn)用文獻(xiàn)計(jì)量與信息可視化的方法,對莎士比亞學(xué)術(shù)傳播的時空分布、時間演化、內(nèi)容熱點(diǎn)和區(qū)域特色進(jìn)行了分析研究,提供了新的視角和參考價值[注]冉從敬,趙洋等:《數(shù)字人文視角下的莎士比亞學(xué)術(shù)傳播研究》,《圖書館雜志》,2018年第3期。。
在中國,大數(shù)據(jù)方法、“數(shù)字人文”雖然得到人文社會科學(xué)領(lǐng)域的快速響應(yīng),已經(jīng)有了不少成熟的研究案例。但大數(shù)據(jù)存在著的若干悖論,也不得不引起我們重視:一是總體與樣本的悖論:大數(shù)據(jù)的采集與測量中,“一切皆可量化”的理想與數(shù)據(jù)獲取現(xiàn)實(shí)之間存在較大差距;二是混雜與精確的悖論:大數(shù)據(jù)追求質(zhì)量,但數(shù)據(jù)的混雜性與精確性卻不可調(diào)和;三是相關(guān)與因果的悖論:大數(shù)據(jù) 的分析與研究范式,相關(guān)性的探索不能替代推斷的價值[注]倪萬,唐錫光:《大數(shù)據(jù)應(yīng)用于社會科學(xué)研究的價值與悖論》,《東南學(xué)術(shù)》,2017年第4期。。尤其重要的是,采用大數(shù)據(jù)方法研究還沒有產(chǎn)生震動學(xué)界的成果。即使目前熱門的“數(shù)字人文”,許多研究也僅止步于“可視化”,以展示信息“圖表”“網(wǎng)絡(luò)”和“圖示”為成果?!斑@樣的展示,對于大眾普及類的知識傳播而言無疑是十分高效、簡明的方式,但對于學(xué)術(shù)研究,卻削弱甚至消解了研究者的主體性?!盵注]嚴(yán)程:《現(xiàn)代文學(xué)研究的“數(shù)字人文”方法芻議》,《現(xiàn)代中文學(xué)刊》,2019年第1期。
人文社會科學(xué)是研究人的精神、文化、價值和各種社會現(xiàn)象及其發(fā)展規(guī)律的科學(xué),由于分支和派別的日益龐大,“在社會科學(xué)的發(fā)展過程中導(dǎo)致了其內(nèi)外部的對立:社會科學(xué)與自然科學(xué)、人文學(xué)科的對立,社會科學(xué)內(nèi)部各分支的對立,實(shí)證研究、詮釋研究和批判研究范式的對立,方法論個體主義和整體主義的對立,定性研究和定量研究的對立。”[注]米加寧,章昌平等:《第四研究范式:大數(shù)據(jù)驅(qū)動的社會科學(xué)研究轉(zhuǎn)型》,《學(xué)?!?,2018年第2期。但是從20世紀(jì)后半葉開始,又出現(xiàn)了學(xué)科融合的趨勢:一是自然科學(xué)與社會科學(xué)的互相融合,產(chǎn)生了一些新興學(xué)科。如數(shù)學(xué)、電子計(jì)算機(jī)應(yīng)用于經(jīng)濟(jì)領(lǐng)域,出現(xiàn)了技術(shù)經(jīng)濟(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)等。二是數(shù)字技術(shù)與人文學(xué)科的有機(jī)結(jié)合,推動了多種意義上的對話。包括跨越既有學(xué)科界限的對話,跨越純理論與應(yīng)用、定性與定量及理論與實(shí)際界限的對話等。對于傳統(tǒng)人文學(xué)術(shù)而言,數(shù)字人文“借助新媒介所擁有的多樣性和可擴(kuò)展性,通過設(shè)計(jì)、計(jì)算、分析、可視化等手段重塑和改造人文知識,為學(xué)者提供更多差異化、規(guī)律性、宏觀性、趨勢性研究的可能和線索,從而擴(kuò)展學(xué)術(shù)疆域和潛力,使學(xué)術(shù)領(lǐng)域?qū)崿F(xiàn)‘輪廓重繪’?!盵注]馮惠玲:《〈數(shù)字人文:改變知識創(chuàng)新與分享的游戲規(guī)則〉序》,北京:中國人民大學(xué)出版社,2018年版。比如大數(shù)據(jù)正從內(nèi)外兩個維度對新聞傳播學(xué)科范式進(jìn)行著重構(gòu),內(nèi)部學(xué)科的定位正從人文學(xué)科路徑轉(zhuǎn)向社會科學(xué),實(shí)證研究逐漸占據(jù)上風(fēng),并朝向更加精確化的方向發(fā)展;外部與其他學(xué)科的融合程度更高,使對話和交流變得頻繁,學(xué)科邊界變得模糊[注]吳小坤:《大數(shù)據(jù)時代新聞傳播學(xué)研究的重構(gòu)與進(jìn)路》,《南京社會科學(xué)》,2016年第11期。。大數(shù)據(jù)方法改變了傳統(tǒng)心理學(xué)研究通常采用的觀察法、訪談法、問卷法等手段,而將實(shí)驗(yàn)室移植到互聯(lián)網(wǎng)來獲取多樣化、多維化的海量信息,包括網(wǎng)絡(luò)文本、音頻、視頻、生理數(shù)據(jù)等,以研究用戶接受不同信息時的情緒反應(yīng),進(jìn)而探索心理學(xué)研究?!按髷?shù)據(jù)的產(chǎn)生、發(fā)展與研究還催生了心理學(xué)相關(guān)研究領(lǐng)域的拓展,如心理健康系統(tǒng)的建立、網(wǎng)絡(luò)心理學(xué)、認(rèn)知診斷評估系統(tǒng)的建立、消費(fèi)者心理預(yù)測、交通心理學(xué)、環(huán)境心理學(xué)、通過社交網(wǎng)絡(luò)分析人格等?!盵注]李雨秦:《大數(shù)據(jù)為心理學(xué)研究帶來機(jī)遇和挑戰(zhàn)》,《中國社會科學(xué)報》,2017年6月16日。
人工智能的興起和近年的普遍性運(yùn)用潮流為科研人員的跨學(xué)科研究開啟了新的機(jī)遇和空間。很多自然科學(xué)家開始關(guān)注人文社會科學(xué)中的問題,很多人文社會科學(xué)家更加注重不同研究取向和方式的結(jié)合,如數(shù)據(jù)驅(qū)動與模型驅(qū)動相結(jié)合、演繹邏輯與歸納邏輯相結(jié)合、相關(guān)分析與因果分析相結(jié)合、空間分布與時間序列分析相結(jié)合、部分探索與整體研究相結(jié)合、人工分析與工具應(yīng)用相結(jié)合。[注]馬費(fèi)成:《推進(jìn)大數(shù)據(jù)、人工智能等信息技術(shù)與人文社會科學(xué)研究深度融合》,《評價與管理》,2018年第2期。即使傳統(tǒng)的人文學(xué)科,學(xué)者們也不再只是“看熱鬧”,大數(shù)據(jù)研究魅力已初試啼聲。金觀濤、劉青峰在香港中文大學(xué)做研究,從觀念史的視角整合思想史,借助“中國近現(xiàn)代思想史全文檢索數(shù)據(jù)庫(1.2億字)”和??碌闹R考古方法,追尋20世紀(jì)中國政治思想史的關(guān)鍵詞涵義、詞頻統(tǒng)計(jì)、語義分析等,解構(gòu)傳統(tǒng)歷史觀的統(tǒng)一性,力圖尋求歷史的真實(shí)性、復(fù)雜性與觀念史變化之原因。他們認(rèn)為,“一種以關(guān)鍵詞為核心分析對象的數(shù)據(jù)庫研究方法正在形成,在思想史研究中將占據(jù)越來越重要的位置?!盵注]金觀濤,劉青峰:《中國近現(xiàn)代觀念起源研究和數(shù)據(jù)庫方法》,《史學(xué)月刊》,2005年第5期。他們構(gòu)建的跨越100年(1830—1930)的中國近現(xiàn)代思想史全文檢索數(shù)據(jù)庫,確實(shí)在解決近代觀念史研究的諸多重大問題上展現(xiàn)了強(qiáng)大功能。歷史研究也正經(jīng)歷與大數(shù)據(jù)應(yīng)用結(jié)合的轉(zhuǎn)型,出現(xiàn)了不少研究新成果,如詹荃亦《“主義”的數(shù)字人文研究》、夏明方《大數(shù)據(jù)與生態(tài)史:中國災(zāi)害史料整理與數(shù)據(jù)庫建設(shè)》、陳志武等《清初至二十世紀(jì)前期中國利率史初探——基于中國利率史數(shù)據(jù)庫(1660—2000)的考察》、金觀濤等《統(tǒng)計(jì)偏離值分析于人文研究上的應(yīng)用——以<新青年>為例》、龔為綱等《大數(shù)據(jù)分析下主要社會思潮的總體態(tài)勢:以民粹主義為例》等。在古代文學(xué)研究領(lǐng)域,有人通過大數(shù)據(jù),研究唐代詩人之間的社交網(wǎng)絡(luò)與關(guān)系圖譜;有人用名人出生地和死亡地的大數(shù)據(jù),研究文化藝術(shù)中心的歷史遷移問題;有人運(yùn)用計(jì)算機(jī)人工智能中的支持向量機(jī)技術(shù)、以44個文言虛字頻率為特征向量,對《紅樓夢》120回進(jìn)行了分類研究。結(jié)果證明,從第81回開始的后40回和前80回在寫作風(fēng)格上存在明顯差別,從技術(shù)的角度確認(rèn)了《紅樓夢》前80回和后40回為兩人所作,運(yùn)用信息技術(shù)手段有效地證明了紅學(xué)界多年來的推斷[注]施建軍:《基于支持向量機(jī)技術(shù)的〈紅樓夢〉作者研究》,《紅樓夢學(xué)刊》,2011年第5期。。語言學(xué)科的跨學(xué)科研究被越來越多的研究者所關(guān)注,心理學(xué)、認(rèn)知科學(xué)、生物學(xué)、計(jì)算機(jī)科學(xué)社會學(xué)及人類學(xué)等與語言學(xué)之間的關(guān)系日益密切。語言學(xué)的跨學(xué)科研究“拓寬了語言學(xué)的研究視野,充實(shí)了語言學(xué)的研究內(nèi)容,為語言學(xué)的理論建構(gòu)提供了心理—生理上的佐證,同時也提供了新的研究思路和方法。”[注]李姝雯,李曼麗:《語言學(xué)跨學(xué)科研究的新范型——基于2000—2016年P(guān)NAS研究進(jìn)展評述》,《語言教學(xué)與研究》,2019年第1期。近年來,通過藝術(shù)學(xué)、人類學(xué)、民俗學(xué)、文化學(xué)、自然科學(xué)視角的音樂圖像研究取得了一定成果,能夠做到圖文互證、圖與音樂實(shí)踐互證, 言之有據(jù), 以提高研究結(jié)論的科學(xué)性?!伴_展跨學(xué)科的音樂圖像研究學(xué)術(shù)意義重大,它能夠開闊音樂圖像學(xué)研究視野,為中國音樂史論研究提供具體的、更有說服力的音樂圖像史料,對于我們從整體上、深層次把握音樂事物、音樂現(xiàn)象具有重要作用?!盵注]高興:《跨學(xué)科的音樂圖像研究》,《藝術(shù)探索》,2019年第1期。
法國哲學(xué)家帕斯卡爾說:“人只不過是一根蘆葦,是自然界最脆弱的東西;但他是一根會思想的蘆葦?!比祟愐?yàn)樗伎甲兊脽o比強(qiáng)大,因?yàn)槲淖侄鴤鞒形拿?。隨著人工智能技術(shù)的飛速發(fā)展,人的思考能力這個最后堡壘正不斷被侵?jǐn)_。早在20世紀(jì)60年代,美國貝爾實(shí)驗(yàn)室就已嘗試機(jī)器人寫稿。進(jìn)入新世紀(jì),隨著人工智能從運(yùn)算階段、感知階段過渡到認(rèn)知階段,這一雄心勃勃的探索在美國已成燎原之勢。華爾街郵報、紐約時報、美聯(lián)社、洛杉磯時報都開發(fā)了自己的寫稿機(jī)器人,內(nèi)容多為財經(jīng)和體育方面資訊。2005年,麻省理工學(xué)院的計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室的三位研究生杰里米·斯特里布林、馬克斯·克倫和達(dá)納·阿瓜約聯(lián)合編寫了一個叫做SCIgen的計(jì)算機(jī)程序,能夠自動生成英文科技“論文”,包含摘要、引言、文獻(xiàn)綜述、實(shí)驗(yàn)結(jié)果、結(jié)論、圖片和參考文獻(xiàn)等。此后幾年用這個神器生成的論文,堂而皇之地出現(xiàn)在世界各地的科技學(xué)術(shù)會議,有的甚至通過了同行評審,被CSSE雜志錄用。2010年,法國約瑟夫·傅立葉大學(xué)的計(jì)算機(jī)科學(xué)家西里爾·拉貝出于好玩或惡作劇,虛擬了一個叫做IkeAntkare的機(jī)器人作者,制造了102篇機(jī)器生成論文來測試“谷歌學(xué)術(shù)”是否收錄。結(jié)果這位機(jī)器人成功了,甚至IkeAntkare還成為世界上第21位被引用次數(shù)最高的“科學(xué)家”。
近年來,中國的機(jī)器人寫稿實(shí)踐發(fā)展迅猛。2015年9月,騰訊財經(jīng)發(fā)表機(jī)器人Dreamwriter寫的《8月CPI同比上漲2.0% 創(chuàng)12個月新高》文章,由此拉開了國內(nèi)機(jī)器人寫稿的序幕。此后,阿里巴巴聯(lián)合第一財經(jīng)推出“DT稿王”、今日頭條推出“Xiaomingbot”。尤其是IBM中國研究院專家基于深度學(xué)習(xí)技術(shù),開發(fā)的寫詩機(jī)器人“偶得”一夜爆紅。讀者只要輸入四個字,它就能生成一首符合平仄、對仗及韻律的七言藏頭詩。如宋代秦觀有詩:西津江口月初弦,水氣昏昏上接天。清渚白沙茫不辨,只應(yīng)燈火是漁船。“偶得”迅速生成:西窗樓角聽潮聲,水上征帆一點(diǎn)輕。清秋暮時煙雨遠(yuǎn),只身醉夢白云生。這令許多專業(yè)人士也一時難辨真假。繼商業(yè)媒體尤其是互聯(lián)網(wǎng)公司率先發(fā)力之后,傳統(tǒng)主流媒體也加大技術(shù)投入尋求突破,因此各種寫稿機(jī)器人紛紛涌現(xiàn)。新華社的“快筆小新”、人民日報的“小融”、南方報業(yè)的“小南”等等,以“DT稿王”為例,目前能寫出三大邏輯類別稿件:第一類是基于數(shù)字進(jìn)行事實(shí)陳述,并進(jìn)行簡單邏輯分析的文章,比如二級市場的監(jiān)控、體育賽事的簡訊;第二類是對信息源進(jìn)行針對性的信息提取,把非結(jié)構(gòu)化的文本轉(zhuǎn)為結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù),再根據(jù)不同的規(guī)則把信息要點(diǎn)組合寫成單點(diǎn)內(nèi)容;第三類是單點(diǎn)內(nèi)容的關(guān)聯(lián)生成,及時關(guān)聯(lián)專家對基本數(shù)據(jù)的解讀及評論,生成更有深度、更立體、更綜合的稿件[注]宿思,樊成瓊:《寫稿機(jī)器人與媒體智能時代》,《貴陽日報》,2016年9月19日。。機(jī)器人寫稿背后的核心技術(shù)是自然語言處理(簡稱NLP),同時涉及搜索引擎、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、知識圖譜、內(nèi)容聚合等多項(xiàng)人工智能技術(shù)?,F(xiàn)有的機(jī)器人寫稿主要有兩種技術(shù)方式,一種是模板式,一種是摘錄式。模板式是“人工模板”+“自動化數(shù)據(jù)”填充的套路,去組合生成原創(chuàng)的稿件?!熬唧w的實(shí)現(xiàn)過程包括:基于輸入的知識點(diǎn)與模板庫進(jìn)行候選模板檢索;利用優(yōu)化算法進(jìn)行智能模板篩選,確定最終真正使用的模板;基于篩選得到的模板進(jìn)行新聞文本生成?!盵注]申屠曉明,甘恬:《機(jī)器人寫稿的技術(shù)原理及實(shí)現(xiàn)方法》,《傳媒評論》,2017年第9期。摘錄式是采用自動摘要技術(shù),從已有的海量數(shù)據(jù)(文本)中摘錄核心內(nèi)容與關(guān)鍵詞,通過計(jì)算分析方法進(jìn)行二次創(chuàng)作,改寫或重組為新的稿件。
2018年6月30日,中國智能寫作產(chǎn)業(yè)聯(lián)盟在北京成立。中國聲谷、科大訊飛和金山軟件等17家人工智能領(lǐng)域產(chǎn)業(yè)基地及企業(yè)成為首批理事單位,其目標(biāo)是搶占計(jì)算機(jī)自然語言處理發(fā)展的制高點(diǎn),推動構(gòu)建智能寫作產(chǎn)業(yè)生態(tài)體系,加速助推智能寫作科技成果轉(zhuǎn)化落地。未來機(jī)器人寫稿或?qū)⒊蔀槌B(tài),人文社會科學(xué)研究也將面臨人工智能的野蠻敲門。一是通過語音識別輸入法等技術(shù)完成語音和文字的轉(zhuǎn)換,實(shí)現(xiàn)低效率和手工化的方式向高效率與機(jī)器化的方式轉(zhuǎn)變。騰訊寫稿機(jī)器人Dreamwriter推出的中文糾錯算法,已能識別多種類型,包括同音字、近義字、易錯字及上下文語境搭配錯誤,準(zhǔn)確率達(dá)90%以上。二是通過智能學(xué)術(shù)引擎高效完成海量閱讀,通過評估論文內(nèi)容的相關(guān)度來實(shí)現(xiàn)搜索結(jié)果的快速排序,通過輸入字段或論文摘要提取包含語義背景的關(guān)鍵概念,并以此來找到相關(guān)度較高的話題及其他論文資料。如借助Iris.AI的技術(shù),用戶在輸入論文鏈接后,便能夠在短時間內(nèi)獲取Iris.AI所構(gòu)建的知識圖譜。所以綜述性、歸納性和程式化的論文寫作,將大量由機(jī)器人所替代。三是目前用于機(jī)器人寫稿的開發(fā)仍然處在初級階段,還無法提供事實(shí)背后的真相,無法提供針對現(xiàn)實(shí)的深度解釋,更無法提供高度創(chuàng)造性研究。因此,“人機(jī)協(xié)作”將成為未來人文社會科學(xué)研究的新趨勢。人機(jī)協(xié)作就是由人給定寫稿的題目、關(guān)鍵詞、架構(gòu)、段落等要素,充分利用機(jī)器收集和處理大數(shù)據(jù)的能力,根據(jù)模板嵌入不同數(shù)據(jù)、聚合內(nèi)容和擴(kuò)充文字。在此基礎(chǔ)上,發(fā)揮人的思維模式和價值觀,剔除模式化、同質(zhì)化弊病,挖掘數(shù)據(jù)背后深層的思想,進(jìn)行創(chuàng)意性加工。四是“機(jī)器人寫稿”帶來的黑洞。當(dāng)下自媒體、通俗文學(xué)的寫手,已經(jīng)半機(jī)器化了。數(shù)據(jù)庫里的細(xì)節(jié)、情節(jié)、臺詞、角色、環(huán)境描寫等各種“零部件”是由人預(yù)先輸入儲備的,機(jī)器不過是根據(jù)指令自動完成篩選、組合、推演、語法檢測、隨機(jī)潤色一類事務(wù)。這些作品,“其作者可能是人,也可能是機(jī)器,也可能是配比不同的人(HI)機(jī)(AI)組合——其中低俗版的組合,如淘寶網(wǎng)十五元一個的‘寫作軟件’,差不多就是最廉價的抄襲助手,已成為時下某些網(wǎng)絡(luò)作家的另一半甚至另大一半”,這被批評為“一種基于數(shù)據(jù)庫和樣本量的寄生性繁殖”[注]韓少功:《當(dāng)機(jī)器人成立作家協(xié)會》,《讀書》,2016年第7期。。2008—2013年,有120多篇由計(jì)算機(jī)自動生成的“論文”被提交給國際學(xué)術(shù)會議并得以出版。法國計(jì)算機(jī)科學(xué)家拉貝在德國學(xué)術(shù)出版機(jī)構(gòu)施普林格的數(shù)據(jù)庫中檢測發(fā)現(xiàn),盡管這些論文格式規(guī)范、圖文并茂,但只不過是詞匯和句子無意義組合的虛假論文。更打臉的是,這些論文的署名作者大多來自中國大陸[注]《科學(xué)家檢出120多篇機(jī)器人論文幾乎全來自中國》,http://news.sohu.com/20140410/n398017521.shtml.。由此看來,“機(jī)器人論文”現(xiàn)象在中國早已存在,“代寫代發(fā)論文”的買賣也已不是什么新聞,只不過學(xué)術(shù)不端行為的觸角已然伸至國外,中介活動如此猖獗,還是令人有些吃驚。
總之,由人工智能引領(lǐng)的新一輪科技革命和產(chǎn)業(yè)變革方興未艾。人工智能技術(shù)正在快速進(jìn)入人文社會科學(xué)領(lǐng)域,對傳統(tǒng)人文社會科學(xué)研究構(gòu)成了挑戰(zhàn)。但這一切都還剛剛開始,人工智能殺手的本質(zhì)還遠(yuǎn)遠(yuǎn)沒有展現(xiàn)。在不久的未來,或許它能突破人類的“阿喀琉斯之踵”?也未可知。
人工智能充滿了張力,機(jī)遇與風(fēng)險并存?!爸袊鳛槿斯ぶ悄艽髧?,既要積極布局搶占產(chǎn)業(yè)發(fā)展制高點(diǎn),又要未雨綢繆及早做出人工智能發(fā)展的社會治理預(yù)案?!盵注]張耀銘,張路曦:《人工智能:人類命運(yùn)的天使抑或魔鬼——兼論新技術(shù)與青年發(fā)展》,《中國青年社會科學(xué)》,2019年第1期。面對未來,如果不想成為恐龍,我們必須變得極其開放,擁抱轉(zhuǎn)型,接受變革,深度融合。但愿我們能像村上春樹在《海邊的卡夫卡》結(jié)尾所言:“不久,你睡了。一覺醒來時,你將成為新世界的一部分”[注][日]村上春樹:《海邊的卡夫卡》,林少華譯,上海:上海譯文出版社,2003年版,第514頁。。