法布里齊奧·戴阿夸 伊森·莫里克 凱瑟琳·克洛格 富蘭希思克·坎德隆
2022年底,OpenAI發(fā)布了人工智能聊天機(jī)器人ChatGPT,開(kāi)啟了大模型領(lǐng)域的“速跑”模式,以真實(shí)的場(chǎng)景處理自然語(yǔ)言,實(shí)現(xiàn)了對(duì)話、閱讀、翻譯、寫(xiě)作、編程、數(shù)據(jù)分析等功能。2024年伊始,OpenAI再度掀起熱潮,視頻人工智能模型Sora橫空出世,只需要一小段提示文本,Sora可生成長(zhǎng)達(dá)60秒連續(xù)、穩(wěn)定、高品質(zhì)的視頻,并且提示文本越充分、細(xì)節(jié)越精確,生成的視頻就越真實(shí)。
事實(shí)上,ChatGPT也好,Sora也罷,都屬于OpenAI訓(xùn)練的大語(yǔ)言模型(LLM),是通過(guò)無(wú)監(jiān)督、半監(jiān)督或自監(jiān)督的方式,在海量的文本數(shù)據(jù)中掌握表達(dá)知識(shí)和能力的深度神經(jīng)網(wǎng)絡(luò)模型。
OpenAI研究發(fā)現(xiàn),80%的美國(guó)員工至少有10%的工作任務(wù)會(huì)受到ChatGPT的影響。其中,19%的員工發(fā)現(xiàn)高達(dá)50%的工作內(nèi)容會(huì)受到積極的影響。
紅杉資本的報(bào)告指出,在特定領(lǐng)域,生成式人工智能將創(chuàng)造知識(shí)工作的邊際成本降至零,將產(chǎn)生巨大的勞動(dòng)生產(chǎn)率和經(jīng)濟(jì)價(jià)值。高盛曾預(yù)計(jì),生成式人工智能會(huì)讓全球財(cái)富在未來(lái)十年中增加 7%(近7萬(wàn)億美元),推動(dòng)生產(chǎn)率增長(zhǎng)1.5%。
哈佛商學(xué)院、沃頓商學(xué)院、麻省理工學(xué)院、華威商學(xué)院聯(lián)合波士頓咨詢,發(fā)表了一篇題為《在參差不齊的技術(shù)前沿航行:人工智能對(duì)知識(shí)工作者的生產(chǎn)效率和質(zhì)量影響的數(shù)據(jù)分析》的論文,首次探索了企業(yè)中生成式人工智能的實(shí)際應(yīng)用,揭示了人工智能在提高績(jī)效方面的潛力,為企業(yè)如何部署人工智能提供了關(guān)鍵的啟示。企業(yè)在使用人工智能時(shí)必須審慎評(píng)估任務(wù)的性質(zhì)和難度,以充分利用其優(yōu)勢(shì),同時(shí)避免潛在的風(fēng)險(xiǎn)。
研究人員發(fā)現(xiàn),雖然大語(yǔ)言模型可顯著提高知識(shí)工作者的生產(chǎn)力和工作質(zhì)量,但其三個(gè)特點(diǎn)決定了它對(duì)人類的影響將更為迅速且廣泛。
快速迭代:隨著模型規(guī)模的擴(kuò)大和質(zhì)量的提高,大語(yǔ)言模型能夠在短時(shí)間內(nèi)快速迭代,并獲得超出預(yù)期的新能力。最近的研究表明,大語(yǔ)言模型在醫(yī)學(xué)和法律等專業(yè)領(lǐng)域發(fā)揮了極高的水準(zhǔn),并在諸多創(chuàng)新指標(biāo)上超越了人類。
績(jī)效提升:無(wú)需太多組織和技術(shù)層面的投資,大語(yǔ)言模型可以直接提升員工的績(jī)效表現(xiàn),特別是在寫(xiě)作、編程等創(chuàng)造性工作方面。因此,預(yù)計(jì)大語(yǔ)言模型將對(duì)收入高、受過(guò)高等教育并從事創(chuàng)新性工作的員工產(chǎn)生更大的影響。
相對(duì)不透明:大語(yǔ)言模型的迭代是通過(guò)用戶在實(shí)際使用中不斷地試錯(cuò)和糾偏完成的。雖然大語(yǔ)言模型在完成某些工作目標(biāo)時(shí)表現(xiàn)優(yōu)異,但在某些任務(wù)上可能會(huì)表現(xiàn)不佳,比如產(chǎn)生看似合理卻不正確的結(jié)果,在數(shù)學(xué)計(jì)算和文本引用上產(chǎn)生錯(cuò)誤。更為棘手的是,這些容易出錯(cuò)的任務(wù)就像是黑箱,難以提前預(yù)測(cè)。
為了深入探究人工智能對(duì)高水平知識(shí)型員工的影響,研究人員招募了758名波士頓咨詢的戰(zhàn)略顧問(wèn),進(jìn)行對(duì)照試驗(yàn)。參與者被隨機(jī)分為兩組:甲組(385名顧問(wèn))測(cè)試人工智能能力邊界以內(nèi)的任務(wù),乙組(373名顧問(wèn))測(cè)試超出人工智能能力邊界的任務(wù)。
在具體的實(shí)驗(yàn)流程中(如圖1所示),甲乙兩組的顧問(wèn)首先在沒(méi)有人工智能參與的情況下完成評(píng)估任務(wù),建立個(gè)人績(jī)效和能力的基準(zhǔn)線。隨后,顧問(wèn)們被隨機(jī)分配到三個(gè)不同的組別:無(wú)人工智能訪問(wèn)權(quán)限、有GPT-4 人工智能訪問(wèn)權(quán)限、有GPT-4 人工智能訪問(wèn)權(quán)限并具有及時(shí)的使用指導(dǎo),完成和評(píng)估任務(wù)難度相似的實(shí)驗(yàn)任務(wù)。
甲組的實(shí)驗(yàn)任務(wù)B1中,顧問(wèn)們要為一家鞋類公司的開(kāi)發(fā)部門做新品提案,并在規(guī)定時(shí)間內(nèi)回答指定的18個(gè)問(wèn)題。
在創(chuàng)新力方面,要針對(duì)一個(gè)特定市場(chǎng)或尚未充分開(kāi)發(fā)的市場(chǎng)提出至少10個(gè)新鮮的想法;為新品策劃至少4個(gè)名字;用3~4句話描述新品的細(xì)節(jié)和特色。
在分析能力方面,根據(jù)目標(biāo)用戶分析鞋類行業(yè)的細(xì)分市場(chǎng);羅列出潛在的競(jìng)爭(zhēng)對(duì)手并解釋原因;描述焦點(diǎn)小組里需要囊括的人群以及焦點(diǎn)小組里要討論的5個(gè)問(wèn)題。
在寫(xiě)作能力方面,要為新品的發(fā)布起草一份公關(guān)稿;按照《哈佛商業(yè)評(píng)論》的風(fēng)格寫(xiě)一篇大約2 500字的文章,內(nèi)容包括新品開(kāi)發(fā)過(guò)程、市場(chǎng)策略和經(jīng)驗(yàn)總結(jié)等。
在說(shuō)服力方面,以一種激勵(lì)人心的方式解釋該新品為何能夠打敗競(jìng)品,等等。
這些任務(wù)充分模擬了新品上市所經(jīng)歷的關(guān)鍵環(huán)節(jié)。研究人員雇傭了專業(yè)的評(píng)分員對(duì)顧問(wèn)們回答的每個(gè)問(wèn)題進(jìn)行打分考核,每個(gè)回答都有兩位評(píng)分員打分,取平均分進(jìn)入后續(xù)的數(shù)據(jù)分析,在工作速度、質(zhì)量和能力等方面考察他們的工作表現(xiàn)。
實(shí)驗(yàn)結(jié)果表明,針對(duì)那些顯然處于人工智能能力范圍內(nèi)的任務(wù),以前需要大量人力才能完成,但現(xiàn)在有了人工智能的支持,效率可以大幅提升。
如圖2所示,在人工智能能力邊界以內(nèi),使用人工智能的兩組成績(jī)明顯優(yōu)于沒(méi)有使用人工智能的對(duì)照組。具體從數(shù)據(jù)上看,沒(méi)有使用人工智能的對(duì)照組完成了82%的任務(wù),僅使用GPT的一組完成了91%的任務(wù),使用GPT且有指導(dǎo)的一組完成了93%的任務(wù),使用人工智能的兩組平均比沒(méi)有使用人工智能的對(duì)照組工作質(zhì)量高了40%以上,速度提升了25%以上,任務(wù)完成度提升了12%以上。
乙組的實(shí)驗(yàn)任務(wù)B2中,顧問(wèn)們根據(jù)復(fù)雜的財(cái)務(wù)數(shù)據(jù)和冗長(zhǎng)的客戶訪談文件,為某公司CEO從三個(gè)子品牌中,選擇一個(gè)最有潛力的品牌進(jìn)行投資,并通過(guò)分析數(shù)據(jù)和引用訪談對(duì)話證實(shí)為什么選擇該子品牌,最終提供具有創(chuàng)新性和策略性的品牌增長(zhǎng)建議。
顧問(wèn)們需要從海量的數(shù)據(jù)中找出關(guān)鍵細(xì)節(jié),做出精準(zhǔn)的判斷,并為CEO準(zhǔn)備500~700字的匯報(bào)。最終結(jié)果顯示(如圖3所示),在超出人工智能能力邊界的任務(wù)中,沒(méi)有使用人工智能的對(duì)照組正確率達(dá)到了84.5%,僅使用GPT-4的一組正確率有70%,使用GPT-4且有使用指導(dǎo)的一組是60%。這意味著,與使用人工智能相比,沒(méi)有使用人工智能反而高出了大約20%的正確率。
研究人員總結(jié)出人工智能的能力水平存在著明顯的不均勻性,形成了所謂的“鋸齒狀技術(shù)前沿”(如圖4中所示的紅色實(shí)線)。當(dāng)工作任務(wù)處于人工智能的能力范圍內(nèi)時(shí),人工智能可以成為提升員工生產(chǎn)力和工作質(zhì)量的強(qiáng)大助推器。然而,即便是在難度相似的情況下,一旦工作任務(wù)超出了人工智能的能力邊界,人工智能的輸出可能會(huì)變得不準(zhǔn)確且缺乏實(shí)用性。在這種情況下,過(guò)度依賴人工智能可能會(huì)導(dǎo)致更多的錯(cuò)誤發(fā)生,帶來(lái)的風(fēng)險(xiǎn)大于收益。
但是由于人工智能的內(nèi)部工作方式并不透明,其能力邊界也在不斷地?cái)U(kuò)展和變化,相似難度的任務(wù)可能會(huì)出現(xiàn)在人工智能的能力邊界以內(nèi)或以外,這使得人類很難掌握人工智能的能力邊界,也不能確定某些任務(wù)是否適合使用人工智能。因此,在使用AI時(shí),員工需要保持警醒的狀態(tài),交叉驗(yàn)證和審查人工智能的輸出結(jié)果,確保專業(yè)的判斷。
在實(shí)驗(yàn)過(guò)程中,研究人員還發(fā)現(xiàn)了人工智能對(duì)不同水平的顧問(wèn)能力提升程度不同。具體來(lái)說(shuō)(圖5),低績(jī)效的顧問(wèn)在使用Chat GPT后工作質(zhì)量提高了43%,而高績(jī)效顧問(wèn)只提高了17%。
此前,兩組顧問(wèn)之間的平均績(jī)效差距為28.4%,但在使用了Chat GPT后,這一差距縮小到了4.7%。換句話說(shuō),人工智能縮小了低績(jī)效員工與高績(jī)效員工之間的差距,且水平越低的員工從人工智能中受益越多。參與論文寫(xiě)作的沃頓商學(xué)院教授伊森·莫里克曾在另一篇文章中提到,“人工智能就像一個(gè)均衡器(人工智能 as Leveler),低績(jī)效的人獲得了最大的收益”。
此外,實(shí)驗(yàn)中使用人工智能的顧問(wèn)們?cè)趧?chuàng)意產(chǎn)出上出現(xiàn)了同質(zhì)化的結(jié)果。與未使用Chat GPT的對(duì)照組相比,使用Chat GPT完成產(chǎn)品創(chuàng)新任務(wù)的顧問(wèn)們想法多樣性降低了41%。
這一發(fā)現(xiàn)印證了大語(yǔ)言模型的特征,過(guò)度依賴Chat GPT可能導(dǎo)致員工在處理相同類型問(wèn)題時(shí)得到相似的答案,這不僅會(huì)削弱他們的個(gè)人創(chuàng)造力,也可能降低集體的創(chuàng)造力。與此相反,沒(méi)有使用人工智能的員工可能會(huì)憑借其獨(dú)特的創(chuàng)意脫穎而出,并取得顯著的成功。
隨著越來(lái)越多的企業(yè)將人工智能融入實(shí)際工作中,有些企業(yè)會(huì)優(yōu)先考慮員工的高質(zhì)量產(chǎn)出,而其他企業(yè)會(huì)更重視員工的探索和創(chuàng)新。該研究建議企業(yè)可以同時(shí)選擇多種人工智能模型,建立一個(gè)豐富的AI生態(tài)系統(tǒng),或者增加人類的參與,來(lái)抵消創(chuàng)意同質(zhì)化的沖擊。
值得一提的是,顧問(wèn)們?cè)谑褂萌斯ぶ悄軙r(shí)呈現(xiàn)出了兩種不同的模式。一種是半人馬式(Centaur),類似于神話中的半馬半人生物,Centaurs在人和機(jī)器之間有明確的界限,根據(jù)每個(gè)任務(wù)的特點(diǎn)和能力,在人工智能和人工任務(wù)之間靈活切換。另一種是賽博人式(Cyborg),他們將任務(wù)流程與人工智能完全集成,并持續(xù)與技術(shù)進(jìn)行交互。
毫無(wú)疑問(wèn),人工智能正深刻地改變著人類的工作方式。自ChatGPT問(wèn)世以來(lái),企業(yè)和員工一直在積極探索借助人工智能提升生產(chǎn)力的方法,而政府和學(xué)術(shù)界也在密切關(guān)注著人工智能潛在的風(fēng)險(xiǎn)。例如,過(guò)度依賴人工智能可能會(huì)抑制員工的創(chuàng)新能力,同時(shí)企業(yè)可能會(huì)逐漸不再將人工智能能力范圍以內(nèi)的任務(wù)交給初級(jí)員工。
在研究人員看來(lái),與其爭(zhēng)論知識(shí)型員工是否要使用人工智能以及員工和企業(yè)可能面臨的利弊,不如跳出這些簡(jiǎn)單的二元思維,重新思考人類的工作流程和任務(wù)類型。我們需要全面評(píng)估人類和人工智能的協(xié)作方式,以及不同協(xié)作方式產(chǎn)生的價(jià)值,組織形態(tài)將會(huì)如何演變,企業(yè)如何提供專業(yè)的培訓(xùn)提升員工駕馭人工智能邊界的能力,等等。
正如波士頓咨詢負(fù)責(zé)運(yùn)行該實(shí)驗(yàn)的高級(jí)合伙人富蘭希思克·坎德隆所言,“公司不應(yīng)該錯(cuò)誤地將人工智能視為近適合用于‘初稿生成,并迫使人類改進(jìn)。應(yīng)該讓人工智能專注于其擅長(zhǎng)的領(lǐng)域,將人類解放出來(lái),去從事更有意義的工作”。
【編譯自Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality.,完整文章發(fā)布在Harvard Business School Working Paper, No. 24-013,September 22, 2023】