2022年4月,全球知名咨詢與研究機構(gòu)弗雷斯特(Forrester)發(fā)布《火山引擎A/B測試總體經(jīng)濟影響白皮書》,在研究字節(jié)跳動旗下火山引擎的客戶經(jīng)營生產(chǎn)情況后發(fā)現(xiàn),企業(yè)采用A/B測試后綜合財務(wù)指標方面的投資回報率可達到126%,可見A/B測試對企業(yè)的賦能作用顯著。在開放火山引擎A/B測試工具給更多外部企業(yè)之前,字節(jié)內(nèi)部使用A/B測試已經(jīng)有近十年的時間,“抖音”“西瓜視頻”等產(chǎn)品名稱的確定都離不開A/B測試的結(jié)果,正如字節(jié)內(nèi)部流行的一句話所言:“A/B測試是一種信仰。”為了打造成熟的A/B測試產(chǎn)品,字節(jié)跳動成立了專門的數(shù)字實驗平臺Libra提供企業(yè)內(nèi)部的A/B測試評估和智能優(yōu)化服務(wù),走出了一條獨特的平臺發(fā)展之路。
平臺治理是平臺創(chuàng)造價值的關(guān)鍵環(huán)節(jié),字節(jié)跳動A/B測試產(chǎn)品的成功與Libra平臺的有效治理息息相關(guān)。本文圍繞Libra實驗平臺的例子具體解讀數(shù)字平臺的治理問題。
A/B測試是一種在線實驗,指的是將線上流量隨機分給原策略A和新策略B,在排除干擾的情況下,結(jié)合相關(guān)統(tǒng)計方法對策略B進行效果評估。換句話說,A/B測試可以比較同一目標的A、B兩種方案哪種更加有效,是一種能夠驗證因果關(guān)系的隨機對照實驗。因為結(jié)合了數(shù)字化技術(shù),A/B測試相較于傳統(tǒng)的“隨機雙盲試驗”,具有低成本、大流量、傳播快等特點。國外大型互聯(lián)網(wǎng)公司從21世紀初開始陸續(xù)采用A/B測試,例如谷歌(Google)、微軟(Microsoft)、臉書(Facebook)、領(lǐng)英(LinkedIn)、亞馬遜(Amazon)等,這些公司每年都會針對數(shù)百萬用戶開展超過1萬次的在線對照實驗。
借鑒國外開展A/B測試的經(jīng)驗,2012年字節(jié)跳動在成立之初就引入這種實驗方法進行算法迭代。2014年2月,A/B測試成為公司內(nèi)的體系化工具,形態(tài)上類似于小程序,員工改變配置即可進行實驗。2016年,字節(jié)將A/B測試相關(guān)的工具進行整合并創(chuàng)立名為Libra的平臺,取意“天秤座”,用來10651adebc7b8aa2f1af91094a0a2bfe9b4f7cabfe96aade880c928d76e59c62比喻A、B兩種策略在天平兩端具有同等分量,充分體現(xiàn)了企業(yè)想要傳達的“客觀”理念。起初,Libra主要供今日頭條使用,支持推薦、廣告、推送等業(yè)務(wù)的迭代。從2015年到2018年,Libra不斷拓展服務(wù)邊界,公司的其他頭條系產(chǎn)品如西瓜視頻等也接入Libra平臺開展A/B測試。
2018年,在綜合考量了全公司各項業(yè)務(wù)產(chǎn)品對A/B測試的需求后,字節(jié)跳動加大了對A/B測試產(chǎn)品化的投入,Libra團隊成員也開始深入對接字節(jié)內(nèi)的各個業(yè)務(wù)部門,平臺影響力不斷擴大。抖音等產(chǎn)品的快速發(fā)展使Libra真正成為字節(jié)舉足輕重的數(shù)字平臺,甚至“抖音”這一名稱也是A/B測試得到的。公司內(nèi)部成員為“抖音”原型產(chǎn)品起成不同的名字、使用不同的Logo在應(yīng)用商店投放,綜合考量用戶關(guān)心度、用戶吸引力、下載轉(zhuǎn)化率等指標,“抖音”排名第二,因為更符合產(chǎn)品形態(tài)而被采納。
近年來,字節(jié)內(nèi)部使用A/B測試的頻次呈指數(shù)級增長。截至2023年6月,Libra已經(jīng)為公司內(nèi)500多個業(yè)務(wù)提供A/B測試評估和智能優(yōu)化服務(wù),平臺累計做實驗超240萬次,每日新增實驗數(shù)量可超過4000次。作為國內(nèi)最大的以平臺形式對A/B測試產(chǎn)品進行支持的數(shù)字實驗平臺,Libra整合了字節(jié)中與A/B測試相關(guān)的人才與數(shù)據(jù)資源,匯集了大量測試知識經(jīng)驗,為各業(yè)務(wù)部門提供數(shù)據(jù)支持服務(wù),從而幫助字節(jié)實現(xiàn)了全員參與低成本試錯的目標,為企業(yè)的快速迭代和創(chuàng)新發(fā)展提供了堅實的保障。在Libra實驗平臺的支持下,字節(jié)A/B測試系列產(chǎn)品逐漸成熟,其功能與經(jīng)驗也成功輸出到To B業(yè)務(wù)中,孵化出火山引擎A/B測試產(chǎn)品,賦能更多公司實現(xiàn)變革。
建立數(shù)字平臺不僅需要在硬件方面具備基礎(chǔ)的數(shù)字技術(shù)與底層架構(gòu),同時需要一套完善的平臺治理體系進行用戶管理。Libra作為字節(jié)跳動內(nèi)部的數(shù)字實驗平臺,需要與企業(yè)的其他業(yè)務(wù)部門保持緊密的合作關(guān)系,充分發(fā)揮平臺的支撐作用。為了確保平臺發(fā)揮對業(yè)務(wù)創(chuàng)新與試錯的促進作用,Libra團隊逐漸探索出了一套多元化的數(shù)字實驗平臺治理手段。
“重激勵-輕控制”的企業(yè)內(nèi)數(shù)字平臺治理
平臺是一種介于科層制和市場之間的組織形態(tài),其所有者和使用者之間存在著弱契約化的協(xié)同關(guān)系——平臺上的用戶對自身的資源具有所有權(quán),它的行為和目標并不需要完全服從于平臺方,和平臺方屬于合作的關(guān)系。正因為平臺是既非科層制也非自由市場的中間特殊形態(tài),平臺所有者需要提供特定的治理手段協(xié)調(diào)自身與用戶、用戶與用戶之間的共同活動,從而確保整個平臺能夠創(chuàng)造出最大化的協(xié)同價值。常見的平臺包括交易平臺、知識共享平臺、社交平臺等。
組織治理通常被分為激勵和控制兩個方面。在平臺組織中,激勵指的是采取措施鼓勵更多使用者參與到平臺上正確地運用平臺資源,控制指的是使用規(guī)則限制平臺使用者可能損害合作關(guān)系或者平臺利益的行為。常見的激勵措施包括為加入平臺的用戶提供現(xiàn)金獎勵、熱銷產(chǎn)品排行榜等,常見的控制措施包括在用戶加入平臺之前開展背景調(diào)查、設(shè)置平臺準入端口費用等。
Libra作為企業(yè)內(nèi)的數(shù)字平臺,與一般意義的平臺組織有所差異。平臺組織多指獨立的平臺型企業(yè),其用戶多是其他獨立公司或個體,平臺與用戶之間是商業(yè)合作的關(guān)系。Libra雖然同樣提供數(shù)據(jù)支持、信息傳遞等平臺性服務(wù),但是其用戶和Libra同屬于一家企業(yè),有著統(tǒng)一的公司整體目標。因此在激勵上,Libra需要構(gòu)建共創(chuàng)協(xié)同的平臺文化氛圍,鼓勵所有員工積極加入平臺參與實驗,實現(xiàn)提高全公司決策科學(xué)性的平臺目標;在控制上,Libra需要采取措施限定和指導(dǎo)用戶行為的方向,避免不同用戶間產(chǎn)生利益沖突,發(fā)揮出用戶間“1+1>2”的協(xié)同作用。
本文提出Libra的激勵治理包括三個方面,分別為平臺功能完善、使用信息共享、外部關(guān)系打通,控制治理包括兩個方面,行為控制和結(jié)果控制。因為Libra與其內(nèi)部用戶同屬于一個企業(yè),在企業(yè)內(nèi)統(tǒng)一的規(guī)章制度管控下Libra無需避免用戶的違規(guī)操作、處理所有權(quán)界定或收益分割等糾紛問題,而是重點鼓勵更多部門加入平臺開展實驗,所以Libra數(shù)字實驗平臺整體呈現(xiàn)出“重激勵-輕控制”的治理模式(如圖1)。激勵與控制兩個維度各有側(cè)重又相輔相成,提高企業(yè)的運營效率。接下來本文對Libra平臺治理的激勵與控制措施進行具體介紹。
激勵一:平臺功能完善
平臺功能完善強調(diào)的是不斷優(yōu)化與更新平臺的功能,提高數(shù)字化工具的服務(wù)質(zhì)量,從而幫助用戶提高效率、創(chuàng)造收益。因為提供服務(wù)是平臺最基礎(chǔ)的屬性,所以平臺功能完善是吸引用戶加入平臺最重要的激勵方式。
Libra的主要產(chǎn)品是A/B測試。如果業(yè)務(wù)獨立開展A/B測試,員工需要學(xué)習(xí)統(tǒng)計模型、計算指標、手動配置實驗,極大地增加了單次實驗的成本。Libra搭建了實驗基礎(chǔ)架構(gòu),繪制出可視化界面,實驗者只需要在平臺上填寫個性化信息即可輕松操作。在Libra上開展A/ B測試的流程如圖2所示。在平臺上創(chuàng)建實驗之前,業(yè)務(wù)方需要明確此次實驗希望解決的問題,設(shè)計出實驗可供選擇的兩到多種策略(策略A、策略B……),明確在實驗過程中需要觀測的指標有哪些、預(yù)期這些指標在實驗中有怎樣的變化。然后,研發(fā)人員和產(chǎn)品經(jīng)理要在Libra實驗平臺上按照標準的流程填寫實驗的基本信息,例如實驗流量大小、實驗時長、實驗對象過濾條件等,配置對照組(策略A)和實驗組(策略B)參數(shù),開啟同伴評審保證實驗的正確配置,隨后開啟實驗。在實驗結(jié)束后,數(shù)據(jù)分析師需要計算與分析各指標變化情況,評估新策略是否達到了預(yù)期目標、是否需要采取進一步實驗措施,如延長實驗時長等,并撰寫分析報告以供后續(xù)使用。如果實驗結(jié)果滿足預(yù)期,實驗團隊會開啟上線評審,由更多專業(yè)人士決定業(yè)務(wù)部門是否可以采納實驗結(jié)果。此外,業(yè)務(wù)研發(fā)人員在實驗結(jié)束后也可以進一步開啟反轉(zhuǎn)實驗、父子實驗等,長期監(jiān)測和評估新策略的效果。
平臺功能也不是一成不變的,組織需要順應(yīng)數(shù)字技術(shù)的發(fā)展和市場需求的變化,快速更新平臺功能以提供更完善的服務(wù)。正如Libra研發(fā)工程師所闡述的:“Libra推出新功能的迭代速度非常快,每個月基本上都會有較大變化。這種功能迭代的來源有兩個,其中以用戶業(yè)務(wù)的需求為主,平臺自我功能驅(qū)動為輔。”在內(nèi)部保障機制方面,Libra團隊堅持每周一次個人書面匯報、每雙周一次團隊例行會議、每雙月制定一版目標規(guī)劃,打通團隊成員之間的溝通渠道,保證所有人信息一致、目標統(tǒng)一。在獲取外部信息方面,Libra產(chǎn)品經(jīng)理、研發(fā)人員、數(shù)據(jù)科學(xué)人員等多個角色成員均需要與用戶直接溝通,定期參與業(yè)務(wù)方會議,切實了解業(yè)務(wù)部門開展實驗時遇到的難題、對數(shù)據(jù)服務(wù)的新需求等等。
自動調(diào)參、配置發(fā)布、因果推斷是Libra近幾年推出的新功能。自動調(diào)參是將實驗和優(yōu)化算法結(jié)合的產(chǎn)品,主要針對參數(shù)較多的探索性實驗,通過為用戶提供完整的分析套件,幫助用戶以更低的成本探索實驗配置的最優(yōu)參數(shù)。配置發(fā)布是Libra打造的服務(wù)端配置管理和灰度發(fā)布平臺,支持用戶集中管理不同業(yè)務(wù)線、不同服務(wù)的配置參數(shù)和開關(guān),將A/B 測試結(jié)果參數(shù)一鍵上線。因果推斷是Libra團隊近兩年新推出的功能合集,提供了一系列標準范式下的評估工具,以幫助用戶在各種復(fù)雜業(yè)務(wù)場景下開展準實驗(quasi-experiment)研究。
激勵二:使用經(jīng)驗共享
使用經(jīng)驗共享指的是平臺為用戶提供平臺的相關(guān)信息,從而幫助用戶便捷地使用平臺資源。如果平臺不能夠提供足夠的信息,平臺的使用門檻會被提高,降低使用者加入平臺的意愿。因此,信息的有效共享也是平臺治理的重要激勵方式。
為了鼓勵更多業(yè)務(wù)部門加入平臺開展實驗,Libra團隊主要采取以下幾種措施提供平臺的使用經(jīng)驗:第一,編寫Libra產(chǎn)品的在線使用手冊,其中包括A/B測試背后的統(tǒng)計學(xué)原理知識介紹、產(chǎn)品操作流程錄像、往期培訓(xùn)錄像、優(yōu)秀案例等,為新用戶提供自行了解平臺產(chǎn)品功能的渠道,確保員工在瀏覽使用手冊后掌握實施A/B測試的基本操作;第二,定期針對不同的人群,例如技術(shù)人員、特定業(yè)務(wù)人員、新用戶等,提供專場培訓(xùn)活動,在活動中邀請過往優(yōu)秀實踐者進行經(jīng)驗分享,使不同角色的員工可以更精準地了解平臺不同功能的使用方法和效果;第三,在Libra主頁設(shè)置“反饋與咨詢”版塊,自動回復(fù)常見的共性問題,安排值班人員解答“人工反饋”問題,以天為單位確保每一個使用者問題都能被快速回復(fù);第四,按功能開設(shè)多個相關(guān)用戶群,在群中介紹產(chǎn)品的最新功能、通知平臺事故、收集需求建議等。這些措施保障了每一位用戶都能夠快速掌握平臺產(chǎn)品信息,降低了Libra的使用門檻,營造出“人人都可實驗、人人都能實驗”的氛圍,進而激勵字節(jié)所有員工充分利用平臺資源。
激勵三:外部關(guān)系打通
外部關(guān)系指的是主體平臺與其他平臺之間的關(guān)系。因為不同平臺可以提供差異化的服務(wù),用戶可以選擇同時加入多個平臺以謀取更大的利益。如果平臺之間是互相競爭的關(guān)系,用戶的多歸屬行為(multihoming)可能會降低用戶對主體平臺的忠誠度,從而使主體平臺利益受損,因此很多平臺會禁止用戶的多歸屬行為。然而在同一家企業(yè)中,不同數(shù)據(jù)平臺通過提供異質(zhì)性的服務(wù)呈現(xiàn)互補關(guān)系,平臺之間的數(shù)據(jù)打通有助于推動數(shù)據(jù)流動,方便業(yè)務(wù)方管理和整合數(shù)據(jù)。因此,與其他平臺實現(xiàn)功能互通有助于提高員工對主體平臺的使用意愿。
為便捷用戶使用字節(jié)其他數(shù)據(jù)平臺的指標,Libra團隊將打通公司已有的數(shù)據(jù)開發(fā)與分析平臺作為Libra建設(shè)的關(guān)鍵目標之一,安排專門的團隊成員持續(xù)跟進完善與其他數(shù)據(jù)平臺內(nèi)部指標管理的互通工作,優(yōu)化Libra的數(shù)據(jù)建設(shè)和實驗分析能力。以Libra中的用戶行為指標為例,TEA(對外產(chǎn)品名為火山引擎增長分析平臺DataFinder)是字節(jié)跳動幫助業(yè)務(wù)開展行為分析的專業(yè)數(shù)據(jù)分析平臺,Libra平臺選擇內(nèi)嵌了TEA的部分分析能力,使得Libra用戶在使用過程中只需要在行為指標配置頁面上點擊選擇就可以生成一個用于A/B測試的指標并保存在Libra報告頁面中,隨后運用到該用戶所在產(chǎn)品線的全部實驗中。
控制一:行為控制
行為控制指的是確保個體采取的行動對組織有益、防止個體執(zhí)行對組織造成損害的行為(“行為控制”為特定科研術(shù)語,指確保個體采取的行為對組織有益、防止個體執(zhí)行對組織造成損害的行為)。行為控制的前提條件是組織清楚了解什么樣的行為是組織希望看到的。如果一些工作涉及復(fù)雜且具有高度不確定性的任務(wù),例如研發(fā)或高層決策的工作,期望的行為就難以被界定,組織就很難開展行為控制措施。在數(shù)字平臺中,行為控制更加容易執(zhí)行,因為平臺的用戶行為流程是由平臺團隊自行設(shè)計的,并且用戶行為通??梢栽谄脚_后臺監(jiān)控。在行為控制中,平臺不需要考慮行為所產(chǎn)生的結(jié)果是否是符合預(yù)期的,只需要考慮用戶活動的過程是否合規(guī)。在實際治理工作中,行為控制和結(jié)果控制往往是結(jié)合開展的,以產(chǎn)生更好的控制效果。
在A/B測試的流程中,Libra團隊共設(shè)計了三輪評審活動,其中前兩輪評審活動都是典型的行為控制措施。第一輪評審安排在設(shè)計實驗環(huán)節(jié),評審在實驗小組的內(nèi)部開展,審核實驗方案是否合理,例如需要觀測的指標是否準確、指標的預(yù)期變化方向是否正確等。第二輪評審安排在創(chuàng)建實驗階段、開啟實驗之前,被稱為同伴評審,審核人員包括用戶和Libra雙方負責人員,檢查實驗配置中是否有書寫錯誤、命名不規(guī)范、配置沖突等情況,對代碼質(zhì)量、指標預(yù)期波動等進行核查,防止這些錯誤造成平臺的線上事故。第二輪評審也是保證實驗順利開啟的重要前提。除評審之外,數(shù)字平臺通常還有一些數(shù)據(jù)隱私方面的行為控制措施,因為數(shù)據(jù)隱私和合規(guī)是保障數(shù)字平臺安全的核心工作。字節(jié)通過制定專門的數(shù)據(jù)及信息安全準則,設(shè)置公司的數(shù)據(jù)安全紅線,規(guī)范所有數(shù)據(jù)平臺中的客戶數(shù)據(jù)使用行為,以保障公司的數(shù)據(jù)安全。
控制二:結(jié)果控制
結(jié)果控制涉及到對個體活動產(chǎn)生的結(jié)果進行獎勵或者懲罰,例如企業(yè)為員工發(fā)放優(yōu)秀績效獎金等。結(jié)果控制雖然不限制個體的行為方式,但往往也會影響到個人的行為,因為采取相應(yīng)的行為才能夠得到預(yù)期的結(jié)果。結(jié)果控制的前提是定義預(yù)期結(jié)果,即在數(shù)字平臺中,結(jié)果控制需要首先考慮平臺的目標是什么,從而對用戶在平臺上活動的結(jié)果進行界定,判斷用戶行為的結(jié)果是否與平臺目標一致。當用戶的活動結(jié)果與平臺的目標一致時,鼓勵并肯定用戶活動,當活動結(jié)果與平臺目標不一致時,禁止或者限制這種行為。
Libra的目標是為字節(jié)跳動全業(yè)務(wù)迭代提供A/B測試評估和智能優(yōu)化服務(wù),幫助業(yè)務(wù)科學(xué)有效地衡量收益。從開展實驗的結(jié)果角度來看,業(yè)務(wù)方在平臺上的活動一方面需要對業(yè)務(wù)產(chǎn)生真正的效益,即為業(yè)務(wù)創(chuàng)造收益或者提高業(yè)務(wù)運行效率,另一方面不能損害字節(jié)的整體收益,即對其他業(yè)務(wù)不產(chǎn)生負面影響。Libra在這兩方面分別采取了結(jié)果控制。
在幫助業(yè)務(wù)迭代方面,Libra團隊設(shè)置了流程中的第三輪評審——上線評審。當實驗出現(xiàn)滿足預(yù)期的結(jié)果時,實驗團隊可以在系統(tǒng)中申請上線,隨后由更多專業(yè)人員對實驗結(jié)果進行評估,判斷該實驗結(jié)果對業(yè)務(wù)是否有真正的價值。只有當實驗涉及的業(yè)務(wù)變動被多方認可是能夠幫助提升業(yè)務(wù)和公司運行效果的,該變動才會被允許正式上線,正如Libra產(chǎn)品經(jīng)理對平臺功能的描述:“平臺建立的初衷并不是希望業(yè)務(wù)部門只依賴數(shù)據(jù),而是借助工具來升級團隊的經(jīng)驗,通過A/B實驗加深對業(yè)務(wù)過程的理解、找到本質(zhì)原因,進而作出更正確的決策。”
在保障公司整體利益方面,Libra團隊對平臺默認使用的指標統(tǒng)計口徑、指標類型等相關(guān)內(nèi)容進行調(diào)整,以確保所有實驗是有效的且對公司有利的。例如,鑒于同一個產(chǎn)品的不同業(yè)務(wù)團隊之間存在相關(guān)性,在實驗的過程中,數(shù)據(jù)報告頁中不僅展示該用戶自行選擇觀測的指標,還展示了字節(jié)其他重要業(yè)務(wù)團隊的指標。實驗者不僅需要考慮一次實驗中的功能變動對自身業(yè)務(wù)的影響,也需要確保自身業(yè)務(wù)績效的提升不損害公司其他業(yè)務(wù)部門的利益。再如,隨著實驗經(jīng)驗的積累,Libra團隊發(fā)現(xiàn)“多天累計指標”相對于“天級平均指標”具有更加科學(xué)的統(tǒng)計意義,更能夠避免實驗產(chǎn)生假性顯著結(jié)果。因此,Libra團隊在實驗結(jié)論中默認使用從實驗第一天開始累計的數(shù)據(jù)來進行評估,以規(guī)范業(yè)務(wù)部門實驗評估時采用的數(shù)據(jù)口徑,避免出現(xiàn)投機取巧的行為,保障實驗結(jié)果的科學(xué)準確性。
以上,本文對數(shù)字平臺的治理問題進行了梳理,分析了字節(jié)跳動Libra平臺激勵與控制兩方面的治理方法。良好的治理體系有助于企業(yè)更合理地設(shè)計平臺功能、利用平臺組織創(chuàng)造更大的商業(yè)價值。平臺治理、平臺設(shè)計與平臺價值創(chuàng)造之間的相互影響關(guān)系值得學(xué)者和管理者們未來進一步探索。