從60分到90分

2024-08-14 00:00:00王俊煜

第一財(cái)經(jīng) 2024年8期

到7月，我們開始做AI產(chǎn)品就滿一周年了。一周年！要是一開始就知道要花整整一年，我肯定不會(huì)做。因?yàn)槲以局皇谴蛩阍诶^續(xù)迭代閱覽室之前做一些和“認(rèn)真閱讀”有關(guān)的探索而已。

不過，我這會(huì)兒的確不那么焦慮了。很多時(shí)候，人的情緒其實(shí)來自對(duì)自己的不滿：如果自己當(dāng)初再努力一些、再聰明一些、再體貼一些……情況也許會(huì)不一樣呢？我現(xiàn)在認(rèn)為，要做好一個(gè)AI應(yīng)用，工作量就是挺大的，并不比做傳統(tǒng)的互聯(lián)網(wǎng)應(yīng)用小。既然客觀如此，那就沒有什么對(duì)自己的不滿了。

這聽起來有點(diǎn)違背常識(shí)，畢竟這年頭流傳更廣的故事是，某某某花了一個(gè)星期，利用下班后的業(yè)余時(shí)間，就上線了一個(gè)產(chǎn)品。此類故事里用來度量時(shí)間的單位也越來越短，從一個(gè)星期變成一個(gè)周末，再變成兩個(gè)小時(shí)……在AI的加持下，如今編程的門檻確實(shí)越來越低，幾秒鐘內(nèi)就可以請(qǐng)AI生成一個(gè)產(chǎn)品的完整代碼。過去，拿到AI生成的代碼后還得自己想辦法運(yùn)行，根據(jù)熟練程度這項(xiàng)工作要花幾分鐘到幾小時(shí)不等。最近，Claude里上線了一個(gè)名為Artifacts的新功能，將這最后一步也打通了，可以讓你直接體驗(yàn)AI生成的代碼運(yùn)行起來的效果。這么一來，將創(chuàng)意變成現(xiàn)實(shí)中的產(chǎn)品，真的只需要幾秒鐘了。

這些都是真的。經(jīng)過這一年的工作，我現(xiàn)在明白：和開發(fā)傳統(tǒng)應(yīng)用相比，要做出一個(gè)60分的AI應(yīng)用的確要容易得多，就像上面這些例子一樣。但要從60分提升到90分，做AI應(yīng)用反而會(huì)更艱難一些。

先說達(dá)到60分的部分。所謂60分，大概就是可以用來驗(yàn)證概念的產(chǎn)品原型，有一些亮點(diǎn)，同時(shí)也有更多的問題。對(duì)照著使用指南的話勉強(qiáng)能用，往往不太可靠，稍微擺弄一下可能就會(huì)散掉，還缺少很多基礎(chǔ)功能，用戶必須發(fā)揮一些想象力，才能“腦補(bǔ)”出最終成品的樣子。

售價(jià)3萬元起、裝滿了高精尖技術(shù)的Vision Pro是現(xiàn)在完成度最高的混合現(xiàn)實(shí)產(chǎn)品。與之對(duì)比，我家里還有一個(gè)紙盒，是2014年Google I/O的贈(zèng)品。到手以后需要自己折疊，在上面安裝兩個(gè)塑料鏡片并塞進(jìn)紙盒，在手機(jī)上打開指定的演示應(yīng)用，再將這個(gè)紙盒舉到眼前——這就是一個(gè)最簡單，甚至可以說簡陋的虛擬現(xiàn)實(shí)（VR）頭顯了。

回頭一看，也算是豁然開朗，知道自己走了很遠(yuǎn)，也知道自己穿過了重重迷霧。

我就是在這樣一個(gè)成本只需幾塊錢的紙盒里第一次體驗(yàn)到虛擬現(xiàn)實(shí)的。這就是VR的60分產(chǎn)品——顯然無法日常使用，但足夠讓人從無到有地感受到虛擬現(xiàn)實(shí)的魅力。在AI應(yīng)用這個(gè)領(lǐng)域，要做出60分的產(chǎn)品原型真的特別簡單，我之前也建議過，如果你有一個(gè)想法，寫一個(gè)提示詞，就可以在ChatGPT這樣的通用AI聊天界面中“模擬”出各種各樣的產(chǎn)品形態(tài)了，還有類似Dify、Coze這樣的工具可以讓你在一行代碼都不需要寫的情況下，搭建出一個(gè)更復(fù)雜的AI應(yīng)用原型?，F(xiàn)在，國內(nèi)許多大模型廠商也推出了類似OpenAI的GPTs這樣的“智能體”平臺(tái)，你還可以在上面搭建和發(fā)布自己的“產(chǎn)品”。歸功于大語言模型本身的強(qiáng)大，其實(shí)你不需要做太多事情，也不難感受到自己做出來的這個(gè)產(chǎn)品的亮點(diǎn)。

這就是為什么一開始做的時(shí)候都很容易以為自己是天才，覺得明天就可以上線。

60分的產(chǎn)品非常有意義。類似Hackathon這樣的活動(dòng)，唯一鼓勵(lì)的就應(yīng)該是做出60分的東西，因?yàn)檠垡姴拍転閷?shí)。應(yīng)該用充滿想象力的樂觀的心態(tài)來評(píng)價(jià)它們。但如果要交給用戶使用，有不同的評(píng)價(jià)標(biāo)準(zhǔn)。這樣子搭出來的產(chǎn)品可靠性都比較差，往往必須嚴(yán)格按照產(chǎn)品設(shè)計(jì)者設(shè)想的格式和流程輸入文本，才能獲得想要的結(jié)果。

再說從60分到90分。其實(shí)傳統(tǒng)App的研發(fā)要從60分提高到90分也特別困難，主要是細(xì)節(jié)會(huì)越來越多。我之前打過一個(gè)比方，這就像從舊金山徒步前往洛杉磯，在地圖上看只是一條四百多英里的海岸線而已，理論上7天就能走完。但實(shí)際上，沿途的地形地貌復(fù)雜多變，可能需要翻山越嶺、涉水渡河，甚至繞道而行，最終的行程將遠(yuǎn)超預(yù)期。傳統(tǒng)App研發(fā)收尾時(shí)的失控感就是來自此處，就像搬家時(shí)收拾東西一樣，總是能在被遺忘的角落里多收拾出來幾箱東西。

但起碼你每天都知道自己是在往前走的，可以說進(jìn)一寸有一寸的歡喜。

AI應(yīng)用從60分到90分的過程則充滿了不確定性和探索性。核心要改善的是可靠性，讓大語言模型穩(wěn)定地輸出滿足用戶需求的結(jié)果，同時(shí)避開大語言模型的種種缺陷，比如幻覺。這個(gè)過程中你需要不斷嘗試調(diào)整提示詞、參數(shù)，甚至重新設(shè)計(jì)編排和大語言模型的交互過程。由于大語言模型的“黑盒”特性，你很難知道是自己的哪個(gè)改動(dòng)帶來了效果的變化，甚至在大部分時(shí)候，改動(dòng)帶來的可能是負(fù)面效果。即使在某個(gè)地方實(shí)現(xiàn)了想要的效果，又可能導(dǎo)致你沒有注意到的另外一個(gè)角落出現(xiàn)了一個(gè)新的問題。真是牽一發(fā)而動(dòng)全身，頗有四處拆東墻補(bǔ)西墻的感覺。

有點(diǎn)像教小朋友學(xué)東西。

研發(fā)研發(fā)，顧名思義就是研究和開發(fā)。這兩個(gè)字常被放在一起講，但其實(shí)是兩種不同的心態(tài)。開發(fā)更像是個(gè)工程問題，相對(duì)而言可以是嚴(yán)謹(jǐn)?shù)摹⒋_定的；研究則是個(gè)科學(xué)問題，相對(duì)而言是探索性的、不確定的。傳統(tǒng)App從60分到90分更像是工程問題，而AI應(yīng)用到了這個(gè)階段，我目前的感受是更像研究。

這中間很難熬，會(huì)經(jīng)常被問到什么時(shí)候才能做完，但這是一趟看不到終點(diǎn)和路徑的旅程，只能看到眼前的一點(diǎn)點(diǎn)路，實(shí)在是難以預(yù)估。

那么，為什么非要做到90分呢？

假如我們使用10次，有2到3次實(shí)現(xiàn)了令人驚艷的效果，從驗(yàn)證概念的角度就足以說明這個(gè)概念的有效性了。但從日常使用的角度，10次中有9次拿到了滿意的結(jié)果，只有1次不行，也會(huì)動(dòng)搖你日常使用這個(gè)產(chǎn)品的信心和習(xí)慣。今天市場上一般的消費(fèi)級(jí)互聯(lián)網(wǎng)產(chǎn)品，對(duì)可靠性的要求至少是“三個(gè)九”，也就是99.9%。影響力更大的產(chǎn)品要求往往更高。但今天的許多大語言模型產(chǎn)品，就任務(wù)完成率而言，我感覺可能連一半都沒有，像我之前吐槽的Gemini for Google Workspace、Humane Ai Pin，還有rabbit r1等，都是這樣。

最近在社交媒體上有一個(gè)帖子，問AI“3.9和3.11誰大”。大部分時(shí)候，AI會(huì)給出在常識(shí)看來錯(cuò)誤的答案，告訴你3.11更大。有人說，這說明AI還很傻，連這么簡單的數(shù)學(xué)都不會(huì)，離能取代我們的工作還遠(yuǎn)著呢。也有人說，這說明用戶還不理解大語言模型的局限性，例如幻覺、數(shù)學(xué)邏輯推理能力不足等。

我覺得這兩種說法都對(duì)。但我想說的是，為什么用戶需要理解大語言模型的局限性？大語言模型的確數(shù)學(xué)還比較差，但今天大多數(shù)的AI產(chǎn)品都是讓用戶自由輸入，也沒有排斥用戶輸入數(shù)學(xué)問題。

目前很多AI產(chǎn)品的用戶都是技術(shù)愛好者或者從業(yè)者，大家可以理解技術(shù)的局限，也會(huì)有更多寬容。但大眾用戶不會(huì)這么想，即使是樂意嘗鮮的那一部分大眾。這一點(diǎn)對(duì)所有的技術(shù)都是公平的。對(duì)任何一門技術(shù)來說，當(dāng)它需要跨越鴻溝，從面向技術(shù)愛好者走向大眾時(shí)，都需要滿足大眾用戶對(duì)技術(shù)的預(yù)期。我們需要努力推動(dòng)今天的AI產(chǎn)品走過這個(gè)階段。

也不要說什么每個(gè)人都必須學(xué)會(huì)提示詞工程。我們小時(shí)候類似的話聽得多了。21世紀(jì)是生物的世紀(jì)，21世紀(jì)是計(jì)算機(jī)的世紀(jì)，21世紀(jì)不會(huì)英語不會(huì)開車不會(huì)編程將寸步難行……對(duì)于對(duì)新技術(shù)充滿好奇心、希望快人一步的人來說，額外付出努力去比別人更早地理解技術(shù)當(dāng)然是有好處的，也是應(yīng)該鼓勵(lì)的。但對(duì)于大多數(shù)人來說，從實(shí)用主義的角度完全不必?fù)?dān)心。今天，計(jì)算機(jī)的確無處不在，但是3歲小朋友拿起手機(jī)也會(huì)用，不需要像我們以前那樣還要先上打字課。智能手機(jī)及其應(yīng)用在“適老”方面還存在各種問題，但大部分人并不需要特地“學(xué)習(xí)”手機(jī)如何使用。

技術(shù)在像我們這樣的從業(yè)者的努力推動(dòng)下（當(dāng)然，背后更大的推動(dòng)力其實(shí)是市場競爭），就是會(huì)不斷向普通人靠攏的。隨著模型能力的提升，所謂提示詞工程的技巧也將越來越不重要。

多說一句，那真正的核心能力是什么呢？家里親朋知道我在做AI，問我，孩子還要學(xué)作文嗎？和AI交互，核心還是理解語言，知道如何用語言來準(zhǔn)確地表達(dá)自己的需求，讓對(duì)方理解。學(xué)寫作文，不是應(yīng)試的那種套話文章，核心學(xué)習(xí)的就是這一點(diǎn)。這的確是一個(gè)日常必備的技能，除非某一天腦機(jī)接口的發(fā)展真的可以讓AI成為你肚子里的蛔蟲吧。

其實(shí)在大語言模型出現(xiàn)之前，這項(xiàng)技能也是欠缺的，尤其是甲方的朋友們。要不然“五彩斑斕的黑”這樣的笑話是怎么出來的呢？

所以我想，還是要努力做到90分，即使這很難。

這和所謂的精益創(chuàng)業(yè)、最小可用產(chǎn)品的理念也不沖突。所謂90分，我覺得就是充分地做到了向用戶宣稱自己能做到的事情，有些無關(guān)緊要的事情仍然可以不做，比如初代的iPhone沒有App Store、沒有剪貼板、沒有通知中心。產(chǎn)品的亮點(diǎn)應(yīng)該做到90分，其他方面60分就可以。否則，如果產(chǎn)品失敗了（這是大概率事件），很難判斷是猜錯(cuò)了用戶需求還是質(zhì)量不好，既浪費(fèi)了時(shí)間也浪費(fèi)了想法。將核心體驗(yàn)做到位，如果還是失?。ㄈ匀皇谴蟾怕适录?，我們就很容易判斷問題所在，時(shí)間換來的是寶貴的經(jīng)驗(yàn)，這就是進(jìn)步。

落差來自于開局過于容易，不免會(huì)對(duì)整個(gè)旅程的難度產(chǎn)生一些錯(cuò)誤的預(yù)期。

其實(shí)還是低估了難度。我之前分享過自己的思路，正是因?yàn)槟Ｐ偷哪芰τ芯窒?，才需要通過產(chǎn)品設(shè)計(jì)來限制用戶的輸入、塑造合理的預(yù)期。只是，看到“胃之書”對(duì)AI的使用，我覺得其實(shí)我“切”的這一刀還不夠狠。胃之書對(duì)AI的使用更加揚(yáng)長避短一些。

這種看不到終點(diǎn)的旅程的確很難熬，中間很多時(shí)候我也想過放棄它繼續(xù)做閱讀，但總覺得半途而廢是最浪費(fèi)時(shí)間的。完整地走一遍整個(gè)過程，至少能學(xué)到很多新的東西。就好像現(xiàn)在走到了這里，回頭一看，也算是豁然開朗，知道自己走了很遠(yuǎn)，也知道自己穿過了重重迷霧，能看到迷霧里的東西。所有走過的路必定會(huì)留下痕跡，即使這幾個(gè)產(chǎn)品失敗（還是大概率事件），我們至少掌握了做這個(gè)事情的一手經(jīng)驗(yàn)，一定是有機(jī)會(huì)connecting the dots的。

好在最近的評(píng)測結(jié)果顯示，我們產(chǎn)品的可靠性超過95%，接近99%了。還是沒有傳統(tǒng)產(chǎn)品那么可靠，但我覺得可以接受。

說不焦慮吧，其實(shí)還是焦慮的。大家都在探索，比的就是誰探索得快。更努力、更多地投入，還是可以做得更快的。這就是無限的想法和有限的能力之間的矛盾。

第一財(cái)經(jīng)2024年8期

第一財(cái)經(jīng)的其它文章: Philippa Perry：我擔(dān)心年輕人在手機(jī)上長大; 不要讓系統(tǒng)化羞恥劫持我們的人生; 上有老下有小的瓊妹的一天; 英國奧運(yùn)小鎮(zhèn)的鄉(xiāng)村慰藉; 奧運(yùn)年，也是體壇迭代大年; 京東小哥跑進(jìn)巴黎奧運(yùn)會(huì)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

從60分到90分