我們希望每個人都能成為自己生活的導(dǎo)演,用最普通的手機(jī)也可以去記錄生活,生成相對較高質(zhì)量的視頻。
1990年,美國未來學(xué)家托夫勒提出“數(shù)字鴻溝”一詞,他指出,擁有與未擁有信息時代工具的人之間存在鴻溝。中國積極推行的“寬帶中國”“互聯(lián)網(wǎng)+”戰(zhàn)略、數(shù)字中國,乃至接下來的5G戰(zhàn)略,都是消除數(shù)字鴻溝的重要戰(zhàn)略舉措。“注意力”是數(shù)字鴻溝的重要組成。在互聯(lián)網(wǎng)上,注意力是非常寶貴的資源,其分配狀況直接影響人們的獲得感和幸福感。
如果可以把注意力的鴻溝填平,讓更多的普通人被關(guān)注,增加人與人之間的連接,發(fā)揮更多人的想象力和創(chuàng)造力,則社會會更繁榮,人們生活的幸福感也會更強(qiáng)。
中國的長期投入催生視頻時代
過去幾年,因?yàn)橹袊诨ヂ?lián)網(wǎng)領(lǐng)域的長期投入,視頻領(lǐng)域的基礎(chǔ)條件快速成熟,促進(jìn)了視頻時代的到來。很多條件在中國是得天獨(dú)厚的。
今天,我們可以在快手上看到很多有意思的視頻,它們鮮活地呈現(xiàn)了普通人的生活。
鴨綠江上的放排人,把高山上的木材順著水流運(yùn)出來,這種古老的水運(yùn)方式以前鮮有人知,如今卻被數(shù)百萬人關(guān)注。
城市建筑工地的潛水員,很小眾的職業(yè),但一二線城市的每一座高樓大廈都需要他們。建高樓打地基時,需要用電鉆挖幾十米的深坑,電鉆頭掉了需要他們潛到幾十米深的渾濁泥水中,把電鉆恢復(fù)原位。
時光倒退五六年,大眾是沒有機(jī)會看到這些內(nèi)容,并一鍵下單購買相關(guān)商品的。短短幾年內(nèi),至少有4個條件具備了。
一是智能手機(jī)的普及,現(xiàn)在買一部有內(nèi)置攝像頭、功能非常完備的智能手機(jī)只要1000元左右,甚至幾百元也能買到。
二是4G網(wǎng)絡(luò)的普及,普通人都可以負(fù)擔(dān)得起移動網(wǎng)絡(luò)的費(fèi)用。即使偏遠(yuǎn)地區(qū),國家都投入大量的資金用于電信基礎(chǔ)設(shè)施建設(shè)。
三是支付的便利。有了智能手機(jī),買東西付錢,隨時隨地就可以實(shí)現(xiàn)。
四是物流網(wǎng)絡(luò)的發(fā)達(dá)。
這4個條件同時具備,并且全民可以享受,為視頻時代的到來奠定了基礎(chǔ)。視頻作為新時代的文本,相比于文字,它有自己的特點(diǎn),一是視頻比文字在表達(dá)上更直切,內(nèi)容更豐富。二是視頻的拍攝和觀看門檻更低,適合全民參與,人類對視頻信息的接受是最天然的。
正如文字改變了社會的方方面面,視頻也改變社會的一切。這種改變不是簡簡單單的一個補(bǔ)充,也不是簡簡單單的一個增量,而是徹底的改變。
未來,如果我們的個人設(shè)備從手機(jī)進(jìn)化到眼鏡,進(jìn)化到VR、AR(增強(qiáng)現(xiàn)實(shí))以后,影像化的產(chǎn)品會更大地改變這個世界。所有的應(yīng)用,都要重新再設(shè)計(jì)一遍。
人工智能深入快手骨髓
攝像頭內(nèi)置進(jìn)手機(jī),人人都可以方便地拍視頻,視頻數(shù)量暴增。因而,視頻與人之間的精準(zhǔn)匹配成了核心問題。
匹配機(jī)制最核心的有3件事:一是理解內(nèi)容;二是理解人;三是將內(nèi)容和人連接起來,讓他們匹配。門檻在于數(shù)據(jù),要有人和內(nèi)容之間交互的數(shù)據(jù)去做模型。
首先是理解內(nèi)容。如果是文本化的內(nèi)容,理解文本的技術(shù)在10年前就已經(jīng)非常成熟了,可以分詞,做詞性標(biāo)注、提取標(biāo)題、關(guān)鍵詞、實(shí)體,以及重要性、情感各種各樣的文本分析。
最近10年,學(xué)術(shù)界又發(fā)展出一整套用于分析圖像、分析文本、分析語音內(nèi)容的工具。給出一張圖像,可以分析出場景。這是在學(xué)校還是在酒吧?里面有沒有人或動物?他們高嗎?不管這是對文本還是影像,都可以讓計(jì)算機(jī)建立內(nèi)容的理解。
第二是理解人。首先需要理解一個人長期的靜態(tài)屬性,這叫用戶畫像,包括年齡、性別、身高、出生地等。其次是理解這個人的興趣偏好,如喜歡什么口味,愛打球還是愛跑步,最近是想旅行還是宅在家里,最后是理解人的意圖。一個人使用你的App,他當(dāng)時腦子里在想什么?是在想要用蘋果手機(jī)還是三星手機(jī)嗎?是在想自己餓不餓嗎?
如果能夠很豐富地在這3個層面建立起對一個用戶的理解,就能在人和內(nèi)容之間建立很好的匹配關(guān)系。
把AR技術(shù)應(yīng)用在用戶拍攝視頻的環(huán)節(jié),給現(xiàn)實(shí)生活的畫面加入一些虛擬的元素,這屬于增強(qiáng)現(xiàn)實(shí)、使虛擬世界和現(xiàn)實(shí)世界更好地互動,使人們在記錄自己生活的時候有更多的新奇體驗(yàn),快手之前上線的一款魔法表情叫“快手時光機(jī)”,用戶可以在幾十秒內(nèi)看到自己變老的過程。一個人拍自己的視頻久了會感到乏味,我們希望用戶能看到自己變老后的樣子,從而更加感受到時間的可貴。
在音頻方面,我們也做了非常多的工作。比如之前專業(yè)人士在創(chuàng)作視頻時,編輯字幕是非常痛苦的事情?,F(xiàn)在我們通過語音識別技術(shù),可以幫視頻制作者自動添加、編輯字幕,還可以以各種各樣的形式展示字幕,借助AI技術(shù)極大地降低了生成字幕的成本。
音樂在短視頻場景里起了非常重要的作用。據(jù)統(tǒng)計(jì),快手的視頻中,有60%~80%的視頻用背景音樂烘托氣氛。如何選擇恰當(dāng)?shù)囊魳繁磉_(dá)心情,其實(shí)不容易。讓用戶盡量貼合音樂的節(jié)奏創(chuàng)作動作,對于用戶的要求也是非常高的,而具備很強(qiáng)樂感的人其實(shí)非常少。
為了降低用戶創(chuàng)作視頻時選擇音樂的門檻,我們開發(fā)了智能配樂及AI生成音樂技術(shù)。智能配樂可以根據(jù)視頻畫面及用戶畫像為用戶推薦合適的且被用戶喜歡的背景音樂,供用戶選擇。AI生成音樂技術(shù)通過AI的分析算法,可以感知視頻畫面中人的動作,然后讓生成的音樂節(jié)奏匹配人的動作,這樣極大地降低了用戶創(chuàng)作視頻時選擇音樂的門檻,讓大家更愿意創(chuàng)作自己的視頻。
算法之上的普惠價值觀
快手服務(wù)于普通人的記錄與分享,平等普惠是快手的核心價值觀。我們認(rèn)為每個人都值得被記錄,無論是明星還是“大V”,不管在城市還是鄉(xiāng)村,每個人都擁有平等分享和被關(guān)注的權(quán)利,快手不會特殊對待,不捧明星紅人,不進(jìn)行流量傾斜。
我們保護(hù)每一個普通的視頻生產(chǎn)者,帶來了拍攝內(nèi)容的多樣性,因?yàn)榕牡娜硕嗔?,?nèi)容自然就越來越豐富了。
我們在觀看需求的多樣性和拍攝內(nèi)容的多樣性之間做匹配。由于拍攝者拍了很多新內(nèi)容被別人看到了,由于觀看者看到了很多他平時看不到的內(nèi)容,所以最終回到了公平普惠最基本的點(diǎn)上。
如今快手上的視頻總數(shù)超過100億,幾乎都是不重復(fù)的生活記錄,這在歷史上是前所未有的。如何讓這100億個視頻與觀看視頻的用戶進(jìn)行匹配是巨大的挑戰(zhàn)。
過去,業(yè)內(nèi)常見的做法是運(yùn)營好長尾曲線中頭的“爆款”即可,但快手希望尾部視頻同樣能被感興趣的人看到,真正能夠讓每一個人都得到一些關(guān)注。
跨過注意力鴻溝
快手從事填平注意力鴻溝的工作,這體現(xiàn)了普惠的理念??瓷先ミ@些都是抽象的詞,實(shí)際上,歷史上有很多普惠技術(shù),填平過各種鴻溝。
這也正是技術(shù)和經(jīng)濟(jì)演進(jìn)的邏輯。剛開始,某些東西很貴,只有少數(shù)人有資格享用,多數(shù)人用不起。因?yàn)槟撤N技術(shù)進(jìn)步,它的價格降下來了,普通人也可以享用,人與人之間在某一方面接近平等,生活得到了改善,整個社會因此更加進(jìn)步。
郵政、電話、手機(jī)都是重要的普惠技術(shù),它們讓普通人可以寫信和發(fā)信息,具備了自我表達(dá)的能力??焓质窃谶@一基礎(chǔ)上的延伸,是讓每一個人都可以記錄和分享生活的工具。
被看見的世界精彩紛呈
快手讓每一個生活都可以自我表達(dá),被看見,被欣賞。每一個存在都是獨(dú)特的,生活再無高低之分。這是更加真實(shí)的世界的鏡像,是一花一世界的境界。在這個基礎(chǔ)上,因?yàn)榭梢韵嗷タ匆?,所以一些社群形成了?/p>
中國有3000萬開大卡車的司機(jī),他們?yōu)樯?jì)長年在外奔波,還可能會遇到車匪路霸,與家人聚少離多,他們有自己的快樂與痛苦,很少被關(guān)注,也很難與外人溝通。還有,全世界的海洋上漂著無數(shù)的常年不能回家的海員。
而在快手,當(dāng)一位大卡車司機(jī)在駕駛室里不經(jīng)意間拍下自己工作和生活的場景,被另一位大卡車司機(jī)看到時,他們看到了自己的快樂、痛苦和壓力,彼此找到了共鳴,也更加自信了。這是一個社群的形成過程和它的力量。
也許,對外人而言,很多視頻毫無價值,但對拍攝者自己而言,它卻是生活中不可剝離的一部分。這種社會功能,部分可以經(jīng)由藝術(shù)家的創(chuàng)作來實(shí)現(xiàn),但藝術(shù)家的創(chuàng)作能力畢竟有限,社群讓很多人獲得新的知識,得到認(rèn)同,相互支持,提升了幸福感。
當(dāng)我們把不同的變量輸入“被看見”這個公式時,還可以得到不同的答案。
(摘自中信出版集團(tuán)《被看見的力量》? ? ?作者:快手研究所)