用AI(人工智能)生成的數(shù)據(jù)來(lái)訓(xùn)練模型,從表面上看是一種進(jìn)化方式,可以讓模型變得越來(lái)越“聰明”,但實(shí)際上這可能會(huì)引發(fā)嚴(yán)重的問(wèn)題。簡(jiǎn)單來(lái)說(shuō),就是當(dāng)AI模型被前幾代模型生成的數(shù)據(jù)訓(xùn)練時(shí),它們會(huì)陷入一個(gè)不斷退化的循環(huán),輸出的質(zhì)量和多樣性都會(huì)越來(lái)越差,就像玩“傳話游戲”一樣,每傳一遍,錯(cuò)誤和偏差就被放大一點(diǎn),最終徹底失控。這種現(xiàn)象被稱為“模型崩潰”。
這種情況可以分為幾種模式:如果完全用合成數(shù)據(jù)訓(xùn)練,模型就像“吃自己”一樣,逐漸變得傻乎乎的;如果加入一部分真實(shí)數(shù)據(jù),就可以稍微放慢這種“自我吞噬”的速度,但問(wèn)題還是不可避免;只有不斷加入新的、從未見(jiàn)過(guò)的真實(shí)數(shù)據(jù),才能保持模型的清醒,不至于走向崩潰。
研究顯示,即便只有少量的AI生成內(nèi)容混入訓(xùn)練數(shù)據(jù),也可能像“毒藥”一樣迅速導(dǎo)致模型的輸出變得荒謬。語(yǔ)言模型和圖像生成器受影響尤為明顯。因此,保持對(duì)高質(zhì)量、真實(shí)世界數(shù)據(jù)的訪問(wèn)非常重要。
隨著AI生成內(nèi)容越來(lái)越多,未來(lái)的AI模型很可能會(huì)被真真假假的混合數(shù)據(jù)訓(xùn)練,這種“自吞”循環(huán)會(huì)讓AI輸出的質(zhì)量越來(lái)越糟糕。因此,專家建議在訓(xùn)練數(shù)據(jù)集的選擇上要小心謹(jǐn)慎,保持真實(shí)和合成內(nèi)容的平衡。比如,可以通過(guò)給合成數(shù)據(jù)打水印的方式,幫助模型區(qū)分真實(shí)和生成的內(nèi)容,從而保護(hù)訓(xùn)練數(shù)據(jù)的完整性。
總之,雖然用生成的數(shù)據(jù)訓(xùn)練模型看似簡(jiǎn)單快捷,但其潛在的風(fēng)險(xiǎn)可能會(huì)隨著時(shí)間發(fā)酵,最終讓這些模型變得不再可靠。
(本刊原創(chuàng)稿件,視覺(jué)中國(guó)供圖)