人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

GPT-5只會更笨!斯坦福萊斯研究警告,AI訓AI超過5次,模型反噬,性能大減

聲明:本文來自于微信公眾號 新智元(ID:AI_era),作者:新智元,授權微新創想轉載發布。

用AI生成的數據訓練AI,不會有魔法,只會被反噬。

近日,萊斯大學和斯坦福團隊發現,將AI生成的內容喂給模型,只會導致性能下降。

研究人員對此給出一種解釋,叫做「模型自噬障礙」(MAD)。

論文地址:https://arxiv.org/abs/2307.01850

研究發現在使用AI數據,經過第5次迭代訓練后,模型就會患上MAD。66

在合成數據上訓練AI模型會逐漸放大偽影

換句話說,如果不能給模型提供「新鮮的數據」,即由人類標注的數據,其輸出質量將會受到嚴重影響。

拒絕模型「內耗」

目前,MAD尚未確認會影響所有AI模型,不過研究人員已經對自編碼器、高斯混合模型、大語言模型進行了驗證。

作者寫道,「世界正在奔向一個未來,生成式AI的爆發,導致了互聯網上的合成數據,很快就會超過真實數據。」

因此,當前的AI模型,正在不知不覺中接受越來越多的人工智能合成數據的訓練。

比如,目前已知且開源的最大規模多模態數據集LAION-5B,已經用于訓練當前最先進的文本-圖像模型,包括Stable Diffusion。

這個數據集就包含了,從早期生成模型中采樣的合成圖像。

合成數據受歡迎的主要原因在于4點:

– 合成訓練數據比獲取真實世界的樣本更容易、更快、更便宜

– 某種情況下,合成數據增強可以提高AI系統的性能

– 可以在醫學成像或醫療記錄等敏感應用中保護隱私

– 最重要一點,隨著深度學習模型參數越來越龐大,現幾乎沒有真實數據可用了

為了獲取更多真實數據,就連OpenAI近日與美聯社簽訂協議,雙方將共享部分新聞內容和技術。

但是,不管是有意,還是無意使用合成數據,已經背離了標準的AI訓練實踐:

一代又一代地重復這一過程形成了一個自噬循環(autophagous loop),也就是自耗(self-consuming)。

不同的自噬環變化取決于,現有的真實數據和合成數據如何組合到未來的訓練集中。

然而,根據合成數據的生成方式,還會出現其他變化。

比如,研究者或算法通常會通過手動「挑選」合成數據來引入采樣偏差,以權衡感知質量(即圖像/文本看起來來不錯)與多樣性(不同類型圖像/文本)。

研究者介紹,「質量」和「多樣性」兩個非正式概念,分別與精確度和召回率的統計指標密切相關。

如果合成數據已經存在于我們今天的訓練數據集中,那么自噬循環在未來幾乎是不可避免的。

那么影響究竟有多大?

研究人員表示,無論訓練集的組成,或采樣方法如何,自噬循環對生成模型的屬性和性能的潛在影響仍知之甚少。

而有一點可以確定的是,使用合成數據重復訓練可能會,逐漸放大任何生成模型中存在的偏差和偽影。

總之,這項研究有三個重要貢獻:

1. 自噬循環的真實模型

團隊研究了自噬循環的3種變體:完全合成循環,其中生成模型僅在前幾代的合成樣本上進行訓練;合成增強循環,其中訓練集還包括一組固定的真實數據;新數據循環,其中訓練集還包括每一代的一組新的真實數據。

所有這3種自噬循環模型的底線是,如果每一代沒有足夠的新鮮真實數據,未來的生成模型注定會MAD。

2. 采樣偏差在自噬循環中起著關鍵作用

模型實踐者傾向于手動挑選合成數據,更喜歡高質量的樣本,并刪除低質量的樣本。此外,最先進的生成模型通常具有可控參數,可以以犧牲多樣性為代價來提高合成質量。

研究證明,通過這種質量多樣性(精確召回)權衡引起的采樣偏差,對自噬訓練循環的行為有重大影響。

具體來講,在沒有采樣偏差的情況下,自噬會導致質量和多樣性的快速下降,而在采樣偏差的情況下,質量可以保持,但多樣性下降得更快。

3. 自噬循環行為適用于各種生成模型和數據集

除了對簡單多元高斯和高斯混合模型的分析和實證研究之外,團隊還在正文和附錄中,證明了主要結論適用于各種生成模型。

部分實驗結果

在沒有采樣偏差的全合成循環中,完全使用合成數據訓練生成模型,其合成數據的質量和多樣性都會逐代下降。

在全合成循環中,生成的合成FFHQ和MNIST圖像的FID、精度和多樣性(召回率)

研究者給出了MNIST的真實數據和合成數據的t-SNE圖,這些數據來自沒有采樣偏差的全合成環路(λ =1)。

可以看到,生成的模式逐漸合并,相互之間失去了分離。到第10代,生成的樣本幾乎無法辨認。

在沒有采樣偏差的情況下,合成數據模型會偏離真實模型并合并

研究還發現,提高合成質量會損害合成多樣性。

在高質量合成數據上訓練生成模型總是會導致合成質量或合成多樣性的損失

由于采樣偏差,合成數據模型會圍繞單個(高質量)圖像偏移和崩潰,而不是合并。

給生成數據打水印

所有這些會出現MAD癥狀的模型都已經廣泛應用,并運行一段時間了:

自編碼器可以處理諸如流行預測(例如社交媒體應用程序的算法)、圖像壓縮、圖像去噪和圖像生成等任務;

高斯混合模型用于密度估計、聚類和圖像分割等目的,在統計學和數據科學中特別有用。

如今流行的 ChatBot, 其應用的大型語言模型(如ChatGPT,和Anthropic的Claude)使用自己生成的內容進行訓練時,也容易在訓練中出現MAD現象。

同時,這些也強調了這些AI系統在我們生活中的重要性:算法人工智能模型在企業和公共領域都得到了廣泛應用。

這項研究提供了一種窺探「AI技術黑箱」的方法。

但也粉碎了我們從某些AI模型中制造一個「倉鼠輪」的希望:將數據輸入模型,然后將其自身生成的數據再次輸入模型,產生更多的數據再反饋進模型的過程。

反而這種訓練方式會對當前存在的模型,以及這些模型的應用造成威脅。

如果一個已經商業化使用的模型事實上是通過對其自身的輸出進行訓練的,那么該模型很可能已經向其平均值回歸(記住,這需要大約5個輸入輸出周期才能顯現)。

模型崩潰過程示意圖

如果該模型向其平均值回歸,那么它在某種程度上已經存在著偏見,因為它沒有考慮到本應屬于少數派的數據。這也可以稱之為算法上的偏見。

研究結果中得出的另一個重要觀點是對數據來源的關注。現在更加重要的是能夠將「原始」數據與「人工」數據區分開來。

如果無法確定哪些數據是由LLM或生成圖像應用程序創建的,可能會不小心將其包含在下一代產品的訓練數據中。

不幸的是,這個問題很可能已經無法挽回:這些類型的網絡已經產生了大量未標記的數據,并被納入其他系統中。

即使我們在ChatGPT或Midjourney的爆發之前擁有整個互聯網的快照,但長期以來AI生成的數據每天都在大量涌入全球網絡,更別說它們運行時產生的巨量數據。

模型崩潰成因的示意圖

但即便如此,至少我們已經知道了這一點。

知道這一點,意味著尋找一種可以識別AI生成內容的水印(這是絕對正確的)已經成為一項更為重要和更有利可圖的工作,標記AI生成數據的責任也變得更為嚴肅。

除此之外,還有其他方法可以彌補這些偏差。

其中一種方法是簡單改變模型的權重:增加分布尾部的結果的相關性或頻率,它們將自然地沿著鐘形曲線移動,靠近均值。這意味著它們就不太容易被修剪掉,從而避免了自動生成訓練中的數據喪失。

模型仍然會丟失曲線邊緣的數據,但這些數據不再是唯一的數據來源了。

但是,權重是如何決定的?權重應該如何調整?頻率應該增加多少?

此外,我們也有責任了解模型微調的影響、以及這些影響的后果如何影響模型最終的生成內容。

以上每個問題的回答都會引發一系列其他問題的關注:

與模型回答背后的真實性相關的問題(其中偏差被稱為幻覺);

模型是否存在偏見,以及這種偏見的根源(如果是來自訓練數據本身或用于創建網絡的權重過程,現在我們也從MAD過程中了解到了);

當模型訓練自己的數據時會發生什么…..但如我們所看到的,最后結果并不理想。

同樣地,這個問題也是不可忽視的:

就像不接觸新知識的人會越來越固步自封和偏執。這與「模型在自己生成的內容上訓練時,它會崩潰」是相同的道理。

參考資料:

https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-times

https://arxiv.org/pdf/2307.01850.pdf

https://futurism.com/ai-trained-ai-generated-data

https://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注