ADVERTISEMENT
ChatGPT、Gemini、Copilot等人工智慧(AI)工具可以從簡單的一行文字提示中生成令人印象深刻的句子和段落。為了生成這些文字,底層的大型語言模型在人類編寫的大量文字和從網路上抓取的內容上進行了訓練。
但現在,隨著生成式AI工具在網路上充斥著大量合成內容,這些內容正被用於訓練AI的下一代。研究人員表示,如果這種情況持續下去,可能會帶來災難性的後果。
牛津大學的一個電腦科學家團隊最近在《自然》(Nature)雜誌上指出,用AI自己生成的資料訓練大型語言模型可能會導致模型崩潰。
該團隊採用了一個名為OPT-125m的預訓練語言模型,並向其輸入了一批維基百科文章來微調其反應。然後,研究小組給這個工具一個文字提示,並要求它預測接下來會發生什麼。它的反應被反饋到模型中進行進一步的微調。
研究發現,當每一代都用前一代產生的資料進行訓練時,到第九代模型就會開始胡言亂語了。在另一組實驗中,當團隊保留了一些原始資料時,模型的退化程度明顯較小。
這項研究表明,如果不加控制,利用AI自身生成的資料訓練AI將產生嚴重的後果,包括加劇偏見和將文字變成無意義的廢話。大型AI公司確實有辦法防止這種崩潰,但隨著越來越多的人使用大型語言模型來訓練自己的聊天機器人和其他AI工具,可能會產生嚴重的後果。
ADVERTISEMENT