開發者炮轟ChatGPT、Claude等模型版本越更新卻越變笨：用垃圾文當訓練資料，只能產生垃圾模型

生成式AI（GenAI），尤其是以OpenAI的ChatGPT為代表，人們發現，這些大型語言模型在一年多後的性能表現遠不及剛發佈時那樣令人驚豔了。

「AI似乎正在變得越來越笨。」這種聲音逐漸出現在各個社群網路的平台上，並有許多擁躉。

在OpenAI開發者論壇上，有使用者發帖表示：自從去年最新版本的GPT發佈後，模型的精準性就顯著下降了。

同樣的，一位ChatGPT的使用者在今年6月寫道，「經歷了這麼多的AI炒作之後，這些模型如今的表現讓我非常失望。」

Steven Vaughan-Nichols是一位自由撰稿人和技術分析師，在多家科技媒體中擔任高級特約編輯。他擁有自己的個人部落格，在X上擁有數萬名訂閱者。

今年8月下旬，史蒂文在《Computerworld》的一篇言辭激烈的評論文章《I’ve got the genAI blues》中表示：「所有主要的公眾可使用的AI模型，像ChatGPT和Claude這樣的品牌旗艦產品——其性能都不如以前的版本。」

他在文章中寫道，「這些由AI生成的結果常常令人惱火。它們有許多荒謬的錯誤，更糟糕的是，這些錯誤的出現總是反反覆覆，沒完沒了。」

「如果只是答案平庸但相對準確，我還可以想辦法應對。但它生成的內容讓我無能為力。」

史蒂文指出，這些AI模型在處理使用者不熟悉的主題時，往往能生成看似合理的答案，但只要深入探究，就會發現其中充斥著錯誤。他以自身在Linux和開源軟體領域的專業知識為例，強調AI模型在處理這些專業領域問題時，所提供的資訊往往片面且不準確。

在使用生成式AI對這些主題進行研究時，AI能給出的回答乍一眼看上去可能不錯，但你越深入的去討論一些細節時，它能給出的資訊就越貧乏。

這些由AI生成的結果常常令人惱火。它們有許多荒謬的錯誤，更糟糕的是，這些錯誤的出現總是反反覆覆，沒完沒了。

如果你對內容的需求僅在高中水平，模型生成的答案還算過得去。但當你需要深入挖掘或研究某個主題時，那就另當別論了。

不僅史蒂文有此發現，《商業週刊》也曾報導，許多GPT-4使用者發現模型的表現越來越差，變得「懶」且「愚蠢」。Reddit上的使用者也表達了類似的觀點，認為ChatGPT的效能遠不如以往。「現在ChatGPT 3和4的效果遠不如我一年前訂閱專業版時那麼有效和有幫助。」

為什麼大型語言模型的品質越來越差？

史蒂文分析了造成這一現象的兩個主要原因：

訓練資料品質下降： 許多AI模型的訓練資料來自於Twitter、Reddit等社交媒體平台，這些平台上的資訊良莠不齊，甚至包含大量錯誤訊息。隨著AI模型不斷學習這些低品質的資料，其生成內容的準確性也隨之降低。
模型退化： 由於AI模型不斷從其他AI模型生成的內容中學習，導致模型出現「模型崩潰」的現象，即模型逐漸忘記真實的資料分佈，生成內容的品質越來越差。

首先是用於建立主要大型語言模型的內容品質問題。

許多模型的訓練集中包含了來自諸如Twitter、Reddit以及4Chan等「優質」網站的資料。但是正如Google在今年早些時候發佈的AI Overview所顯示的那樣，採用這些資料集對AI進行訓練的結果可能會非常糟糕。

《麻省理工科技評論》同樣指出，現在的AI會生成一些品質極差的答案。如果你只是想用生成式AI閒聊（這似乎是ChatGPT最流行的用途之一），那麼準確性可能對你並不重要。

但對於所有希望將AI用於商業的人來說，正確答案才是最重要的。隨著生成式AI巨頭繼續尋找更多資料，這個問題只會變得更糟。而來自Epoch AI的一項研究發現，我們最早可能將在2026年耗盡高品質資料。

這就引出了第二個問題。

如今，生成式AI生成的內容正在取代專家級人類產生的內容。結果不僅僅是劣質資料排擠了優質資料，情況還要更為糟糕。

《自然（Nature）》的最近的一篇論文發現，「不加區分地從其他模型生成的資料中學習會導致‘模型崩潰’。這是一種退化過程，隨著時間的推移，即使分佈沒有隨時間變化，模型也會忘記真正的底層資料分佈。」

通常來說，軟體的新版本應該比它們所取代的版本更好。但是現在的趨勢似乎並非如此，由於目前看來並沒有停止使用生成式AI以更低的成本來生成文件的趨勢，因此未來充斥在網路中的內容品質只會繼續下降。

因此，史蒂文語重心長的表示：「不管你信不信，就品質而言，我們可能已經處於人工智慧的頂峰。」