ChatGPT應用時為何總會「一本正經的胡說八道」？瞭解GPT語言模型的6個缺點與問題

現在應用ChatGPT等AI工具已經變成很普及的事情，相信每個人都有這樣的體驗：一開始用的時候都很驚艷，但是之後仔細一看，發現回答的內容全都不對，自己根本就被GPT給耍了。就算現在到了GPT-4的時代，看到這些問題依然會很有感。

文章目錄

GPT就是會一本正經的胡說八道

比方說，你可以向GPT問金庸武俠小說中武功最高的五個角色這個問題。

他列舉出來的答案，看起來都是有道理的，除了某些角色學的武功似乎有點與小說中的描述不合之外，但大致上來說這些答案算是合理。

你可能因此會覺得他的答案可信賴，「這個傢伙對武俠小說有研究」，那就讓我們再來問類似的問題：古龍小說中武功最高的五個角色：

這次的答案就吐槽點滿滿，除了楚留香與葉開是古龍小說的角色之外，小李飛刀根本不叫小李飛刀，古龍也沒寫過「小李飛刀」這本書（原書名是多情劍客無情劍），葉開也不是武林外史中的人物，另外兩個人根本就是金庸小說中的角色。

但是，你如果對古龍小說不熟的話，那看到這樣的答案，你可能還是會覺得GPT好棒。畢竟他回答的「一本正經」。

如果你糾正他，他也只會回答你「我很抱歉」，然後再一本正經的給你其它錯誤的答案。

那麼，為什麼答案準確度會有這樣的落差？坦白說我們不知道，因為一切都是大型語言模型這個黑盒子在運作的。

大型語言模型確實非常之大，它們是在大量的文本資料上進行訓練的，這些文本資料可以達到 PB 級，並具有數十億個參數。由此產生的多層神經網路通常大小為幾個 TB。圍繞 ChatGPT 和其他大型語言模型的炒作和媒體關注是可以理解的，它們確實是人類聰明才智非凡發展的體現。

這些大型模型有時會以意外的行為讓這些模型的開發人員感到驚訝。例如，GPT-3 的答案透過在「提示」的開頭使用某些「神奇」的短語來得到改進，比如「讓我們一步一步地思考」。這些意外行為表明他們的模型非常複雜，同時缺乏可解釋性，甚至讓開發者開始思考這些模型是否已具有感知能力。

但在此同時，發展至今他也有許多的缺點以及問題。如果你對這些問題不清楚的話，那就會有被AI騙了的狀況發聲。

延伸閱讀：與其害怕 GPT-4 的強大，或許該想想怎麼向語言模型這個「黑盒子」來學習

大型語言模型的6個缺點與問題

在所有這些對大型語言模型的積極言論和炒作的同時，負責任的人工智慧領域研究者也發出了一個較小的、強有力的警告。值得注意的是，在 2021 年，研究「盡責人工智慧」（Responsible AI）的傑出研究員蒂米特·格布魯（Timit Gebru）發表了一篇論文，警告了許多與大型語言模型相關的問題。

這些警告涵蓋了廣泛的問題：缺乏可解釋性、抄襲、隱私、偏見、模型穩健性及其對環境的影響。其實就算現在到了GPT-4的時代，以及已經有這麼多人在用ChatGPT，看到這些問題依然會很有感，讓我們深入探討一下這些主題。

1. 信任和缺乏可解釋性

深度學習模型，特別是 LLM，已經變得非常龐大和不透明，甚至模型開發人員也經常無法理解為什麼其模型會做出某些預測。這種可解釋性的缺乏是一個重要的問題，特別是在使用者想知道模型為什麼、以及如何生成特定輸出的情況下。

例如你可以使用 ChatGPT 讓 AI 以約翰·濟慈的風格創作了一首詩，結果相當不錯。但是，圍繞著「模型如何得出這個輸出結果」的透明度是缺乏的。對於 LLMs 製作的作品來說，輸出所使用的資料來源缺乏透明度，這意味著 ChatGPT 提供的答案不可能被正確引用，因此使用者不可能驗證或信任其輸出。這已經導致 ChatGPT 所創建的答案在 Stack Overflow 等論壇上是被禁止使用的。

當使用 OpenAI 的嵌入模型（Embedding Model），或者在模型用於高風險決策的情況下，透明度和對模型如何得到輸出的理解變得尤為重要。例如，如果有人要使用 ChatGPT 來獲得急救說明，那麼使用者需要知道答案是可靠的、準確的，並且來自值得信賴的來源。雖然存在各種事後解釋模型選擇的方法，但在部署模型時，這些解釋經常被忽略。

在假新聞和錯誤資訊氾濫的時代，這種缺乏透明度和可信度的後果尤其令人不安，LLM 可能會被精心調整，以傳播錯誤資訊，進而威脅人類社會。雖然 Open AI 正在研究各種方法來辨識其模型的輸出，但這些「盡責人工智慧」解決方案速度不夠快，而且可能也還不夠。

2. 抄襲

我們很難追溯一篇精心製作的 ChatGPT 文章的起源，這就導致了抄襲問題。但這真的是個問題嗎？筆者並不這麼認為。在 ChatGPT 出現之前，學生們已經可以使用代寫服務了，而且一直有一小部分學生會作弊。但是，對於 ChatGPT 會把孩子們都變成無腦抄襲的作弊者的擔憂，一直是許多教育工作者最關心的問題，並導致一些學區禁止使用 ChatGPT。

關於抄襲可能性的討論，會使人們忽視與 LLM 相關的更大、更重要的道德問題。鑒於這個話題已經有很多人在討論了，所以我不能不提一下。

相關文章： 實戰ChatGPT全攻略：什麼是ChatGPT？ChatGPT怎麼用？

3. 隱私問題

如果大型語言模型處理了敏感性資料，那麼它將面臨資料隱私洩露的風險。大型語言模型的訓練集來自一系列資料，有時包括個人身份資訊，比如姓名、電子郵件、電話號碼、位址、醫療資訊等等，因此，這些內容都可能出現在模型的輸出結果中。雖然這對於任何用敏感性資料訓練的模型來說都是一個問題，但考慮到LLM的訓練集數量之大，這個問題可能會影響很多人。

4. 偏見

如前所述，這些模型是在龐大的資料庫上進行訓練的。當資料訓練集過大時，就會變得非常難以審計，因此本身就有風險。該資料包含社會和歷史偏見，因此，如果沒有採取保障措施，在此基礎上訓練的任何模型都可能重現這些偏差。許多流行的語言模式被發現含有偏見，這可能導致偏見思想的進一步傳播，並使對某些群體的傷害持續下去。GPT-3 顯示出常見的性別刻板印象，比如將女性與家庭和外貌聯繫在一起，並將她們描述為不如男性角色強大。可悲的是，它還將穆斯林與暴力聯繫在一起，對含有「穆斯林」一詞的提示的回復中，有三分之二的內容提到了暴力。很可能還有更多有偏見的聯想存在，並且還沒有被發現。

網路上充斥著帶有偏見和歧視性的不良言論，雖然 ChatGPT 有一個篩檢程式來試圖避免這類不良語言，但它可能不是萬無一失的。OpenAI 付錢給人工標籤師，讓他們標記出最具辱駡性和最令人不安的言論。但公司卻因此面臨著批評，因為他們每天只付 2 美元給打標籤的工人，而工人們認為自己遭受了深刻的心理傷害。

5. 模型的穩健性和安全性

由於大型語言模型經過預訓練，並隨後針對特定任務進行了微調，因此它們會產生許多問題和安全風險。值得注意的是，大型語言模型缺乏提供不確定性估計的能力。在不知道模型的置信度（或不確定性）的情況下，我們很難決定什麼時候信任模型的輸出，什麼時候對它持保留態度。這會影響模型在對新任務進行微調時輸出良好表現的能力，也會影響其避免過度擬合的能力。可解釋的不確定性估計有可能提高模型預測的穩健性。

由於 LLM 的母模型在微調步驟之前具有通用性，所以模型安全性是一個迫在眉睫的問題。模型可能會成為單點故障和攻擊的主要目標，進而影響從原始模型派生的任何應用程式。此外，由於缺乏監督式訓練，LLM 很容易受到資料毒害，這可能導致針對特定公司、團體或個人的仇恨言論的注入。

LLM 的訓練語料庫是透過抓取網際網路上的各種語言和主題來源創建的，然而它們只是對最有可能造訪和頻繁使用網際網路的人的反映。因此，人工智慧生成的語言是同質化的，通常反映的是最富有的人群和國家的做法。當 LLM 被應用於不在訓練資料中的語言（如各類小語種）時，則更有可能失敗，因此需要進行更多的研究來解決圍繞正態分佈外資料的問題。

6. 環境影響和可持續性

史特魯貝爾及其合作者在 2019 年的一篇論文中概述了 LLM 訓練生命週期的巨大碳足跡。訓練一個具有 2.13 億個參數的基於神經架構搜尋的模型，估計產生的碳排放量是普通汽車壽命週期的 5 倍以上。記住，GPT-3 有 1750 億個參數，而 GPT-4 據傳有 100 萬億個參數。

現在該做什麼？

任何新技術都會帶來優點和缺點。這裡已經概述了與 LLM 相關的許多問題，但人們也應該為這些模型為每個人帶來的新可能性和希望感到興奮。社會有責任採取適當的保障措施，明智地使用這項新技術。任何用於公共領域或進入公共領域的模型，都需要被監控、被解釋和定期審計模型偏差。

相關文章： ChatGPT能拿來做什麼？這裡提供20個ChatGPT有趣的用法