OpenAI進軍內容審查！美國學校圖書館已經用ChatGPT篩選書籍內容的色情描述

學校的圖書管理員，已經開始用ChatGPT來篩選具有色情內容的書籍了。

根據一項新規定，美國愛荷華州的學校需要下架圖書館中包含性行為描述的書籍，但「閱讀每本書並按新要求篩選根本不可行」。在ChatGPT的幫助下，梅森學區終於趕在開學前篩選出19本符合條件的書籍。

延伸閱讀：OpenAI認為AI工具可以有效地幫社群網站過濾有害內容，把時間從幾個月縮短到幾個小時

▲ School district uses ChatGPT to help remove library books

隔天，OpenAI也正式宣布將GPT-4引入內容審查系統。

▲ Using GPT-4 for content moderation

在OpenAI看來，GPT-4這項審查功能可將審查更新週期從數月縮短至數個小時，且具有更強的靈活性。

高效自動化內容審查

這項新的功能不僅在於提高效率和減輕人類工作量，還解決了人工審查中尺度不一致問題。最重要的是，它能夠避免有害內容對審查工作人員造成的身心傷害。

科技媒體的編輯Reed Albergotti做出了這樣的表示：

使用大型語言模型來進行內容審查是向前邁出的一步。這並不是因為它有多完美，而是因為它的尺度會更加一致，並且不易受到人類情感和文化差異的影響。

We’ve seen great results using GPT-4 for content policy development and content moderation, enabling more consistent labeling, a faster feedback loop for policy refinement, and less involvement from human moderators. Built on top of the GPT-4 API: https://t.co/0HoZjCiStQ pic.twitter.com/lV1Ba7CGaR
— OpenAI (@OpenAI) August 15, 2023

工作流程上，重點的環節是使用者政策的設計，這部分是由人工主導的。之後GPT-4會使用一些範例進行準確性核對總和最佳化。

根據GPT-4的預測微調出小型篩選器，就可以對內容進行批次審查了。

OpenAI發言人也透露，已經有客戶在用GPT-4進行內容審查，但並未給出具體名單。此外，OpenAI正在研究將這項功能從文字審查拓展到圖像、影片的判別。

那麼，這個功能究竟好不好用呢？

OpenAI：有信心做得很好

OpenAI總裁兼聯合創始人Greg Brockman表示，這項功能「非常可靠」。

GPT-4 for content moderation.

Very reliable at this use-case (dark blue bars are GPT-4, other bars are well-trained and lightly-trained humans) & speeds up iterating on policies (sometimes literally from months to hours). https://t.co/QgZGH4B56M pic.twitter.com/EGKDM3q8JW
— Greg Brockman (@gdb) August 15, 2023

同時，Brockman還展示出了測試結果作為依據。

在色情、暴力等多個類型的有害內容判別上，GPT-4的表現超過了經少量訓練的人類。

不過和經驗豐富的審查人員相比，的確還有一些差距。

但OpenAI安全和信任部門原主管Dave Willner對著名科技媒體人Casey Newton表示，「這種情況不會持續太久」。

I talked to some experts about OpenAI’s new pitch for platforms to moderate content using GPT-4. They were surprisingly enthusiastic https://t.co/Lv0vZjgK7A pic.twitter.com/J7IH5C95Kz
— Casey Newton (@CaseyNewton) August 16, 2023

也有負面觀點認為，總會有人想方設法鑽AI規則的漏洞。畢竟，大模型越獄事件出現了已經不只是一次兩次了。美聯社的Frank Bajak更是表示，ChatGPT這樣的大型語言模型「非常難以控制」。

對此，Weng也坦言，的確沒辦法做到100%沒有漏洞，但有信心會很好。

我們無法從一開始就構建一個100%「防彈」的系統。人們正在幫我們揪出模型中的錯誤，但我非常有信心它能做得很好。

One More Thing

GPT-4內容審查功能的實用性暫且先不討論，OpenAI的安全工作本身也存在很多爭議。

據Time雜誌消息，OpenAI之前在肯亞聘請資料標注人員標注有害內容的過程中，有參與者表示其中的暴力、酷刑等有害內容給他們造成了心理陰影。

新方法出現後，內容審查工作仍然需要人類參與，但這樣的情況可能會大大減少。

資料來源：