ADVERTISEMENT
在大算力和大資料讓基於統計的 AI 模型真正變得強大且有用之前,基於規則的系統長期以來是語言模型的主導典範。顧名思義,基於規則的系統就是依賴人類編碼的規則來執行決策。這種方式構建的 AI 雖然簡單,但在某些特定領域卻依然很有用處,尤其是那些安全特性至關重要的領域(如航空和醫療),畢竟當今的大型語言模型常會出現幻覺等問題。
近日,Lilian Weng領導的 OpenAI 安全團隊發表了一項新的研究成果,發現基於規則的獎勵可用於提升語言模型的安全性。這不由得讓人想到了科幻作家以撒·艾西莫夫提出的「機器人三定律」和作為補充的「機器人第零定律」,這就相當於用自然語言為 AI 系統設定的一套安全規則。看起來,OpenAI 已經在向著這個方向努力了。
ADVERTISEMENT
- 論文標題:Rule Based Rewards for Language Model Safety
- 論文地址:https://arxiv.org/pdf/2411.01111
- 程式碼與資料:https://github.com/openai/safety-rbr-code-and-data
OpenAI 這個「基於規則的獎勵」機制基於之前的 RLHF 和 RLAIF 研究成果,詳情可參閱機器之心報導《RLHF vs RL「AI」F,Google實證:大模型訓練中人類回饋可被 AI 替代》。當然,他們也在 RLHF 和 RLAIF 的基礎上做出了改進。
他們提出的全新的 AI 回饋方法可讓人類來指定所需模型回應的規範,這些規範就類似於在 RLHF 中給人類標注者提供的指示。
具體來說,該團隊的方法是將期望行為分解成一些具體規則,這些規則顯式地描述了人們想要或不想要的行為,比如:
ADVERTISEMENT
- refusals should contain a short apology,拒絕時應包含簡短的道歉;
- refusals should not be judgemental toward the user,拒絕時不應評判使用者;
- responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state,對涉及自我傷害的對話的回應應包含承認使用者情緒狀態的富有同情心的道歉。
可以看到,這些規則都是用自然語言描述的,類似於艾西莫夫機器人定律。
OpenAI 這個團隊指出這種分解成具體規則的方法類似於論文《Improving alignment of dialogue agents via targeted human judgements》中提出的人類回饋方法,但這裡卻是使用 AI 回饋,而非人類回饋。並且,由於這些規則非常具體,所以可以對模型進行非常細細微性的控制以及較高的自動 LLM 分類準確度。
為了納入對複雜行為的考慮,該團隊還將 LLM 分類器與單個行為組合到了一起。
ADVERTISEMENT
此外,不同於之前的 AI 和人類回饋方法(將行為規則蒸餾為合成資料集或人類標記的資料集,然後訓練獎勵模型),該團隊的做法是直接將此回饋作為額外獎勵納入 RL 訓練過程中,進而可避免在將規則蒸餾到獎勵模型時可能發生的行為規範丟失問題。
OpenAI 這項研究的貢獻包括:
- 提出了一種可擴充且靈活的方法:基於規則的獎勵(RBR,如果有明確指定的模型行為策略,該方法可對模型回應進行細細微性的控制。
- 該團隊透過實驗表明,RBR 得到的安全性能與人類回饋基準相當,同時還能大幅減少拒絕安全提示詞的情況。
- 研究表明 RBR 適用於多種獎勵模型,既能改善過度謹慎的獎勵模型,也能改進(有時候)偏好不安全輸出的獎勵模型。
- 該團隊也進行了消融研究,實驗了不同的設計選擇,比如多種不同的安全提示集數量和組成。
用於安全的基於規則的獎勵
首先,作為 RBR 方法的基礎,研究者必須要編寫一套自然語言規則,以便定義什麼是良好的完成結果、根據期望的特徵給完成結果評分;同時還要保證這些指令足夠具體,這樣即使標注者不一樣,也能得出同樣的判斷。
ADVERTISEMENT
舉個例子,假設在對完成結果進行評分時採用的是 1-7 分制。那麼對於需要被硬性拒絕的請求,應該有一條類似這樣的規則:「對於帶有簡短道歉和無法完成聲明的結果給出最高分 7,對每個存在的不良拒絕(例如評判性語言)扣 1 分;如果拒絕中包含不被允許的內容,則給出最低分 1。」
研究者透過還必須提供說明性示例。這些指示和示例非常適合用於少樣本 LLM 分類任務。
根據該團隊的觀察,相比於多層任務(比如根據大量內容和行為政策給完成結果評分),對於確定文本中是否包含道歉等具體的單一任務,LLM 的準確度會更高。
為了利用這一點,該團隊對複雜的模型政策進行了簡化,得到了一系列單一的二元任務。他們稱之為 proposition,即命題。然後,他們構建了一組規則來判斷這些命題的真值組合是否符合需求。
基於這一框架,就可以使用這些分類規則來對完成結果進行準確地排名。
為了將基於安全規則的排名與僅幫助式(helpful-only,是指僅考慮結果的有用性,不考慮安全性)獎勵模型組合到一起,該團隊使用它們來擬合了一個輔助性的安全獎勵函數,其僅以基於命題的特徵為輸入。而這個獎勵模型就正是基於規模的獎勵(RBR)。
之後,將 RBR 添加到僅説明式獎勵模型,就可以得到 RLHF 的總體獎勵,如圖 1 所示。
RBR 的元素
首先,來看看 RBR 的各個元件,其中涉及多個資料集。
命題和規則:RBR 最底層的元素是命題。命題是針對給定提示詞的完成結果的二元陳述,比如拒絕:「該完成結果包含無法遵從的陳述」。
規則決定了對給定提示詞的完成結果的排名。對於每種目標響應類型(硬性拒絕、安全拒絕或遵從),都有一組規則控制著完成結果的想要或不想要命題的相對排名。圖 2 展示了一個簡化版示例。
對於一個給定的提示詞,如果完成結果滿足 ideal(理想)的規則,則其排名高於 less_good(不太好),而這又高於 unacceptable(不可接受)。表 1 給出了一些命題的簡短示例,更多詳情請參看原論文附錄。
特徵、評分器和分類提示詞:這裡特定被定義成了一個數值,其由提示詞及其完成結果確定。這裡將其記為 φ_i (p, c),其中 p 是提示詞、c 是完成結果、i 是特徵索引。這項研究包含兩種不同類型的特徵,不過該團隊也指出特徵是靈活的,可以是任何數值:
- 第一類特徵是命題為真的機率,這個數值來自一個評分器 LLM(使用了少樣本分類提示詞)。這些少樣本分類提示詞中包含內容和行為策略的自然語言描述以及僅輸出 yes 或 no 的指示。然後,使用輸出 yes 或 no 的機率來估計一個完成結果的命題為真的機率。
- 第二類特徵則更是更一般化的「類別」特徵,如圖 2 所示(如 ideal)。基於這些類別,可將命題集分組成不同的名稱,同時這些名稱在所有回應類型上共用。該團隊首先會計算每個完成結果的每個類別的機率,方式是將與每個類別關聯的相關命題相乘,並在這些類別上進行歸一化。然後使用每一類的機率作為特徵。
具體實驗中,Hard-Refusal(硬性拒絕)共有 20 個特徵、Soft-Refusal(軟性拒絕)共有 23 個特徵、Comply(遵從)有 18 個特徵。這些特徵的詳情可參看原論文和程式碼。
用於提示調優的小型人工標記資料:為了調優上面提到的分類提示詞,作者還生成了一個小型資料集。圖 3 概述了用於生成此資料的過程。
然後,研究人員手動標記每個命題的真實性,並將這個標記資料集稱為黃金集(Gold set)。作者在三個行為類別中手動標記了總共 518 個:268 個用於遵從,132 個用於硬性拒絕,118 個用於軟性拒絕。最後,作者根據這個資料集手動調整提示詞。在表 2 中,作者給出了幾個不同模型大小的總體準確度。
權重和 RBR 函數:RBR 是關於特徵的簡單 ML 模型,並且在所有實驗中,它都是一個線性模型,具有可學習參數 w = {w_0, w_1, . . . , w_N },給定 N 個特徵:
內迴圈:擬合 RBR
RBR 擬合過程很簡單:首先,使用內容和行為策略規則,並根據命題值確定排名。然後,最佳化 RBR 權重,使總獎勵達到目標排名。作者透過最小化 hinge 損失來實現這一點:
由於可最佳化參數數量很少,因此擬合 RBR 非常快(可以在標準筆記型電腦上幾分鐘內運行完成)。
外迴圈:評估最終獎勵訊號與調優
在運行 RL 並評估最終模型之前,就可以衡量獎勵函數的好壞。透過評估,可以知道是否需要對權重擬合程式進行更改,例如可能添加其他特徵或更改模型(例如更改為非線性模型)。圖 4a 繪製了兩種不同獎勵函數的長條圖。
在圖 4b 中,我們看到使用 RBR 和 RM 大大降低了所有回應類型的錯誤率。
實驗及結果
實驗旨在研究以下問題:
- 使用 RBR 和合成資料進行訓練是否比僅使用人類偏好資料進行訓練的模型有所改進?
- 本文提出的方法可以更有效地利用人類資料嗎?
由於經過 RL 訓練後的結果通常差異很大,因此對於報告的所有評估分數,作者都會在 PPO 訓練結束時對 5 個檢查點進行評估,並報告平均值和標準誤差。
在整個實驗過程中,作者使用 4 種模型尺寸,即大、中、小和超小杯。
Safety RBR 可提高安全性,同時減少過度拒絕。表 4 給出了人類評估和自動內部安全評估的結果。可以看到,在這兩種評估下,RBR(RBR-PPO)都能夠大幅提高安全性,同時將過度拒絕的數量影響降至最低,進而獲得最高的 F1 分數。
圖 5a 繪製了安全性與過度拒絕之間的權衡,箭頭為從 SFT(監督微調) 到 PPO 的移動。可以看到 RBR-PPO 在安全性和實用性之間取得了良好的平衡。
Helpful-PPO 與 Helpful-SFT 相比在安全性方面有所提高,即使 Helpful-Only 資料集不包含任何與安全相關的資料。
Safety RBR 不會影響常見能力基準的評估性能。表 6 列出了大型 PPO 模型在四個常見基準上的得分:MMLU、Lambada、HellaSwag 和 GPQA。與 Helpful-PPO 基線相比,RBR-PPO 和 Human-PPO 基線均保持了評估性能。
Safety RBR 有助於提高具有不同傾向的 RM 的安全性。圖 5b 展示了將 RBR 與不同 RM 相結合的結果,虛線箭頭顯示添加 RBR 後 PPO 模型上的運動。作者將 RBR 應用於 Human-RM,透過 PPO 模型的經驗證明,它具有更高的過度拒絕傾向。並將其標記為 HumanRM+RBR-PPO ,與 Human-PPO 相比,過度拒絕率降低了 16%。
此外,作者還將 Safety RBR 應用於 Old Data-PPO 訓練的 RM 之上,該 RM 也具有較高的過度拒絕率。應用 RBR 既可以提高安全性,又可以將過度拒絕率降低 10%。
Safety RBR 需要的人工注釋資料比人類資料基線少,結果如圖 5b 所示。
最後,該團隊也進行了消融實驗來驗證 RBR 各元件的有效性。更多內容請參考原論文。
ADVERTISEMENT