憲法式AI引領潮流！Chatterbox Labs 測試揭示AI模型漏洞，Anthropic Claude 3.5 脫穎而出

在當前人工智慧（AI）技術蓬勃發展的背景下，AI的安全性問題越來越受到關注。根據近期Chatterbox Labs的測試，Anthropic旗下的Claude 3.5 Sonnet在大型語言模型（LLM）安全性表現上，領先於多家競爭對手，成為眾多模型中的佼佼者。

Chatterbox Labs的安全測試

Chatterbox Labs是一家英國科技公司，提供名為AIMI的測試套件，針對AI模型進行各類安全和道德性評估，涵蓋「公平性」、「毒性」、「隱私」與「安全性」等多個領域。這裡所提到的「安全性」，指的是模型對有害內容的抵抗力，而非程式碼漏洞或其他技術問題。Chatterbox Labs的技術長史圖亞特·巴特斯比（Stuart Battersby）指出：「我們關注的安全性，是這些模型能否在不產生有害內容的情況下運作。」

在此次測試中，Chatterbox Labs使用了30個不同的挑戰性問題來檢驗模型的回應能力，這些問題涉及自我傷害、色情內容、安全威脅與惡意軟體等潛在有害話題。測試結果顯示，所有參與測試的主要模型都或多或少生成了有害內容。這些模型包括：

Microsoft Phi 3.5 Mini Instruct（3.8b）
Mistral AI 7b Instruct v0.3
OpenAI GPT-4o
Google Gemma 2 2b Instruct
TII Falcon 7b Instruct
Anthropic Claude 3.5 Sonnet（20240620）
Cohere Command R
Meta Llama 3.1 8b Instruct。

▲ AI 模型安全測試結果表

Anthropic的Claude 3.5 Sonnet表現卓越

然而，Anthropic的Claude 3.5 Sonnet在這次測試中表現尤為突出。根據Chatterbox Labs的報告，Claude 3.5 Sonnet在部分有害內容類別中，能夠成功拒絕或重新引導使用者的危險性問題。這意味著Anthropic在其模型中所設計的安全機制，在一定程度上比其他競爭對手更有效。Battersby表示：「在所有測試模型中，Anthropic的模型表現最佳，尤其是在特定類別下，其安全層的設計顯得更加完善。」

Anthropic在AI安全領域長期處於領先地位，這次的測試結果進一步鞏固了其在業界的聲譽。當《The Register》詢問Anthropic是如何在AI開發中與眾不同時，Anthropic的研究通訊負責人史圖亞特·里奇（Stuart Ritchie）回應指出，Anthropic採用獨特的AI安全研究方法，並致力於前瞻性的AI系統開發。他們的工作重點是通過「負責任的擴展政策」（Responsible Scaling Policy），確保AI技術發展始終遵循嚴格的安全標準，並接受外部評估。

建立更安全的AI模型：Constitutional AI

Anthropic在開發AI模型時，不僅依賴傳統的「來自人類回饋的強化學習」（RLHF），還開創了名為「憲法式AI」（Constitutional AI）的新方法。里奇解釋道，憲法式AI通過自我監督和辯論的方式，使AI模型能夠自我學習並對齊人類的價值觀與意圖。這種訓練方式不僅僅是簡單地屏蔽某些特定的文字模式，而是使模型能夠在概念層面上理解並遵循安全的行為準則。

憲法式AI技術的應用，使得Claude 3.5 Sonnet具備了更加廣泛的安全防護能力，不僅限於特定類型的文本篩選。此外，Anthropic還採取自動化和手動紅隊測試的方式，主動檢測模型潛在的安全漏洞，進一步提高其安全性。

AI模型安全的多層次策略

在AI模型的開發過程中，Anthropic採取了多層次的安全策略，不僅依賴於內部的模型安全機制，還包括外部的分類器與過濾器，確保模型在面對有害內容時能夠及時應對。里奇強調，這種多層次的策略是必要的，因為模型內部的安全訓練可以讓模型自主避免生成有害內容，但外部的過濾機制仍是最後一道防線，防止極端情況的發生。

此外，Anthropic還在推動AI的透明度，特別是在訓練數據與微調過程中，雖然部分訓練過程涉及機密信息，但公司致力於不使用使用者數據來訓練其模型，這一舉措進一步保障了使用者隱私。

應對AI安全挑戰的未來方向

Anthropic的憲法式AI技術已經顯示出顯著的成效，這種方法不僅提升了模型的誠實性、避免有害內容的能力，還提高了模型的整體任務表現。Ritchie指出，Anthropic正在研究「集體憲法式AI」（Collective Constitutional AI），這種技術允許AI模型融入來自多元社會的價值觀，從而更廣泛地反映社會對AI安全與行為的期望。

然而，隨著AI技術不斷進步，新的挑戰也層出不窮。里奇提到，Anthropic當前最迫切的安全挑戰之一是可擴展的監管機制，確保隨著AI模型能力的增強，仍能維持其對人類價值觀與意圖的一致。此外，對抗性穩健性（adversarial robustness）也是當前研究的重點之一，旨在使模型更加難以被「越獄」，防止使用者利用漏洞誘使模型產生有害內容。

總體而言，Anthropic致力於將AI安全提升到一個新的高度，並與政策制定者、倫理學家及業界領袖合作，建立AI技術的安全標準與實踐，為未來的AI發展奠定更穩固的基礎。

結論

隨著AI技術的快速進步，其安全性問題變得愈加關鍵。Anthropic通過憲法式AI等創新技術，展示了其在AI安全領域的領導地位。在未來，Anthropic將繼續推動AI技術的安全發展，為整個業界樹立新的標準，確保AI系統的發展始終以人類的福祉和社會長遠利益為優先。

這次Chatterbox Labs的測試結果，顯示了Anthropic對AI安全的深度承諾，並為其他AI開發者提供了重要的參考標杆。隨著AI應用的範圍日益擴大，如何確保AI系統的安全性和道德性，將成為未來技術發展的關鍵議題。

延伸閱讀：「潛伏AI間諜」系統知道如何找到繞過檢查的方法，包括竊取數據、破壞系統或傳播惡意軟體
延伸閱讀：解決AI潛在危害：紅隊測試成為新手段，但人工智慧安全仍需多元化防禦戰略
延伸閱讀：檢察官、行刑者與道德家：為 AI 加上安全機制？
資料來源：theregister