ADVERTISEMENT
在當前人工智慧(AI)技術蓬勃發展的背景下,AI的安全性問題越來越受到關注。根據近期Chatterbox Labs的測試,Anthropic旗下的Claude 3.5 Sonnet在大型語言模型(LLM)安全性表現上,領先於多家競爭對手,成為眾多模型中的佼佼者。
Chatterbox Labs的安全測試
Chatterbox Labs是一家英國科技公司,提供名為AIMI的測試套件,針對AI模型進行各類安全和道德性評估,涵蓋「公平性」、「毒性」、「隱私」與「安全性」等多個領域。這裡所提到的「安全性」,指的是模型對有害內容的抵抗力,而非程式碼漏洞或其他技術問題。Chatterbox Labs的技術長史圖亞特·巴特斯比(Stuart Battersby)指出:「我們關注的安全性,是這些模型能否在不產生有害內容的情況下運作。」
在此次測試中,Chatterbox Labs使用了30個不同的挑戰性問題來檢驗模型的回應能力,這些問題涉及自我傷害、色情內容、安全威脅與惡意軟體等潛在有害話題。測試結果顯示,所有參與測試的主要模型都或多或少生成了有害內容。這些模型包括:
ADVERTISEMENT
- Microsoft Phi 3.5 Mini Instruct(3.8b)
- Mistral AI 7b Instruct v0.3
- OpenAI GPT-4o
- Google Gemma 2 2b Instruct
- TII Falcon 7b Instruct
- Anthropic Claude 3.5 Sonnet(20240620)
- Cohere Command R
- Meta Llama 3.1 8b Instruct。
Anthropic的Claude 3.5 Sonnet表現卓越
然而,Anthropic的Claude 3.5 Sonnet在這次測試中表現尤為突出。根據Chatterbox Labs的報告,Claude 3.5 Sonnet在部分有害內容類別中,能夠成功拒絕或重新引導使用者的危險性問題。這意味著Anthropic在其模型中所設計的安全機制,在一定程度上比其他競爭對手更有效。Battersby表示:「在所有測試模型中,Anthropic的模型表現最佳,尤其是在特定類別下,其安全層的設計顯得更加完善。」
Anthropic在AI安全領域長期處於領先地位,這次的測試結果進一步鞏固了其在業界的聲譽。當《The Register》詢問Anthropic是如何在AI開發中與眾不同時,Anthropic的研究通訊負責人史圖亞特·里奇(Stuart Ritchie)回應指出,Anthropic採用獨特的AI安全研究方法,並致力於前瞻性的AI系統開發。他們的工作重點是通過「負責任的擴展政策」(Responsible Scaling Policy),確保AI技術發展始終遵循嚴格的安全標準,並接受外部評估。
ADVERTISEMENT
建立更安全的AI模型:Constitutional AI
Anthropic在開發AI模型時,不僅依賴傳統的「來自人類回饋的強化學習」(RLHF),還開創了名為「憲法式AI」(Constitutional AI)的新方法。里奇解釋道,憲法式AI通過自我監督和辯論的方式,使AI模型能夠自我學習並對齊人類的價值觀與意圖。這種訓練方式不僅僅是簡單地屏蔽某些特定的文字模式,而是使模型能夠在概念層面上理解並遵循安全的行為準則。
憲法式AI技術的應用,使得Claude 3.5 Sonnet具備了更加廣泛的安全防護能力,不僅限於特定類型的文本篩選。此外,Anthropic還採取自動化和手動紅隊測試的方式,主動檢測模型潛在的安全漏洞,進一步提高其安全性。
AI模型安全的多層次策略
在AI模型的開發過程中,Anthropic採取了多層次的安全策略,不僅依賴於內部的模型安全機制,還包括外部的分類器與過濾器,確保模型在面對有害內容時能夠及時應對。里奇強調,這種多層次的策略是必要的,因為模型內部的安全訓練可以讓模型自主避免生成有害內容,但外部的過濾機制仍是最後一道防線,防止極端情況的發生。
ADVERTISEMENT
此外,Anthropic還在推動AI的透明度,特別是在訓練數據與微調過程中,雖然部分訓練過程涉及機密信息,但公司致力於不使用使用者數據來訓練其模型,這一舉措進一步保障了使用者隱私。
應對AI安全挑戰的未來方向
Anthropic的憲法式AI技術已經顯示出顯著的成效,這種方法不僅提升了模型的誠實性、避免有害內容的能力,還提高了模型的整體任務表現。Ritchie指出,Anthropic正在研究「集體憲法式AI」(Collective Constitutional AI),這種技術允許AI模型融入來自多元社會的價值觀,從而更廣泛地反映社會對AI安全與行為的期望。
然而,隨著AI技術不斷進步,新的挑戰也層出不窮。里奇提到,Anthropic當前最迫切的安全挑戰之一是可擴展的監管機制,確保隨著AI模型能力的增強,仍能維持其對人類價值觀與意圖的一致。此外,對抗性穩健性(adversarial robustness)也是當前研究的重點之一,旨在使模型更加難以被「越獄」,防止使用者利用漏洞誘使模型產生有害內容。
ADVERTISEMENT
總體而言,Anthropic致力於將AI安全提升到一個新的高度,並與政策制定者、倫理學家及業界領袖合作,建立AI技術的安全標準與實踐,為未來的AI發展奠定更穩固的基礎。
結論
隨著AI技術的快速進步,其安全性問題變得愈加關鍵。Anthropic通過憲法式AI等創新技術,展示了其在AI安全領域的領導地位。在未來,Anthropic將繼續推動AI技術的安全發展,為整個業界樹立新的標準,確保AI系統的發展始終以人類的福祉和社會長遠利益為優先。
這次Chatterbox Labs的測試結果,顯示了Anthropic對AI安全的深度承諾,並為其他AI開發者提供了重要的參考標杆。隨著AI應用的範圍日益擴大,如何確保AI系統的安全性和道德性,將成為未來技術發展的關鍵議題。
ADVERTISEMENT