2024.10.23 09:30

Anthropic推出Claude 3.5 Sonnet模型,性能超越GPT-4o和Gemini 1.5 Pro

ADVERTISEMENT

Anthropic 宣佈最新的Claude 3.5 Sonnet 和 Claude 3.5 Haiku 模型。 更新後的 Claude 3.5 Sonnet 實現了全面改進,並在程式能力方面取得了顯著提高。

Claude 3.5 Haiku 是 Anthropic 對 OpenAI 的 GPT-4o Mini 和 Google 的 Gemini 1.5 Flash 的回應。 它的售價與前代產品相同,但性能有了顯著提升。

Claude 3.5 Sonnet 的改進:

ADVERTISEMENT

  • SWE-bench 驗證得分從 33.4% 提高到 49.0%,是業內任何機型的最佳得分。

  • 在零售領域,TAU-bench 得分從 62.6% 提高到 69.2%,在航空領域從 36.0% 提高到 46.0%。

  • GPQA 和 MMLU Pro 分數分別增至 65% 和 78%,優於Gemini 1.5 Pro。

新的 Claude 3.5 Haiku 模型在許多人工智慧基準測試中擊敗了 Anthropic 上一代最大的模型 Claude 3 Opus。 Claude 3.5 Haiku 在 SWE-bench Verified 上的得分率為 40.6%,超過了原來的 Claude 3.5 Sonnet 和 OpenAI GPT-4 Turbo。 Claude 3.5 Haiku 最初將只提供純文字格式,隨後將支援圖像格式。

Anthropic 還強調,美國人工智慧安全研究所(US AISI)和英國安全研究所(UK AISI)對新的 Claude 3.5 Sonnet 模型進行了聯合部署前測試,這是雙方今年年初簽署的協議的一部分。 根據其負責任擴展政策,更新後的克勞德 3.5 Sonnet 模型符合 ASL-2 標準。

ADVERTISEMENT

更新版 Claude 3.5 Sonnet 現已通過 Anthropic API、亞馬遜 Bedrock 和Google雲的 Vertex AI 以相同的價格提供給所有開發人員。 新的 Claude 3.5 Haiku 模型將於本月晚些時候推出。

這些新的 Claude 3.5 模型性能更強、價格更低,對於為其人工智慧應用尋找高級語言模型的開發人員和企業來說,是極具吸引力的選擇。

ADVERTISEMENT