Anthropic推出Claude 3.5 Sonnet模型，性能超越GPT-4o和Gemini 1.5 Pro

Anthropic 宣佈最新的Claude 3.5 Sonnet 和 Claude 3.5 Haiku 模型。更新後的 Claude 3.5 Sonnet 實現了全面改進，並在程式能力方面取得了顯著提高。

Claude 3.5 Haiku 是 Anthropic 對 OpenAI 的 GPT-4o Mini 和 Google 的 Gemini 1.5 Flash 的回應。它的售價與前代產品相同，但性能有了顯著提升。

Claude 3.5 Sonnet 的改進：

SWE-bench 驗證得分從 33.4% 提高到 49.0%，是業內任何機型的最佳得分。
在零售領域，TAU-bench 得分從 62.6% 提高到 69.2%，在航空領域從 36.0% 提高到 46.0%。
GPQA 和 MMLU Pro 分數分別增至 65% 和 78%，優於Gemini 1.5 Pro。

新的 Claude 3.5 Haiku 模型在許多人工智慧基準測試中擊敗了 Anthropic 上一代最大的模型 Claude 3 Opus。 Claude 3.5 Haiku 在 SWE-bench Verified 上的得分率為 40.6%，超過了原來的 Claude 3.5 Sonnet 和 OpenAI GPT-4 Turbo。 Claude 3.5 Haiku 最初將只提供純文字格式，隨後將支援圖像格式。

Anthropic 還強調，美國人工智慧安全研究所（US AISI）和英國安全研究所（UK AISI）對新的 Claude 3.5 Sonnet 模型進行了聯合部署前測試，這是雙方今年年初簽署的協議的一部分。根據其負責任擴展政策，更新後的克勞德 3.5 Sonnet 模型符合 ASL-2 標準。

更新版 Claude 3.5 Sonnet 現已通過 Anthropic API、亞馬遜 Bedrock 和Google雲的 Vertex AI 以相同的價格提供給所有開發人員。新的 Claude 3.5 Haiku 模型將於本月晚些時候推出。

這些新的 Claude 3.5 模型性能更強、價格更低，對於為其人工智慧應用尋找高級語言模型的開發人員和企業來說，是極具吸引力的選擇。