全球最強開源 AI 模型：HyperWrite 的 Reflection 70B 隆重登場

AI 寫作新創公司 HyperWrite 的聯合創始人兼執行長 Matt Shumer 9/5發表了 Reflection 70B，一個基於 Meta 開源 Llama 3.1-70B Instruct 的新型大型語言模型 (LLM)。該模型採用了新的錯誤自我修正技術，並且在第三方基準測試中表現優異。

正如 Shumer 在社交網路 X 上的發文中宣布的那樣，Reflection-70B 現在似乎是「全球最強的開源 AI 模型」。

I'm excited to announce Reflection 70B, the world’s top open-source model.

Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.

405B coming next week - we expect it to be the best model in the world.

Built w/ @GlaiveAI.

Read on ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) September 5, 2024

他在貼文中發布了該模型基準測試結果的圖表：

▲ Reflection 70B 基準測試性能

Reflection 70B 已經經過多項基準測試的嚴格測試，包括 MMLU 和 HumanEval，並使用 LMSys 的 LLM Decontaminator 來確保結果不受污染。這些基準測試顯示 Reflection 在各方面持續超越 Meta 的 Llama 系列模型，並與頂級商業模型正面競爭。

你可以在「playground」網站上試用該模型，但正如 Shumer 在 X 上提到的，由於這款全球頂尖開源 AI 模型的發表，示範網站的流量大增，團隊正在努力尋找足夠的 GPU（圖形處理單元，這些由 Nvidia 等公司生產的晶片是訓練和運行生成式 AI 模型的關鍵）來滿足需求。

Reflection 70B 如何脫穎而出

Shumer 強調 Reflection 70B 不僅與頂級模型競爭，還帶來了獨特的功能，特別是錯誤辨識和糾正。

Shumer 在 X 上私信 VentureBeat 表示：「我這個想法已經思考了好幾個月。LLM 會出現幻覺，但它們無法自我修正。如果教會 LLM 如何識別和修正自身錯誤，會發生什麼呢？」

因此命名為「Reflection」——一個能夠反思自己生成文本並在交付給使用者之前評估其準確性的模型。

該模型的優勢在於一種稱為反思調整的技術，該技術使它能夠在最終生成回應之前檢測自身推理中的錯誤並進行修正。

Reflection 70B holds its own against even the top closed-source models (Claude 3.5 Sonnet, GPT-4o).

It’s the top LLM in (at least) MMLU, MATH, IFEval, GSM8K.

Beats GPT-4o on every benchmark tested.

It clobbers Llama 3.1 405B. It’s not even close. pic.twitter.com/win7cHUOob
— Matt Shumer (@mattshumer_) September 5, 2024

Reflection 70B 引入了幾個用於推理和錯誤糾正的新特殊標記，讓使用者可以更結構化地與模型互動。在推理過程中，模型會在特殊標籤內輸出其推理，如果檢測到錯誤，允許即時糾正。

示範網站包括建議的提示，如詢問 Reflection 70B「Strawberry」這個單詞中有多少個字母「r」，以及 9.11 和 9.9 這兩個數字哪個較大，這是許多 AI 模型——包括領先的專有模型——無法一致正確回答的簡單問題。我們的測試結果速度較慢，但 Reflection 70B 最終在 60 秒以上的時間後給出了正確答案。

這使得該模型特別適用於需要高準確性的任務，因為它將推理分成不同的步驟以提高精度。該模型可通過 AI 程式碼儲存庫 Hugging Face 下載，並且 API 存取將於今天晚些時候透過 GPU 服務提供商 Hyperbolic Labs 提供。

更強大、更大的型號即將推出

Reflection 70B 的發布只是 Reflection 系列的開始。 Shumer 已經宣布，一個更大的模型 Reflection 405B 將在下周推出。

他還告訴 VentureBeat，HyperWrite 正在努力將 Reflection 70B 模型整合到其主要的 AI 寫作助手產品中。

「我們正在探索將該模型整合到 HyperWrite 的多種方式——很快我會分享更多細節」，他承諾道。

Reflection 405B 預計將超越當今市場上甚至頂級的閉源模型。 Shumer 還表示，HyperWrite 將發表一份報告，詳細介紹訓練過程和基準測試，提供對 Reflection 模型背後創新的深入見解。

Reflection 70B 的基礎模型是基於 Meta 的 Llama 3.1 70B Instruct，並使用標準的 Llama 聊天格式，確保與現有工具和流程的相容性。

Glaive 實現了快速 AI 模型訓練

Shumer 將 Reflection 70B 的成功歸功於 Glaive Reflection 70B 成功的一個關鍵因素是 Glaive 生成的合成資料，Glaive 是一家專門從事創建用例特定資料集的新創公司。

Glaive 的平台可以快速訓練小型、高度集中的語言模型，有助於實現 AI 工具的民主化。 Glaive 由荷蘭工程師 Sahil Chaudhary 創立，專注於解決 AI 開發中最大的瓶頸之一：高品質、特定任務資料的可用性。

I want to be very clear — @GlaiveAI is the reason this worked so well.

The control they give you to generate synthetic data is insane.

I will be using them for nearly every model I build moving forward, and you should too. https://t.co/I789UIa5Yg
— Matt Shumer (@mattshumer_) September 5, 2024

Glaive 的方法是創建針對特定需求的合成資料集，允許公司快速且經濟高效地微調模型。該公司已經在較小的模型上取得了成功，例如一個 3B 參數模型在 HumanEval 等任務上超越了許多更大的開源替代方案。一年多前，Spark Capital 領投了 Glaive 350 萬美元的種子輪融資，支持 Sahil 創造商品化 AI 生態系統的願景，在該生態系統中，可以輕鬆地為任何任務訓練專業模型。

透過利用 Glaive 的技術，Reflection 團隊能夠快速生成高品質的合成資料來訓練 Reflection 70B。 Shumer 將開發過程的加速歸功於 Sahil 和 Glaive AI 平台，資料生成只需數小時而不是數週。

根據 Shumer 在給 VentureBeat 的私訊中所述，整個訓練過程花費了三週時間。「我們在三週內訓練了五個版本的模型，」他寫道。「該資料集是完全自定義的，使用 Glaive 的合成資料生成系統構建。」

HyperWrite 是罕見的長島 AI 新創公司

乍看之下，Reflection 70B 似乎憑空出現。但 Shumer 多年來一直致力於 AI 領域。

他於 2020 年與 Jason Kuperberg 共同創立了他的公司，最初名為 Otherside AI。它最初位於紐約長島Melville，一個距離紐約市以東約一小時車程的長島小村莊。

該公司因其代表產品 HyperWrite 而受到關注，最初是用於根據要點來撰寫電子郵件和回覆的 Chrome 擴展程式，但現已發展為處理撰寫論文、摘要文本，甚至組織電子郵件等任務。截止 2023 年 11 月，HyperWrite 擁有兩百萬使用者，並讓 Shumer 和 Kuperberg 兩人登上了富比士年度「30 歲以下 30 人」榜單，最終促使他們和日益壯大的團隊將公司名稱改為 HyperWrite。

HyperWrite 最新一輪融資於 2023 年 3 月披露，獲得了包括 Madrona Venture Group 在內的投資者注資 280 萬美元。憑藉這筆資金，HyperWrite 推出了新的 AI 驅動功能，例如將網頁瀏覽器變成虛擬管家，處理從預訂航班到在 LinkedIn 上尋找求職者等任務。

Shumer 指出，準確性和安全性仍然是 HyperWrite 的首要任務，尤其是在探索複雜的自動化任務時。該平台仍在根據使用者回饋監控和改進其個人助理工具。這種謹慎的方法，類似於嵌入在 Reflection 70B 中的結構化推理和反思，表明 Shumer 致力於 AI 開發的精確性和責任感。

HyperWrite 和 Reflection AI 模型系列的下一步是什麼？

展望未來，Shumer 對 Reflection 系列有更大的計劃。隨著 Reflection 405B 即將推出，他相信它將超越專有或閉源 LLM 模型，如目前全球領先的 OpenAI GPT-4o。

這不僅對 OpenAI 來說是個壞消息——據報導，OpenAI 正在尋求從 Nvidia 和 Apple 等公司籌集大量新的私人投資——對 Anthropic 甚至 Microsoft 等其他閉源模型提供商來說也是個壞消息。

看來，在快速發展的生成式 AI 領域，力量平衡再次發生了變化。

目前，Reflection 70B 的發表象徵著開源 AI 的一個重要里程碑，為開發人員和研究人員提供了一個強大的工具，可與專有模型的功能相媲美。隨著 AI 的不斷發展，Reflection 獨特的推理和錯誤糾正方法可能會為開源模型可以實現的目標設定新的標準。

延伸閱讀：Anthropic發佈其最強大AI模型Claude 3.5，對自然語言的理解更出色
延伸閱讀：Mistral AI 開源釋出強大程式碼生成 AI 模型 Codestral Mamba，挑戰 Transformer 架構霸主地位
延伸閱讀：Meta發布Llama 3.1開源AI模型挑戰行業巨頭！祖克柏力推開源AI的5大理由
延伸閱讀：Google推出最強免費開源AI模型Gemma，與Gemini系出同門、性能超越Llama可在筆電單獨運行
資料來源：venturebeat