ADVERTISEMENT
微軟又把Open AI的機密洩露了?在論文中清楚地寫著:o1-preview約300B參數,GPT-4o約200B,GPT-4o-mini約8B……NVIDIA 2024年初發布B200時,就公開表示GPT-4是1.8T MoE也就是1800B,這裡微軟的數字更精確,為1.76T。
ADVERTISEMENT
除此之外,論文中也列出了OpenAI的mini系列,以及Claude 3.5 Sonnet的參數,總結如下:
- o1-preview約300B
- o1-mini約100B
- GPT-4o約200B
- GPT-4o-mini約8B
- Claude 3.5 Sonnet 2024-10-22版本約175B
- 微軟自己的Phi-3-7B,這個不用約了就是7B
雖然論文後面也有免責聲明:
確切數據尚未公開,這裡大部分數字是估計的。
ADVERTISEMENT
但還是有不少人覺得事情沒這麼簡單。
比如為什麼唯獨沒有放Google Gemini模型的參數估計?或許他們對放出來的數字還是有信心的。
ADVERTISEMENT
也有人認為,大多數模型都是在NVIDIA GPU上運行的,所以可以透過token生成速度來估計。只有Google模型是在TPU上運行的,所以不好估計。
ADVERTISEMENT
而且微軟也不是第一次這樣做了。
2023年10月,微軟就在一篇論文裡「意外」曝出GPT-3.5-Turbo模型的20B參數,在後續論文版本中又刪除了這項資訊。
究竟是故意的還是不小心?
微軟這篇論文說了什麼
實際上,原論文介紹了一項與醫學相關的基準測試——MEDEC。
這篇論文12月26日就已經發布,不過是比較垂直領域的論文,可能非相關領域的人不會注意到,直到新年後才被眼尖的網友們發現。
研究起因是,根據美國醫療機構的調查顯示,有五分之一的患者在閱讀臨床筆記時發現了錯誤,而四成患者認為這些錯誤可能影響他們的治療。
另一方面,大型語言模型(LLMs)越來越多地被用於醫學文檔任務(如生成診斷方法)。
因此,MEDEC這次有兩個任務:一是識別並發現臨床筆記中的錯誤;二是還能予以改正。
為了進行研究,MEDEC數據集包含3848份臨床文本,其中包括來自三個美國醫院系統的488份臨床筆記,這些筆記之前未被任何LLM看過。
它涵蓋五種類型的錯誤(診斷、管理、治療、藥物治療和致病因子),這些錯誤類型是透過分析醫學委員會考試中最常見的問題類型選擇的,並由八位醫療人員參與錯誤標註。
而參數洩露就發生在實驗環節。
按照實驗設計,研究者將選取近期主流的大型模型和小型模型來參與筆記識別和糾錯。就在介紹最終選定的模型時,模型參數、發布時間一下子都被公開了。
這項研究得出的結論是:Claude 3.5 Sonnet在錯誤標誌檢測方面優於其他LLM方法,得分為70.16,第二名是o1-mini。
網友:按價格算合理
每一次,與ChatGPT相關的模型架構和參數洩露,都會引起軒然大波,這次也不例外。
2023年10月,微軟論文聲稱GPT-3.5-Turbo只有20B參數的時候,就有人感嘆:難怪Open AI對開源模型這麼緊張。
2024年3月,NVIDIA 確認GPT-4是1.8T MoE,而2000張B200可以在90天內完成訓練的時候,大家認為MoE已經且仍將是大型模型架構的趨勢。
這一次,基於微軟估計的數據,網友們主要有幾個關注點:
- 如果Claude 3.5 Sonnet真的比GPT-4o還小,那Anthropic團隊就擁有技術優勢。
- 以及不相信GPT-4o-mini只有8B這麼小。
不過此前也有人根據推理成本來計算,4o-mini的價格是3.5-turbo的四成,如果3.5-turbo的20B數字準確,那麼4o-mini剛好是8B左右。不過這裡的8B也是指MoE模型的激勵參數。
總之,OpenAI大概是不會公布確切數字了。
先前奧特曼徵集2024年新年願望,最後公布的清單中還有「開源」。2025年的最新版本裡,「開源」已經被去掉了。
論文地址:https://arxiv.org/pdf/2412.19260
ADVERTISEMENT