大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

關於 Llama 3,又有測試結果新鮮出爐 —— 大型語言模型評測社區 LMSYS 發佈了一份大型語言模型排行榜單,Llama 3 位列第五,英文單項與 GPT-4 並列第一。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

不同於其他 Benchmark,這份榜單的依據是模型一對一 battle,由全網測評者自行命題並打分。

最終,Llama 3 取得了榜單中的第五名,排在前面的是 GPT-4 的三個不同版本,以及 Claude 3 超大杯 Opus。

而在英文單項榜單中,Llama 3 反超了 Claude,與 GPT-4 打成了平手。對於這一結果,Meta 的首席科學家 LeCun 十分高興,轉發了推文並留下了一個「Nice」。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

PyTorch 之父 Soumith Chintala 也激動地表示,這樣的成果令人難以置信,對 Meta 感到驕傲。

Llama 3 的 400B 版本還沒出來,單靠 70B 參數就獲得了第五名……

我還記得去年三月 GPT-4 發佈的時候,達到與之相同的表現幾乎是一件不可能的事。

……

現在 AI 的普及化實在是令人難以置信,我對 Meta AI 的同仁們做出這樣的成功感到非常驕傲。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

那麼,這份榜單具體展示了什麼樣的結果呢?

近 90 個模型對戰 75 萬輪

截至最新榜單發佈,LMSYS 共收集了近 75 萬次大型語言模型 solo 對戰結果,涉及的模型達到了 89 款。

其中,Llama 3 參與過的有 1.27 萬次,GPT-4 則有多個不同版本,最多的參與了 6.8 萬次。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

下面這張圖展示了部分熱門模型的比拚次數和勝率,圖中的兩項指標都沒有統計平局的次數。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

榜單方面,LMSYS 分成了總榜和多個子榜單,GPT-4-Turbo 位列第一,與之並列的是早一些的 1106 版本,以及 Claude 3 超大杯 Opus。

另一個版本(0125)的 GPT-4 則位列其後,緊接著就是 Llama 3 了。不過比較有意思的是,較新一些的 0125,表現還不如老版本 1106。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

而在英文單項榜單中,Llama 3 的成績直接和兩款 GPT-4 打成了平手,還反超了 0125 版本。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

中文能力排行榜的第一名則由 Claude 3 Opus 和 GPT-4-1106 共享,Llama 3 則已經排到了 20 名以外。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

除了語言能力之外,榜單中還設定了長文字和程式碼能力排名,Llama 3 也都名列前茅。不過,LMSYS 的「遊戲規則」又具體是什麼樣的呢?

人人都可參與的大型語言模型評測

這是一個人人都可以參與的大型語言模型測試,題目和評價標準,都由參與者自行決定。而具體的「競技」過程,又分成了 battle 和 side-by-side 兩種模式。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

battle 模式下,在測試介面輸入好問題之後,系統會隨機呼叫庫中的兩個模型,而測試者並不知道系統到底抽中了誰,介面中只顯示「模型 A」和「模型 B」。

在模型輸出答案後,測評人需要選擇哪個更好,或者是平手,當然如果模型的表現都不符合預期,也有相應的選項。

只有在做出選擇之後,模型的身份才會被揭開。side-by-side 則是由使用者選擇指定的模型來 PK,其餘測試流程與 battle 模式相同

不過,只有 battle 的匿名模式下的投票結果才會被統計,且在對話過程中模型不小心暴露身份就會導致結果失效。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

按照各個模型對其他模型的 Win Rate,可以繪製出這樣的圖像:

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

示意圖,較早版本

而最終的排行榜,是利用 Win Rate 資料,通過 Elo 評價系統換算成分數得到的。

Elo 評價系統是一種計算玩家相對技能水平的方法,由美國物理學教授 Arpad Elo 設計。

具體到 LMSYS,在初始條件下,所有模型的評分(R)都被設定為 1000,然後根據這樣的公式計算出期待勝率(E)。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

隨著測試的不斷進行,會根據實際得分(S)對評分進行修正,S 有 1、0 和 0.5 三種取值,分別對應獲勝、失敗和平手三種情況。

修正演算法如下式所示,其中 K 為係數,需要測試者根據實際情況調整。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

最終將所有有效資料納入計算後,就得到了模型的 Elo 評分。

不過實際操作過程中,LMSYS 團隊發現這種演算法的穩定性存在不足,於是又採用了統計學方法進行了修正。

他們利用 Bootstrap 方法進行重複採樣,得到了更穩定的結果,並估計了置信度區間。

最終修正後的 Elo 評分,就成了榜單中的排列依據。

One More Thing

Llama 3 已經可以在大型語言模型推理平台 Groq(不是馬斯克的 Grok)上跑了。

這個平台的最大亮點就是“快”,之前用 Mixtral 模型跑出過每秒近 500 token 的速度。

跑起 Llama 3,也是相當迅速,實測 70B 可以跑到每秒約 300 Token,8B 版本更是接近了 800。

大型語言模型大亂鬥!近90個模型對戰 75 萬輪,GPT-4 奪冠、Llama 3 位列第五

 

 

 

Qbitai
作者

量子位(Qbitai)專注於人工智慧及前沿科技領域,提供技術研發趨勢、科技企業動態、新創公司報道等最新資訊,以及機器學習入門資源、電腦科學最新研究論文、開源程式碼和工具的相關報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則