2023.07.20 09:00

Meta 發表免費可商用版本的大型語言模型 Llama 2

ADVERTISEMENT

Meta發表免費可商用版本Llama 2。

Llama 2 是Llama 1大模型的延續,在資料品質、訓練技術、能力評估、安全訓練和負責任的發布方面有實質性的技術進步。 

ADVERTISEMENT

在研究共用意願歷史最低,管理困境歷史最高點的當今AI時代,Meta這一步無疑為大模型生態系統帶來了重大進展。 

從技術報告上看,Llama 2的基礎模型比GPT3更強,而微調後聊天模型則能ChatGPT匹敵。相信後續Llama 2將幫助企業實現更多的定制化和降低成本的產品。 

以下是祖克伯在Facebook上發布的關於Llama 2的「宣言」,更是將其稱之為大模型的次世代的產品: 

ADVERTISEMENT

我們正在與微軟合作,推出Llama 2,這是我們開源大語言模型的下一代產品。Llama 2將免費提供給研究者和商業使用者。

Meta一直投身於開源事業,從領先的機器學習框架PyTorch,到像Segment Anything,ImageBind和Dino這樣的模型,再到作為Open Compute Project部分的AI基礎設施。我們一直在推進整個行業的進步,構建更好的產品。 

開源推動了創新,因為它讓更多的開發者能夠使用新技術。同時,軟體開源,意味著更多的人可以審查它,辨識並修復可能的問題,從而提高了安全性。我相信如果生態系統更加開放,將會釋放更多的進步,這就是我們為什麼要開源Llama 2。 

今天,我們發布了預訓練和微調的模型Llama 2,參數分別為70億,130億和700億。Llama 2比Llama 1預訓練的資料多40%,並對其架構進行了改進。對於微調模型,我們收集了超百萬的人類注釋樣本,並應用了有監督的微調和RLHF,在安全性和品質方面是領先的。 

你可以直接下載這些模型,或者透過Azure以及微軟的安全和內容工具訪問這些模型。我們還提供一個最佳化版本,支援Windows本地運行。 

我非常期待看到你們的創新成果! 

對於Llama 2的出現和發布,深度學習三巨頭之一的Yann LeCun表示,這將改變大模型的市場格局。

有網友很快就向Meta發送了申請,並在幾個小時內獲得了許可,已經在使用了:

ADVERTISEMENT

OpenLLM大模型排行榜對Llama 2 進行了關於「Eleuther AI Language Model Evaluation Harness」 中的4個關鍵基準的評估:

ADVERTISEMENT

其中,Llama-2-70b獲得了平均分、科學問題ARC、常識推理HellaSwag等指標的第一名;文本多工準確性MMLU指標被基於Llama-30B 的微調模型Platypus-30B超過;產生的問題答案真實性TruthfulQA (MC)指標位列第8名。

Llama 2的一些關鍵點aw的優勢在哪? 

Meta發布了多個模型,包括7億,13億,34億,70億參數的Llama基礎模型,以及同等規模的Llama變體。Meta將預訓練語料庫的大小增加了40%,將模型的上下文長度增加了一倍,並採用了分組查詢注意力機制(grouped-query attention)。 

具體而言,有以下幾個關鍵點: 

  • 能力:廣泛測試後,在非編碼方面,確定這是第一個能達到ChatGPT水準的開源模型。 
  • 程式碼/數學/推理:論文中關於程式碼資料的討論較少,但有一個模型在某些評價中超越了其他模型。 
  • 多輪一致性:採用了新的方法,Ghost Attention (GAtt),以改善模型的多輪對話一致性。 
  • 獎勵模型:為避免安全性和有用性的權衡,採用了兩個獎勵模型。
  • RLHF過程:採用了兩階段的RLHF方法,強調了RLHF對模型寫作能力的重要影響。
  • 安全性/傷害評估:進行了詳盡的安全評估,並採用了特定的方法以增強模型的安全性。
  • 許可證:模型可供商業使用,但有一定的使用者數量限制,也即日活大於7億的產品需要單獨申請商用許可權。 

Llama 2的技術細節

Huggingface科學家Nathan Lambert在一篇博客也對Llama 2的技術報告進行了解析。

這個模型(Llama 2)與原始的Llama在結構上相似,主要的改變在於資料和訓練過程,以及增加了上下文長度和分組查詢注意力(GQA),且在聊天功能的應用性和推理速度方面有所提高。 

訓練語料庫來自公開資源,不包含Meta的產品或服務的資料。模型在2萬億個資料標記(Token)上訓練,以提高性能並減少錯誤,並盡力刪除含有大量私人資訊的資料。 

論文大部分關於評估和微調,而非創建基礎模型。 

論文接著遵循RLHF流程,訓練一個獎勵模型並使用強化學習(RL)進行最佳化。

此外,技術報告也證實了一點,獎勵模型是RLHF的關鍵,也是模型的關鍵。為了得到一個好的獎勵模型,Meta收集了大量偏好資料,這些資料遠遠超過了開源社群正在使用的資料。

Meta收集二元對比資料,而非其他更複雜類型的回饋。這類似於1-8的Likert量表,但更側重於質性評價如「顯著優於、優於、稍優於或差不多/不確定」。 

他們使用多輪次偏好,模型的回應來自不同的模型訓練階段;Meta的關注點更在於有用性和安全性,而不是誠實度(honesty),在每個資料供應商的資料收集階段使用不同的指令。 

此外,在資料收集過程中,團隊添加了額外的安全中繼資料,顯示每一輪模型的哪些回應是安全的。在建模階段,他們排除了所有「選擇的回應不安全而其他回應安全」的例子,因為他們認為更安全的回應會更受人類喜歡。 

獎勵模型 

研究人員訓練了兩個獎勵模型,一個專注于有益性,另一個專注於安全性。這些模型基於語言模型構建,用線性回歸層替換了原模型頭部。他們始終使用最新的聊天模型,目的是為了減少在RLHF訓練中的分布不匹配。 

一些關鍵的技術細節包括: 

  • 起始獎勵模型基於開來源資料訓練,並用於生成早期供應商數據。 
  • 他們保留了一些Anthropic的無害資料(占他們自己的90%),但沒有給出具體原因。 
  • 他們只訓練一個epoch,防止獎勵模型過擬合。 
  • 獎勵模型的平均準確率在65-70%範圍內,但在"顯著不同"的標籤上,準確率達到80-90%。 

其他有趣的發現: 

  • 在獎勵模型的損失函數中添加了一個margin項(與偏好的置信度成比例),以提高有益性。 
  • 隨著模型的訓練和改進,資料對模型輸出的一致性評價越來越高 
  • 訓練的獎勵模型在評估中表現優於使用GPT-4生成的獎勵模型提示。

 

圖表顯示,獎勵模型的準確性隨著時間的推移有所提高。值得注意的是,儘管OpenAssistant獎勵模型可能沒有得到高度認可,但是GPT-4作為獎勵模型的性能表現為其他模型提供了基準。 

Meta在討論微調結果時提到,獎勵模型的準確性是Llama 2-Chat性能的關鍵指標。這符合人們對RLHF會充分利用獎勵模型知識的理解。 

RLHF和微調 

Meta透過使用RLHF方法來提升模型性能,如下圖所示使用最優秀的獎勵模型來評估各種模型,以此展示RLHF如何將生成的文本推向更高的獎勵。Meta反覆運算訓練了5個RLHF版本,每個版本的資料分布都有所改進。

Meta指出,協力廠商的SFT(有監督微調)資料多樣性和品質往往不足以滿足對話式指令的LLM對齊需求。Meta透過篩選協力廠商資料集中的高品質示例,顯著提高了結果。他們也強調了注釋資料的數量對於再現性的重要性。 

Meta觀察到,不同的注釋平臺和供應商可能會導致模型性能的顯著差異,因此在使用供應商獲取注釋時,資料檢查仍然非常重要。他們的做法是透過對比人類注釋和模型生成的樣本來驗證資料品質。 

在資料品質確立之後,Meta開始關注強化學習(RL)部分。他們發現,即使有熟練的注釋員,每個人的寫作風格也會有很大的差異。一個在SFT注釋上進行微調的模型會學習這種多樣性,但同時也會學習到一些糟糕的注釋。他們指出,模型的性能是由技巧最好的注釋者的寫作能力來限制的。 

Meta確實承認,這個過程需要大量的運算和注釋資源。在整個RLHF階段,獎勵建模資料對於模型改進至關重要。 

結論是,有效的RLHF需要一個中等大小的團隊。雖然一個1-3人的團隊可以發布一個好的指令模型,但實行RLHF可能需要至少6-10人。這個數字會隨著時間的推移而減小,但這種類型的工作需要與外部公司簽訂合約和保持緊密的聯繫,這總是會耗費一些時間。

  • 此外,Meta對比了方法間的基本差異以及它們的使用時機: 
  • 拒絕抽樣(RS)進行更廣泛的搜索(每個提示生成更多的資料),而PPO則對獎勵模型進行更多的更新。 
  • 最終方法之間的差異並不顯著(與WebGPT的發現相似)。 
  • 在RLHFV4中,僅使用了拒絕抽樣,然後在最後一步中使用PPO和拒絕抽樣進行微調(在一些評估中,PPO有輕微的優勢)。

評估

論文以多種方式評估他們的模型。在自動化基準測試中,例如Open LLM Leaderboard(MMLU,ARC等)的首字母縮略詞,Llama 2在所有規模上都比其他任何開源模型要好得多。 

模型在諸如MMLU這樣的不那麼顯眼的基準測試中也得分更高,這是因為他們的大量資料工作和RLHF的調整。然而,他們的模型在與閉源模型的比較中並未表現出色。 

此外,論文還深入研究了當前流行的評估技術,人類注釋者和LLM-as-a-judge由於其普遍性和可用性而受到歡迎。儘管人類評估可能受到一些限制和主觀性的影響,但結果顯示了Meta在開源領域的主導地位。

他們採用了模型作為評判的技術,並用Elo圖展示了RLHF這個隨時間變化的概念,這與Anthropic的AI工作類似。在性能上,他們的模型在RLHFv3之後超過了ChatGPT,這可以在圖中看到PPO方法提供了一定的提升: 

這篇論文進行了多項評估以展示其一般性能力,包括建立獎勵模型。獎勵模型的測試亮點: 

調整獎勵模型分數以適應人類評價者的偏好評估,儘管誤差範圍較大。 

與在開來源資料集上訓練的獎勵模型進行比較,以展示開源領域的可能實現。 

人類/模型評估的亮點:

在ChatGPT和Llama-2-Chat的輸出上評估模型,避免模型因風格偏好而提高自身結果。 

利用評價者間可靠性度量,如Gwet的AC1/2,這些統計工具為此項工作專門設計。 

承認人類評估的限制,包括大型評估提示集未覆蓋所有實際應用,缺少對編碼/推理的評估,只評估最後的對話輪次。

資料來源:

ADVERTISEMENT