開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

史丹佛聯手 CMU、UC 柏克萊等機構的學者再次發佈了 130 億參數模型駱馬(Vicuna),僅需 300 美元就能實現 ChatGPT 90% 的性能。

繼 Meta 的 LLaMA 模型開源後,AI 界研究人員就在這個模型基礎上衍生出許多版本。前段時間,史丹佛發佈了 Alpaca,是由 Meta 的 LLaMA 7B 微調而來,僅用了 52k 資料,性能可以與 GPT-3.5 匹敵。

之後史丹佛聯手 CMU、UC 柏克萊等,再次推出一個全新模型 ——130 億參數的 Vicuna,俗稱「小羊駝」(駱馬)。

文章目錄

 

什麼是Vicuna(小羊駝)?

Vicuna是基於Meta 的 LLaMA 模型開源後,在此基礎之上進行微調,而微調則是透過在 ShareGPT 收集的使用者共享對話上對 LLaMA 進行微調訓練而來,訓練成本近 300 美元。

而且更厲害的是,Meta開放原始碼的LLaMA大模型,單卡就能運行。所以理論上,基於LLaMA微調的Alpaca同樣可以輕鬆在本地部署。

沒有顯示卡也沒關係,蘋果筆電甚至樹莓派、手機都可以玩。

研究人員設計了 8 個問題類別,包括數學、寫作、編碼,對 Vicuna-13B 與其他四個模型進行了性能測試。

測試過程使用 GPT-4 作為評判標準,結果顯示 Vicuna-13B 在超過 90% 的情況下實現了與 ChatGPT 和 Bard 相匹敵的能力。

同時,在超過 90% 的情況下勝過了其他模型,如 LLaMA 和史丹佛的 Alpaca。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

團隊成員來自加州大學柏克萊分校、卡內基梅隆大學、史丹佛大學、加州大學聖地亞哥分校和穆罕默德・本・扎耶德人工智慧大學。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

對話實測,功力逼近 90% GPT 3.5

研究人員讓史丹佛的 Alpaca 和 Vicuna 來了一輪大比拚,分別對基準問題回答進行了展示。

在使用 70K 使用者共享的 ChatGPT 對話資料對 Vicuna 進行微調後,研究發現 Vicuna 能夠生成比 Alpaca 更詳細、結構更合理的答案。

問:寫一篇關於最近去夏威夷旅行的有趣的旅遊部落格文章,強調文化體驗和必看景點。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

Alpaca 的回答可以說是一個濃縮版,短短幾行就寫完了,沒有按照要求完成任務。它僅是提到了自己寫了一篇部落格,並對部落格內容做了一個概述。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

再來看 Vicuna,撰寫了一篇詳細且引人入勝的旅行部落格文章,不僅內容有趣,還詳細地介紹了夏威夷的文化體驗和必看景點。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

由此,讓 GPT-4 給打分,Alpaca7 分,Vicuna 滿分。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

那麼和 ChatGPT 對打,Vicuna 的表現又如何呢?

兩者雙雙得了 9 分!

可以看到,這兩個模型提供一次夏威夷之旅的文章不僅引人入勝,而且文筆流暢。

另外,兩個回答中的詳細程度和精準性都很出色,而且兩個模型都有效地傳達了夏威夷之旅的興奮和美麗。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

此外,研究人員還將 Vicuna 與 LLaMA,以及Google的 Bard 模型進行了測試,測試結果顯示,LLaMA 表現最差(1 分),幾乎沒有回應。

Bard 回答的精準性和相關性也是比較高,有 9 分的成績,但是在更具吸引力回答方面,略低於 Vicuna。

除了寫作,研究人員在編碼、數學、角色扮演、常識等方面分別對 Vicuna 模型與其他四個模型的能力進行了對比,總共 80 道題。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

最後,研究人員基於 GPT-4 的初步評估總結如圖所示。可以看到,Vicuna 達到了 Bard / ChatGPT 的 90% 以上的能力。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

由 GPT-4 評估的相對響應品質

有趣的是,在這次 Vicuna 的 demo 中,團隊還加入了 Alpaca 和 LLaMA 的試用,而前者剛被關閉不久。

Demo 地址:https://chat.lmsys.org/

Vicuna模型介紹

ChatGPT 橫空出世讓人興奮不已,但 OpenAI 不 Open 的事實讓圈內人實在懊惱。

恰恰,Meta 的 LLaMA 模型開源,為許多研究人員動手研發自己的模型提供了選擇。

Vicuna-13B 誕生正是受到 LLaMA 和史丹佛 Alpaca 項目的啟發。這是一個基於增強資料集和易於使用、可擴展的基礎設施的開源聊天機器人。

該模型的訓練資料來自於 ShareGPT 收集的使用者分享的對話,然後研究人員通過對 LLaMA 基本模型進行微調,Vicuna-13B 就誕生了。

Vicuna-13B 展示了與其他開源模型(如史丹佛 Alpaca)相媲美的性能。

研究人員對 Vicuna-13B 的性能進行了初步評估,並描述了其訓練和服務基礎設施。

同時,這一模型展示 demo 已經上線,所有研究人員都能參與線上展示互動,以測試這個聊天機器人的能力。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

訓練工作流程概述

對於 Vicuna-13B 訓練流程,具體如下:

首先,研究人員從 ChatGPT 對話分享網站 ShareGPT 上,收集了大約 70K 對話。

接下來,研究人員最佳化了 Alpaca 提供的訓練指令碼,使模型能夠更好地處理多輪對話和長序列。之後利用 PyTorch FSDP 在 8 個 A100 GPU 上進行了一天的訓練。

在模型的品質評估方面,研究人員建立了 80 個不同的問題,並用 GPT-4 對模型輸出進行了評價。

為了比較不同的模型,研究人員將每個模型的輸出組合成一個單獨的提示,然後讓 GPT-4 評估哪個模型給出的回答更好。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

LLaMA、Alpaca、Vicuna 和 ChatGPT 的對比

訓練以及改進

Vicuna 是通過使用來自 ShareGPT 公共 API 收集的約 70K 使用者分享對話資料微調建立的。

為了確保資料品質,研究人員將 HTML 轉換回 markdown,並過濾掉一些不適當或品質較低的樣本。

另外,研究人員將較長的對話劃分為較小的片段,以適應模型的最大上下文長度。

Vicuna 的訓練方法建立在史丹佛的 Alpaca 基礎上,並進行了以下改進:

記憶體最佳化:

為了使 Vicuna 能夠理解長上下文,將最大上下文長度從 Alpaca 的 512 擴展到 2048,這大大增加了 GPU 記憶體需求。在此,研究人員通過使用梯度檢查點和快閃記憶體注意力來解決記憶體壓力。

多輪對話:

通過調整訓練損失以考慮多輪對話,並僅在聊天機器人的輸出上計算微調損失。

通過 Spot 實例降低成本:

40 倍的資料集和 4 倍的序列長度對訓練帶來了相當大的挑戰。研究人員採用 SkyPilot 託管的 Spot 實例來降低成本,通過利用自動恢復搶佔與自動區域切換進而減少成本。

這種解決方案將 7B 模型的訓練成本從 500 美元降低到約 140 美元,將 13B 模型的訓練成本從約 1000 美元降低到 300 美元。

評估

評估 AI 聊天機器人是一項具有挑戰性的任務,因為它需要檢查語言理解、推理和上下文意識。隨著 AI 聊天機器人變得越來越先進,現有的開放基準可能不再足夠。

例如,史丹佛 Alpaca 中使用的評估資料集 self-instruct,可以被 SOTA 聊天機器人有效地回答,這使得人類難以分辨性能差異。更多的限制包括訓練 / 測試資料污染和建立新基準的潛在高成本。

為了解決這些問題,研究人員提出了一個基於 GPT-4 的評估框架,從而實現對聊天機器人性能的自動評估。

首先,通過精心設計的提示,讓 GPT-4 能夠生成多樣化且具有挑戰性的問題。並利用 8 個不同類別共 80 道題,如角色扮演、編碼 / 數學任務等,來測試這些模型(LLaMA、Alpaca、ChatGPT、Bard 和 Vicuna)在不同領域上表現出的性能。

然後,研究人員要求 GPT-4 根據幫助程度、相關性、精準性和細節對答案的品質進行評分。結果顯示,GPT-4 不僅可以產生相對一致的分數,還可以提供詳細的解釋來說明為什麼給出這樣的分數。但是,GPT-4 並不擅長評判編碼 / 數學任務。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

由 GPT-4 評估的響應比較

GPT-4 在超過 90% 的問題中更喜歡 Vicuna,而不是現有的 SOTA 開源模型(LLaMA、Alpaca)。

在 45% 的問題中,GPT-4 認為 Vicuna 的回答和 ChatGPT 差不多甚至更好。

綜合來看,Vicuna 在總分上達到 ChatGPT 的 92%。

開源才是未來!300 美元打造的「平價版ChatGPT」小羊駝真厲害,功力逼近GPT 3.5 還單卡、手機都能跑

Vicuna的能力侷限

研究人員指出,與其他大語言模型類似,Vicuna 也存在著一定的侷限性。

比如,Vicuna 在涉及程式、推理、數學以及事實精準性的任務上表現不佳。

此外,它也沒有經過充分最佳化以保證安全性或減輕潛在的毒性或偏見。

為解決安全方面的問題,研究人員在 demo 中採用了 OpenAI 的審查 API 來過濾掉不適當的使用者輸入。

 

 

參考資料:

 

36Kr
作者

36氪(36Kr.com)累計發表超過10.8萬條包含圖文、音訊、影片在內的優質內容。氪原創內容體系涵蓋新創公司、大公司、投資機構、地方產業與二級市場等內容模組,設置有快訊、深度商業報導

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則