Colossal-AI用單張消費級顯示卡，就可以低成本重現ChatGPT完整演算流程，程式現在已開源

首個開源的ChatGPT低成本重現流程來了！

預訓練、獎勵模型訓練、強化學習訓練，一次性打通。

最小demo訓練流程僅需1.62GB視訊記憶體，隨便一張消費級顯示卡都能滿足了。單卡模型容量最多提升10.3倍。

相比原生PyTorch，單機訓練速度最高可提升7.73倍，單卡推理速度提升1.42倍，僅需一行程式碼即可呼叫。對於微調任務，可最多提升單卡的微調模型容量3.7倍，同時保持高速運行，同樣僅需一行程式碼。

要知道，ChatGPT紅是真的紅，但要重現也是真的難。

畢竟ChatGPT是不開源的，市面上至今沒有開源預訓練權重、完全開源的低成本訓練流程，而且千億等級大模型的訓練本身就是個難題。

但ChatGPT軍備賽已經愈演愈烈，為了抓住趨勢，如Google等都在打造對抗的產品。快速重現ChatGPT是應趨勢所需。

開源加速方案Colossal-AI正是為此而來。

並且在提供開源完整重現流程的同時，把成本降了下來！

開源地址：https://github.com/hpcaitech/ColossalAI

降視訊記憶體開銷是關鍵

ChatGPT的效果好，主要是由於在訓練過程中引入了人類回饋強化學習（RLHF），但這也直接導致ChatGPT的重現訓練難度飆升。

其訓練流程主要分為三個階段：

監督微調：從Prompt庫中採樣，收集其人工回答，利用這些資料來微調預訓練大語言模型；
獎勵模型：從Prompt庫中採樣，使用大語言模型生成多個回答，人工對這些回答進行排序後，訓練獎勵模型（RM），來擬合人類的價值判斷。
基於第一階段的監督微調模型和第二階段的獎勵模型，利用強化學習演算法對大語言模型進一步訓練。

▲ RLHF的三個階段

相關文章： ChatGPT怎麼用？瞭解工作中這7種用法，在擔心工作被取代之前不如先學好怎麼用它

對於ChatGPT訓練而言，第三階段是核心部分。

OpenAI採用了強化學習中近端策略最佳化演算法（PPO），借此引入獎勵訊號，使得語言模型產生的內容更加符合人類評判標準。

但強化學習的引入，也意味著更多模型呼叫。

例如，使用基於Actor-Critic（AC）結構的PPO演算法，需要在訓練時進行Actor、Critic兩個模型的前向推理和反向傳播，以及監督微調模型、獎勵模型的多次前向推理。

在ChatGPT基礎的InstructGPT論文中，Actor和監督微調模型都使用了1750億參數的GPT-3系列模型，Critic和獎勵模型則使用了60億參數的GPT-3系列模型。

如此大規模的模型參數，意味著想要啟動原始ChatGPT訓練流程，需要數千GB的視訊記憶體開銷，單張GPU顯然無法容納，常見的資料並行技術也不能搞定。

即便引入張量並行、流水並行對參數進行劃分，也需要至少64張80GB的A100作為硬體基礎。而且流水並行本身並不適合AIGC的生成式任務，bubble和調度複雜會導致效率受限。

相關文章：實戰ChatGPT全攻略：什麼是ChatGPT？ChatGPT怎麼用？

單張消費級顯示卡都能體驗

Colossal-AI基於ZeRO，Gemini, LoRA, Chunk-based記憶體管理等方法，提出了一系列單卡、單機多卡、大規模並行解決方案。

對於基於GPT-3系列模型的ChatGPT，Colossal-AI能用原本一半的硬體資源啟動1750億參數模型訓練，從64卡降低到32卡。

如果繼續用64卡，則將訓練時間壓縮到更短，節省訓練成本、加速產品反覆運算。

而為了能讓更大範圍的開發者體驗重現ChatGPT，除了1750億參數版本外，Colossal-AI還提供單卡、單機4/8卡的類ChatGPT版本，以降低硬體限制。

要知道，在單機多卡伺服器上，即便把顯示卡規格提升為A100 80GB，由於ChatGPT的複雜性和記憶體碎片，PyTorch最大也只能啟動基於GPT-L（774M）這樣的小模型ChatGPT。

用PyTorch原生的DistributedDataParallel (DDP) 進行多卡並行擴充至4卡或8卡，性能提升有限。

Colossal-AI最高可提升單機訓練速度7.73倍，單卡推理速度1.42倍，還可繼續擴大規模並行。

為了盡可能降低訓練成本和上手門檻，Colossal-AI還提供了在單張GPU上即可嘗試的ChatGPT訓練流程。

相比於PyTorch在約50萬元的A100 80GB上，最大僅能啟動7.8億參數模型，Colossal-AI將單卡容量提升10.3倍至80億參數。

對於基於1.2億參數小模型的ChatGPT訓練，最低僅需1.62GB視訊記憶體，任意單張消費級GPU即可滿足。

此外，Colossal-AI也致力於降低基於預訓練大模型的微調任務成本。以ChatGPT可選的開源基礎模型OPT為例，相比PyTorch，Colossal-AI可將提升單卡微調模型容量3.7倍（原始計算量顯著增大），同時保持高速運行。

相關文章： ChatGPT能拿來做什麼？這裡提供20個ChatGPT有趣的用法

一行程式碼快速上手

到了具體操作部分，如上重現流程中的多個步驟，基於Colossal-AI開源方案，都能實現一行程式碼快速上手。

先看模型使用方面。

儘管ChatGPT背後的大語言模型GPT-3.5不開源，但如GPT、OPT、BLOOM等主流開源模型可作為替代。

Colossal-AI為Hugging Face社群的這些模型，提供了開箱即用的ChatGPT重現程式碼，可覆蓋三個階段的訓練。

以GPT為例，添加一行程式碼指定使用Colossal-AI作為系統原則即可快速使用。

from chatgpt.nn import GPTActor, GPTCritic, RewardModel
from chatgpt.trainer import PPOTrainer
from chatgpt.trainer.strategies import ColossalAIStrategy

strategy = ColossalAIStrategy(stage=3, placement_policy='cuda')

with strategy.model_init_context():
    actor = GPTActor().cuda()
    critic = GPTCritic().cuda()
    initial_model = deepcopy(actor).cuda()
    reward_model = RewardModel(deepcopy(critic.model)).cuda()

trainer = PPOTrainer(strategy, actor, critic, reward_model, initial_model, ...)
trainer.fit(prompts)

使用下列命令，即可快速啟動單卡、單機多卡、1750億版本訓練，並測試各種性能指標（包括最大視訊記憶體佔用、吞吐率和TFLOPS等）：

# 使用單機單卡訓練GPT2-S，使用最小的batch size，Colossal-AI Gemini CPU策略
torchrun --standalone --nproc_pero_node 1 benchmark_gpt_dummy.py --model s --strategy colossalai_gemini_cpu --experience_batch_size 1 --train_batch_size 1
# 使用單機4卡訓練GPT2-XL，使用Colossal-AI Zero2策略
torchrun --standalone --nproc_per_node 4 benchmark_gpt_dummy.py --model xl --strategy colossalai_zero2
# 使用4機32卡訓練GPT-3，使用Colossal-AI Gemini CPU策略
torchrun --nnodes 4 --nproc_per_node 8 \
 --rdzv_id=$JOB_ID --rdzv_backend=c10d --rdzv_endpoint=$HOST_NODE_ADDR \
 benchmark_gpt_dummy.py --model 175b --strategy colossalai_gemini_cpu --experience_batch_