FramePack 讓僅有 6GB 顯卡記憶體的你也能生成60秒AI影片，低階顯卡玩家不再怕影片生成

過去想在本地電腦上生成 AI 影片，一張高階顯卡幾乎是標配，但現在情況有了轉變。來自 GitHub 的 Lvmin Zhang 與史丹佛大學教授 Maneesh Agrawala 合作開發的全新架構 FramePack，成功打破了硬體門檻限制，只需 6GB VRAM 就能生成長達 60 秒的 AI 影片，這項突破有望讓 AI 影片創作不再只是少數人的專利。

傳統架構瓶頸：生成越久，顯卡記憶體吃越兇

在過去的影片擴散模型（video diffusion model）中，每生成一幀畫面，都需依賴先前生成的所有帶噪訊息，這種「逐幀回溯」的方式會導致「時域上下文」長度隨著影片延長而大幅增加，間接拉高顯存消耗。一般來說，若想生成品質稍高、長度較長的影片，至少需要 12GB VRAM，甚至更高，讓許多非專業使用者難以參與。

FramePack 如何打破限制？

FramePack 採用「固定長度時域上下文」的設計，透過一套先壓縮、再統整關鍵幀的多階段技術，將原本逐幀累積的資料壓縮進一個固定大小的「記憶池」中，即使影片持續延長，顯存需求也不會線性增長。實驗顯示，在運行一個 130 億參數的模型時，只需 6GB 顯存即可生成 60 秒的影片段落。

在影片穩定性方面，FramePack 也考慮到常見的「畫質漂移」問題 —— 隨著影片時間拉長，畫面容易出現失真或不連貫的情況。新架構中加入的優化機制，能有效減少這類現象發生，使長片段生成在畫質與內容連貫度上都更有保障。

雖然目前 FramePack 的影格輸出上限約為 30fps，但對多數非商業用戶來說，已足以應付像是短影片、動態表情、GIF、概念視覺等創作用途。

硬體需求與實測效能

目前 FramePack 支援的顯卡為 NVIDIA RTX 30、40、50 系列，需支援 FP16 / BF16 計算。以一張 RTX 4090 為例，啟用 teacache 優化後，生成速度可達 每秒 0.6 幀。FramePack 還支援逐幀預覽畫面，提供即時視覺回饋。Linux 系統已確認可順利運行，Windows 版本則尚未明確說明。

儘管像 RTX 3050 4GB 等入門卡不在支援範圍，但市面上大多數 6GB 顯存以上的 RTX 顯卡都能順利執行此技術。對於無法負擔雲端平台高額訂閱費用的一般創作者來說，FramePack 無疑是一大福音。