ADVERTISEMENT
在人工智慧領域,模型的大小和效率一直是重要的考量因素。微軟研究院推出了一種名為BitNet的新型AI模型,它以極簡的權重設計,在輕量級硬體上實現了令人矚目的效能。
BitNet b1.58 2B4T,號稱是目前規模最大的「1-bit 神經網路模型」,可以不靠 GPU,只在 CPU 上運行,甚至包括蘋果的 M2 晶片都能執行。此模型已在 MIT 授權下開源釋出,代表開發者與研究人員可自由使用與改良。
BitNet 是什麼?效能為何值得關注?
所謂的「BitNet」,是微軟提出一種極致壓縮的 AI 模型架構,透過將神經網路的「權重值」進行極限量化,只保留 -1、0、1 三種可能性。這種作法能夠大幅減少運算所需的記憶體與能源消耗,尤其適合運行在低階裝置、筆電甚至是手機上。
ADVERTISEMENT
這款 BitNet b1.58 2B4T 擁有 20 億個參數,等同主流輕量語言模型的規模,並使用超過 4 兆個 token 的語料(約當 3300 萬本書)進行訓練。根據微軟研究人員的測試結果,BitNet 在多項標準基準測試中表現優異,包括:
-
GSM8K:小學數學題邏輯推理
-
PIQA:常識性物理推理能力
其表現甚至優於同級對手,如:
-
Meta 的 Llama 3.2 1B
-
Google 的 Gemma 3 1B
-
阿里巴巴的 Qwen 2.5 1.5B
實測顯示:速度更快、記憶體需求更低
研究指出,BitNet b1.58 不僅準確率可與主流模型匹敵,在某些任務上推論速度還快上兩倍,同時所需記憶體也顯著減少,對於資源有限的設備極具吸引力。
ADVERTISEMENT
不過,BitNet 的高效運行需仰賴微軟自家打造的推論框架 bitnet.cpp,目前此框架僅支援特定 CPU 架構,暫未支援主流的 GPU 設備。這對於目前以 GPU 為主的 AI 計算生態系來說,是一項明顯限制。
結語:BitNet 展現極高潛力,但仍需解決相容性挑戰
整體而言,微軟 BitNet 展現了低位元量化模型的強大潛力,尤其適合用於邊緣裝置、筆電或沒有 GPU 的環境。然而在相容性與工具鏈普及方面仍面臨挑戰,是否能廣泛應用,還有待時間驗證。
ADVERTISEMENT