想要跑大型語言模型,一定要先買頂級的電腦、再加一張NVIDIA顯卡才行嗎?或許你不需要把錢包燒光,也有機會拿來跑AI。
EXO Labs最近發佈了一段影片,展示了在一台26年歷史的Windows 98 Pentium II(奔騰2 )PC上運行大型語言模型(LLM)。這台主頻350MHz電腦,成功啟動進入Windows 98系統,隨後EXO啟動了基於Andrej Karpathy的Llama2.c定製的純C推理引擎,並要求LLM生成關於“Sleepy Joe”的故事,令人驚訝的是生成速度相當可觀。
LLM running on Windows 98 PC
— EXO Labs (@exolabs) December 28, 2024
26 year old hardware with Intel Pentium II CPU and 128MB RAM.
Uses llama98.c, our custom pure C inference engine based on @karpathy llama2.c
Code and DIY guide 👇 pic.twitter.com/pktC8hhvva
EXO Labs由牛津大學的研究人員和工程師組成,他們認為,少數大型企業控制AI對文化、真理和社會的其他基本方面是不利的。
因此,EXO希望建立開放的基礎設施,訓練模型,並使任何人在任何地方都能運行它們,這項在Windows 98上的AI展示,展示了即使在資源極其有限的情況下也能完成的事情。
EXO Labs在文章中詳細描述了在Windows 98上運行Llama的過程,他們購買一台舊的Windows 98 PC作為專案的起點基礎,但面臨了許多挑戰。
將資料傳輸到老裝置上就是一個不小的挑戰,他們不得不使用「老式的FTP」透過乙太網路連接埠進行檔案傳輸。
為Windows 98編譯程式碼可能是一個更大的挑戰,EXO找到了Andrej Karpathy的llama2.c,可以總結為「700行純C程式碼,可以運行Llama 2架構模型的推理」,Karpathy曾是特斯拉的AI主管,也是OpenAI的創始團隊成員。
利用這個資源和舊的Borland C++ 5.02 IDE和編譯器(以及一些輕微的調整),程式碼可以被製作成Windows 98相容的可執行檔案並運行,GitHub上有完成程式碼的連結。
使用260K LLM和Llama架構在Windows 98上實現了“35.9 tok/s”的速度,根據EXO的部落格文章表示,升級到15M LLM後,生成速度略高於1 tok/s,Llama 3.2 1B的速度則慢得多,為0.0093 tok/s。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!