ADVERTISEMENT
鴻海研究院宣布成功開發出首款繁體中文AI大型語言模型(LLM)「FoxBrain」,並計劃開源分享,為台灣的AI發展注入強勁動力。這款模型不僅展現了強大的語言理解和推理能力,更針對台灣使用者的語言習慣進行了優化,在數學和邏輯推理測試中表現出色,凸顯了台灣科技人才在AI領域的實力。
FoxBrain的技術亮點與訓練策略
FoxBrain基於Meta Llama 3.1架構,擁有70B參數,並採用了一系列自主研發的技術。首先,團隊建立了24類主題的資料增強方式與品質評估方法,生成了98B tokens高品質中文預訓練資料,確保模型能夠充分理解和掌握繁體中文的細微差別。其次,FoxBrain的上下文處理長度達到128K token,使其能夠處理更長、更複雜的文本,並在理解上下文的基礎上進行更準確的推理。
在訓練過程中,鴻海研究院使用了120張NVIDIA H100 GPU,並透過NVIDIA Quantum-2 InfiniBand網路進行擴展,僅花費約四周的時間完成訓練。相較於其他公司推出的推理模型,FoxBrain以更高的效率和更低的成本,為台灣AI技術發展樹立了新的里程碑。此外,團隊還採用了多節點平行訓練架構,確保訓練過程的高效能和穩定性,並使用獨特的Adaptive Reasoning Reflection技術,訓練模型學會自主推理,使其在數學和邏輯推理方面表現出色。
ADVERTISEMENT
FoxBrain的測試結果與應用前景
在TMMLU+測試資料集中,FoxBrain在大多數領域優於國內相同規模的Llama-3-Taiwan-70B,尤其在數學與邏輯推理方面展現了卓越能力。測試結果顯示,FoxBrain在數學領域較基礎模型Meta Llama 3.1全面提升,並在數學推理能力上超越了Meta目前已推出的同等級模型。雖然與DeepSeek的蒸餾模型仍有些微差距,但表現已相當接近世界領先水準。
FoxBrain的研發,從資料收集、資料清理與擴增、Continual Pre-Training、Supervised Finetuning、RLAIF、Adaptive Reasoning Reflection,以自主研發的方式一步一腳印,穩紮穩打把每一個環節做好,最終在運用有限的算力資源下,仍能達到接近世界頂尖AI大模型的效益。
ADVERTISEMENT
鴻海研究院人工智慧研究所所長栗永徽表示:「近幾個月,推理能力的深化以及GPU的高效運用逐漸成為AI領域發展主流。我們的FoxBrain模型採用高效訓練策略,專注於訓練過程優化而非盲目堆砌算力。通過精心設計的訓練方法和資源優化,我們成功打造出具備強大推理能力的本土AI模型。」
開源共享,推動產業升級
FoxBrain模型雖然起源於鴻海研究院為集團內部應用而設計,未來,鴻海將持續與技術夥伴合作,對外開源分享,擴大FoxBrain模型運用範圍,共同推動AI在製造業、供應鏈管理與智慧決策領域的應用。
鴻海未來將透過導入AI大型語言模型,優化智慧製造、智慧電動車、智慧城市等三大平台的數據分析效率,讓FoxBrain成為驅動智慧應用升級的重要引擎,進一步提升公司營運效益。
ADVERTISEMENT
在模型訓練過程中,NVIDIA公司提供Taipei-1超級電腦的支持以及技術諮詢,使鴻海研究院透過使用NeMo順利完成模型訓練。FoxBrain不僅是鴻海AI研發的重大突破,也為台灣AI產業發展樹立了新的標竿。
FoxBrain的成功開發,不僅證明了台灣科技人才在AI領域的實力,也為台灣AI產業的發展注入了強勁動能。未來,隨著FoxBrain的開源分享,可望在更多場景中發揮影響力,推動企業數智化轉型與全球產業升級。
ADVERTISEMENT