蘋果對於AI的態度,外人看來似乎過於保守。像是今年5月,外媒報導蘋果擔心ChatGPT、Copilot等AI工具收集機密資料,禁止員工在工作中使用。今年6月,在蘋果全球開發者大會上,庫克甚至都沒提AI,而是只說「機器學習」。
但如果說蘋果不在意AI,顯然不可能。畢竟追溯到2010年,蘋果就以2億美元的價格收購了Siri團隊(雖然這麼多年過去了,它還是那麼「弱智」)。
今年7月,彭博社報導稱,蘋果內部研發了自己的AI框架Ajax和聊天機器人AppleGPT。其中Ajax基於Google Jax搭建,而AppleGPT則類似於ChatGPT。不過,二者看起來沒有什麼創新之處。
今年10月,蘋果又掏出了開源多模態大型語言模型Ferret,擁有70億和130億兩個參數版本。但因為目前只對研究機構開放,也沒激起什麼浪花。
同樣是10月,彭博社報導稱,蘋果非常「焦慮」,並已啟動一項龐大的追趕計畫。該計畫由機器學習和人工智慧主管John Giannandrea和Craig Federighi領導,服務部門高級副總裁Eddy Cue也參與其中,預算為每年10億美元。
有點諷刺的是,早在2020年,John Giannandrea就在訪談中肯定了蘋果的AI戰略,並表示蘋果不會向外說太多自己的AI能力。
但到底是不能說太多,還是其實沒有太多?總之,太多傳言吊足了大家的胃口。
不過,蘋果在2023年即將結束之時放出的這篇論文,似乎可以看到一點未來的方向。
iPhone裡頭直接裝大型語言模型
這篇論文題為《LLM in a flash:Efficient Large Language Model Inference with Limited Memory》內容提出:蘋果透過一種創新的快閃記憶體利用技術,成功地在記憶體有限的 iPhone 和其他蘋果裝置上部署了LLM,這一成果有望讓更強大的 Siri、即時語言翻譯以及融入攝影和AR的尖端 AI 功能登陸未來 iPhone。
在2024年,這條「大型語言模型+硬體」路線或許會直接改變競爭格局。
先放資料結論。論文顯示,在Flash-LLM技術的加持之下,兩個關鍵領域得到最佳化:
- 減少快閃記憶體傳輸的資料量;
- 讀取更大、更連續的資料區塊。
最佳化之後,裝置能夠支援運行的模型大小達到了自身DRAM的2倍;LLM的推理速度在Apple M1 Max CPU上提高了4-5倍,在GPU上提高了20-25倍。
Flash-LLM是如何做到的呢?採用了兩種主要技術:
- 窗口化技術(windowing):透過重複使用先前啟動的神經元,來戰略性地減少資料傳輸,大大減少了從儲存器(快閃記憶體)到處理器(DRAM)的資料傳輸量。
- 行列捆綁技術(row-column bundling):根據快閃記憶體的時序資料的訪問強度量身定製,增加從快閃記憶體讀取的資料區塊的大小,改變了資料的儲存方式。
舉個「圖書館」的例子。
假設,你拿著列有20本書的書單去圖書館找書,但這家圖書館就像英劇《Black Books》一樣,書本擺放得雜亂無章。你幾乎要從頭走到尾,才能全部定位出你要找的所有書。
想像一下,你找書時,需要「眼睛」和「腦子」相互配合。按照常理,你不會每看到一本書,就從書單裡找對應。因為你的大腦已經「快閃記憶體」了「重點書名」。你要做的,只是從當下視線掃過的範圍內找出書單上的書。
窗口化技術(windowing)就是這樣,相當於先用一個演算法稀疏化 LLM 的權重矩陣,只保留一部分重要的元素,從而減少計算量,提高計算效率。
同時,因為你一共要找20本書,總不能拿一本扔一本,因此你需要一個小推車。行列捆綁技術(row-column bundling)就是這個小推車,幫助每次從快閃記憶體中讀取的資料區塊更大,也提高了資料讀取效率。
速度和大小的雙重突破,或許很快可以讓大型語言模型在iPhone、iPad和其他移動裝置上流暢運行。儘管這種方法也存在一些侷限性,包括主要針對文字生成任務,對其他類型任務的適用性還需進一步驗證,以及處理超大規模模型的能力有限等等。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!