網友揭開了 iPhone裡頭 Transformer 大型語言模型的秘密：基於 GPT-2 架構、約有 3400 萬個參數

大型語言模型浪潮下，即使是像蘋果這麼保守的公司，發表會上也一定會提到AI。比如，在今年的 WWDC 上，蘋果就已宣布，全新版本的 iOS 和 macOS 將內建 Transformer 語言模型，以提供帶文字預測功能的輸入法。

不過，蘋果官方對於這個模型提到的細節並不多，聽起來就像是一個神秘的黑盒子一樣。雖然蘋果官方沒有透露更多資訊，但技術愛好者們可坐不住了。

蘋果 Transformer 模型的「秘密」，被一名叫做 Jack Cook 的人給挖出來了

模型架構上，Cook 認為蘋果的語言模型更像是基於 GPT-2 打造的。
在分詞器（tokenizer）方面，Emoji 十分突出。

基於 GPT-2 架構

先來回顧一下蘋果基於 Transformer 的語言模型能在 iPhone、MacBook 等裝置上實現怎樣的功能。

主要體現在輸入法方面。語言模型加持下的蘋果自帶輸入法，可以實現單字預測和糾正的功能。

Jack Cook 具體測試了一下，發現這個功能主要實現的是針對單個詞彙的預測。

模型有時也會預測即將出現的多個單字，但這僅限於句子語義十分明顯的情況，比較類似於 Gmail 里的自動完成功能。

那麼這個模型具體被安裝在了哪里？一番深入挖掘之後，Cook 說：

我在 /System/ Library / LinguisticData / RequiredAssets_en.bundle/ AssetData / en.lm/ unilm.bundle 中找到了預測文字模型。

原因是：

1、unilm.bundle 中的許多檔案在 macOS Ventura（13.5）里並不存在，僅出現在了新版本 macOS Sonoma beta（14.0）里。

2、unilm.bundle 中存在一個 sp.dat 檔案，這在 Ventura 和 Sonoma beta 里都能找到，但 Sonoma beta 的版本中更新了明顯像是分詞器的一組 token。

3、sp.dat 中 token 的數量跟 unilm.bundle 中的兩個檔案 ——unilm_joint_cpu.espresso.shape 和 unilm_joint_ane.espresso.shape 能配對的上。這兩個檔案描述了 Espresso / CoreML 模型中各層的形狀。

因此 Cook 根據 unilm_joint_cpu 中描述的網路結構，推測蘋果的模型是基於 GPT-2 架構打造的：

根據每層大小，Cook 還推測，模型約有 3400 萬個參數，隱藏層大小是 512。也就是說，它比 GPT-2 最小的版本還要小。

Cook 認為，這主要是因為蘋果想要一種不會太耗電，但同時能夠快速、頻繁運作的模型。

蘋果官方在 WWDC 上的說法是，「每點選一個鍵，iPhone 就會運作模型一次」。

不過，這也同時意味著，這個文字預測模型並不能很好地完整續寫句子或段落。

模型架構之外，Cook 還挖出了分詞器（tokenizer）的相關資訊。

他在 unilm.bundle/ sp.dat 裡發現了一組數量為 15000 的 token，值得關注的是，其中包含 100 個 emoji。

Cook 大揭密

儘管這位 Cook 並非蘋果 CEO 的那位，但他的文章一刊登，還是吸引了不少關注。

基於他的發現，網友們熱烈地討論起蘋果在使用者體驗和創新技術應用之間的平衡大法。

而有關 Jack Cook 本人，他學士和碩士畢業於 MIT 的電腦專業，目前正在就讀牛津大學的Internet 社會科學碩士學位。

此外，他曾在 NVIDIA 實習，專注於 BERT 等語言模型的研究。他還是《紐約時報》的自然語言處理高級研發工程師。

這麼厲害的經歷，也難怪他可以挖掘出蘋果 Transformer 模型的秘密。

原文連結：https://jackcook.com/2023/09/08/predictive-text.html

延伸閱讀：Tensor G3 晶片 AI 大升級：Google Pixel 8 可本機運行大型語言模型，計算量提升 150 倍
延伸閱讀：GPT-5 來了？OpenAI 加快訓練多模態大型語言模型 Gobi，打算一舉狙殺 Google Gemini！
延伸閱讀：就算是Meta Llama 2 這類打著「開源」的大旗的AI大模型，也不可能讓AI變得更開放