蘋果CSAM麻煩再升級：被爆掃描演算法有嚴重缺陷，且三年前就已經在「偷窺」且未告知使用者

美國時間8月24日，是締造了蘋果公司輝煌傳奇的史蒂夫·賈伯斯卸任 CEO，將大權交給提姆·庫克十週年的日子。

十年過去了，蘋果的財務表現無比優秀，曾經多年保持著世界上最值錢公司的紀錄。然而在名氣和財氣背後，這幾年的蘋果，風評卻越來越差。

蘋果被業界人士曝出一項爭議性極高的新政策：他們打算對使用者從手機上傳到 iCloud 的圖片進行審核，進而辨識兒童色情和虐待內容 (CSAM)，打擊其傳播。

號稱最注重使用者個人隱私的蘋果，就這樣堂而皇之地搖身一變，成了一家隨時隨地都要“偷看”你照片的公司。

自從這項新政宣佈以來，對蘋果不利的情況接連發生，使得 CSAM 掃描事件不斷升級，目前已經基本達到可以稱之為“醜聞”的程度了。

演算法漏洞浮現

首先來個快速前情提要：

美國時間8月5日，約翰霍普金斯大學加密學教授 Matthew Green 曝光蘋果將推出一項用於檢測 CSAM 的技術。這項技術名為 NeuralHash，基本上就是在使用者手機本地和 iCloud/蘋果伺服器雲端，用演算法對使用者圖片和一個第三方 CSAM 資料庫進行HASH值比對。一旦比對成功，蘋果就會遮蔽這張照片，並且不排除後續還會進行報警或通知青少年家長之類的。

這件事被曝出後，這項技術存在的一些應用層面的問題，主要有兩點：

1）所謂只打擊 CSAM 的技術，無法從技術上被限制只針對 CSAM，因為↓

2）此類工具已經在技術上被攻破，使得兩張完全不同的照片，可以實現哈希碰撞（也即擁有相同的哈希值）

自那之後，這項 CSAM 技術又被曝出新的情況，使得醜聞再度升級。

機器學習研究者 Asuhariet Ygvar 發現，NeuralHash 演算法早在 iOS 14.3版本就已經植入到 iPhone 的作業系統里了，並且蘋果還故意混淆了其 API 命名。（而此前蘋果在 CSAM 技術的官網頁面上宣稱，這項技術是新的，計劃在 iOS 15 和 macOS Monterey 正式版推出時才啟動。）

Ygvar 透過逆向工程的方法，成功導出了 NeuralHash 演算法並且將其重新打包為 Python 可執行。這位研究者還在 GitHub 上提供了導出方法，讓其它數據安全人士可以對 NeuralHash 進行更深的探索研究：

（這位研究者沒有提供導出後的成品演算法，顯然是為了避免遭到蘋果的智慧財產權訴訟，這一點稍後會詳述。）

演算法連結：https://github.com/AsuharietYgvar/AppleNeuralHash2ONNX

Ygvar 自己做的早期測試顯示，NeuralHash 演算法對於圖片尺寸和壓縮調整的抗性較好。但如果圖片進行了切割或者旋轉，NeuralHash 就不好用了。這表明，NeuralHash 演算法投入到 CSAM 檢測的實際效果可能會打折。

不出意外，很快就有人實現了對於 NeuralHash 演算法的哈希值碰撞。位於波特蘭的安全研究員 Cory Cornelius 發布了一張狗的照片和另一張灰色亂碼圖片。這兩張看起來毫無關聯的圖片，透過 NeuralHash 演算法計算出的哈希值居然是一模一樣的。

緊接著，最早發布了模型導出方法的 Ygvar，也復現了這次碰撞：

這條 GitHub 留言下方，有人進一步指出，Cornelius 發現的情況，其實比碰撞更嚴重，已經屬於原像攻擊 (pre-image) 的范疇了。

簡單來說，哈希碰撞就是找到兩張哈希值相同的隨機照片，而原像攻擊，你可以將其理解為“刻意產生的碰撞”，也即先給定一張照片，然後產生另一張和其哈希值相同，但內容不同的照片。

緊接著，更多開發者也用同一張照片實現了更多的碰撞：

甚至，有人在 ImageNet（一個備受機器學習人士歡迎，適用範圍超級廣的標注圖片資料庫）里，都能找到天然的 NeuralHash “雙胞胎”。

ImageNet 里的一張釘子照片和一張滑雪板照片，NeuralHash 算出的哈希值相同。另一張斧子的照片和線蟲的圖片，也是天然的 NeuralHash 哈希值“雙胞胎”。

對 NeuralHash 演算法實現原像攻擊，以及天然哈希值雙胞胎的存在，進一步表明：蘋果打算大規模推廣的這個 CSAM 辨識演算法，存在遠比人們想像更嚴重的，有可能被濫用的缺陷。

以下是一種可能性：

你在網上跟某人結仇，他想要報復你。於是他去找了一張 CSAM 照片，然後產生了幾張看起來人畜無害，但是跟原始照片哈希值相同的圖片，發了過來。你的手機將它們辨識成了 CSAM，你被舉報了，警察上門了，那人得逞了。

沒錯，我們完全不需要“設身處地”，把自己當作一個可能傳播色情內容的人。每一個普通人都完全有可能成為技術濫用或是錯誤使用的受害者。如果今天被濫用的是 NeuralHash，而對象碰巧是你，那你的名譽將可能變得不堪一擊。

研究者 Brad Dwyer 表示，盡管上述漏洞存在，目前的早期測試似乎表明，哈希碰撞的發生率和蘋果宣稱的誤報率在相似水平。

但是，Dwyer 也強調，蘋果目前在全球擁有超過15億使用者。這意味著NeuralHash 一旦出現誤報，會對很大數量的使用者造成負面影響。

瞞天過海、封口威脅

在此同時， Epic Games 和蘋果的訴訟仍在進行中，和這兩家公司因為“蘋果稅”、應用商城政策等問題而結下的梁子。

這樁訴訟再次曝出一條和蘋果 CSAM 掃描醜聞有關的猛料：

蘋果反欺詐技術部門“FEAR”（Fraud Engineering Algorithms and Risk）的老大 Eric Friedman在2020年和同事的一段 iMessage 聊天當中是這樣說的：“我們（蘋果）是全世界最大的兒童色情內容分發平台。”

這當然是一句帶有諷刺調侃意味的發言。Friedman 實際表達的是，由於蘋果的隱私安全設計，更多不法分子選擇蘋果通訊產品傳播這些內容。

從表面上來看，這句話似乎是這位工作內容包括打擊兒童色情內容的蘋果高層在用一種苦澀諷刺的方式，來證明蘋果為什麼要做這件事。

但是結合今天關於 CSAM 已經討論的情況，不禁令人感到恐怖：蘋果又是怎麼知道自己平台上有如此多的兒童色情內容，以至於這位高層可以在2020年就下如此斷言呢？難道蘋果在此之前已經在掃描使用者的設備和 iCloud 帳戶了嗎？

一些人開始猜測，這家公司早就在私下掃描了。

在這條證據透過訴訟公開之後，蘋果發言人回應 9to5Mac記者質詢時表示：我們從2019年就已經開始掃描使用者的 iCloud 帳戶了。

（這個時間，比剛才提到包含了 NeuralHash 演算法的 iOS 14.3版本的發布時間，又早了整整整整一年。）

具體來說，蘋果掃描的是使用者的 iCloud Mail，也即使用者注冊 iCloud 帳戶時得到的那個 @iCloud.com 後綴的登錄電子郵箱。

同時蘋果還表示，也在對一些“其它數據”進行同樣的掃描，但拒絕透露具體是哪些數據。該公司宣稱，從未掃描過使用者的 iCloud Photos（雲端相片儲存，iOS 預設開啟的功能）。

▲ 截圖來自 9to5Mac 報導此事件的文章

更令人費解的是，蘋果號稱將使用者隱私至於無上地位，時不時也會用這套說辭去攻擊貶低其它競爭對手（比如 Facebook），卻從未以足夠清晰的方式向使用者告知過它也在掃描使用者隱私數據的情況。

它號稱珍惜使用者的忠誠，所以重視使用者的數據隱私，但現在我們看的越來越清楚，“保護使用者隱私”更像是它採用的一種宣傳口徑。

蘋果當然想要瞞天過海。但當一切再也瞞不住了的時候，它也會不惜透過各種手段去封住別人的口，阻撓第三方揭露它的問題。這一點，沒有任何人比 Corellium 感受的更加深刻。

簡單來說，通路銷售的 iPhone 有一套非常復雜的使用者協議。如果安全研究人士如果要深度分析破解它（且未獲得蘋果的專門許可），這樣的行為就會違反協議。而 Corellium 這家公司提供一種“虛擬化 ARM 架構設備”的服務，包括 iOS 和 Android 設備，讓研究人士可以在電腦上對 ARM 架構的系統和軟體安全性進行研究，而無需購買實體的手機。

於是在2019年，蘋果以違反數位千禧年版權法為由提告了 Corellium。一開始外界擔心，考慮到蘋果強大的法務力量，這個案子的走向最終可能會對安全行業不利。好在去年12月，主審案子的法官下達了一個初步裁決，確定 Corellium 的商業行為並不構成侵犯版權。

今年8月10日，原定開庭日期的一週前，蘋果和 Corellium 突然達成了庭外和解。

這次和解還有一個更加微妙的細節：它發生在蘋果正式宣佈 CSAM 掃描，並且引發科技行業史無前例般巨大爭議的幾天之後。

很明顯，蘋果不希望在這個尷尬的時間點上，這樁懸而未決且對自己不利的案子被行業人士和公眾當作它跟安全行業作對的證據。畢竟，在蘋果官網 CSAM 的介紹頁面上也有提到，蘋果也在和第三方安全專家就 NeuralHash 的有效性和安全性展開合作。蘋果軟體 SVP Craig Federighi 接受採訪時也表示，歡迎安全專家對 CSAM/NeuralHash 進行檢驗。

誰曾想到，這邊剛跟蘋果和解，幾天後，Corellium 就又“欠招”了。

8月17日，Corellium 四週年的這一天，該公司發起了一個“開放安全計劃”，招募安全研究人員，向最優秀的三組申請者提供每組5000美元撥款，以及長達一年的 Corellium 技術工具免費使用權限。

▲ 截圖來源：Corellium 網站