超越寶可夢 Pokémon GO！Niantic 開發大型地理空間模型 (LGM)，利用 AR 技術革新 AI 發展 | T客邦

2024.11.21 13:00

ADVERTISEMENT

想像一下，你站在一座熟悉的建築物前，無論是教堂、雕像還是廣場，即使你未曾從所有角度觀察過它，你也能輕易想像它從不同角度的樣貌。這是人類獨有的「空間理解」能力，我們能基於過往經驗填補細節、推斷未知。然而，對於機器而言，這項任務卻異常艱鉅。即使是當今最先進的 AI 模型，也難以想像場景的缺失部分或從新角度觀測。

但這種情況即將改變。空間智慧，將是 AI 模型的下一個「frontier」（新領域）。

Niantic，作為 AR 領域的先驅，正致力於構建「大型地理空間模型 (LGM)」。LGM 將利用大規模機器學習來理解場景，並將其與全球數百萬個場景連結起來，賦予機器如同人類般的空間理解能力。

ADVERTISEMENT

Niantic

Niantic 是一家美國軟體開發公司，以其開發的擴增實境 (AR) 遊戲聞名，最知名的作品是《Pokémon GO》和《Ingress》。

Niantic 成立於 2010 年，最初是 Google 內部的創業公司，後來獨立出來。公司的使命是「利用科技增進人們與世界、彼此之間的互動」。Niantic 相信 AR 技術有潛力創造更有趣、更具互動性的體驗，鼓勵人們探索周遭世界並與他人建立連結。

除了遊戲開發，Niantic 也致力於構建 AR 技術的基礎設施，例如其開發的 Lightship 平台，讓開發者能更輕鬆地創造 AR 體驗。Niantic 的願景是打造一個「真實世界元宇宙」，將數位世界與現實世界融合，創造更豐富、更具互動性的生活體驗。

ADVERTISEMENT

何謂大型地理空間模型 (LGM)？

近年來，大型語言模型 (LLM) 的發展對我們的生活和各個產業產生了不可否認的影響。LLM 透過學習大量的文本數據，展現出驚人的語言理解和生成能力，挑戰了我們對「智慧」的認知。

而 LGM 的目標，則是幫助電腦以同樣先進的方式感知、理解和導航現實世界。如同 LLM 學習文本數據，LGM 則學習大量的地理空間數據：數十億張錨定於精確地理位置的真實世界圖像，這些數據經過模型的萃取和學習，最終形成對空間、結構和物理互動的深度理解。

從文字到 3D，AI 的進化之路

從基於文本的模型到基於 3D 數據的模型，反映了近年來 AI 發展更廣泛的發展軌跡：從理解和生成語言，到解讀和創造靜態和動態圖像（2D 視覺模型），再到如今方興未艾的 3D 物體建模（3D 視覺模型）。

ADVERTISEMENT

LGM 比 3D 視覺模型更進一步，它捕捉的是根植於特定地理位置、具有真實比例的 3D 實體。與生成無比例 3D 資產的 3D 生成模型不同，LGM 與真實世界的比例尺度綁定，能確保精確的尺寸估計。因此，LGM 所代表的是新一代的地圖，而非任意的 3D 資產。

3D 視覺模型或許能夠創造和理解 3D 場景，但 LGM 卻能理解該場景與全球數百萬個場景的地理關係。LGM 賦予機器「地理空間智慧」，使其能夠從先前的觀察中學習，並將知識遷移到新的位置，即使這些位置只有部分被觀察到。

ADVERTISEMENT

LGM 的應用：空間智慧的無限可能

雖然搭載 3D 圖形的 AR 眼鏡距離大規模普及尚需數年，但 LGM 仍有機會與純音訊或 2D 顯示眼鏡整合。LGM 可以引導使用者探索世界、回答問題、提供個人化推薦、輔助導航，並擴增實境世界的互動。

此外，LGM 與 LLM 的整合，將使空間理解和語言理解相結合，讓人們更深入地了解周遭環境，並與其互動。LGM 所帶來的地理空間智慧，還能生成、完善或操控 3D 世界模型，進一步推動 AR 體驗的發展。

除了遊戲領域，LGM 還將廣泛應用於空間規劃與設計、物流、群眾參與和遠程協作等領域。

Niantic 的探索：VPS 與神經地圖

過去五年，Niantic 一直致力於構建「視覺定位系統 (VPS)」。VPS 利用手機拍攝的單張圖像，透過由使用者掃描的 3D 地圖，精確判斷手機的位置和方向。

藉助 VPS，使用者可以公分級的精度將自己定位在真實世界中，並查看與物理環境精確疊合的數位內容。這些內容是永久存在的，即使你離開後，它們仍會留在原地，並可與他人分享。例如，Niantic 最近在 Pokémon GO 中推出了一項名為「Pokémon Playgrounds」的實驗性功能，使用者可以在特定位置放置 Pokémon，其他玩家也能看到並與之互動。

Niantic 的 VPS 建立在使用者掃描的基礎上，這些掃描來自不同的視角、不同的時間，甚至跨越數年，並附帶精確的定位資訊，構成了對世界的高度精細理解。這些數據的獨特之處在於，它們來自行人的視角，涵蓋了汽車無法到達的地方。

目前，Niantic 在全球擁有 1000 萬個掃描地點，其中超過 100 萬個已啟用，可供 VPS 服務使用。每週，Niantic 都會收到約 100 萬份新的掃描數據，每份數據包含數百張獨立圖像。

在 VPS 的研發過程中，Niantic 不僅使用傳統的 3D 視覺技術（如運動恢復結構），還為每個地點構建了一種新型的「神經地圖」。這些基於 Niantic 研究論文 ACE (2023) 和 ACE Zero (2024) 的神經模型，不再使用傳統的 3D 數據結構來表示位置，而是將其隱式編碼在神經網路的可學習參數中。這些網路可以將數千張地圖圖像快速壓縮成精簡的神經表示，並根據新的查詢圖像，提供公分級精度的位置定位。

迄今為止，Niantic 已經訓練了超過 5000 萬個神經網路，其中多個網路可以共同作用於同一個位置。所有這些網路加起來，包含超過 150 兆個參數，並透過機器學習進行優化。

從局部模型到共享理解：LGM 的進化

Niantic 目前的神經地圖，作為 VPS 的一部分，已經是一個可行的地理空間模型。它規模龐大，且已投入實際應用。然而，Niantic 對「大型地理空間模型」的願景，遠不止於目前的獨立局部地圖系統。

完全局部的模型，可能缺乏對其所在位置的完整覆蓋。無論在全球範圍內有多少數據，局部數據往往是稀疏的。局部模型的主要缺陷，是無法推斷超出其觀察範圍的資訊。因此，局部模型只能定位與訓練數據相似的視角。

想像你站在一座教堂後面。假設最近的局部模型只見過教堂的正面入口，那麼它就無法判斷你的位置，因為它從未見過教堂的背面。但在全球範圍內，Niantic 已經見過成千上萬座教堂，它們都被各自的局部模型捕捉下來。儘管每座教堂都不同，但它們仍有許多共同特徵。LGM 正是為了利用這些分散式知識而生。

LGM 將共同資訊提煉到一個全球大型模型中，實現局部模型之間的資訊共享。LGM 能夠內化「教堂」的概念，以及這些建築的常見結構。即使在特定位置，VPS 只繪製了教堂的入口，LGM 也能根據其先前對數千座教堂的觀察，智慧地推測教堂背面的樣貌。因此，即使在 VPS 從未見過的視角和角度，LGM 也能實現前所未有的定位穩健性。

這種全球模型，基於地理空間和視覺數據，構建了對世界的集中式理解。LGM 透過在全球範圍內插值，實現局部推斷。

像人類一樣理解世界

上述過程，與人類感知和想像世界的方式非常相似。人類天生就能辨識先前見過的物體，即使從不同的角度。例如，我們可以輕易地在歐洲古城的蜿蜒街道中找到來時的路，即使我們只見過一次，且方向相反。這需要對物理世界和文化空間的深刻理解，對人類來說輕而易舉，但對傳統的機器視覺技術而言卻極具挑戰性。

這需要掌握一些基本的自然規律：世界由具有實體的物體組成，因此有正面和背面；外觀會隨著時間和季節變化。同時，這也需要大量的文化知識：許多人造物體的形狀遵循特定的對稱規則或其他通用佈局，而這些規則通常與地理區域相關。

早期的電腦視覺研究，試圖破譯這些規則，並將其嵌入到人工設計的系統中。但現在，人們普遍認為，只有透過大規模機器學習，才能實現我們渴望的高度理解。這正是 Niantic 構建 LGM 的目標。

在 Niantic 最近的研究論文 MicKey (2024) 中，我們已經看到了這種令人印象深刻的相機定位能力。MicKey 是一個神經網路，即使在視角劇烈變化的情況下，也能夠定位兩個相機視圖的相對位置。

即使是人類也需要花費一些精力才能判斷的相反視角，MicKey 也能輕鬆應對。MicKey 只使用了 Niantic 數據的一小部分進行訓練，且該數據已向學術界公開，以鼓勵這方面的研究。儘管 MicKey 僅限於雙視圖輸入，且訓練數據相對較少，但它仍然證明了 LGM 的潛力。

顯然，要實現本文所述的地理空間智慧，需要大量的地理空間數據，而這類數據並非所有機構都能獲取。Niantic 每週都會收到超過 100 萬份使用者貢獻的真實世界地點掃描數據，這使得 Niantic 在引領 LGM 發展方面處於獨特地位。

互補的基礎模型：LLM 與 LGM 的協同作用

LGM 的用途，不僅僅是定位。為了準確地解決定位問題，LGM 必須將豐富的幾何、外觀和文化資訊編碼到場景級特徵中。這些特徵將帶來場景表示、操控和創造的新方法。像 LGM 這樣用途廣泛的大型 AI 模型，通常被稱為「基礎模型」。

不同類型的基礎模型將互為補充。LLM 將與多模態模型互動，而多模態模型又將與 LGM 進行通訊。這些系統協同工作，將以任何單一模型都無法實現的方式理解世界。這種互連，正是空間運算的未來——能夠感知、理解和作用於物理世界的智慧系統。

隨著模型的可擴展性不斷提高，Niantic 的目標仍然是引領大型地理空間模型的發展，並在任何地方為使用者提供新穎、有趣且豐富的體驗。如前所述，除了遊戲領域，LGM 還將廣泛應用於空間規劃與設計、物流、群眾參與和遠程協作等領域。

從 LLM 到 LGM，是 AI 進化的又一步。隨著 AR 眼鏡等可穿戴設備的普及，未來的世界作業系統，將依賴於物理現實和數位現實的融合，創造一個以人為中心的空間運算系統。

延伸閱讀：Niantic 宣布與東京都立明治公園合作，將掃描整座公園，並將其重塑為 AR 的遊園地
延伸閱讀：還能在自己家裡建個寶可夢補給站嗎？這要從Ingress開始講起
延伸閱讀：寶可夢遊戲開發商新作《哈利波特：巫師聯盟》台灣正式上線了
資料來源：nianticlabs

ADVERTISEMENT

#擴增實境 #ar #ai #機器學習 #神經網路 #niantic #llm #基礎模型 #大型地理空間模型 #lgm #空間智慧 #vps #視覺定位系統 #3d 視覺模型