OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大，實測它如何透過一張照片就解鎖隱藏訊息？

人工智能（AI）的發展日新月異，圖像識別技術也隨之突飛猛進。最近，Chatgpt新增的o3模型展示了其驚人的圖像推理能力，引起了廣泛關注。不過，更引起網友討論的是，o3不僅能辨識照片中的物體，還能根據照片中的細節，推斷出拍攝地點、時間，甚至辨識人物和物件。

而我們也上傳了幾張照片，發現o3的找出照片地點的功力，還真的不是蓋的。

這張照片我們刻意選了不是那麼知名的景點，把GPS地理的附加資訊拿掉，讓他思考的時間久了一點，花了兩分多鐘得到答案，不過答案相當正確。

o3的推理過程：觀察、搜尋、推理、驗證

o3的圖像推理能力並非憑空而來，而是建立在嚴謹的推理過程之上。我們再用另外一個例子來看，並附上他的推理過程。

首先，o3會仔細觀察照片中的每一個細節，包括建築風格、植物種類、地形地貌等。像是以這張照片來說，它會把照片中一些值得注意的「線索」切分出來，以便他進行後續的推理。

然後如果有些部分他覺得不清楚的地方，還可以放大縮小的方式來檢視，甚至如果覺得圖像有模糊不清的地方，還會用影像處理的方式得到更多細節。

接著，它會利用網路搜尋引擎，查找與這些細節相關的訊息。然後，o3會根據搜尋結果進行推理，推斷出可能的拍攝地點和時間。最後，o3會進行驗證，比對照片中的細節與實際情況是否相符，以確保推理的準確性。

以這張圖來說，最終他給的答案是：

不過，很遺憾的是他給的答案是錯的，雖然是在奈良沒有錯，也的確是在寫真美術館附近，但是是在寫真美術館對面的一間屋子，也因此他才會在玻璃門左下方看到對面「紀念館」三個字的倒映文字。但是這樣已經相當厲害了。

我們還是找了一下，正牌的寫真美術館其實是長這樣的。

o3的視覺推理其實有一個很重要的過程，就是把圖片裡頭的元素拆解出來，這個過程就像是把原本用Prompt「文生圖」的過程逆推回去，找到原本的prompt。因此，對於o3來說，其實只要他比對到有一樣的元素，而且重疊的比例越高，基本上就會認為是一致。

o3的應用：不僅僅是地點推測

o3的圖像推理能力不僅僅可以用於推測照片的拍攝地點和時間，還可以應用於其他領域。例如，它可以根據汽車儀表盤的照片，判斷出汽車的品牌和型號；它可以根據鳥類的照片，判斷出鳥類的種類；它甚至可以在人群中辨識出特定的人物。

不過，o3似乎還是有著OpenAI家族一貫對於名人「有所忌諱」的問題，會避免直接講出真人的名字。

o3並非萬能。在某些情況下，它也會出現判斷錯誤。例如，當照片中的特徵不明顯時，或者當照片中的場景與其他地方相似時，o3可能會做出錯誤的推理。此外，o3的推理能力也受到資料庫的限制。如果資料庫中沒有相關的訊息，o3就無法做出準確的判斷。

o3之所以能夠具備如此強大的圖像推理能力，關鍵在於「強化學習」。OpenAI發現，在強化學習中，給模型的思考時間越長，模型的能力也會越強。因此，他們讓AI學會了如何使用工具，以及在什麼時候該使用什麼工具。這使得o3能夠不斷放大圖片，以像素級精度查看圖片的每個角落，觀察到普通人往往忽略的細節，再把所有獲取到的訊息放在網路上搜尋。足夠多的訊息量，足夠長的時間，配合著足夠強大的推理能力，就爆發出了這種驚人的效果。