FB 建議貼文

選取貼文複製成功(包含文章連結)!

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

人工智能(AI)的發展日新月異,圖像識別技術也隨之突飛猛進。最近,Chatgpt新增的o3模型展示了其驚人的圖像推理能力,引起了廣泛關注。不過,更引起網友討論的是,o3不僅能辨識照片中的物體,還能根據照片中的細節,推斷出拍攝地點、時間,甚至辨識人物和物件。

而我們也上傳了幾張照片,發現o3的找出照片地點的功力,還真的不是蓋的。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

這張照片我們刻意選了不是那麼知名的景點,把GPS地理的附加資訊拿掉,讓他思考的時間久了一點,花了兩分多鐘得到答案,不過答案相當正確。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

 

o3的推理過程:觀察、搜尋、推理、驗證

o3的圖像推理能力並非憑空而來,而是建立在嚴謹的推理過程之上。我們再用另外一個例子來看,並附上他的推理過程。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

 

首先,o3會仔細觀察照片中的每一個細節,包括建築風格、植物種類、地形地貌等。像是以這張照片來說,它會把照片中一些值得注意的「線索」切分出來,以便他進行後續的推理。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

然後如果有些部分他覺得不清楚的地方,還可以放大縮小的方式來檢視,甚至如果覺得圖像有模糊不清的地方,還會用影像處理的方式得到更多細節。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

接著,它會利用網路搜尋引擎,查找與這些細節相關的訊息。然後,o3會根據搜尋結果進行推理,推斷出可能的拍攝地點和時間。最後,o3會進行驗證,比對照片中的細節與實際情況是否相符,以確保推理的準確性。

以這張圖來說,最終他給的答案是:

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

不過,很遺憾的是他給的答案是錯的,雖然是在奈良沒有錯,也的確是在寫真美術館附近,但是是在寫真美術館對面的一間屋子,也因此他才會在玻璃門左下方看到對面「紀念館」三個字的倒映文字。但是這樣已經相當厲害了。

我們還是找了一下,正牌的寫真美術館其實是長這樣的。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

o3的視覺推理其實有一個很重要的過程,就是把圖片裡頭的元素拆解出來,這個過程就像是把原本用Prompt「文生圖」 的過程逆推回去,找到原本的prompt。因此,對於o3來說,其實只要他比對到有一樣的元素,而且重疊的比例越高,基本上就會認為是一致。

 

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

 

o3的應用:不僅僅是地點推測

o3的圖像推理能力不僅僅可以用於推測照片的拍攝地點和時間,還可以應用於其他領域。例如,它可以根據汽車儀表盤的照片,判斷出汽車的品牌和型號;它可以根據鳥類的照片,判斷出鳥類的種類;它甚至可以在人群中辨識出特定的人物。

不過,o3似乎還是有著OpenAI家族一貫對於名人「有所忌諱」的問題,會避免直接講出真人的名字。

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

OpenAI 最强推理模型 o3 的「看照片找地點」功能太強大,實測它如何透過一張照片就解鎖隱藏訊息?

o3並非萬能。在某些情況下,它也會出現判斷錯誤。例如,當照片中的特徵不明顯時,或者當照片中的場景與其他地方相似時,o3可能會做出錯誤的推理。此外,o3的推理能力也受到資料庫的限制。如果資料庫中沒有相關的訊息,o3就無法做出準確的判斷。

o3之所以能夠具備如此強大的圖像推理能力,關鍵在於「強化學習」。OpenAI發現,在強化學習中,給模型的思考時間越長,模型的能力也會越強。因此,他們讓AI學會了如何使用工具,以及在什麼時候該使用什麼工具。這使得o3能夠不斷放大圖片,以像素級精度查看圖片的每個角落,觀察到普通人往往忽略的細節,再把所有獲取到的訊息放在網路上搜尋。足夠多的訊息量,足夠長的時間,配合著足夠強大的推理能力,就爆發出了這種驚人的效果。

 

 

janus
作者

PC home雜誌、T客邦產業編輯,曾為多家科技雜誌撰寫專題文章,主要負責作業系統、軟體、電商、資安、A以及大數據、IT領域的取材以及報導,以及軟體相關教學報導。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則