
人工智能(AI)的發展日新月異,圖像識別技術也隨之突飛猛進。最近,Chatgpt新增的o3模型展示了其驚人的圖像推理能力,引起了廣泛關注。不過,更引起網友討論的是,o3不僅能辨識照片中的物體,還能根據照片中的細節,推斷出拍攝地點、時間,甚至辨識人物和物件。
而我們也上傳了幾張照片,發現o3的找出照片地點的功力,還真的不是蓋的。
這張照片我們刻意選了不是那麼知名的景點,把GPS地理的附加資訊拿掉,讓他思考的時間久了一點,花了兩分多鐘得到答案,不過答案相當正確。
o3的推理過程:觀察、搜尋、推理、驗證
o3的圖像推理能力並非憑空而來,而是建立在嚴謹的推理過程之上。我們再用另外一個例子來看,並附上他的推理過程。
首先,o3會仔細觀察照片中的每一個細節,包括建築風格、植物種類、地形地貌等。像是以這張照片來說,它會把照片中一些值得注意的「線索」切分出來,以便他進行後續的推理。
然後如果有些部分他覺得不清楚的地方,還可以放大縮小的方式來檢視,甚至如果覺得圖像有模糊不清的地方,還會用影像處理的方式得到更多細節。
接著,它會利用網路搜尋引擎,查找與這些細節相關的訊息。然後,o3會根據搜尋結果進行推理,推斷出可能的拍攝地點和時間。最後,o3會進行驗證,比對照片中的細節與實際情況是否相符,以確保推理的準確性。
以這張圖來說,最終他給的答案是:
不過,很遺憾的是他給的答案是錯的,雖然是在奈良沒有錯,也的確是在寫真美術館附近,但是是在寫真美術館對面的一間屋子,也因此他才會在玻璃門左下方看到對面「紀念館」三個字的倒映文字。但是這樣已經相當厲害了。
我們還是找了一下,正牌的寫真美術館其實是長這樣的。
o3的視覺推理其實有一個很重要的過程,就是把圖片裡頭的元素拆解出來,這個過程就像是把原本用Prompt「文生圖」 的過程逆推回去,找到原本的prompt。因此,對於o3來說,其實只要他比對到有一樣的元素,而且重疊的比例越高,基本上就會認為是一致。
o3的應用:不僅僅是地點推測
o3的圖像推理能力不僅僅可以用於推測照片的拍攝地點和時間,還可以應用於其他領域。例如,它可以根據汽車儀表盤的照片,判斷出汽車的品牌和型號;它可以根據鳥類的照片,判斷出鳥類的種類;它甚至可以在人群中辨識出特定的人物。
不過,o3似乎還是有著OpenAI家族一貫對於名人「有所忌諱」的問題,會避免直接講出真人的名字。
o3並非萬能。在某些情況下,它也會出現判斷錯誤。例如,當照片中的特徵不明顯時,或者當照片中的場景與其他地方相似時,o3可能會做出錯誤的推理。此外,o3的推理能力也受到資料庫的限制。如果資料庫中沒有相關的訊息,o3就無法做出準確的判斷。
o3之所以能夠具備如此強大的圖像推理能力,關鍵在於「強化學習」。OpenAI發現,在強化學習中,給模型的思考時間越長,模型的能力也會越強。因此,他們讓AI學會了如何使用工具,以及在什麼時候該使用什麼工具。這使得o3能夠不斷放大圖片,以像素級精度查看圖片的每個角落,觀察到普通人往往忽略的細節,再把所有獲取到的訊息放在網路上搜尋。足夠多的訊息量,足夠長的時間,配合著足夠強大的推理能力,就爆發出了這種驚人的效果。
- 延伸閱讀:OpenAI 發表全新 AI 模型 o3:可「用圖像思考」,理解手繪草圖與圖表資訊
- 延伸閱讀:OpenAI 的 o3 模型成本大公開!每項任務都燒錢挑戰極限,高昂代價誰來買單?
- 延伸閱讀:OpenAI 為何要將 o3 模型整合至 GPT-5 還免費?DeepSeek可能改變了Altman的想法
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!