ChatGPT App重大進化！能看、能聽、還會說，多模態GPT-4V能力細節同時公布

OpenAI連發兩則重量級消息，首先ChatGPT可以看、聽、說了。

新版ChatGPT開啟一種更直觀的對話模式，可以向AI展示正在談論的內容。

像是拍一張照片，詢問如何調整自行車座椅高度。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

官方還給出另一個實用場景：打開冰箱拍一張照片，詢問AI晚餐可以吃什麼，並産生完整菜單。

更新將在接下來的兩周內向ChatGPT Plus訂閱用戶和企業版用戶推出，iOS和Android都支持。

與此同時，多模態版GPT-4V模型更多細節也一併放出。

其中最令人驚訝的是，多模態版早在2022年3月就訓練完了……

看到這裡，有網友言外之意的問：有多少創業公司在剛剛5分鐘之內死掉了？

看聽說皆備，全新對話模式

更新後的ChatGPT行動APP裡，可以直接拍照上傳，並針對照片中的內容提出問題。

像是「如何調整自行車座椅高度」，ChatGPT會給出詳細步驟。

如果你完全不熟悉自行車結構也沒關係，還可以圈出照片的一部分問ChatGPT「說的是這個嗎？」。

就像在現實世界中用手指東西給別人看一樣。

不知道用什麼工具，甚至可以把工具箱打開拍給ChatGPT，它不光能指出需要的工具在左邊，連標籤上的文字也能看懂。

先前得到使用資格的使用者也分享了一些測試結果。

可以分析自動化工作流程圖。

ChatGPT image recognition is here and it is magical! pic.twitter.com/qImph9jVyq
— Muratcan Koylan (@youraimarketer) September 26, 2023

但是沒有認出一張劇照具體出自哪部電影。

語音部分的展示還是上周DALL‧E 3演示的聯動彩蛋。

讓ChatGPT把5歲小朋友幻想中的「超級向日葵刺蝟」講成一個完整的睡前故事。

▲ DALL‧E3展示

ChatGPT這次講的故事文字摘錄如下：

多模態GPT-4V能力大揭秘

結合所有公布的影片展示與GPT-4V System Card中的內容，手快的網友已經總結出GPT-4V的視覺能力大揭秘。

Capabilities of GPT-4V revealed!

Here are some details on the visual recognition capabilities of GPT-4V based on what is mentioned in the system card:

- Object detection: GPT-4V can detect and identify common objects in images, like cars, animals, household items, etc. Its…
— Carlos E. Perez (@IntuitMachine) September 25, 2023

物體檢測：GPT-4V可以檢測和辨識圖像中的常見物體，如汽車、動物、家居用品等。其物體辨識能力在標準圖像資料集上進行了評估。
文字辨識：該模型具有光學字元辨識 (OCR) 功能，可以檢測圖像中的列印或手寫文字並將其轉錄為機器可讀文字。這在文件、標誌、標題等圖像中進行了測試。
人臉辨識：GPT-4V可以定位並辨識圖像中的人臉。它具有一定的能力，可以根據臉部特徵辨識性別、年齡和種族屬性。其臉部分析能力是在 FairFace 和 LFW 等資料集上進行測量的。
驗證碼處理：在解決基於文字和圖像的驗證碼時，GPT-4V顯示出了視覺推理能力。這表明該模型具有進階解謎能力。
地理定位：GPT-4V 具有辨識風景圖像中描繪的城市或地理位置的能力，這證明模型吸收了關於現實世界的知識，但也代表有洩露隱私的風險。
複雜圖像：該模型難以準確解釋複雜的科學圖表、醫學掃描或具有多個重疊文字元件的圖像。它錯過了上下文細節。

同時也總結了GPT-4V目前的限制。

空間關係：模型可能很難理解圖像中物件的精確空間布局和位置。它可能無法正確傳達物件之間的相對位置。
物件重疊：當圖像中的物件嚴重重疊時，GPT-4V 有時無法區分一個物件的結束位置和下一個物件的開始位置。它可以將不同的物件混合在一起。
背景/前景：模型並不總是準確地感知圖像的前景和背景中的物件。它可能會錯誤地描述物件關係。
遮擋：當圖像中某些物件被其他物件部分遮擋或遮擋時，GPT-4V 可能無法辨識被遮擋的物件或錯過它們與周圍物件的關係。
細節：模型經常會錯過或誤解非常小的物體、文字或圖像中的複雜細節，進而導致錯誤的關係描述。
上下文推理：GPT-4V缺乏強大的視覺推理能力來深入分析圖像的上下文並描述物件之間的隱式關係。
置信度：模型可能會錯誤地描述物件關係，與圖像內容不符。

同時System Card中也重點聲明了「目前在科學研究和醫療用途中性能不可靠」。

另外後續還要繼續研究，是否應該讓模型辨識公眾人物，是否應該允許模型從人物圖像中推斷性別、種族或情感等問題。

有網友已經想好，等更新了要問的第一件事是Sam Altman照片的背包裡裝的是什麼。

那麼，你第一件事要問什麼？

資料來源：