OpenAI 向部分使用者開放 GPT-4o 語音模式，今秋將擴大至所有付費使用者

美國人工智慧（AI）研究公司 OpenAI 宣佈，即日起開始向部分 ChatGPT Plus 使用者推出 GPT-4o 的語音模式。據 OpenAI 介紹，高級語音模式能提供更自然的即時對話，允許使用者隨時打斷，並能感知和回應使用者的情緒。即時回應和可打斷對話是目前語音助手公認的技術難點。

OpenAI 在今年 5 月推出了新版本大型語言模型 GPT-4o，同時還展示出了語音模式。該公司原定於 6 月底開始逐步向使用者開放語音模式，但最終決定推遲至 7 月發佈。語音模式將於今年秋季向所有 ChatGPT Plus 使用者開放。

OpenAI 週二表示：「通過逐步推出，我們可以密切監控使用情況，並根據實際反饋不斷改進模型的能力和安全性。」該公司還透露，它仍在開發 5 月發佈會期間展示的視訊和螢幕共享功能。這些功能尚未確定推出時間。

因此，語音模式初期的功能將比較有限。例如，ChatGPT 將無法使用電腦視覺功能，該功能可讓聊天機器人通過智慧型手機的鏡頭對使用者的舞蹈動作提供語音反饋。

目前 GPT-4o 語音模式可使用四種預設聲音，Juniper、Breeze、Cove 和 Ember，這些聲音是與付費配音演員合作製作的。

此前，ChatGPT 一款名為 Sky 的女性配音被指與好萊塢明星史嘉蕾喬韓森十分相似。在收到史嘉蕾的律師函後，OpenAI 暫停使用 Sky 語音。

OpenAI 還表示，它已引入了新的過濾器，以確保軟體能夠發現並拒絕某些生成音樂或其他形式的受版權保護的音訊的請求。對於 AI 公司而言，避免陷入法律糾紛已成為格外需要警惕的事項。