研究發現OpenAI的Whisper轉錄工具會「幻聽」，會生成無意義短語或暴力情緒或是冒出一句「謝謝收看」

Whisper 是一種用於語音識別和轉錄的機器學習模型，由 OpenAI 創建，並於 2022 年 9 月首次作為開源軟體發布。 Whisper被一家名為Nabla的公司用於醫療轉錄工具，該公司估計已經轉錄了 700 萬次醫療對話。

根據ABC News報導，有超過 30000 名臨床醫生和 40 個醫療系統在使用該工具。但 Nabla 已經意識Whispe雖然為許多醫院的醫生減少了負擔，但也會出現「幻聽」現象，生成捏造事實的內容。

一組來自康奈爾大學、華盛頓大學和其他機構的研究人員在一項研究中發現，在大約 1% 的轉錄中，Whisper 會產生幻覺，在錄音沉默期間，有時會用暴力情緒或無意義的短語編造整句話。作為研究的一部分，研究人員從 TalkBank 的 AphasiaBank 中收集了音訊樣本，他們注意到，當患有失語症的語言障礙患者說話時，問題尤其常見。

🎷Excited to present our paper, “Careless Whisper: Speech-to-text Hallucination Harms” at @FAccTConference! 🎷We assess Whisper (OpenAI’s speech recognition tool) for transcribed hallucinations that don’t appear in audio input. Paper link: https://t.co/u3JLoZjZ5N, thread 👇 pic.twitter.com/lnUj9molln
— Allison Koenecke (@allisonkoe) June 3, 2024

研究人員之一、康奈爾大學的艾莉森-科內克（Allison Koenecke）在關於該研究的主題中發佈了下面這樣的例子。

研究人員發現，幻覺還包括編造的醫療條件或有時會冒出 YouTube 影片中可能出現的短語，例如「謝謝觀看！」。 (OpenAI 曾經轉錄了超過一百萬小時的 YouTube 內容來訓練 GPT-4）。

這項研究於 6 月份在巴西舉行的電腦械協會 FAccT 會議上發表。目前尚不清楚該研究是否經過同行評審。

OpenAI 發言人 Taya Christianson 通過電子郵件傳送了一份聲明：「我們非常重視這個問題，並在不斷努力改進，包括減少幻覺。對於在我們的 API 平台上使用 Whisper，我們的使用政策禁止在某些高風險決策環境中使用，我們的開源模型也建議不要在高風險領域使用。我們感謝研究人員分享他們的發現。」