你是不是也常有需要將會議錄音檔或訪談內容檔轉換為文字的時候,鑑於撰寫逐字稿相當費時費力,這時不妨善用 AI 工具將你的錄音檔轉成文字。而本文要介紹的就是由 OpenAI 團隊推出的自動語音辨識 (ASR) 系統「Whisper」。根據 OpenAI 在 Github 上釋出的說明文件,Whisper 是一個開源的語音識別模型,目前可辨識全球約 96 種語言的語音,並轉換成文字,目前以中文的辨識準確度來說,已稱得上是相當精準的等級,由於 Whisper 是開源技術,事前設定過程中基本上只需要 Google 帳號和指令代碼,下載並安裝到電腦後,就可以不受開發商限制地免費使用,讓使用者可自行在電腦利用 Whisper 來執行語音辨識和轉錄。
Whisper 代碼:!pip install git+https://github.com/openai/whisper.git
Ffmper 安裝代碼:!sudo apt update && sudo apt install ffmpeg
語音轉文字執行代碼:!whisper "檔名(需要替換).mp3" --model medium
步驟 1:登入 Google 帳號、開啟 Google Drive,並點擊左上角「+New」,下拉找到更多,再點擊連接更多 App。
步驟 2:這時會開啟「Google Workspace」應用市場,在搜尋欄位中鍵入並點選「Google Colaboratory」。
步驟 3:點擊「Install」安裝和「Continue」繼續,接著會要求使用 Google 帳號登錄,按照指示完成安裝作業。
步驟 4:下一步在 Google Drive 首頁左上角重新點擊「+New」,在更多選項下點入「Google Colaboratory」應用程式。
步驟 5:開啟後,可先變更檔案名稱,方便後續快速查找與重複使用。
步驟 6:再來,點擊上方欄位的「執行階段」,並選擇「變更執行階段類型」選項。
步驟 7:這時可以選擇不同的運行類型和計算資源,這裡選擇「Python 3」,而「T4 GPU」,並按下「儲存」。
步驟 8:下一步,在視窗右上角可以看到「連線」的字樣,點擊並等待連接成功。
步驟 9:連接完成後便可看到這台電腦的參數,包括 GPU、內存、硬碟等資訊。
步驟 10:接著安裝 Whisper,在中間欄位第一行和第二行分別輸入 Whisper 代碼和 ffmper 安裝代碼,並點擊運行。
步驟 11:安裝完成後,依序「點擊左方的資料夾–選擇上傳檔案–將想要轉錄的 MP3 錄音檔導入」。
步驟 12:點選「+ 程式碼」,並寫入語音轉文字執行代碼,注意檔名和後綴文字要和上傳檔案一致,最後執行即可。
本文同步刊載於 PC home 雜誌
歡迎加入 PC home 雜誌粉絲團!
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!