「古騰堡計畫」利用文字轉語音技術發布5000本免費有聲讀物

近年來，有聲讀物因其易讀性而大受歡迎，但錄製有聲讀物既困難又昂貴。最近，研究人員展示了一種使用合成文字到語音的自動方法，解決了該技術面臨的諸多問題，使普通使用者也能製作有聲讀物。現在，讀者可以透過古騰堡計畫免費收聽數以千計的經典文學有聲讀物和其他公共領域的資料。微軟和麻省理工學院的研究人員透過文字轉語音軟體對書籍進行掃描，創建了這套書集。

這些文字包括莎士比亞、阿嘉莎·克莉絲蒂、珍·奧斯丁、達文西等人的作品。使用者可以在 Internet Archive、Spotify、Apple Podcasts 和 Google Podcasts 上收聽：

The Project Gutenberg Open Audiobook Collection

GitHub 上提供了用於構建有聲書合集的程式碼：

https://github.com/microsoft/SynapseML

蘋果公司於今年 1 月開始利用自動文字轉語音技術銷售有聲讀物。然而，這一嘗試受到了批評蘋果商業目標的文學界人士和為公司的人工智慧提供訓練的配音演員的質疑。古騰堡的做法由於是開源的，沒有盈利動機，可能會引起不同的反應。

古騰堡計畫花了幾十年的時間建立了一個文字格式的免費文獻庫，供人們免費廣泛使用，但有聲讀物可以讓人們更容易獲取這些資料。有聲讀物對開車、處理多項任務、視力受損、學習閱讀或學習新語言的讀者很有説明。

延伸閱讀：微軟推出語音合成模型 NaturalSpeech2：語音重構更準確，發音不會「棒讀」像機器人

使用傳統方法製作有聲讀物，需要花費時間和金錢請人朗讀整本書。手動錄製每本值得一讀的書的音訊版本並不划算。文字到語音技術更適合古騰堡專案。然而，研究人員的機器學習工具面臨著多重障礙。

第一個也是最重要的一個問題是確定軟體可以解析哪些數位圖書。古騰堡計畫以多種格式收集資料，其中許多文件包含錯誤或不完美的掃描。因此，研究人員將重點放在以 HTML 檔案格式儲存的圖書上，並建立了一個工具（如上圖所示）來發現哪些專案顯示了類似的格式。

延伸閱讀：只要3秒語音合成模型VALL‧E就能完美的模仿任何人的聲音，連環境背景音也能模仿

研究人員解決的另一個問題是確保系統知道哪些文字需要閱讀或忽略。它涉及目錄、頁碼、註腳、表格和其他無關材料等組件。

此外，結果聽起來需要足夠接近自然人的語音。研究人員重點研究了最適合非虛構作品和旁白的聲音表達方式，但使用者也可以調整軟體，嘗試戲劇性的朗讀。

研究人員計畫舉行一次展示，讓使用者用自己的聲音産生有聲讀物。在錄製幾句話訓練演算法後，每個參與者都可以先聽一段樣本，然後再讓軟體朗讀整本書。他們還將透過電子郵件收到有聲讀物的拷貝。使用者可以從合成聲音中進行選擇，定制每本有聲讀物。