微軟攜手Project Gutenberg利用AI語音技術制作5000本免費有聲書
微新創想(idea2003.com)9月12日 消息:美國 IT 巨頭微軟公司近日與古Project Gutenberg合作,利用人工智能技術為該計劃的電子書庫制作了超過5000本高質量的有聲書。這一項目中,研究人員結合了機器學習、自動文本選擇和自然語音合成等多項 AI 技術,實現了電子書自動轉化為語音的全流程。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
項目團隊首先開發出一種算法,可以自動分析電子書的結構,區分正文和非關鍵部分的頁碼、表格等,然后使用 WaveNet、Tacotron 和 FastSpeech 等前沿的文本轉語音技術,生成類似真人的自然朗讀語音。此外,該團隊還使系統能夠辨別書中敘述者、對話和不同角色,并相應調整語音,實現故事情節的語音表達。
據悉,此次計劃已收集整理了超過35000小時的有聲書語音數據,涵蓋了各類經典文學、戲劇、傳記等作品,這些語音數據都將以開源方式免費提供。用戶甚至可以用自己錄制的少量語音,生成用自己的聲音朗讀整本書的效果。這一項目能極大地豐富有聲書的內容,也為視障人士提供了便利。
Project Gutenberg是免費數字圖書館計劃,用戶可以在其網站免費閱讀和下載超過7萬本電子書。此次與微軟合作制作有聲書,將大幅拓展其免費有聲書數量,為公眾提供便捷的知識獲取渠道。