微軟發(fā)布最新 Azure 神經網絡語音合成技術 Uni-TTSv3 多語言語音合成模型

來源: 劍客網
作者:IT之家
時間:2021-11-17
16536
日前,微軟發(fā)布最新 Azure 神經網絡語音合成技術 Uni-TTSv3 多語言語音合成模型。與上一代語音合成模型相比,Uni-TTSv3 語音合成保真度更高、速度更快、訓練時間更短,更降本增效。借助 Uni-TTSv3,微軟升級美語合成女聲 Jenny。全新升級的 Jenny Multilingual Neural,擁有跨語言能力,支持 14 個國家和地區(qū)的語言。

日前,微軟發(fā)布最新 Azure 神經網絡語音合成技術 Uni-TTSv3 多語言語音合成模型。與上一代語音合成模型相比,Uni-TTSv3 語音合成保真度更高、速度更快、訓練時間更短,更降本增效。借助 Uni-TTSv3,微軟升級美語合成女聲 Jenny。全新升級的 Jenny Multilingual Neural,擁有跨語言能力,支持 14 個國家和地區(qū)的語言。

  IT之家獲悉,此外,基于 Uni-TTSv3 而構建的深度神經網絡定制語音服務,也擴展了跨語言定制服務功能,客戶只需提供一個語言的錄音數(shù)據(jù)作為語料,即可訓練定制模型同時說多個語言。

  Jenny Multilingual Neural 音頻示例:

  隨著技術不斷迭代,微軟智能語音性能已能媲美真人,并支持超過 110 個國家和地區(qū)的語言,提供超過 270 個神經網絡聲音。為進一步拓寬語音使用場景,滿足各行業(yè)客戶的多元化需求,微軟智能語音也在不斷探索新的服務和能力:

  跨語種語音技術需求:僅用一個音色就能生成同時覆蓋全球用戶的多語言應用需求,譬如在虛擬游戲中創(chuàng)建具有多語言能力的 NPC (Non-Player Character , 非玩家角色),在智能客服等場景中使用多種語言與用戶交談,提升用戶體驗。

  穩(wěn)定高效的平臺需求:使語音模型更加魯棒(robust,系統(tǒng)穩(wěn)定性),即使在定制服務場景中,也可以不受外界環(huán)境影響,穩(wěn)定、高效的處理不同類型的訓練數(shù)據(jù)。

  新一代神經網絡語音合成技術 Uni-TTSv3 的提出,旨在解決上述訴求并完善如下功能:

  保真度高

  Uni-TTSv3 是非自回歸語音合成模型,基于 FastSpeech 2(快速高質量語音合成模型) 構建,通過直接使用真實語音進行訓練,并引入更多有關語速、語調、重音模式等語音變化信息,提高合成語音質量。經行業(yè)公認的、專業(yè)評估語音自然度的 MOS(Mean Opinion Score 平均意見評分)評測結果顯示,智能合成女聲 Jenny Multilingual Neural 的各語種語音平均評分達到 4.2 分以上(總分 5 分),語音保真度高。

Uni-TTSv3 模型結構圖

  多語言通用

  Uni-TTSv3 是強大的多語言語音模型,在多語言和多說話人數(shù)據(jù)集上訓練。Uni-TTSv3 通過訓練來自 50 多個不同地域和口音的發(fā)音人在不同場景下錄制的超過 3,000 個小時的語音數(shù)據(jù),構建多語言通用基礎語音模型,確保 AI 語音在語速、語調和重音模式等不變的情況下演繹多國語言。

  訓練時間更短

  Uni-TTSv3 授權 Azure 語音合成平臺和自定義神經語音支持多語種語音。借助 Uni-TTSv3 升級自定義神經語音訓練管道,支持客戶用更短的訓練時間創(chuàng)建高質量的語音模型。與上一代語音合成模型相比,Uni-TTSv3 調優(yōu)過程簡單,尤其在聲學訓練部分,訓練時間顯著減少 50% 左右,更加降本增效。

  Uni-TTSv3 模型訓練示意圖

  你可以點此鏈接試用體驗 Uni-TTSv3 多語言語音合成模型,并使用微軟 Azure 有聲內容制作平臺制作高質量合成語音。

立即登錄,閱讀全文
版權說明:
本文內容來自于劍客網,本站不擁有所有權,不承擔相關法律責任。文章內容系作者個人觀點,不代表快出海對觀點贊同或支持。如有侵權,請聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼登錄
打開掃一掃, 關注公眾號后即可登錄/注冊
加載中
二維碼已失效 請重試
刷新
賬號登錄/注冊
個人VIP
小程序
快出海小程序
公眾號
快出海公眾號
商務合作
商務合作
投稿采訪
投稿采訪
出海管家
出海管家