微軟全新發(fā)布的多風格、多語言的神經網絡版聲音定制功能(Custom Neural Voice,以下簡稱CNV)是Azure AI Speech文本轉語音(Text to Speech)服務的一項特色功能。用戶可基于此項服務創(chuàng)建一種高度逼真、自然的AI語音,聽感和真人配音演員完全一致。隨著最新功能的發(fā)布,這項語音服務支持多情感的表達并具有跨語言能力。
自推出以來,CNV已經助力AT&T、Progressive、Vodafone、Swisscom、海爾等眾多國內外知名企業(yè)開發(fā)出具有品牌特色的語音解決方案,支持包括語音助手、客服機器人、有聲讀物、語言學習、新聞播報等不同場景,為千百萬聽者帶來愉悅的聽感體驗。
支持更多情感和風格的語音服務,將極大地提升終端用戶使用體驗。通過多風格CNV功能,用戶無需額外添加新的訓練數(shù)據(jù),通過風格轉換(Style Transfer)技術即可創(chuàng)建多風格、多情緒的語音表達。
風格轉換技術,能將一個說話者(源說話者)的語調和韻律(即節(jié)奏、語調、節(jié)奏)應用到另一個說話者(目標說話者)身上。這將使目標說話者采用源說話者的語調和韻律,同時保留自己的音色。
隨著多風格CNV的正式推出,微軟發(fā)布了新的美式英語風格轉換模型,并將該功能擴展到了漢語和日語。
如何創(chuàng)建多風格語音
首先,你需要準備一個大約300多句話的語音樣本(不需要多風格語音數(shù)據(jù))作為其默認風格。
再將準備好的數(shù)據(jù)導入到Speech Studio門戶后,在訓練方法中選擇Neural-multi style(神經網絡-多風格)。
從預設的風格列表中選擇你想要啟用的目標說話風格。如果你有其他風格的錄音數(shù)據(jù),也可以在這一步選擇自己的風格數(shù)據(jù)來創(chuàng)建自定義的說話風格。
多情感模型的訓練時間取決于訓練數(shù)據(jù)的大小、語言和所選擇的風格,可能需要40小時或者更長時間完成。模型創(chuàng)建成功之后,系統(tǒng)會自動生成一批測試音頻,你可以通過這些試聽樣本來測試聲音效果。
效果測試完成之后,把聲音模型部署到云端,你就可以通過音頻內容生成工具(Audio Content Creation)來創(chuàng)建新的音頻了,此過程無需任何編程。如果你是開發(fā)者,你也可以用語音開發(fā)工具包SDK,用代碼把這個聲音集成到自己的app里。通過語音合成標記語言(SSML),你可以切換不同的說話風格,以更好地匹配你的應用場景。
在當今互聯(lián)互通的世界中,開發(fā)人員需要構建能夠覆蓋全球用戶的語音應用程序。借助跨語言遷移學習技術,CNV可以讓你的定制聲音輕松獲得多語言能力,而無需額外添加特定語言的訓練數(shù)據(jù)。該功能已支持數(shù)十種語言。
跨語言模型是一個整體性的單一模型,它使用來自不同說話人和不同語言的數(shù)據(jù)進行訓練??缯Z言模型的基礎是Conformer,它結合了卷積神經網絡(convolution neural networks)和轉換器(transformers),以高效地在數(shù)據(jù)序列中對局部或全局的關聯(lián)性進行建模。
為了解決不同語言數(shù)據(jù)不平衡的問題,微軟采用了數(shù)據(jù)平衡訓練策略,提高低資源語言的模型性能。此外,微軟結合說話者分類器(speaker classifier)對模型進行訓練,最大限度地減少了跨語言說話者之間的相似性損失,并改善跨語言場景中的說話者相似性。新模型可以利用來自L1(母語)說話人的信息,進一步提高跨語言語音的自然程度。
跨語言CNV功能已正式推出以下語言支持:中文(普通話),荷蘭語(荷蘭),英語(澳大利亞),英語(英國),英語(美國),法語(加拿大),法語(法國),德語(德國),印度尼西亞語,意大利語,日語,韓語,葡萄牙語(巴西),俄語,西班牙語(墨西哥),西班牙語(西班牙)。你只需要提供以上某一個語言的錄音數(shù)據(jù),你的定制聲音就能獲得其他所有語言能力。
如何創(chuàng)建多語種語音
在訓練方法中選擇Neural–cross lingual(神經-跨語言)。
選擇你所需要的目標語言。CNV平臺即可將你的AI聲音轉換成為你所選擇的目標語言。
訓練過程需要約20個小時,具體取決于用戶訓練數(shù)據(jù)大小和所選語言。類似地,你可以通過測試樣本來評估聲音效果。
模型部署后,使用目標語言提供文本輸入,就可以合成該語言的語音內容了。你可以同樣選擇通過音頻內容生成工具(Audio Content Creation)或通過語音SDK進行合成服務。
微軟多風格和多語種的神經語音聲音定制(CNV)功能現(xiàn)在Azure國際版推出,對于希望構建與全球用戶無縫交流的語音應用程序的開發(fā)人員來說,是一項具有革命性意義的進步。
定制神經語音是一項有限訪問服務,這是微軟對「負責任的AI」的承諾的一部分。如果你對這項功能感興趣,請掃描下方二維碼申請訪問該技術的權限,并遵循「負責任的AI」部署準則以確保負責任地使用這項功能。