IT之家1月22日消息 深度神經網絡語音技術(Neural TTS)賦予了合成語音前所未有的自然真實感。近期,微軟在 Azure 雲認知服務上推出的美語合成女聲 Jenny,再次讓我們感受到微軟語音合成的卓越能力。

目前,微軟共計合成深度神經網絡語音 129 個,覆蓋世界 54 個語言。其中,美語合成語音 3 個,擁有多達 7 種不同風格。此前,微軟已經發布了能量充沛的美語男聲 Guy(點此試聽 Guy 默認風格 demo)以及感情豐富的美語女聲 Aria(點此試聽 Aria 默認風格 demo)。近期發佈的美語女聲 Jenny 則是親切溫柔。從錄音到模型訓練,Jenny 的製作均十分精良,其聲音自然度與真人非常接近。評測結果顯示,其 MOS(Mean Opinion Score,平均主觀意見分)得分高於同類產品 0.4 分以上,接近真人水平。

IT之家獲悉,美語合成女聲 Jenny 發音純正,媲美母語使用者。除了適用於各個場景的默認風格(General)之外,Jenny 還擁有新聞朗讀(Newscast)、客服(Customer Service)、語音助手(Assistant)以及閒聊(Chat)等風格。能夠滿足客戶對於純正美語不同音色與風格的多樣要求,適用於如翻譯、朗讀、配音、教學等多種應用場景。

Jenny 聊天風格 demo:

Jenny 客服風格 demo:

Jenny 新聞風格 demo:

微軟不僅關注神經網絡語音的質量和自然度,也同樣注重語言以及語音風格的多樣性。預計微軟將在 AI 語音合成領域爲廣大用戶提供越來越多的優質合成聲音選擇。

相關文章