【一線：360行】語音合成架構師：“看到”你的聲音

兩年前的經歷讓孫濤至今難以忘懷。“有一位抗美援朝的老戰士，很懷念已經過世的老排長。” 語音合成架構師孫濤就和同事錄製了一些老排長在世時的聲音，並通過語音合成技術把老排長留給老戰士的信讀給他聽，老人頓時淚流滿面。

語音合成廣泛應用於播報、客服、導航、虛擬主播、虛擬主持人等等。語音合成有三大關鍵因素：文本內容、發音人音色和說話的韻律節奏。發音人音色的不同在於喉嚨。每個人的喉嚨結構比較固定，如果把它比喻成一個樂器，文本內容和韻律節奏更像是樂譜。語音合成相當於只要掌握了樂器（喉嚨）的基本結構，想要合成什麼樣的語句，只要提供樂譜（文本內容和韻律節奏）就可以了。

“只要收集你說的9句話，就能復刻你的聲音”。語音合成架構師孫濤自信地對中工網記者說。每天，孫濤要處理大量採集來的聲音。看着高低不平的聲波，就像看着即將亮相的樂譜，人工智能是“演奏家”，而他，就是那個“作曲家”。

語音合成需要很多環節，比如聲音的質量、錄製時的環境、數據規整等等，最關鍵的還是如何讓機器通過學習獲得聲音與文本的匹配關係，這是語音架構師花費時間最多的地方。並且，語音跟圖像、文本不一樣，它具有時序性和交互性特點，要求系統具有快速響應用戶的能力，這樣，如何更好地完成時序模型系統的設計是考驗一名語音架構師是否合格的因素之一。

“以前客戶服務電話的拒接率很高，大家一聽就知道這不是真人，從情感上就不想交流。” 人工智能的快速發展，語音合成也搭上了這趟順風車。“語音合成的效果提升以後，已經無法分辨接客服電話的是真人還是機器，與客戶溝通的效率也提升了。”孫濤對中工網記者說，語音合成發展到現在已經進步爲個性化的合成，會帶上情感表現，甚至還有一些人文關懷的成分。“語音合成發展的大方向是交互，讓人與人工智能自如地對話。不僅能傳遞信息，也能傳遞情感。”孫濤滿懷憧憬地說。