科大訊飛AI播報員：中關村論壇年會上的“聲音”擔當

在剛剛落幕的2024年中關村論壇年會上，來自全球100多個國家和地區、150餘家外國政府部門和國際組織機構的上百位頂尖專家、上千名演講嘉賓齊聚一堂，世界的目光聚焦中國，共同見證一場科技創新的盛宴。

全球首個通用人工智能系統原型“通通”、駕馭激光的利器“轉角菱方氮化硼”材料、拓展“心有靈犀”邊界的“北腦二號”智能腦機系統……在2024中關村論壇年會重大成果發佈環節，10項具有創新性、前瞻性、顛覆性的重大科技成果亮相，涉及基礎研究、前沿技術、科技基礎設施等各方面。

“就像是真人在說話一樣。”科大訊飛運用先進的語音合成技術，爲成果亮相視頻環節進行AI配音，爲傳統會議模式帶來了創新突破。

藉助深度學習技術，科大訊飛將文本轉化成擬人化的語音，賦予機器像人一樣自然流暢說話的能力，成爲語音交互、語音翻譯的關鍵接口能力。

作爲人工智能領域的龍頭企業，科大訊飛在智能語音技術領域的深耕已有25年之久。自上世紀90年代開始探索語音領域以來，科大訊飛始終堅持源頭技術創新，連續14年蟬聯國際語音合成大賽冠軍，並在語音識別、機器翻譯等領域多次在國際大賽上奪冠。

如今，科大訊飛不僅將中文語音技術做到了最好，還將多語種語音技術做到了最好。2020年，科大訊飛60個語種的語音識別、翻譯和37個語種的語音合成技術已達到國際領先水平，超越了谷歌、微軟等國際巨頭，達到國際領先水平。2021年，科大訊飛在美國國家標準與技術研究院NIST發起的國際低資源多語種語音識別競賽OpenASR中，獲得全部受限賽道的15個語種冠軍及7個語種非受限賽道冠軍。目前，科大訊飛的多語種技術已經可以滿足60餘種語言的智能語音技術需求。

今年1月份，科大訊飛結合語音屬性解耦、多語種共享建模等技術創新發布訊飛星火語音大模型，在多語種語音識別方面首批37個主流語種效果超過OpenAIWhisperV3。星火語音大模型首批覆蓋語種中，24個主要語種識別率達到了90%，13個重點語種識別率更是超過了94%。在多語種語音合成能力方面，27個主要語種MOS評分達到了4.4，13個重點語種MOS評分高達4.6。

4月26日，訊飛星火大模型V3.5春季上新，科大訊飛發佈業界首個支持長文本、長圖文以及長語音的大模型產品。在此次升級中，面對廣泛的音視頻信息高效獲取需求，科大訊飛推出長語音功能，將語音識別和翻譯技術結合起來，可以實現會議錄音、學習視頻等的一鍵研讀，實現音視頻場景的高效知識獲取。

科大訊飛進一步升級星火語音大模型，首發多情感超擬人合成，情緒表達的可感知度達到85%以上，對高興、抱歉、安慰、撒嬌、困惑等語氣表達更加生動，可以滿足用戶在各種場景下的自我減壓、釋放情緒等需求，並推出一句話聲音復刻功能。

在2024中關村論壇年會上，科大訊飛智能語音技術的出色表現，展示了中國科技企業在人工智能領域的技術實力和創新能力。在科大訊飛等中國企業的努力下，智能語音技術將爲人類帶來更多便捷和智慧，引領科技創新的未來。