在剛剛落幕的2024年中關村論壇年會上,來自全球100多個國家和地區、150餘家外國政府部門和國際組織機構的上百位頂尖專家、上千名演講嘉賓齊聚一堂,世界的目光聚焦中國,共同見證一場科技創新的盛宴。

全球首個通用人工智能系統原型“通通”、駕馭激光的利器“轉角菱方氮化硼”材料、拓展“心有靈犀”邊界的“北腦二號”智能腦機系統……在2024中關村論壇年會重大成果發佈環節,10項具有創新性、前瞻性、顛覆性的重大科技成果亮相,涉及基礎研究、前沿技術、科技基礎設施等各方面。

“就像是真人在說話一樣。”科大訊飛運用先進的語音合成技術,爲成果亮相視頻環節進行AI配音,爲傳統會議模式帶來了創新突破。

藉助深度學習技術,科大訊飛將文本轉化成擬人化的語音,賦予機器像人一樣自然流暢說話的能力,成爲語音交互、語音翻譯的關鍵接口能力。

作爲人工智能領域的龍頭企業,科大訊飛在智能語音技術領域的深耕已有25年之久。自上世紀90年代開始探索語音領域以來,科大訊飛始終堅持源頭技術創新,連續14年蟬聯國際語音合成大賽冠軍,並在語音識別、機器翻譯等領域多次在國際大賽上奪冠。

如今,科大訊飛不僅將中文語音技術做到了最好,還將多語種語音技術做到了最好。2020年,科大訊飛60個語種的語音識別、翻譯和37個語種的語音合成技術已達到國際領先水平,超越了谷歌、微軟等國際巨頭,達到國際領先水平。2021年,科大訊飛在美國國家標準與技術研究院NIST發起的國際低資源多語種語音識別競賽OpenASR中,獲得全部受限賽道的15個語種冠軍及7個語種非受限賽道冠軍。目前,科大訊飛的多語種技術已經可以滿足60餘種語言的智能語音技術需求。

今年1月份,科大訊飛結合語音屬性解耦、多語種共享建模等技術創新發布訊飛星火語音大模型,在多語種語音識別方面首批37個主流語種效果超過OpenAIWhisperV3。星火語音大模型首批覆蓋語種中,24個主要語種識別率達到了90%,13個重點語種識別率更是超過了94%。在多語種語音合成能力方面,27個主要語種MOS評分達到了4.4,13個重點語種MOS評分高達4.6。

4月26日,訊飛星火大模型V3.5春季上新,科大訊飛發佈業界首個支持長文本、長圖文以及長語音的大模型產品。在此次升級中,面對廣泛的音視頻信息高效獲取需求,科大訊飛推出長語音功能,將語音識別和翻譯技術結合起來,可以實現會議錄音、學習視頻等的一鍵研讀,實現音視頻場景的高效知識獲取。

科大訊飛進一步升級星火語音大模型,首發多情感超擬人合成,情緒表達的可感知度達到85%以上,對高興、抱歉、安慰、撒嬌、困惑等語氣表達更加生動,可以滿足用戶在各種場景下的自我減壓、釋放情緒等需求,並推出一句話聲音復刻功能。

在2024中關村論壇年會上,科大訊飛智能語音技術的出色表現,展示了中國科技企業在人工智能領域的技術實力和創新能力。在科大訊飛等中國企業的努力下,智能語音技術將爲人類帶來更多便捷和智慧,引領科技創新的未來。

相關文章