本文轉自:科技日報

“車載助理”“隨行翻譯”“會議記錄員”……

智能語音技術:角色可變換,服務多場景

在2024北京車展上,參觀者觀看一款新能源汽車的智能車控系統演示。

新華社記者 鞠煥宗攝

◎本報記者 都 芃

“關閉車窗、打開空調、降低音樂音量……”在不久前舉辦的2024(第十八屆)北京國際汽車展覽會上,有參觀者坐進展臺上的一輛智能網聯汽車,對着智能車機連續發出多個指令。話音剛落,各項指令一一被車輛準確響應。

近年來,我國智能網聯汽車產業快速發展,汽車智能化程度不斷提升。語音控車正成爲汽車產業發展中廣泛落地的智能場景。

在本次汽車展覽會上,新能源智能網聯汽車是絕對主角。不僅多家品牌展出了搭載最新智能成果的新車型,展會也專門開闢出智駕未來展區,集中展示智能網聯汽車相關技術成果。

參觀體驗了多款智能網聯汽車後,記者發現,各家品牌車型雖然功能不盡相同,但乘客與汽車之間的交互均圍繞語音建立。在語音控車場景下,只需短短一句話,甚至幾個詞,汽車便可根據乘客指令快速作出相應操作。

本次汽車展覽會參展商科大訊飛AI研究院副院長高建清介紹,目前,搭載科大訊飛語音技術的車型可以爲海外車主提供對話快速響應、問題回答準確的語音交互服務,已覆蓋23個主要語種,搭載車型銷往亞洲、歐洲、南美等地的60多個國家和地區。“我們已經與中國汽車‘出海’十強企業中的8家展開合作,助力中國汽車走得更遠。”他說。

除了語音控車場景,翻譯交流也是智能語音技術應用最廣泛的場景之一。在不久前的第四屆中國國際消費品博覽會上,有外國客商拿着國產品牌翻譯機,與在場工作人員你一言我一語地暢聊起來。嘈雜的環境沒有影響翻譯效果的準確性,不同語言得到了快速、準確的翻譯傳達,彷彿一名隨行翻譯就站在身邊。

同樣藉助語音技術實現智能升級的還有會議場景。在數十人蔘加的會議討論中,只需拿出智能錄音筆,放在會議室一角,每個人的發言均可被精準記錄並實現快速轉寫,甚至還可以一鍵生成會議總結,大大減少了人工記錄工作量。除此以外,智能語音技術的典型應用場景還包括智能家居、智慧教育、手機智能助手等。

多場景廣泛應用的背後,是我國智能語音技術近年來的不斷突破。語音輸入最大的挑戰是場景複雜。用戶的輸入場景情況各異,無處不在的噪聲、混響直接影響着語音識別的準確率,進而影響用戶的語音交互體驗。大模型的發展則給智能語音技術帶來了新的前進動力。

高建清介紹,認知大模型的出現,讓自然語言處理類任務的上限大幅提升。結合大語言模型更精準的語義理解和更精細的描述能力,各類語音任務也能快速突破效果上限。

“同時,我們也要結合語音屬性解耦預訓練和語義語音互增強編碼等技術,構建起適用於各類場景的語音大模型,讓智能語音技術賦能更多場景。”高建清說。

相關文章