允中 發自 凹非寺

量子位 編輯 | 公衆號 QbitAI

近日,在 第六屆國際權威聲學場景和事件檢測及分類競賽 (Detection and Classification of Acoustic Scenes and Events, DCASE 2020) 中, 騰訊多媒體實驗室 天籟音頻研究團隊首次參加了聲學場景識別 (Acoustic Scene Classification, Task 1) 任務競賽,並從47支來自全球頂尖學術界和工業界的聲學研究隊伍中脫穎而出,取得雙項指標國內第一、國際第二的成績。

此次參賽是騰訊多媒體實驗室領銜美國佐治亞理工大學信號與信息處理中心實驗室,中國科技術大學語音及語言信息處理國家工程實驗室聯合參與,從最終評估的結果上看,在綜合Task 1a (不限制聲學模型大小評估識別性能)與 Task 1b (限制模型大小條件下評估識別性能)兩個任務中,取得了 綜合第一名 的成績,在兩個子任務中分別位列第二名,與第一名分數相比僅差0.3%。

△ Task 1a上的隊伍排名

△ Task 1b上的隊伍排名

DCASE 比賽是由倫敦瑪麗女王大學(Queen Mary University of London)在2013年首次發起的聲學場景識別挑戰,後續由坦佩雷理工大學(Tamper University of Technology)持續發起,近些年引起了國內外衆多尖端聲學研究界的廣泛關注,包括谷歌、紐約大學等。

本次DCASE 2020比賽,共設置六個任務,包括聲學場景識別、異常機器聲音的非監督識別、聲學事件檢測、聲學事件分離、城市聲音標記和自動爲音頻生成標題紀要,吸引了包括亞馬遜、英特爾、高通驍龍等國際公司和清華大學、新加坡南洋理工大學、香港中文大學等頂級高校的共 138個隊伍473個有效系統 參賽。

其中,多媒體實驗室所參加的 聲學場景識別任務 (Task 1),共有47支隊伍與179個提交系統參與,是所有任務中參賽隊伍最多、提交系統最多、競爭程序最激烈的任務。清華大學、北京大學(深圳)、新加坡南洋理工大學等國內外頂級高校,以及高通人工智能研究院(首爾)、 美國 Intel 研究院(加利福尼亞)等知名通信、科技公司均在其中。

Task 1包含了兩個子任務,子任務task 1a的聲學場景識別系統要求識別不同終端設備,比如手機、ipad或其它錄音設備採集的音頻,識別成不同的類別。如下圖(左)所示,將不同設備不同場景採集的信號正確分類成“地鐵站”、“公園”和“公共廣場”。採用不同設備來評估場景識別系統就是爲了驗證系統對多種設備的魯棒性。子任務task 1b的聲學場景識別系統限制性的將模型大小壓縮在500k以內,在此條件下,需要場景識別系統儘可能高效的識別“室內”、“室外”、“交通”這三種常見的聲學大場景。這裏對聲學模型大小提出要求的初衷就是爲了更好地將現有科學研究方法迅速轉換成可以真正意義的落地產品,以克服設備上運行深度學習網絡高CPU消耗的難題。

本次聲學場景識別任務,涵蓋機場、室內購物、地鐵站臺、街道行人、公共廣場等10個通用聲學場景。在現實生活中,這些通用聲學場景,通常同時存在多個聲音,並且會被環境噪聲干擾。此次任務,通過研究來識別真實場景的聲音場景和聲音事件,對於讓聲音場景識別應用落地具有重要意義。

聲學場景識別就是利用機器學習模仿人腦,對周邊的環境進行有效及時的判斷。隨着深度學習的高度演化,聲學場景識別的正確率有了飛躍提升。高識別率的場景識別系統則更進一步擴大其在生活中的應用場景。如智能“嬰兒哭聲”監控,可以有效幫助父母及時照看突然驚醒孩子,“槍聲場景檢測”可以應用在各類安防設備上,“鳥類啼叫場景”檢測可以有效監測自然界生態的變化,“馬路上警笛場景”檢測可提醒路行人及車輛讓出交通空間,“地鐵”場景檢測和“睡眠質量監測”等。

△ 現實生活中的聲學場景識別應用

實際上,DCASE2020的聲學場景識別任務,與多媒體實驗室自研的音視頻實時通信產品——“ 騰訊會議 ”中的聲學場景識別落地應用最爲貼近。基於領先的騰訊天籟音頻解決方案,騰訊會議可以讓不同地點、場景、設備終端同時遠程接入,讓遠程在線溝通可行高效。

但由於不同入會者處的場景環境千變萬化,或在安靜辦公室,或在嘈雜的公共場所,不同場景需要對音頻流進行不同處理。如會議入會方檢測到街道環境,需要對風聲和交通噪音進行處理;如在開重要會議,如果某參會方所處嘈雜聲學場景並忘記關閉麥克風,系統可提醒主持人或自動禁止嘈雜端麥克風;如檢測到音樂場景,則不啓動降噪算法,保證音樂可以高質量的傳輸到對端;如檢測到漏回聲場景,特別是一些移動端設備大音量外放聲音時,可以開啓殘留回聲消除算法。

△ 實時音視頻通信中的聲學場景識別應用

作爲騰訊頂級的科技實驗室之一,騰訊多媒體實驗室將繼續致力於端到端實時語音通信、音頻引擎、音頻處理、音頻場景事件檢測識別等業界領先的人人通信基礎理論,加大在關鍵技術和應用系統的研究和開發的投入,提供基於雲和客戶端的多種行業解決方案,讓聲學場景識別更廣泛落地應用。

版權所有,未經授權不得以任何形式轉載及使用,違者必究。

相關文章