人類的聽覺具有神奇能力,聞聲識人、聽聲辨物,往往也能從聲音預測下一個動作,例如當你聽到鑰匙的碰撞聲,會猜想有人即將打開門,聲音能在腦中與各種想法建立連接,是對世界的探索及理解重要的能力。

讓機器獲得人類感官能力,以發展出更聰明的人工智能,一直是主流的看法,如自動駕駛,刷臉,物體識別是以視覺爲主,也有許多科學家投入機器聽覺的研究,廣泛討論的對象是自動語音識別(ASR),常見於智能語音助理,智能音箱等產品,相較於通過機器學習創造出各種新潮的應用,刺激民衆消費,借其之力以改善某些羣體生活上的不便利,或許更能彰顯出 AI 的價值,機器學習改善助聽器,就是一例。

蘋果 AirPods 也想分杯羹?

調研機構 MarketsandMarkets 指出,全球助聽器(含人工耳蝸)市場 2017 年規模大約 69.7 億美元,2020 年預計將成長到 97.8 億美元,接近百億美元水平,需求成長主要來自老年人口增加。而在助聽器領域有所謂的六大品牌,分別是丹麥的 GN ReSound,丹麥 William Demant 集團旗下的 Oticon,瑞士 Phonak 集團旗下的 Sonova,美國Starkey,丹麥Widex,以及從德國西門子分拆出來的 Sivantos,這六家公司就已經佔據了全球超過 9 成的市佔率。

就在兩個月前,Widex 和 Sivantos 宣佈合併,成爲前三大助聽器廠商,預計合併後的集團年銷售額達 16 億歐元。另外,助聽器中使用的芯片則來自三大廠商:高通,恩智浦半導體 NXP(已被高通收購),安森美半導體(ON Semiconductor)。

雖然目前市場由上述六大巨頭所把持,但他們也正面臨着適應數字時代和更多精通技術公司的挑戰,例如很想往醫療領域發展的蘋果也默默嘗試,目標把無線耳塞 AirPods 變成助聽器,在今年開發者大會 WWDC,蘋果釋出iOS12 測試版,用戶啓用 Live Listen 輔助聽力技術後,iPhone就變爲一個指向性麥克風,通過放大聲音,讓 AirPods 變成某種程度的聽力輔助器。

助聽器是屬於一種醫療器材,必須經過完整且漫長的醫事檢驗流程,這往往也是許多電子產品業者想進軍醫療器材會遭遇的挑戰,當然,蘋果也並非過度樂觀,主要是美國在 2017 年 8 月通過一項具指標性意義的新法,美國食品和藥物管理局(FDA)爲中度至輕度聽力受損的人新增加一項“非處方”、也就是可臨櫃購買(OTC,Over-The-Counter)的可穿戴聽力設備類別,同時 FDA 有 3 年的時間來完成 OTC 聽力設備的規章制度。

此類助聽器不同於傳統助聽器需要通過 FDA 醫療器材等級的認證,但仍需要符合 FDA 的監管規章,有些輕度症狀的人未來不需到特定機構進行驗配,可以直接在零售通路購買助聽器,類似老花眼鏡一樣,由於市場商機可期,讓許多電子設備廠商摩拳擦掌展開佈局。

助聽器裏的機器學習

另一方面,現有助聽器仍有許多變革空間,包括聲音品質、使用體驗、價格,使用機器學習來改善現有相關技術,已經是行業興起的趨勢,像是基於深度學習的多模態語音增強、以深度神經網絡分類分離語音和噪聲、以深度學習優化降噪等,都能見到大企業跟初創公司投入,如知名的助聽器品牌Widex、初創企業如由美國俄亥俄州立大學教授汪德亮擔任首席科學家的大象聲科、或是團隊來自芯片公司如聯發科、恩智浦半導體的RelaJet等。

現有助聽器主要有兩個層面的問題,第一個是技術,其次是成本。

助聽器主要由三大元件構成:麥克風、擴大器(amplifier)及接收器。簡單來說,現有絕大多數助聽器的處理流程是前處理+聲音處理+後處理,根據FDA的規定,聲音從助聽器的麥克風收音進來、算法處理、到喇叭播放出聲音,整個流程只有 10 毫秒(ms)的處理時間,之所以有不得超過 10ms 的原因在於聲音延遲太久,容易導致助聽器用戶出現頭暈、不舒服的現象,概念就像是配戴 VR 頭顯一樣,視覺影像的延遲也會導致用戶體驗不佳。

所謂的前處理包括把聲音轉爲數位訊號、降噪等,而後處理的工作則有語音合成等,前、後處理分別會佔用 1~2ms 的時間,扣除之後,只留有 5~6ms 給算法進行聲音處理,正因爲處理的時間相當受限,能做的事就不多,所以過去 20~30 年助聽器的研究多圍繞在移頻、聲音放大、降噪,或是體積的縮小、芯片功耗的減少、增加 2.4 GHz、藍牙無線連結功能等。

圖|現有多數助聽器的處理流程。

說話大聲的人不一定對用戶有意義

再加上,傳統助聽器的設計邏輯較爲過時,助聽器多是針對講話比較大聲的那一個人的聲音放大,但講話比較大聲的人對助聽器佩戴者來說,就代表比較重要嗎?很可能不是,佩戴者或許會更想聽清楚家人、朋友、同事所講的話,所以這種應用場景需求的設想是存在誤解的。此外,助聽器使用的傳統算法多半無法同時分離太多人的聲音。

再來就是價格昂貴,助聽器的價格範圍頗大,依功能、廠牌從 1000~5000 美元不等,除了設備之外,還有耗材如電池的開銷。儘管助聽器的預期使用壽命大約是 5 年,高於一般消費電子產品,但對一般人來說仍是一筆不小的負擔。

RelaJet創始人陳柏儒本身就是一名助聽器的佩戴者,知道聽障者在日常溝通上會遇到何種困擾,痛點是什麼。他就舉例表示,假設在咖啡廳裏,每個人講話的聲音頻率,能量都接近時,就會對聽障者非常困擾,因爲很不容易從助聽器放大的 2D 聲音中專注其中一個人的聲音。另外,一般助聽器多隻能做單一人聲的辨別,有時甚至還會把噪音加強。同時還有產品價格的助聽器成本高低問題,“我配戴的助聽器,一個耳朵就要價 4666 美元,以及每一週花 1 美元更換電池”。

先前任職聯發科的陳柏儒,做的就是芯片設計,基於機器學習開發出一個“人聲分離引擎”,來解決上述的技術性問題,並與在中國國內擔任律師的哥哥陳宥任一起創業,其他核心技術成員都是來自聯發科、恩智浦等知名芯片公司。

傳統的人聲分離作法

過去在多人聲分離領域,大致可歸類兩種作法:

一是採集大量的個人語音音檔,透過聲紋、頻率分離,目前在國際論文上,做到比較好的準確度以 2 人分離或者是 3 人分離爲主。目前這種做法需要花大量的時間做客製化聲音的訓練。

二是透過物理麥克風陣列。主要是透過麥克風擺放的物理性解決問題,基本上用兩隻麥克風就能算出角位差,透過這樣的差距可以設計模型透過聲音的差異去分辨人的聲紋、方向等,但是兩隻麥克風有一個問題就是彼此距離稍微長,所以開始有人研究 3 只以上的策略,來縮小終端裝置的體積,不過普遍來看會有一個問題,當兩個頻率接近、而且站得近的人會不太容易分離,因此分離出來的聲音可能還是會遇上體驗不佳的情形。

雞尾酒派對有機會散場

RelaJet 的技術之所以引人注目,在於他們開發一套神經網絡引擎,直接讓聲音的 PCM 檔進去這個引擎,而輸出也是 PCM 輸出,少掉了上述的前處理和後處理,所以有完整的 10 ms 時間做聲音處理。

例如在“多人”人聲場景下,能把每個人的聲音分離達到 6~8 成的準確度,最初訓練出來的模型只能做到 6 成準確度,後來他們使用生成對抗式網絡(GAN)做補強,近一步提高到 8 成,而剩下的 2 成,原因在於大多數人說話的聲音頻率都很接近,想要百分之百辨識仍有一定難度,但相較於傳統助聽器在多人人聲的環境,分離準確度大概只能做到 3~4 成,效果已經翻了一倍。

另外,陳柏儒表示,不同語言會影響助聽器收音的調教,而且亞洲人的對話中又特別常出現中英文夾雜的特色,這也需要對模型進行特別的訓練,RelaJet 訓練的模型就是鎖定亞洲市場需求。對於近一步技術細節,RelaJet 將在近一個月發表論文,對外公開。

圖| RelaJet 的方案拿掉前處理和後處理,讓聲音直接進入神經網絡引擎

另外,使用機器學習還有一項好處,可以依照特定人聲特徵抽取分離,增加其強度後,以改善吵雜環境裏雞尾酒派對(cocktail party effect)的問題。

英國心理學家Colin Cherry 在 60 年代提出人類聽覺有選擇能力的特質,比如在一個派對上夾雜着衆人談話的聲音、音樂聲、酒杯碰撞聲,但是在這些環境音的干擾下,人類還是可以針對與自己相關或是注意的聲音特別關注,像是當有人喊你的名字,你依舊聽得清楚。因此科學家及行業人士一直希望能突破智能音箱、服務型機器人、甚至是助聽器的雞尾酒派對問題,以改善這些設備的使用體驗。

而 RelaJet 提供了一個方式提升助聽器識別某些人聲的能力,使用者利用手機APP錄製 3~5 秒鐘的聲源,上傳系統進行聲音特徵分析、作爲標註特定人聲後,就會自動把更新後的模型部署到助聽器上,也就是說,用戶可以自訂,針對某些比較有意義的人聲進行特別放大,像是家人、男女朋友,就可以在吵雜的人聲之中相對聽清楚對方的聲音。另一個好處就是無需再跑到醫院調校助聽器,也不用像向傳統助聽器得預錄 2~3 小時的錄音檔,現在只要 3~5 秒就行。“如此可解決一定程度的雞尾酒派對問題”。

至於可以預錄多少人聲,“取決於硬體的資源,資源越多就可以預錄越多人,但是以使用者的需求來說,強化特定 2~3 個人的聲音,大致上就可以滿足,”陳柏儒說。另外,RelaJet 的APP也可以讓用戶切換情境,例如家裏、辦公室,助聽器就會針對個別環境進行較適合的聲音處理細節。

對初創公司來說,要直接與助聽器品牌競爭,是一件困難且漫長的路,不僅醫療儀器驗證時間長,還得打通與醫院、診所等醫療生態圈的關係,RelaJet 清楚自己的強項在於芯片設計+算法,所以他們不做助聽器,而是提供 Turnkey Solution 給助聽器品牌或是醫療設備的芯片商,聲音運算都在 edge 端(也就是助聽器)做即時處理,因此 AI 算法如何做得精簡又準確,但又要做到硬體平臺的驅動,這就是他們比傳統的聲音算法公司更具有優勢的地方。

在 IC設計行業多年的陳柏儒就指出,現有助聽器都是採用高階的芯片,價格偏高,但在這一波機器學習浪潮下,可以通過新式算法提升助聽器的聲音處理的能力,只要搭配使用中階的芯片,就能夠改善整體助聽器的品質,“我們的目標是做到現有助聽器 1/3 的價格,”他說。

圖|RelaJet 執行長陳柏儒(中)、營運長陳宥任(前右一)、與其團隊成員(圖片來源:DT 君)

又一個行業準備被 AI+區塊鏈攪亂

爲什麼助聽器產業發展數十年來改善的程度一直很有限?除了上述提及的技術受限於 10 毫秒的問題之外,還有一個很大的問題,就是研發助聽器的公司拿不到用戶數據。由於醫療數據是十分受到保護、具有高隱私性的資訊,助聽器用戶進行聽力檢查,使用一段時間後,需要把助聽器拿回醫院、聽力中心進行參數調校,這些數據都是留在醫療機構,“所以助聽器公司必須向醫院購買,才能拿到數據以改善產品,但用戶數據往往很昂貴,”RelaJet 聯合創始人陳宥任說。再加上,歐洲的個人隱私保護法案 GDPR 已經上路,也導致醫療數據的取得更加困難。

缺乏用戶反饋,就很難快速改善產品的設計,因此,如何取得用戶的數據,是助聽器品牌一直很想解決的痛點,從去年就開始火爆起來的區塊鏈,強調數據加密安全、不可竄改等特性,正好給了醫療領域一個非常好的機會,有意使用區塊鏈來做醫療數據分享、交易的公司越來越多,像是以太坊聯合創始人Joseph Lubin 創立的 ConsenSys 公司旗下專攻企業區塊鏈方案的 Kaleido 公司宣佈與上海凱峯基因(Caifeng Gene)合作,將搭建一個聯盟區塊鏈以及數據交易平臺,在此平臺上採集並管理發展糖尿病醫學研究的數據。另外,由遺傳學大牛、哈佛大學教授 George Church 共同創立的 Nebula Genomics 的基因測試公司、獲得國內醫藥研發龍頭藥明康德投資的美國AI 製藥公司 Insilico Medicine 都有類似的計劃。

目前 RelaJet 已與助聽器客戶規劃搭建一個區塊鏈平臺,通過區塊鏈的加密特性保護用戶隱私,當用戶“出於自己意願”分享使用數據,就可以獲得 Token 獎勵,不過,平臺上的 Token 並沒有 ICO 的計劃,一方面用戶可以使用這些 Token 免費兌換電池等耗材,另一方面助聽器業者則可以獲得用戶數據及體驗反饋,藉此持續優化產品。

最初RelaJet提出用區塊鏈來保證音檔不被竄改,以及點對點傳到對的人手中,後來在實作與客戶溝通時,發現當前的醫療資料交換缺少高頻次且具備認證的交易系統,區塊鏈正是很好的解法,“助聽器業者對此區塊鏈平臺非常有興趣,目前已經拿下幾個客戶,預計區塊鏈平臺將在明年推出,”陳柏儒指出。

人工智能的聲學應用多偏重在商業價值上的應用,智能音箱、機器人客服,區塊鏈也以金融交易爲主,但這兩項技術的結合應用在醫療領域也逐漸受到重視,除了先天上就需要佩戴助聽器的族羣之外,隨着越來越多國家步入老年化社會,助聽器的需求也呈現上升,人工智能與區塊鏈即將爲這項產品帶來新的變革機會。

相關文章