智能音箱在2018年延續前兩年的熱潮,不過音箱本身並不能創造很大的經濟價值,發展產業鏈纔是未來勝出的重點,智能麥克風與語音處理器是跨產品型態的關鍵零組件,利基型的應用、中文自然語言處理與邊緣運算是我們廠商值得關注的重點。

2014年電商龍頭亞馬遜(Amazon)推出智能音箱Echo之後,經過幾年的經營,在2016、2017年大放異彩,引發一股智能音箱開發風潮,也帶動沉寂已久的智能家居商機,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,還有京東、聯想、阿里巴巴、小米等一線大廠都陸續推出智能音箱,不僅如此,更多二線品牌廠商也趕上這波熱潮,保守估計目前市場上應該有數十款智能音箱品牌,佈局並搶食智能語音應用背後帶動的龐大商機。

智能音箱包括三大部分:硬件、軟件服務、系統平臺。工研院IEK產業分析師陳右怡說明,硬件規格大致包括開關、燈光、語音處理芯片、麥克風數組、喇叭、電池、Wi-Fi/藍牙無線通信模塊、顯示面板等,其中語音處理器與麥克風數組攸關語音輸入質量,也是這波發展過程中較受矚目的關鍵零組件。而軟件服務則是智能音箱的靈魂--智能語音助理,搭配技能(Skills),結合雲端的系統平臺,形成一個完整的產業生態系,以帶動後續的商業模式。

智能音箱投入者衆

根據市場研究機構Strategy Analytics研究指出,2018年智能音箱出貨量接近4,000萬臺,2019年將挑戰6,000萬臺,2022年還要進一步成長至1億6,000萬臺左右,每年都是兩位數的成長率。Samsung繼去年與Microsoft合作推出的Invoke智能音箱後,2018年8月發表自有產品Galaxy Home(圖1),音箱裏有六組擴音喇叭及低音炮,用來提供環繞的播放音效;並內建八組遠場麥克風,可在較大的範圍內接收語音指令,語音助理就是自家的Bixby,不過發表會上擺滿的產品都跟Apple Homepod一樣不能運作,正式上市時間要再等等。

圖1 Samsung 2018年8月發表搭載Bixby智能音箱Galaxy Home,並內建八組遠場麥克風,可在較大的範圍內接收語音指令

整體而言,智能音箱的發展,產品本身並不是最重要的,Amazon Echo最早就定位是中低價產品,99美元的售價到後來衍生的多種產品都不走高價路線,以其現階段市場領導者的身分,也發揮市場帶動的效果,Amazon以電商的角色,不斷擴展產業生態體系,併成爲多數廠商仿效的對象。陳右怡表示,Amazon Echo串連了開發者社羣、汽車服務業、智能裝置、日用品服務、共享/外送服務業、音樂串流服務業等。語音指令在搜尋上,顯然比現有的文字輸入便利,跟據市調機構Gartner的研究,未來50%的各類搜尋,將會利用語音指令的方式呈現。

圖2 鑫創科技產品經理曾建統認爲,通用型的智能音箱主要扮演智能家居控制中樞,需要完整的系統平臺與產業生態系配合

以可以執行的技能而言,Alexa目前高達17,650項,Google Assistant僅有468項,Microsoft Cortana更只有174項。根據OC&C Strategy Consultants調查,擁有智能音箱的美國家庭中62%會使用智能音箱進行語音購物,2017年美國語音購物市場規模約20億美元,預估2022年將達400億美元,5年內翻20倍。由此可知,智能音箱擁有多少“技能”、能否帶動商業模式的發展,纔是其成功的關鍵,這些品牌大廠自然深知要努力將自己的商業模式,轉換延伸到語音應用,並能提供更新、更多的價值纔是發展重點。

經過這幾年的發展,智能音箱已經出現更爲細緻的分衆區隔之路,鑫創科技產品經理曾建統(圖2)認爲,通用型的智能音箱主要目的就在扮演智能家居控制中樞,除了豐富的技能之外,更需要完整的系統平臺與產業生態系加以配合,帶動商業模式的發展,這部分只有資源豐富的大廠具備參賽權。另外,在區域市場與應用上,也發展出許多功能較爲單純,但滿足特殊需求的智能音箱,如廚房針對做菜、車上影音娛樂/唱歌需求的產品,適合中小型廠商切入。

智能麥克風設計眉角多

近來有部分人士指出,智能音箱是過渡型的產品,就像電子書閱讀器一樣曇花一現,不過就實際的發展來看,智能音箱目前呈現百花齊放的狀況,未來不管產品是否持續發展,語音識別成爲重要的人機接口已是不爭的事實,因此不管終端產品型態是甚麼,絕對都少不了智能麥克風與語音處理器,這兩個組件的技術與發展就值得更加深入的觀察。

一般而言,MEMS麥克風由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要求低應力且柔軟,能夠靈敏地感測環境音壓的改變。現行的MEMS麥克風技術均採用聲波致動薄膜和靜態背板,英飛凌(Infineon)提出一個較複雜的雙背板架構,在兩個背板之間嵌入薄膜,也有兩個空氣隙,因此能產生更好的訊號質量,訊噪比(SNR)達70dB,進一步獲得更佳的高頻抗擾性,實現更出色的音頻訊號處理,並將10%總諧波失真(THD)的聲學過載點提升到135dB聲壓位準(SPL)。

智能麥克風除了採用模擬微機電的製程之外,還有采用數字CMOS製程的麥克風,不管是採用MEMS或是CMOS都是利用半導體制程產生震膜以蒐集聲壓,曾建統說明,除了傳統的單背板/單薄膜之外,雙背板/單薄膜、單背板/雙薄膜等改良型的架構都有廠商提出,目的全是爲了強化收音效率的訊噪比。而在系統的設計上,Amazon Echo帶動的多顆麥克風數組設計已成風潮,但效果還是有很大的差異性。

曾建統提醒,智能語音助理硬件的設計,尤其是麥克風數組,並不是硬件照抄就好,在設計時間要針對機構與收音麥克風進行數組算法的調適,同時生產階段也必須提高機構精準度的要求,這兩個重點對語音助理裝置最終量產結果有很大的影響。就像通用型的Echo使用場景大部分是在客廳,類似的麥克風數組設計套用到車用產品就不會得到最佳收音質量;而機構生產與組裝若不夠精準,會持續削弱麥克風的訊噪比,原本70dB的產品可能於終端產品僅表現出35dB的效能。

關鍵組件整合設計 取得效能表現優化

而在語音處理器部分,最主要是處理聲音的數字化與去除噪聲的訊號純化,由於智能語音助理的工作是透過AI算法,將輸入的語音訊號進行語音識別與自然語言處理,擔負重要的人機接口工作,也是用戶經驗優劣的關鍵,因此語音處理器的幾個主要功能包括噪音抑制(Noise Suppression)、迴音消除(Echo Cancellation)、語音識別(Voice Recognition Assistance)、遠距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等就顯得非常重要。

語音處理器技術發展已有滿長的一段時間,其實技術已經相當成熟,不過由於智能音箱將語音變成最主要的人機接口,聲音整體處理效能要求比過去更高,對噪音抑制的壓噪技術而言,環境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,並保留最大的原音是這部分的挑戰。一般噪音分成穩態與非穩態噪音,機器運作固定頻率的聲音是穩態噪音,比較容易消除;非穩態噪音就是非預期出現的聲音如旁人說話的聲音,也比較難消除。

Samsung甫發表的Galaxy Home,爲了收音效果特別採用八顆遠場麥克風,遠距收音的功能就是較遠的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,並放大人聲,但不放大噪音。曾建統認爲,若要提升收音效能的表現,麥克風與語音處理器整合性設計非常重要,除了遠場麥克風、擴大MEMS麥克風芯片尺寸、採用整合模擬數字轉換器(Analog-to-digital Converter, ADC)的數字麥克風(Digital Mic)等做法都有,甚麼設計才能在效能與成本上取得最佳表現,目前其實沒有標準答案,建議還是迴歸到產品需求,並進行深入的軟件仿真與效能測試,纔有機會開發出令市場驚豔的產品。

圖3 恩智浦半導體大中華區微處理器及微控制器產品營銷經理張小平表示,保護隱私信息不輕易被入侵,需要內建安全裝置

智能音箱的使用近期也因爲網絡的便利性與不設防,產生多起網絡安全事件,所以語音處理器的安全機制逐漸被重視,恩智浦半導體大中華區微處理器及微控制器產品營銷經理張小平(圖3)表示,保護隱私信息不輕易被入侵,需要內建安全裝置的解決方案,除了保護用戶信息,透過整合的SDK實現算法加速,滿足語音、影音和音頻的需求,可整合A/V與機器學習,滿足工程師對於統一平臺的要求,便於打造語音指令控制的聯網產品。

恩智浦i.MX8M系列應用處理器,兼具處理技術和邊緣運算能力,能夠有效管理並縮短智能互聯裝置響應命令和詢問的時間。張小平指出,該系列產品可用於智能電視、電視訂閱服務、條形音箱與其他智能音箱,以及媒體播放器和DVR/PVR。此外,該系列處理器也適合管理照明、恆溫器、門鎖、居家安全、智能灑水器等各類系統與設備,能夠讓使用者享受直覺簡單、迅速響應的智能家居體驗。如:僅需發出語音指令即可播放特定的電視劇集,如果對其中的演員感興趣,直接口頭詢問相關問題,屏幕上就會進行搜索並顯示結果,整個過程都不會影響電視劇情的播放等。

語音助理爲智能音箱靈魂

在基礎的硬件之外,具備AI功能的智能語音助理顯然是智能音箱產業鏈能否順利發展的關鍵,Alexa的跨平臺支持與技能多樣性,目前遙遙領先Google Assistant與Microsoft Cortana,陳右怡表示,智能語音助理的生態系發展難度更高,核心的技術包括AI深度學習算法、情境感知、自動化控制、大數據分析應用、雲端存取等;發展策略上,可透過開放式AI API發展第三方開發,擴展語音助理的技能,也透過定價/收費/分潤機制讓生態系更成熟;最後就是不斷強大生態系的規模與服務的多樣性與便利性,就像當年的App Store一樣。

而語音助理的服務包羅萬象,所謂“萬能”的智能語音助理應該不存在,以目前四大語音助理來看,Google專長在搜尋、Siri專長在音樂、Alexa專長在購物、Cortana則是專精於商務,廠商的產業鏈發展也有所側重,陳右怡相信,過幾年不同領域的語音助理霸主將越來越明確。而語言與在地化的經營則是另一個重點,目前英語系的語音識別與自然語言處理技術上已經頗有突破,發展較爲迅速;相較之下,中文的自然語言處理則有相當大的瓶頸,也是我們廠商可以深入發展並保有優勢的地方。

掌握特殊應用與邊緣運算趨勢

從硬件終端產品來看,大廠會投入更多資源發展通用型的智能音箱,產品型態也將更加多樣,整合於智能手機、筆電、各式家電等的狀況會更加普遍。我們廠商在軟硬件的發展上,應該投入利基型的硬件產品與服務,曾建統建議,特殊應用的智能音箱結合在地化語音技術發展,是我們廠商的機會。中文AI化的困難性爲廠商帶來藍海的商機,只要深入累積語言分析與在地化語料,就可以建立競爭門坎,搭配我們原先就具備深厚基礎的硬件技術能力,可以在智能音箱市場走出一條自己的路。

人機接口發展到語音是一大進步,不過未來視覺、觸覺與念力都是下一波發展的方向,現在的語音AI技術也有佈局未來人機接口的味道。以AI爲核心的這些應用,開發的範圍與需求的資源都較過去更大,訴求利基市場也不見得是單一廠商就能負擔所有技術開發,需要與更多產業鏈上下游的廠商合作;智能音箱也是典型的邊緣運算裝置,未來會將更多AI功能轉移到終端裝置,直接在邊緣進行處理,對於雲端架構規模不如國外大廠的廠而言,採用較小的雲端架構,並透過終端處理部分AI運算,更適合我們廠商發展。

查看原文 >>
相關文章