《如何評測語音技能的智能程度》是5篇系列文字,來自一位創業者,也是DuerOS開發者的投稿,老曹儘量不做變動和評價,儘量保持系列文章的原貌,這是第5篇,也是最後一篇。

這是一份前面四篇評測維度介紹文章的總結,同時也是一份清單使用說明書。

“結構清晰,主次分明”,用解構的方式去理解一款產品,這纔是人工智能從業者思考的專業化表現。

評測語音技能的智能程度有4大維度:

  1. 如何評測語音技能的智能程度(1)——意圖理解

  2. 如何評測語音技能的智能程度(2)——服務提供

  3. 如何評測語音技能的智能程度(3)——交互流暢

  4. 如何評測語音技能的智能程度(4)——人格特質

對於這四大維度,什麼是重點呢?  面向 需求進行自定義。

如何定義各個維度的權重

權重高低的定義有兩個 考量 維度,一個是行業需求,另一個是硬件載體。 行業需求包括出行、旅遊、餐飲、教育、醫療、金融、電商、客服等;硬件載體包括智能音箱、智能手錶、車機、智能耳機、機器人等等。

智能語音技能,往往都會解決某個行業領域的特定業務需求,也往往都存在於一個或多個硬件載體上,與人類進行交互行爲。大維度自定義權重,同理,每個維度上的指標也基於需求自定義。

例如:某語音技能的定位是用來聽歌的,“意圖理解“中的模塊做得非常好,但是由於版權原因,很多歌曲無法播放,這個技能的用戶體驗就會非常糟糕,因爲滿足不了用戶聽歌的需求。

如果該語音技能是線下生活服務,比如訂外賣或者是電影票,這類往往不具備版權壟斷特質,但由於業務流程的複雜,有太多疊加查詢條件,自然對“意圖理解“就會有很高的權重要求。

如果某個玩具/手辦具備語音交互功能,用戶非常在意玩具/手辦的語音交互是否匹配角色氣質,故而對這類用戶而言,“人格特質“就要要求高權重。

語音技能評測指標的選擇和量化

這份清單花了筆者太多的時間,仍然有太多的問題值得討論:

  • 爲什麼是4個維度,而不是5個或者是3個?

  • 基於什麼依據設置每個維度的重點和加分項?

  • 各維度是否窮盡了“智能化”評測的角度?

  • 每個指標的用詞的和定義是否精準無歧義且易於理解?

  • 每個維度的指標是不是平行、獨立關係?

  • 每個維度的指標是不是做到了窮舉?

特別是在保留哪些指標,合併哪些指標之間,筆者做了很多的取捨和權衡。語音識別表現,這個指標,與其說是遺漏,不如說是筆者的選擇。目前最好的ASR識別率是97%,且這已經是非常成熟的技術。ASR和TTS 是基礎服務, 在未來就像AI領域水電煤一樣,就跟選百度雲還是阿里雲一樣,花錢買服務就能搞定,差距不會太大,故而不值得納入評測範疇。

因此,這類語音識別的基礎表現,就直接歸到【交互流暢】維度“服務穩定性”指標上了。

ASR這項技術未來差距很可能會被抹平,而如果做到了方言轉普通話然後轉文本那就是另外一個話題了,方言轉普通話和任何一種語言轉普通話是同一個邏輯。那筆者可能會歸納到【意圖理解】維度上。

筆者力求全面,但並非每一個都需要用到, 可以基於自己的需求,自由添加、刪除和修改分類。 例如:如果是一個智能耳機或者語義翻譯棒,那麼“反饋樣式豐富性”上,就不必要納入評測範圍了。

但選擇本身就是一個難題,這件事情非常地考驗我們的認知。舉個例子:蘋果手機前面幾代產品,玻璃屏幕特別不耐摔,這在諾基亞的評測維度裏面,是無法上市銷售的。後來的故事,我們都知道了,這個故事各位細品。

指標的量化標準並不是一個難題。 拿測試集去驗證,最終統計各個指標的表現,然後再橫向比較競品就好。

商業化服務比得是相對指標,而不是絕對指標,即不需要考滿分,只要在某個方向上,領先與其他競品一段距離就好,然後就可以宣稱,這是當前市面上“某某指標”表現最好的產品。

語音技能服務的上限和下限

除去調研和評測其他智能語音技能,這份清單的還可以用於服務的產品定位,以及作爲清單來評價語音技能服務表現。

語音技能服務在立項的時候,要哪些不要哪些, 有多大 的邊界和範圍,是一個思考題。開始的無屏音箱都在抄亞馬遜的Echo,後面爲什麼又出現了有屏音箱呢?這個就是智能語音產品的定位和選擇。

從商業邏輯上來看, 缺陷 明顯 的產品無法存活於市場,沒有長項的產品也註定平庸。 企業也沒法把所有的資源平均分配,那樣的東西註定平庸,唯有極致纔可以生存。

語音技能服務的上限就是自己的賣點,這樣才能夠從競爭之中脫穎而出。

例如,再爛的智能手機也要搭配一顆攝像頭,且攝像頭的性能表現不能低於某個標準,如果這個太爛的話,註定無法存活。前面蘋果手機的屏幕其實也抗震,不是一摔就碎的東西,這種就是下限保障。

語音技能服務的下限要做到什麼程度,這個就是及格線,存活於市場的前提。

在保證了及格線達到平均線標準之後,應當把更多的資源堆到某個維度上。大家比拼的是在資源有限的前提下,基於定位做產品交付。

戰略的第一步就是放棄,敢放棄什麼,拼的是認知。

綜上所述——

  • 基於定位來選擇重要的維度和指標,做權重優先級排序。

  • 基於選擇的指標,使其數值可衡量,做量化標準。

  • 基於公司資源保障產品下限,基於人才提升上限。

掌握使用說明書,這份清單的價值也就到位了。

總結

人的理性是有限的,在遇到環境影響而情緒波動的時候,結果往往不可控。如《清單革命》中所說的那樣,以原則清單行事則更加可控,減少糾結猶豫,提升效率。

筆者在設計評測指標的時候,往往是朝着最理想的人工智能去做比對的,它能幫助我們在各個維度上去逼近超級人工智能,打造令人尖叫的產品。

謝謝各位看到這裏,希望這份業務清單能夠幫助到大家。

【關聯閱讀】

一篇文章深入理解VUI和GUI的優劣對比

面向NLP的AI產品方法論——尋找語音交互的業務場景

面向NLP的AI產品方法論——如何設計多輪語音技能

面向NLP的AI產品方法論——如何做好“多輪對話管理”

如何從零開始搭建數據分析後臺 | 飯大官人

面向NLP的AI產品方法論——如何通過數據分析迭代優化

如何評測語音技能的智能程度(1)——意圖理解

如何評測語音技能的智能程度(2)——服務提供

如何評測語音技能的智能程度(3)——交互流暢

如何評測語音技能的智能程度(4)——人格特質

相關文章