指標權重設計——如何評測語音技能的智能程度（終篇）

《如何評測語音技能的智能程度》是5篇系列文字，來自一位創業者，也是DuerOS開發者的投稿，老曹儘量不做變動和評價，儘量保持系列文章的原貌，這是第5篇，也是最後一篇。

這是一份前面四篇評測維度介紹文章的總結，同時也是一份清單使用說明書。

“結構清晰，主次分明”，用解構的方式去理解一款產品，這纔是人工智能從業者思考的專業化表現。

評測語音技能的智能程度有4大維度：

對於這四大維度，什麼是重點呢？面向需求進行自定義。

如何定義各個維度的權重

權重高低的定義有兩個考量維度，一個是行業需求，另一個是硬件載體。行業需求包括出行、旅遊、餐飲、教育、醫療、金融、電商、客服等；硬件載體包括智能音箱、智能手錶、車機、智能耳機、機器人等等。

智能語音技能，往往都會解決某個行業領域的特定業務需求，也往往都存在於一個或多個硬件載體上，與人類進行交互行爲。大維度自定義權重，同理，每個維度上的指標也基於需求自定義。

例如：某語音技能的定位是用來聽歌的，“意圖理解“中的模塊做得非常好，但是由於版權原因，很多歌曲無法播放，這個技能的用戶體驗就會非常糟糕，因爲滿足不了用戶聽歌的需求。

如果該語音技能是線下生活服務，比如訂外賣或者是電影票，這類往往不具備版權壟斷特質，但由於業務流程的複雜，有太多疊加查詢條件，自然對“意圖理解“就會有很高的權重要求。

如果某個玩具/手辦具備語音交互功能，用戶非常在意玩具/手辦的語音交互是否匹配角色氣質，故而對這類用戶而言，“人格特質“就要要求高權重。

語音技能評測指標的選擇和量化

這份清單花了筆者太多的時間，仍然有太多的問題值得討論：

爲什麼是4個維度，而不是5個或者是3個？
基於什麼依據設置每個維度的重點和加分項？
各維度是否窮盡了“智能化”評測的角度？
每個指標的用詞的和定義是否精準無歧義且易於理解？
每個維度的指標是不是平行、獨立關係？
每個維度的指標是不是做到了窮舉？

特別是在保留哪些指標，合併哪些指標之間，筆者做了很多的取捨和權衡。語音識別表現，這個指標，與其說是遺漏，不如說是筆者的選擇。目前最好的ASR識別率是97%，且這已經是非常成熟的技術。ASR和TTS 是基礎服務，在未來就像AI領域水電煤一樣，就跟選百度雲還是阿里雲一樣，花錢買服務就能搞定，差距不會太大，故而不值得納入評測範疇。

因此，這類語音識別的基礎表現，就直接歸到【交互流暢】維度“服務穩定性”指標上了。

ASR這項技術未來差距很可能會被抹平，而如果做到了方言轉普通話然後轉文本那就是另外一個話題了，方言轉普通話和任何一種語言轉普通話是同一個邏輯。那筆者可能會歸納到【意圖理解】維度上。

筆者力求全面，但並非每一個都需要用到， 可以基於自己的需求，自由添加、刪除和修改分類。 例如：如果是一個智能耳機或者語義翻譯棒，那麼“反饋樣式豐富性”上，就不必要納入評測範圍了。

但選擇本身就是一個難題，這件事情非常地考驗我們的認知。舉個例子：蘋果手機前面幾代產品，玻璃屏幕特別不耐摔，這在諾基亞的評測維度裏面，是無法上市銷售的。後來的故事，我們都知道了，這個故事各位細品。

指標的量化標準並不是一個難題。拿測試集去驗證，最終統計各個指標的表現，然後再橫向比較競品就好。

商業化服務比得是相對指標，而不是絕對指標，即不需要考滿分，只要在某個方向上，領先與其他競品一段距離就好，然後就可以宣稱，這是當前市面上“某某指標”表現最好的產品。