如何評測語音技能的智能程度（3）——交互流暢

摘要：所以，在考量服務穩定性上有兩個大層面，一個是智能助手本身的穩定性表現，二個是在服務用戶的過程中，如何規避，以及遇見問題後的業務響應速度表現。這個模塊，重點考量智能助手各個性能指標及交互體驗層面的表現。

《如何評測語音技能的智能程度》是5篇系列文字，來自一位創業者，也是DuerOS開發者的投稿，老曹儘量不做變動和評價，儘量保持系列文章的原貌，這是第3篇。

當用戶發起需求後，【意圖理解】在前，【服務提供】在後，基本上已經構成了一輪完整閉環。

之所以把【交互流暢】這個點作爲一個單獨維度拆解出來，是因爲其貫穿始終。如果這個模塊的內容如果處理不好，將全程傷害體驗。

本篇文章爲大家帶來【交互流暢】維度的評測點拆解。

這個模塊，重點考量智能助手各個性能指標及交互體驗層面的表現。

【交互流暢】（1）服務穩定性

“正常運行”、“不出bug”、“魯棒性好”。

評測點已經講完了，十分清晰，幾乎每一個互聯網從業者都能夠說出個1234，然後呢？

穩定不好，這類問題可大可小，小點就是網絡繁忙，不給你任何反饋，大到極致，機器人可以反動搞事情，“愚蠢的人類啊，阿西莫夫的機器人三定律也救不了你們。”

好了，開個玩笑。實際上，定義“what”容易，解決“how”往往都纔是考量業務理解。

所以，在過往我經常會問面試者的問題有一個，你曾經做過的智能助手產品，出過哪些問題，你是如何解決的？

不同的人回答不同，對於這類命題，才更有探索價值。

一般情況下，回答這些是技術的問題，往往都很糟糕，實際上，每個公司的穩定性業務保障是需要一個體系來承擔的。

所以能得分的面試回答是，把影響穩定性的故障進行一個分類，並且設計好處理路徑。

這裏只有大類別，單單一個業務後臺，就能做很多範圍細分。故障表現情況例如：崩潰、局部故障、弱網環境、狀態更新、請求超時、並發表現……嚴重程度不一致，此處不逐一展開。

出過哪些問題分類回答完畢，你是如何解決的呢？是後續的一個命題。

一般情況下，公司的業務流程是這樣運轉的。

這裏有3個細節。

第一個是反饋的行爲折損。根據歷史數據表現，1個問題被報上來，背後往往有至少10個以上的用戶遇見過，只是用戶懶/報問題麻煩，沒有報而已。

第二個是反饋的信息折損，客服問：你做了什麼操作導致的崩潰？用戶答：我也不知道，就崩潰了。這種情況，是不利於排查和定位問題的。

第三個是“解決方案的設計”，這裏也分爲“臨時解決方案”和“全局最優解決方案”兩說。

下圖是一個信息化的風控結構，做過相關模塊的，懂得自然懂，篇幅太長，此處不展開。

所以，在考量服務穩定性上有兩個大層面，一個是智能助手本身的穩定性表現，二個是在服務用戶的過程中，如何規避，以及遇見問題後的業務響應速度表現。

服務穩定性的考量是以一定週期、頻次進行考量纔是科學合理的。

【交互流暢】（2）響應速度/流暢度

服務穩定性保障了之後，接下來就是速度。

語音交互這件事，本身就是因爲語音輸入的高效性。

當用戶發出了需求，希望儘快拿到反饋，

現在的用戶極其沒有耐心，速度一旦過慢，註定會被棄而不用。

而在智能語音助手交互對話的過程中，又包含哪幾個階段呢？

先明確一點，一味追求快並非是好。

1、人類喚醒後，計算器的響應靈敏度，靈敏度太強（誤喚醒）或太弱（沒反應）都不好，當然如果升級下維度，還可以添加場景，比如噪音下喚醒，遠場喚醒等。靈敏度是可以調試的，以表現合適最好。

2、人類表述了自己需求後，ASR有兩種方案，一種是邊識別邊轉換文本，另外一種是表述完畢後一口氣轉換爲文本。

3、業務邏輯處理表現，其實是NLP領域最爲核心的部分，也是最爲耗時的部分，從效率角度上而言，此處儘管追求越快越好。

4、這裏的語音播放，不是越快越好，而是合適就好，語速太快會給人一種輕浮及不穩重的感受，太慢則顯得很笨以及可能造成不耐煩。而反饋樣式則需要儘快呈現，有些智能助手語音播放完畢了，結果下面的內容還沒加載到位。

5、人類總計2次交互，一次喚醒，一次表達意圖，這2個行爲過後，等待AI反饋。也就是說，當用戶說完話後的下一秒，助手要同時處理，識別+理解+接口查詢+反饋四個階段，這個過程中，全部都是用戶的等待狀態。

人們去飯店點完了菜，等上菜的過程中，中間服務員還會過來幫忙緩解，這個過程較長，一定要考慮好等待體驗管理，不至於讓用戶無聊。

前後端共同協作，添加一些語音播報，模態框提示，漸隱消失提示，動畫效果，來管理用戶的等待體驗。

而有些無屏的音箱則需要使用等待、加載、成功等光效表現來管理用戶的等待體驗過程。

所以，在響應速度/流暢度這個維度上，不同的情況不同的對待，以合適最好。

【交互流暢】（3）交互形式豐富度

每一種交互形式的存在，都有着其依賴的場景。

下圖是我嘗試窮舉人類的輸入行爲（盡力做到MECE）。

點觸、語音、手勢、點頭搖頭、人臉識別、聲紋、指紋驗證等等均算在內。

這一塊真的不需要多講，除了腦機接口，基本上都玩過，體驗過的都會覺得其有意思的地方。

交互形式豐富度，評測點已解釋完畢，在未來，一定是多模態交互，來適應各種各樣的業務場景。

說一點，產品經理應該修煉的部分。

筆者有一個出門問問的耳機，它是智能助手的操控延伸。在提供創新體驗的同時，弄明白了是什麼（what），基於此去探究爲什麼（why）以及怎麼辦（how）。

所以，筆者認爲產品經理應該修煉的部分。

儘量多的去使用智能硬件，把工作體驗變成日常，以培養敏感度。
弄清楚這些交互方式、元器件連接方式背後的技術實現原理。
每種技術方案都有多種實現方式，知曉其優劣勢及實現成本。

這三層修煉是遞進關係。只有這些把這類東西融入到了我們的生活之中，敏感性才培養得起來，繼而去加深理解，如此才更有可能做創新。

我們今天所熟知的衆多的科學以及專利技術的發明者，其實都是根據前人的經驗進行的某種程度上的改進。從結果上來看，主要有兩種改進方向。

一種是將一個原本在實驗室裏面理論上可行，變成大規模批量生產的方案。

另一種則是根據已有的技術發明，發現一些“居然這個技術還可以被這樣使用” 的方案。

蘋果公司在技術研發上，並沒有什麼特別優秀的表現，但是在整合以及運用技術的這件事情上，則是優秀中的代表。市面上的絕大多數的手機公司的研發部門，應該都叫技術方案整合商更爲貼切。

只有將自己的日常浸潤到各種類型的交互體驗裏，進而去理解實現方案背後的技術原理，才更有可能做出創新啊！

【交互流暢】（4）新手教學表現

我第一次給父母體驗‘小愛同學’的時候，他們是需要我的幫助才能使用。

什麼是喚醒；什麼是監聽；什麼時候你說話它會響應/不響應；覺得羅嗦，如何打斷對方。

這個教學行爲大概要持續一小會，言傳身教才能夠學出如何進行語音交互。

如果沒有我，我的父母將無法上手。這種依賴人，在旁邊教的東西，實在是學習成本太高。

而當我們的產品被用戶首次體驗的時候，如果沒有新手教學，用戶也許就呆滯在那裏，並不知道如何使用。

新手教學體驗是非常重要的一個環節。

體驗各家智能語音助手，在這一塊的表現上各不一致，故而列爲評測點。

行業新的新手引導教學其實非常多的種類，滑屏海報，蒙版遮罩，文字tips，互動式引導。

簡單一分爲二的說，大體可以分爲，基本操作教學，以及對應業務的教學。

在考量這個業務表現的維度上，基本操作教學必須得有。而具體業務教學，則是具體問題具體設計。

百度地圖的新手引導就做得十分友好。基本上爲小度導航的每個業務能力配備了沉浸式引導方案。

這一塊是參照遊戲行業的解決方案。就我過往對小度的體驗，其實有很幾次改版了，不斷迭代演化至今。

最好的交互設計其實是不需要新手引導的，如同微信一樣自然。

在一個普遍使用點觸操作習慣的年代，如何讓用戶體驗這種新的交互體驗方式？壓力就在新手教學上。學的會就用，學不會就丟棄。

嚐鮮體驗過後， 以後也會（改變習慣）使用語音尋求業務 ，壓力則在業務設計上。方便就用，不方便就丟棄。

這是一個遞進邏輯。只有基本操作掌握了纔有後面的（改變習慣）使用，把用戶當成小白的新手教學行爲，一定得做好！

【交互流暢】（5）全雙工交互表現

全雙工（Full Duplex）是通訊傳輸的一個術語。通信允許數據在兩個方向上同時傳輸。

先用通俗的例子比喻下。

單工：類似聽廣播。

單向傳遞信息，一個人只能聽另一個人說。

半雙工：類似對講機。

甲：洞幺洞幺，能不能聽到我說話，over。

乙：可以聽到，over。

全雙工：類似打電話。

甲：喂，還記得我的聲音麼？我是…… 乙：啊，是你小子啊……

雙方可以各說各的，可以互相打斷。

人機交互追求更加自然流暢，這一點必不可少。

當前的語音助手，只有在進入監聽狀態纔可以做出反饋。

而進入監聽的兩種情況，一種是使用[喚醒詞]，完成喚醒/打斷的動作。

另一種是AI判斷業務沒完，做出引導式的追問，然後進入監聽狀態。

例如：

用戶：我想看最近上映的電影。

助手：爲你找到如下電影，你可以對我說看第幾部。播放完畢後進入監聽狀態。

其實助手第一時間在屏幕上展示了電影列表的搜索結果，但是總得把語音唸完……。

作爲用戶而言，我已經看到了助手給我的展示結果，也知道你的後續話術套路，我會迫不及待的使用[喚醒詞]，完成打斷行爲……使用過的都會感受到這種情況的心累。

而在全雙工的能力加持下，即爲，你播報你的，我說我的，不用等你念完，才進入監聽狀態，你念一半的時候，我搶話到下一步驟，你根據我的節奏推進業務就好。

還有一種技術方案相信從業者們也不陌生，就是基於當前語義場景下的“判斷爲無效內容後的拒絕響應”。

例子：我想聽……嗯，我想想，哦對了，那個周杰倫的青花瓷

識別出用戶當前說的話是不是給它的指令，能過濾掉無效的停頓，語氣助詞等干擾信息，再做出反應。

這就是全雙工所指的“瞬間雙向”表現，更接近人與人之間的自然對話，提升了交互體驗。

階段性結尾

同樣的，在【交互流暢】這個單元模塊，有更多評測點去列舉，但是受限於篇幅以及能力所限，刪掉的一些內容。保留以及刪除評測點的原則，也是基於評測指標的普適性。

同樣用提問的方式，列舉一下我刪除掉的考覈點。

第（6）點，列舉一個我玩遊戲多多自走棋，體驗遊戲助手的例子。敏感詞，會在很多的地方出現。防止內容攻擊，保護安全的，特別是大公司，往往會用上一個敏感詞庫過濾處理，相信很多的人都遇見過，有些給你反饋，有些則直接給你和諧掉了。顯然是影響交互體驗流暢度的。造成這種情況的顯然是政策問題。

第（7）點，未來的交互體驗過程中，多硬件終端，多場景，有屏無屏的交互體驗方案，這是一個“現階段各家都沒做，而在未來各家一定會做”的評測點。

如果列舉其例子，問題以及探討解決方案起來，篇幅就過長了，就目前AI跨平臺使用表現而言，故現階段捨棄。

第（8）點，完成任務時候的成本考量。這個裏面涉及一些語音識別、語義理解的層面。比如，任務流的多輪對話是分層次的，而當用戶一口氣給助手提供多個查詢槽位，能否給予結果。比如，在一些支付和驗證的層面，視覺和聲紋讓用戶付出的代價幾何等等。助手取硬件權限（讀取GPS，讀取短信等）時的表現。

在滿足用戶需求的時候一定有方案，而不同方案之間的取捨考量就存在比較關係了。

筆者在設計業務的時候，同時也會考量用戶的隱私保護安全。

你要安全，就加判斷確認，加驗證，影響流暢度。

你要流暢，就替用戶配置更多的默認選項，影響安全。

“流暢”和“安全”本身就是一個互相沖突的命題。此處沒有對錯，只有選擇。

【交互流暢】是一個非常重要的全局性指標，貫穿【意圖理解】和【服務提供】始終。如果這個維度的評測方向如果處理不好，將全程傷害體驗。

以上，關於第三大維度【交互流暢】的諸多考量點，就此完結。

【關聯閱讀】

一篇文章深入理解VUI和GUI的優劣對比

面向NLP的AI產品方法論——尋找語音交互的業務場景

面向NLP的AI產品方法論——如何設計多輪語音技能

面向NLP的AI產品方法論——如何做好“多輪對話管理”

如何從零開始搭建數據分析後臺 | 飯大官人

面向NLP的AI產品方法論——如何通過數據分析迭代優化

如何評測語音技能的智能程度（1）——意圖理解

如何評測語音技能的智能程度（2）——服務提供

如何評測語音技能的智能程度（3）——交互流暢

【交互流暢】（1）服務穩定性

【交互流暢】（2）響應速度/流暢度

【交互流暢】（3）交互形式豐富度

【交互流暢】（4）新手教學表現

【交互流暢】（5）全雙工交互表現

階段性結尾

熱門新聞

週熱門

如何評測語音技能的智能程度（3）——交互流暢

【交互流暢】（1）服務穩定性

【交互流暢】（2）響應速度/流暢度

【交互流暢】（3）交互形式豐富度

【交互流暢】（4）新手教學表現

【交互流暢】（5）全雙工交互表現

階段性結尾

iPhone 16高清圖曝光？再這樣真沒人買了

外觀、材質、功能全面升級，華爲WATCH 4 Pro太空探索上線

小米開放式耳機官宣！輕巧佩戴/音質拔羣

AMD銳龍9000系列實物曝光 8核設計的工程樣品

谷歌Pixel 8a和蘋果iPhone SE 4誰更強？提前對比一波

小米米家立式掛燙機上市：極簡純白設計，售價 299 元

Redmi Turbo 3定檔4月10日正式發佈 後蓋設計有點帥

蓄勢待發！真我GT Neo6 SE證件照出爐：提供輕薄手感

華爲P70外觀細節曝光：採用1.5K等深微曲屏+全系三角形Deco

夏日清涼必備！五款性價比高水冷機箱推薦

Redmi Turbo 3跑分曝光：單核1981分，多核5526分

真我GT Neo6 SE官圖曝光：流銀騎士配色極具檔次感

超頻三推出DS360 BK一體式水冷散熱器 首發價609元

蘋果 iPadOS 17.5 代碼暗示 Apple Pencil 3 支持新的“擠壓”手勢

四地試點增值電信業務擴大對外開放

熱門新聞

週熱門

Redmi Turbo 3定檔4月10日正式發佈後蓋設計有點帥

超頻三推出DS360 BK一體式水冷散熱器首發價609元