編輯導讀:隨着人工智能的發展,市面上出現了很多智能產品,它們的核心是希望解放人,用機器來幫助完成簡單的工作。其中,智能語音是最常用到的應用之一。本文梳理了一些AI產品經理需要了解的智能語音知識,與你分享。

智能產品經過幾年的打磨,從開始簡單的天氣查詢,播放歌曲,到去年前年的家庭、車內IOT設備互聯,直到今年火爆的AI生活服務。

整個演變的過程,不僅僅說明了技術的革新,也逐漸說明用戶對新功能的期待,以及對智能產品表現出來的更大接受度和包容度。智能語音從簡單的單輪指令性操作,逐漸演變成可以進行多次的連續對話,甚至有些問題似乎可以匹配人類的聰明回覆。

1. 智能語音的整個交互流程

主要有以下幾個步驟:

聽清:用戶說一句話,機器先把用戶的語音轉變成文字,讓機器讀懂用戶具體說了什麼。

聽懂:包括意圖識別和任務分發,主要是自然語言理解技術,包含nli和nlp的技術實現。讓機器明白用戶到底是說了什麼。

  • 意圖識別:用戶說話的意圖:要結合當前的用戶使用情景,服務場景,硬件環境,機器會按聽懂的內容,給出一個N-bestlist,按權重進行排序。
  • 意圖分發:拿到N-bestlist上面排位最靠前的意圖,去請求指定的domain數據並執行任務。

渲染界面:用戶聽到機器的TTS回覆,以及GUI的頁面呈現內容。

這其中第二步就是對話管理,主要完成對話狀態的維護(dialog state tracing,DST),生成系統決策(dialog policy),作爲接口與人物模型進行匹配、提供語義表達的期望值(expections for interpretation)、分發任務記錄當前queryID和pageID。當前是用戶的一次對話需要經歷的全部流程,如果需要多次的對話,就要不斷的維護對話棧,並且對話棧要匹配當前的pageID,才能幫助用戶經歷多次跳轉都能到達預期的頁面,所以多輪交互更加複雜和難以掌控,本文具體介紹多倫交互如何在產品上的實現,和當前存在的技術問題,以及產品如何規避技術問

2. 多輪交互的三種產品形態

「問題補充」

定義說明:需要用戶填補確定槽位信息以後,才能讓機器明白用戶的當下的真實需求,同事,機器基於用戶的多次槽位回覆找到相對應的nli,並且給出用戶需要的結果。槽位的集合,定義了需要用戶提供哪些信息。

應用場景:主要應用在一次對話不能讓機器明白用戶的意圖,需要進行多次對話,機器拿到固定的多次結果後才能給出結果,主要應用在多步驟的同類型任務中。

以上例子可以看出來,只有用戶說了最後一句話,電話才能打通。這期間經歷了【遍歷電話本】-【nli匹配用戶名稱】-【提取結果】-【上下文管理】-【指代上文的第幾個】-【撥打電話】基於上文內容,經過幾個步驟才能完成打電話功能。

「搜索&篩選」

定義說明:用戶需要進一步縮小自己的搜索選擇範圍,經過多次篩選和多個上文條件的累加,纔可以讓機器找到當前用戶需要的結果。

應用場景:多倫篩選和搜索,是用戶區別與手機APP交互的主要應用場景。界面的篩選只能做到,單條件的篩選,想要附加其他條件,或同類型服務對比,需要GUI操作或者打開新的APP重新選擇。整個流程相對繁雜。語音解決了用戶重新選擇,點擊界面的操作步驟。用戶可以先看一下機票,如果不滿意立刻切換火車票,如果還不滿意,再返回機票,機票也可以進行多次的篩選選擇出自己需要的機票信息。

用戶不需要每一次對話都要說清楚北京到上海的條件,在對話的開始說一次,之後的查詢車票和返回機票都是按當前起始地和目的地進行查詢。如果用戶想要更換城市,可以query“深圳出發”,這時候起始地就會更改爲深圳市。

「跨場景跳轉」

定義說明:不同場景內的上下文指代,主要通過“名稱指代”,“他”等代替上個場景的主要部分。

應用場景:用戶的任務是連續的,可能需要跨越幾個APP才能結束。跨場景的上下文對話管理,不僅讓用戶感受無感APP的跳轉,還能讓用戶感受到語音比GUI操作的真實便利感。

從上文的交互流程可以看到,【人物百科】-【歌曲】-【電影信息】-【播放視頻】如果按當前app的呈現方式,用戶想要看個視頻,要打開查詢並手動關閉3個app包括【百度百科APP】-【QQ音樂APP】-【騰訊視頻APP】這個流程根本不可能1分鐘內完成。這就凸顯了語音交互的優勢了。

3. 上下文交互存在的問題

如此好的用戶體驗,想到做到用戶無感知,產品體驗極致,是需要技術保駕護航的。但是,當前技術上存在的不能完成產品全部設想的問題,主要有三種:

「什麼時候是篩選的開始」

有些用戶不想要加入的上文也帶進來了,導致用戶很難重新開始。例如用戶在酒店頁面加入篩選條件“西安”,用戶再次詢問天氣的時候,是回覆“西安的天氣”還是“用戶當前定位城市的天氣”。

「什麼時候覆蓋了之前的條件」

同類型的結果條件會進行覆蓋,例如9點以後會覆蓋之前2點以後的搜索結果,由於沒有顯示清楚,用戶總覺得當前的結果並不是自己所想要的。基於以上兩個交互中存在的問題,產品設計優化建議如下。搜索結果,展示當前結果進行篩選的所有屬性tag,用戶可以GUI進行刪除,每次曬出tag,按當前的已有tag給出新的搜索結果。這樣就解決的了用戶可見當前的搜索結果的理由,其次,用戶想要重新篩選或者更改篩選條件的時候,更加輕鬆簡單。

「上本的保留什麼時候是極限」

可以同時保留多個上文篩選條件,同時進行結果的篩選,但是也有個問題,上文多個篩選條件的保留是有範圍限制的,目前基本保留5個篩選條件,等到第六個篩選條件出現,由於已經超出的上文保留的篩選條件棧,會清空之前的全部棧內數據,把最新的篩選條件放入棧的第一個,按當前進行篩選結果,並在當前棧內累加更多的篩選條件。

4. 產品上的優化策略

  1. 通過搜索條件、排序條件和篩選條件來確定哪些是需要或者可以支持多輪交互的。從產品上定義出用戶使用的邏輯,方便用戶在體驗中更能找到產品的設計宗旨邏輯。
  2. 回覆的TTS需要加上用戶當前的篩選條件。有些排序條件和搜索條件,產品經理需要定義什麼時候回覆要加上,什麼時候回覆tts不需要加上。
  3. 如果是帶屏幕的設備,可以通過顯示當前結果的篩選或者搜索tag,既可以引導用戶增加想要說的條件,也可以讓用戶明白哪些條件被覆蓋掉,需要重新說。經過多倫以後,達到樹形結構的最後一層,導致所有的篩選結果清除,用戶重複篩選或者複用上一輪的篩選條件。建議把所有的內容都放入棧內,用戶每次新的tag入棧,向前擠掉最前面的幾個tag,只維護當前這個動態的固定tag的棧。

從事智能產品經理已經有小2年了,從最開始的智能產品的硬件設計和綁定設計,到智能軟件交互產品的設計,一路感悟頗多,最近也是希望把自己的經驗記錄下來。可能存在錯誤和理解偏頗的地方,建議大家踊躍指出,共同進步把~

乘風破浪會有時,直掛雲帆濟滄海。

本文由 @哎呀呀妖妖 原創發佈於人人都是產品經理,未經作者許可,禁止轉載。

題圖來自Unsplash,基於CC0協議。

相關文章