AI產品經理需要了解的智能語音知識：上下文的對話管理

編輯導讀：隨着人工智能的發展，市面上出現了很多智能產品，它們的核心是希望解放人，用機器來幫助完成簡單的工作。其中，智能語音是最常用到的應用之一。本文梳理了一些AI產品經理需要了解的智能語音知識，與你分享。

智能產品經過幾年的打磨，從開始簡單的天氣查詢，播放歌曲，到去年前年的家庭、車內IOT設備互聯，直到今年火爆的AI生活服務。

整個演變的過程，不僅僅說明了技術的革新，也逐漸說明用戶對新功能的期待，以及對智能產品表現出來的更大接受度和包容度。智能語音從簡單的單輪指令性操作，逐漸演變成可以進行多次的連續對話，甚至有些問題似乎可以匹配人類的聰明回覆。

1. 智能語音的整個交互流程

主要有以下幾個步驟：

聽清：用戶說一句話，機器先把用戶的語音轉變成文字，讓機器讀懂用戶具體說了什麼。

聽懂：包括意圖識別和任務分發，主要是自然語言理解技術，包含nli和nlp的技術實現。讓機器明白用戶到底是說了什麼。

意圖識別：用戶說話的意圖：要結合當前的用戶使用情景，服務場景，硬件環境，機器會按聽懂的內容，給出一個N-bestlist，按權重進行排序。
意圖分發：拿到N-bestlist上面排位最靠前的意圖，去請求指定的domain數據並執行任務。

渲染界面：用戶聽到機器的TTS回覆，以及GUI的頁面呈現內容。

這其中第二步就是對話管理，主要完成對話狀態的維護(dialog state tracing,DST)，生成系統決策(dialog policy)，作爲接口與人物模型進行匹配、提供語義表達的期望值(expections for interpretation)、分發任務記錄當前queryID和pageID。當前是用戶的一次對話需要經歷的全部流程，如果需要多次的對話，就要不斷的維護對話棧，並且對話棧要匹配當前的pageID，才能幫助用戶經歷多次跳轉都能到達預期的頁面，所以多輪交互更加複雜和難以掌控，本文具體介紹多倫交互如何在產品上的實現，和當前存在的技術問題，以及產品如何規避技術問

2. 多輪交互的三種產品形態

「問題補充」

定義說明：需要用戶填補確定槽位信息以後，才能讓機器明白用戶的當下的真實需求，同事，機器基於用戶的多次槽位回覆找到相對應的nli，並且給出用戶需要的結果。槽位的集合，定義了需要用戶提供哪些信息。

應用場景：主要應用在一次對話不能讓機器明白用戶的意圖，需要進行多次對話，機器拿到固定的多次結果後才能給出結果，主要應用在多步驟的同類型任務中。

以上例子可以看出來，只有用戶說了最後一句話，電話才能打通。這期間經歷了【遍歷電話本】-【nli匹配用戶名稱】-【提取結果】-【上下文管理】-【指代上文的第幾個】-【撥打電話】基於上文內容，經過幾個步驟才能完成打電話功能。

「搜索&篩選」

定義說明：用戶需要進一步縮小自己的搜索選擇範圍，經過多次篩選和多個上文條件的累加，纔可以讓機器找到當前用戶需要的結果。

應用場景：多倫篩選和搜索，是用戶區別與手機APP交互的主要應用場景。界面的篩選只能做到，單條件的篩選，想要附加其他條件，或同類型服務對比，需要GUI操作或者打開新的APP重新選擇。整個流程相對繁雜。語音解決了用戶重新選擇，點擊界面的操作步驟。用戶可以先看一下機票，如果不滿意立刻切換火車票，如果還不滿意，再返回機票，機票也可以進行多次的篩選選擇出自己需要的機票信息。

用戶不需要每一次對話都要說清楚北京到上海的條件，在對話的開始說一次，之後的查詢車票和返回機票都是按當前起始地和目的地進行查詢。如果用戶想要更換城市，可以query“深圳出發”，這時候起始地就會更改爲深圳市。

「跨場景跳轉」

定義說明：不同場景內的上下文指代，主要通過“名稱指代”，“他”等代替上個場景的主要部分。

應用場景：用戶的任務是連續的，可能需要跨越幾個APP才能結束。跨場景的上下文對話管理，不僅讓用戶感受無感APP的跳轉，還能讓用戶感受到語音比GUI操作的真實便利感。

從上文的交互流程可以看到，【人物百科】-【歌曲】-【電影信息】-【播放視頻】如果按當前app的呈現方式，用戶想要看個視頻，要打開查詢並手動關閉3個app包括【百度百科APP】-【QQ音樂APP】-【騰訊視頻APP】這個流程根本不可能1分鐘內完成。這就凸顯了語音交互的優勢了。

3. 上下文交互存在的問題

如此好的用戶體驗，想到做到用戶無感知，產品體驗極致，是需要技術保駕護航的。但是，當前技術上存在的不能完成產品全部設想的問題，主要有三種：

「什麼時候是篩選的開始」

有些用戶不想要加入的上文也帶進來了，導致用戶很難重新開始。例如用戶在酒店頁面加入篩選條件“西安”，用戶再次詢問天氣的時候，是回覆“西安的天氣”還是“用戶當前定位城市的天氣”。

「什麼時候覆蓋了之前的條件」

同類型的結果條件會進行覆蓋，例如9點以後會覆蓋之前2點以後的搜索結果，由於沒有顯示清楚，用戶總覺得當前的結果並不是自己所想要的。基於以上兩個交互中存在的問題，產品設計優化建議如下。搜索結果，展示當前結果進行篩選的所有屬性tag，用戶可以GUI進行刪除，每次曬出tag，按當前的已有tag給出新的搜索結果。這樣就解決的了用戶可見當前的搜索結果的理由，其次，用戶想要重新篩選或者更改篩選條件的時候，更加輕鬆簡單。

「上本的保留什麼時候是極限」

可以同時保留多個上文篩選條件，同時進行結果的篩選，但是也有個問題，上文多個篩選條件的保留是有範圍限制的，目前基本保留5個篩選條件，等到第六個篩選條件出現，由於已經超出的上文保留的篩選條件棧，會清空之前的全部棧內數據，把最新的篩選條件放入棧的第一個，按當前進行篩選結果，並在當前棧內累加更多的篩選條件。

4. 產品上的優化策略

通過搜索條件、排序條件和篩選條件來確定哪些是需要或者可以支持多輪交互的。從產品上定義出用戶使用的邏輯，方便用戶在體驗中更能找到產品的設計宗旨邏輯。
回覆的TTS需要加上用戶當前的篩選條件。有些排序條件和搜索條件，產品經理需要定義什麼時候回覆要加上，什麼時候回覆tts不需要加上。
如果是帶屏幕的設備，可以通過顯示當前結果的篩選或者搜索tag，既可以引導用戶增加想要說的條件，也可以讓用戶明白哪些條件被覆蓋掉，需要重新說。經過多倫以後，達到樹形結構的最後一層，導致所有的篩選結果清除，用戶重複篩選或者複用上一輪的篩選條件。建議把所有的內容都放入棧內，用戶每次新的tag入棧，向前擠掉最前面的幾個tag，只維護當前這個動態的固定tag的棧。

從事智能產品經理已經有小2年了，從最開始的智能產品的硬件設計和綁定設計，到智能軟件交互產品的設計，一路感悟頗多，最近也是希望把自己的經驗記錄下來。可能存在錯誤和理解偏頗的地方，建議大家踊躍指出，共同進步把～

乘風破浪會有時，直掛雲帆濟滄海。

本文由 @哎呀呀妖妖原創發佈於人人都是產品經理，未經作者許可，禁止轉載。

題圖來自Unsplash，基於CC0協議。

AI產品經理需要了解的智能語音知識：上下文的對話管理

熱門新聞

週熱門

AI產品經理需要了解的智能語音知識：上下文的對話管理

餘承東卸任華爲終端BG CEO，終端COO何剛接任｜36氪獨家

“全球最大的家電企業”要赴港上市，不爲募資爲了什麼？

如何建立受監管的良好的數據交易市場

小米兄弟正排隊IPO

高通脹讓美國人民水深火熱

誰會讓企業數字化轉型提前進入大結局

8點1氪丨李佳琦前助理付鵬註銷全網賬號；魯迅家屬已向樂樂茶發律師函；雀巢回應200萬瓶巴黎水被銷燬

馬斯克希望老朋友再拉一把

產品經理在國企工作，就穩了嗎？

氪星晚報｜小紅書內測自研大模型“小地瓜”；蘋果iPad操作系統據悉受到歐盟數字市場法案約束；美的集團股份有限公司向港交所提交上市申請書

自研AI服務器芯片，競爭升級

如何開展特定數據域的數據治理

「光馭科技」完成1億元A輪融資，持續推進光子晶體超材料技術創新和商業應用 | 36氪首發

中國版“星鏈”還要十年？

從19萬個應用中，看懂AI應用的潮流湧向

熱門新聞

週熱門