從認知負荷理論看語音交互設計

摘要：用聽覺信息代替部分視覺信息，通過使用聽覺通道，減輕了人們對視覺工作記憶的認知負荷，聽覺通道有自己的記憶空間。當技能中有多種視覺信息來源時，比如圖表、標籤和解釋性文字，注意力就會被分散，因爲這增加了認知負荷。

DuerOS Bot Platform 在網站上給出了語音技能的交互設計規範，其中技能話術設計指出了3個原則：

簡潔自然

在自然易懂的前提下，應該儘可能的提煉出簡潔的技能話術。可以嘗試大聲並多次重複朗讀你的技能話術，直到能夠一口氣流暢通順地完成朗讀。若表達信息過多，可嘗試將話術拆解細分爲多輪對話表達。

直白易懂

技能中的話術應該使用日常直白通用的表達方式，避免使用縮略詞或生僻詞彙，例如“未”、“勿”，應替換爲更易於理解的“沒有”、“不要”等。

豐富多變

用戶可能會多次進入技能，在保持話術簡潔直白的同時，可以通過豐富話術和功能的多樣性，使技能更加生動人性化。

爲什麼是這樣的原則呢？會不會還有其他呢？筆者試圖從認知負荷理論來觀察語音交互設計，溯源要從人類的信息處理模型開始。

人類信息處理模型

認知負荷理論建立在如圖1所示的人類信息處理模型的基礎之上(這是 Richard Atkinson 和Richard Shiffrin在1968年發表的)。

它把這個過程描述爲三個主要部分: 感官記憶、工作記憶和長期記憶。從那時起，許多研究者增加了我們對這一概念的理解，但是基本模型仍然是相同的。

每天，我們都會被感官信息轟炸。感官記憶會過濾掉大部分這類信息，但是對最重要事情的記憶會保持足夠長的時間，以便它們進入工作記憶。當打藍球的時候，感官記憶丟失了關於其他球場球員的信息，附近孩子們玩耍的聲音... 而是隻關注眼中的藍球。

來自感官記憶的信息會進入到工作記憶，在那裏它要麼被加工，要麼被丟棄。工作記憶在任何時候通常可以容納五到九個信息項(或塊)，這是認知負荷理論的核心。

當大腦處理信息時，會對信息進行分類，並將其轉化爲長期記憶，儲存在被稱爲“schema”的知識結構中，它們根據如何使用來組織信息。因此，有不同概念的模式，比如狗、貓、哺乳動物，也有一些行爲模式，比如打球、騎自行車、在餐館點餐等等。使用這些模式越熟練，這些行爲就會變得越輕鬆，這叫做“自動化” 。

認知負荷理論

認知負荷理論是由 John Sweller 提出的。1988年，他在《認知科學》雜誌上發表了一篇關於這個主題的論文。

“認知負荷”指的是工作記憶一次可以容納的信息量。John Sweller 認爲，由於工作記憶的容量有限，教學應該避免些對學習沒有直接貢獻的額外活動。例如，一個有標籤的圖表對工作記憶的要求比旁邊有標籤的圖表要低。可以用圖2對比一下圖1:

認知負荷理論展示了工作記憶可以通過兩種方式來擴展。

首先，大腦分別處理視覺和聽覺信息。工作記憶中的聽覺項目與視覺項目的競爭方式不同，而兩個視覺項目（例如圖片和一些文本）之間的競爭方式相同。這就是所謂的“模態效應”。

其次，工作記憶把一個已經建立的模式當作一個單獨的項目，一個高度實踐的“自動化”模式是不可能的。因此，利用現有知識的學習活動可以擴展工作記憶的能力。

這意味着，在引入更復雜的主題之前，預先培訓或教授人們先決技能，將有助於他們建立擴展工作記憶的模式，也意味着他們可以理解和學習更困難的信息。

認知負荷理論假設人類的認知結構由工作記憶和長時記憶組成。其中工作記憶也可稱爲短時記憶，它的容量有限，一次只能存儲5—9條基本信息或信息塊。當要求處理信息時，工作記憶一次只能處理兩到三條信息，因爲存儲在其中的元素之間的交互也需要工作記憶的空間，這就減少了能同時處理的信息數。工作記憶可分爲“視覺空間緩衝器)”及“語音圈”。長時記憶於1995年由Ericsson和Kintsch等提出。長時記憶的容量幾乎是無限的。其中存儲的信息既可以是小的、零碎的一些事實，也可以是大的、複雜交互、序列化的信息。

認知負荷理論在交互設計中的應用

對於智能語音技能而言，無屏音箱可以對應到工作記憶的語音圈，而有屏音箱則對應到工作記憶的多模態方式。

1.直白易懂——衡量專業程度並相應地調整演示

特定領域的專業詞彙越多，模式中可用的信息就越多。模式有多複雜並不重要，只是工作記憶中的一個單獨的項目。這就是爲什麼交互設計中語句要直白易懂，要確保呈現的信息是正確的——對你來說顯而易見的東西對他們來說可能根本不明顯。

2. 簡潔自然——減少問題空間

“問題空間”是當前情況與預期目標之間的差距。如果這個數值太大，人們的工作記憶就會超負荷。這種情況經常發生在複雜的問題上，用戶需要從目標推理到當前狀態。這樣做需要他同時在工作記憶中保存大量信息。把注意力集中在目標上也會轉移對所學信息的注意力，從而降低效率。

一個好方法是把問題分解成幾個部分。這減少了問題空間，減輕了認知負擔，使交互更有效。減少問題空間的其他方法包括提供交互實例和提供部分解決方案的問題供用戶完成。這些方法特別有用，例如控制語句中名詞的數量，將複雜意圖分解爲多個簡單意圖等等。

3. 豐富多變——充分利用工作記憶中的聽覺和視覺通道

當技能中有多種視覺信息來源時，比如圖表、標籤和解釋性文字，注意力就會被分散，因爲這增加了認知負荷。當整合視覺信息時，這種效果會減弱，智能語音技能要本着“voice first”的原則，將視覺信息作爲有效的補充。

用聽覺信息代替部分視覺信息，通過使用聽覺通道，減輕了人們對視覺工作記憶的認知負荷，聽覺通道有自己的記憶空間。

例如，在 Mayer 和 Moreno 1998年的一項研究中，學生們發現當他們看到一個有旁白的動畫時，學習效果最好，而不是用同樣的動畫加上屏幕上的文字。

需要注意的是，當太多的信息同時出現時，用戶會變得不堪重負，而且大部分的信息都會丟失。

參考資料與關聯閱讀：

Atkinson, R.C. and Shiffrin, R.M. (1968). 'Human memory: A Proposed System and its Control Processes'. In Spence, K.W. and Spence, J.T. The psychology of learning and motivation, (Volume 2). New York: Academic Press. pp. 89–195.
Advances in Psychology 心理學進展, 2015, 5, 50-55 Published Online January 2015 in Hans. http://www.hanspub.org/journal/ap
http://dx.doi.org/10.12677/ap.2015.51007
https://dueros.baidu.com/dbp
對AI產品經理的一知半解
再看語音交互設計
《智能語音時代》的讀書筆記
語音交互設計的一點認知