終極設計師指南：語音用戶界面（VUI）

一個日益數字化的世界意味着，我們在設備上花費的時間可能比在彼此上花費的時間要多。而語音交互是否會成爲我們與世界互動的主要方式呢？

“設置早上7:15的鬧鐘”
——“好的，呼叫Selma Martin 中”
“不是不是！是設置早上 7:15 的鬧鐘”
——“很抱歉。我不懂您在說什麼。”
“哎～”（開始手動設置鬧鐘）

我們的聲音形形色色，並且複雜多變。語音命令甚至更難處理——在人與人之間尤其如此，更不用說計算機了。我們構思、進行文化交流，以及我們使用俚語和推斷意義的方式……所有這些細微差別都會影響我們語言的理解和表達。

那麼，設計師和開發如何應對這一挑戰呢？怎麼才能建立人和AI（人工智能）之間的信任？

這時候語音用戶界面（VUI）就有了用武之地。語音用戶界面（VUI）主要是輔助用戶的視覺、聽覺和觸覺，完成用戶與設備之間的語音交互。

簡而言之，語音用戶界面（VUI）可以是任何事物，從聽到您的聲音時閃爍的燈光到汽車娛樂控制檯。

請記住，語音用戶界面（VUI）無需可視化界面，它完全可以是聽覺的或觸覺控制的（例如：振動）。語音用戶界面（VUI）主要是輔助用戶的視覺、聽覺和觸覺，完成用戶與設備之間的語音交互。

雖然VUI種類繁多，但是可共享同一套設計規範，這套設計規範影響可用性。我們可以一起探討這套規範，因此作爲用戶，可以分析日常的VUI交互；作爲設計師，可以創造更好的體驗。

一、發現——約束條件、依賴關係以及用例

我們與世界的的互動方式受到技術、環境以及社會限制的極大影響，例如：我們處理信息的速度。

將信息轉化爲行動的準確性，用來傳達信息的語言/方言，以及該行動的接收者（不管是我們自己還是其他人）都會影響我們處理信息的數據。

在我們深入研究交互設計之前，首先我們必須要定義語音交互環境背景的構成。

1. 確定設備類型

設備類型影響語音交互的方式、原始語音輸入和語音範圍。

移動設備：

蘋果、Pixels、Galaxies
連接——蜂窩網絡、Wi-Fi、設備配對
環境背景對語音交互有重大影響
用戶習慣於使用語音交互
允許通過視覺、聽覺和觸覺反饋進行交互
在各種模型中建立標準化的交互方法

可穿戴設備：

特定於用例，通常面向特定用例，如手錶、健身帶，或智能鞋
連接——蜂窩網絡、Wi-Fi、設備配對
用戶可能習慣於使用語音交互，但這種交互在設備之間是非標準化的
一些可穿戴設備允許用戶通過視覺、聽覺和觸覺反饋進行交互——但有一部分沒有明確的交互，比較被動
通常用戶交互和數據消費都依賴於連接的設備

固定連接設備：

臺式機、帶屏幕的設備、恆溫器、智能家居、音響系統、電視
連接——蜂窩網絡、Wi-Fi、設備配對
用戶習慣於在相同的位置使用這些設備並在習慣的基礎上進行設置
類似設備類型之間的準標準化語音交互方式（臺式機 VS 連接集線器，就像Google Home / Amazon Alexa VS 智能恆溫器）

非固定計算設備（非電話）：

筆記本、平板電腦、轉發器、汽車信息娛樂系統
連接——無線、有線（不常見）、Wi-Fi、設備配對
通常主要輸入方式不是語音
環境對語音交互有重大影響
通常在不同的設備之間有非標準化的語音交互方法

2. 創建用例矩陣

語音交互的三個主要用例是什麼？該設備是否有一個主要用例（如健身追蹤器）？或者是否有組合用例（如智能手機）？

創建一個用例矩陣是非常重要的，它將幫助你確定：

爲何用戶與設備交互？
交互的主要方式是什麼？
什麼是次要的？
什麼是好的交互模式？
什麼是必不可少的？

你可以爲每種交互模式創建用例矩陣。當應用於語音交互時，矩陣將幫助你瞭解用戶當前使用或想要使用語音與產品交互的方式，包括他們將使用的語音助手的位置。

3. 按順序排列交互模式

如果實施用戶研究去驗證用例（抑或是可用性或定性/定量分析），那麼通過給交互模式排列次序等級就變得十分有必要了。

如果有人告訴你：“如果我能跟電視交流讓它換頻道，這真的是太酷了！”

那麼你真的需要深入瞭解：他們真的會用麼？他們瞭解這些限制嗎？他們真的知道自己使用這些功能的傾向嗎？

作爲設計師，必須瞭解用戶勝過他們自己。你必須質疑他們交互的方式，因爲有替代方案可選。例如：假設我們正在研究用戶是否會與電視互動。在這種情況下，可以大膽的假設語音交互只是諸多交互手段之一。

用戶有多種手段可選：遙控器、配對的智能手機、遊戲手柄或連接的物聯網設備。因此，語音交互不一定是默認的交互方式，它只是衆多方式之一。

因此問題就變成了：語音交互變爲主流交互手段的可能性有多大？如果不是主要的手段，那會是次要的嗎？或者第三？這將向前推進你的推斷和交互假設。

4. 技術限制實例

把我們的語言轉化爲行動是一項極其困難的技術挑戰。通過時間、連接和訓練，調優的計算引擎可以聽懂我們的話並作出適當的動作。

不幸的是，我們生活的世界無線連接並沒有想象中的廣泛（如：互聯網），也沒有無限的時間。我們希望語音交互能與其他習慣的交互一樣直接：視覺上的和觸覺上的——即便語音引擎需要複雜的處理和預測建模。

以下是一些實例流程，展示了我們在演講過程中識別的過程：

正如我們所看到的，許多的模型都需要使用的詞語、音調、音色來進行不斷的訓練。

每種語音識別引擎都有一些技術限制，在構建語音交互體驗時，必須考慮到這些限制。

分析以下分類：

連接水平——設備是否始終連接網絡？
處理速度——用戶是否需要實時處理語音？
處理精度——如何權衡準確度與處理速度？
語音模型——當前模型的效率怎麼樣？能準確的處理整句還是簡短的單詞？
備選方案——如果無法進行語音識別，備選方案是什麼？用戶有其他的交互模式選擇嗎？
結果誤差——處理過程中一個錯誤的命令會不會導致不可逆的結果？語音識別引擎是否能夠避免這種不可逆的錯誤？
環境測試——語音引擎是否在複雜環境下進行過測試？例如：如果我構建汽車的信息娛樂系統，相比智能恆溫器我會設想更多的幹擾環境。

5. 非線性

此外，我們還應該考慮用戶能夠以非線性的方式與設備交互。例如：如果我要預訂網站上的機票，然後不得不按照網站的步驟進行——選擇目的地、選擇日期、選擇座位、看選項等等。

但是，VUI 有更大的挑戰，用戶可以說：“我們想乘坐商務艙飛往舊金山”。現在，VUI 必須從用戶那裏提取所有相關信息，以便利用所有的航班預訂數據。但最後排序的結果可能是有傾向（某一種排序方式）的，因此 VUI 有責任從用戶那裏提取相關信息（或通過語音或視覺進行補充）。

二、語音交互用戶體驗

以上，我們研究了約束條件、依賴關係、用戶案例，那麼，現在可以開始深入一些研究語音交互相關的用戶體驗了。

首先來研究設備如何知道何時該收接收我們的語音。

對於上文，下圖說明瞭基本的語音交互流程：

表現爲……

1. 觸發器

語音輸入觸發器有四種類型：

語音觸發——用戶說出一個短語，提示設備開始處理語音（如：“Ok Google”）；
觸覺觸發——按下按鈕（某個鍵或鍵盤輸入）或切換控制（例如：麥克風）；
動作觸發——在傳感器前揮揮手；
設備自觸發——預定設置觸發設備（汽車提醒司機確認某個任務）。

作爲設計師，你必須瞭解哪些觸發器與設計相關，並且講這些觸發器從相關到不相關進行排序。

2. 引導提示

通常，當觸發設備時，會有一個聽覺、視覺或觸覺提示。

這些提示應該遵循以下可用性原則：

實時性——被觸發後，提示應該實時展示，即使這會中斷當前的流程（只要這個中斷不是破壞性動作）。
簡潔短暫——提示應該幾乎是瞬間的，特別對於老用戶。例如：兩聲嗶嗶聲比“好吧，賈斯汀，你想讓我做什麼？”更有效。引導提示越長，用戶的話越可能與設備提示衝突。這一原則也適用於界面提示，屏幕應立即轉換爲監聽狀態。
清晰——用戶應該知道他們的聲音什麼時候開始被監聽。
一致——提示始終相同，聲音或視覺反饋的差異會讓用戶覺得困惑。
區別——提示應該與設備的常規的聲音和視覺效果有所不同，並且不應在其他環境中使用或重複。
補充提示——如果可能的話，利用多種交互方式來表示提示（例如：兩遍嗶嗶聲，一次燈光變化或一個界面提示）。
初始提示——對於初次使用的用戶，或者當用戶不知所措時，你可以顯示提示或建議，方便繼續進行語音交互。

3. 反饋用戶體驗

反饋用戶體驗對於成功的語音界面是至關重要的，它允許用戶將他們認爲一致且立即確認的語音，被設備攝入和處理；反饋還允許用戶糾正或者肯定他的行爲。

以下是一些有助於提供 VUI 有效反饋的交互原則：

實時、響應式視覺效果——這種視覺反饋在本機語音設備交互中最常見（例如：手機），它可以在多個聲音維度上創建即時的認知反饋：音調、音色、強度和持續時間——這些都可以改變實時響應的方案。
音頻播放——確認語音的解釋。
實時文本——文本反饋將在用戶說話時逐漸顯示。
輸出文本——在用戶完成語音後，轉換和修改文本反饋，在將音頻確認或轉換爲行爲動作之前，將這視爲第一層的糾正處理。
非屏幕視覺提示（燈光，燈光模式）——上面提到的響應式視覺效果，不僅限於數字屏幕，這些響應模式也可以以簡單的LED燈或燈光模式體現。

4. 結束提示

該提示意味着設備停止接收用戶語音，並且開始處理命令。許多相同的“引導提示”原則，也適用於最終提示（即時、簡短、清晰、一致和區分）。

不過，還有一些其他原則也需要注意：

充足的時間——確保用戶有足夠的時間完成命令；
適應時間——被分配的時間應該適應用例的預期響應，例如：如果用戶被問到“是”或“否”的問題，則結尾提示應該在一個音節之後期望合理的暫停；
合理的暫停——上一刻接收的語音有合理的停頓時間嗎？計算這個時間非常複雜，但也取決於交互用例本身。

三、會話式交互

像“打開我的鬧鐘”這樣的簡單命令，不一定需要冗長的對話，但更復雜的命令卻需要。與傳統的人與人交互不同，人與 AI 的交互需要額外的確認、冗餘和糾正。

更復雜的命令或迭代對話通常需要更多次語音交互、選項驗證，以確保準確。更爲複雜的是，用戶常常不知道該問什麼，也不知道該怎麼問。因此，VUI 的工作就是理解消息，並允許用戶提供上下文。

肯定性——當 AI 確實理解語音時，它回覆肯定消息，同時這條消息也確認了對語音的理解。例如：人工智能不是說“當然”，而是說“當然，我會把燈關掉”——或者“你確定要我關燈嗎？”
修正性——當 AI 無法解讀用戶意圖時，應使用修正選項進行響應，允許用戶選擇另一個或重新對話。
善解人意——當 AI 無法滿足用戶的請求時，它應該因缺乏理解而獲得所有權，然後爲用戶提供糾正措施，同理心對於建立一種更和藹可親的關係非常重要。