一個日益數字化的世界意味着,我們在設備上花費的時間可能比在彼此上花費的時間要多。而語音交互是否會成爲我們與世界互動的主要方式呢?

終極設計師指南:語音用戶界面(VUI)

“設置早上7:15的鬧鐘”

——“好的,呼叫Selma Martin 中”

“不是不是!是設置早上 7:15 的鬧鐘”

——“很抱歉。我不懂您在說什麼。”

“哎~”(開始手動設置鬧鐘)

終極設計師指南:語音用戶界面(VUI)

我們的聲音形形色色,並且複雜多變。語音命令甚至更難處理——在人與人之間尤其如此,更不用說計算機了。我們構思、進行文化交流,以及我們使用俚語和推斷意義的方式……所有這些細微差別都會影響我們語言的理解和表達。

那麼,設計師和開發如何應對這一挑戰呢?怎麼才能建立人和AI(人工智能)之間的信任?

這時候語音用戶界面(VUI)就有了用武之地。語音用戶界面(VUI)主要是輔助用戶的視覺、聽覺和觸覺,完成用戶與設備之間的語音交互。

簡而言之,語音用戶界面(VUI)可以是任何事物,從聽到您的聲音時閃爍的燈光到汽車娛樂控制檯。

請記住,語音用戶界面(VUI)無需可視化界面,它完全可以是聽覺的或觸覺控制的(例如:振動)。語音用戶界面(VUI)主要是輔助用戶的視覺、聽覺和觸覺,完成用戶與設備之間的語音交互。

雖然VUI種類繁多,但是可共享同一套設計規範,這套設計規範影響可用性。我們可以一起探討這套規範,因此作爲用戶,可以分析日常的VUI交互;作爲設計師,可以創造更好的體驗。

終極設計師指南:語音用戶界面(VUI)

一、發現——約束條件、依賴關係以及用例

我們與世界的的互動方式受到技術、環境以及社會限制的極大影響,例如:我們處理信息的速度。

將信息轉化爲行動的準確性,用來傳達信息的語言/方言,以及該行動的接收者(不管是我們自己還是其他人)都會影響我們處理信息的數據。

在我們深入研究交互設計之前,首先我們必須要定義語音交互環境背景的構成。

1. 確定設備類型

設備類型影響語音交互的方式、原始語音輸入和語音範圍。

終極設計師指南:語音用戶界面(VUI)終極設計師指南:語音用戶界面(VUI)

移動設備:

  • 蘋果、Pixels、Galaxies
  • 連接——蜂窩網絡、Wi-Fi、設備配對
  • 環境背景對語音交互有重大影響
  • 用戶習慣於使用語音交互
  • 允許通過視覺、聽覺和觸覺反饋進行交互
  • 在各種模型中建立標準化的交互方法

可穿戴設備:

  • 特定於用例,通常面向特定用例,如手錶、健身帶,或智能鞋
  • 連接——蜂窩網絡、Wi-Fi、設備配對
  • 用戶可能習慣於使用語音交互,但這種交互在設備之間是非標準化的
  • 一些可穿戴設備允許用戶通過視覺、聽覺和觸覺反饋進行交互——但有一部分沒有明確的交互,比較被動
  • 通常用戶交互和數據消費都依賴於連接的設備

固定連接設備:

  • 臺式機、帶屏幕的設備、恆溫器、智能家居、音響系統、電視
  • 連接——蜂窩網絡、Wi-Fi、設備配對
  • 用戶習慣於在相同的位置使用這些設備並在習慣的基礎上進行設置
  • 類似設備類型之間的準標準化語音交互方式(臺式機 VS 連接集線器,就像Google Home / Amazon Alexa VS 智能恆溫器)

非固定計算設備(非電話):

  • 筆記本、平板電腦、轉發器、汽車信息娛樂系統
  • 連接——無線、有線(不常見)、Wi-Fi、設備配對
  • 通常主要輸入方式不是語音
  • 環境對語音交互有重大影響
  • 通常在不同的設備之間有非標準化的語音交互方法

2. 創建用例矩陣

語音交互的三個主要用例是什麼?該設備是否有一個主要用例(如健身追蹤器)?或者是否有組合用例(如智能手機)?

創建一個用例矩陣是非常重要的,它將幫助你確定:

  1. 爲何用戶與設備交互?
  2. 交互的主要方式是什麼?
  3. 什麼是次要的?
  4. 什麼是好的交互模式?
  5. 什麼是必不可少的?
終極設計師指南:語音用戶界面(VUI)

你可以爲每種交互模式創建用例矩陣。當應用於語音交互時,矩陣將幫助你瞭解用戶當前使用或想要使用語音與產品交互的方式,包括他們將使用的語音助手的位置。

終極設計師指南:語音用戶界面(VUI)

3. 按順序排列交互模式

如果實施用戶研究去驗證用例(抑或是可用性或定性/定量分析),那麼通過給交互模式排列次序等級就變得十分有必要了。

如果有人告訴你:“如果我能跟電視交流讓它換頻道,這真的是太酷了!”

那麼你真的需要深入瞭解:他們真的會用麼?他們瞭解這些限制嗎?他們真的知道自己使用這些功能的傾向嗎?

作爲設計師,必須瞭解用戶勝過他們自己。你必須質疑他們交互的方式,因爲有替代方案可選。例如:假設我們正在研究用戶是否會與電視互動。在這種情況下,可以大膽的假設語音交互只是諸多交互手段之一。

用戶有多種手段可選:遙控器、配對的智能手機、遊戲手柄或連接的物聯網設備。因此,語音交互不一定是默認的交互方式,它只是衆多方式之一。

因此問題就變成了:語音交互變爲主流交互手段的可能性有多大?如果不是主要的手段,那會是次要的嗎?或者第三?這將向前推進你的推斷和交互假設。

4. 技術限制實例

把我們的語言轉化爲行動是一項極其困難的技術挑戰。通過時間、連接和訓練,調優的計算引擎可以聽懂我們的話並作出適當的動作。

不幸的是,我們生活的世界無線連接並沒有想象中的廣泛(如:互聯網),也沒有無限的時間。我們希望語音交互能與其他習慣的交互一樣直接:視覺上的和觸覺上的——即便語音引擎需要複雜的處理和預測建模。

以下是一些實例流程,展示了我們在演講過程中識別的過程:

終極設計師指南:語音用戶界面(VUI)

正如我們所看到的,許多的模型都需要使用的詞語、音調、音色來進行不斷的訓練。

終極設計師指南:語音用戶界面(VUI)

每種語音識別引擎都有一些技術限制,在構建語音交互體驗時,必須考慮到這些限制。

分析以下分類:

  • 連接水平——設備是否始終連接網絡?
  • 處理速度——用戶是否需要實時處理語音?
  • 處理精度——如何權衡準確度與處理速度?
  • 語音模型——當前模型的效率怎麼樣?能準確的處理整句還是簡短的單詞?
  • 備選方案——如果無法進行語音識別,備選方案是什麼?用戶有其他的交互模式選擇嗎?
  • 結果誤差——處理過程中一個錯誤的命令會不會導致不可逆的結果?語音識別引擎是否能夠避免這種不可逆的錯誤?
  • 環境測試——語音引擎是否在複雜環境下進行過測試?例如:如果我構建汽車的信息娛樂系統,相比智能恆溫器我會設想更多的幹擾環境。

5. 非線性

此外,我們還應該考慮用戶能夠以非線性的方式與設備交互。例如:如果我要預訂網站上的機票,然後不得不按照網站的步驟進行——選擇目的地、選擇日期、選擇座位、看選項等等。

但是,VUI 有更大的挑戰,用戶可以說:“我們想乘坐商務艙飛往舊金山”。現在,VUI 必須從用戶那裏提取所有相關信息,以便利用所有的航班預訂數據。但最後排序的結果可能是有傾向(某一種排序方式)的,因此 VUI 有責任從用戶那裏提取相關信息(或通過語音或視覺進行補充)。

終極設計師指南:語音用戶界面(VUI)

二、語音交互用戶體驗

以上,我們研究了約束條件、依賴關係、用戶案例,那麼,現在可以開始深入一些研究語音交互相關的用戶體驗了。

首先來研究設備如何知道何時該收接收我們的語音。

對於上文,下圖說明瞭基本的語音交互流程:

終極設計師指南:語音用戶界面(VUI)

表現爲……

終極設計師指南:語音用戶界面(VUI)

1. 觸發器

語音輸入觸發器有四種類型:

  1. 語音觸發——用戶說出一個短語,提示設備開始處理語音(如:“Ok Google”);
  2. 觸覺觸發——按下按鈕(某個鍵或鍵盤輸入)或切換控制(例如:麥克風);
  3. 動作觸發——在傳感器前揮揮手;
  4. 設備自觸發——預定設置觸發設備(汽車提醒司機確認某個任務)。

作爲設計師,你必須瞭解哪些觸發器與設計相關,並且講這些觸發器從相關到不相關進行排序。

2. 引導提示

通常,當觸發設備時,會有一個聽覺、視覺或觸覺提示。

終極設計師指南:語音用戶界面(VUI)終極設計師指南:語音用戶界面(VUI)

這些提示應該遵循以下可用性原則:

  • 實時性——被觸發後,提示應該實時展示,即使這會中斷當前的流程(只要這個中斷不是破壞性動作)。
  • 簡潔短暫——提示應該幾乎是瞬間的,特別對於老用戶。例如:兩聲嗶嗶聲比“好吧,賈斯汀,你想讓我做什麼?”更有效。引導提示越長,用戶的話越可能與設備提示衝突。這一原則也適用於界面提示,屏幕應立即轉換爲監聽狀態。
  • 清晰——用戶應該知道他們的聲音什麼時候開始被監聽。
  • 一致——提示始終相同,聲音或視覺反饋的差異會讓用戶覺得困惑。
  • 區別——提示應該與設備的常規的聲音和視覺效果有所不同,並且不應在其他環境中使用或重複。
  • 補充提示——如果可能的話,利用多種交互方式來表示提示(例如:兩遍嗶嗶聲,一次燈光變化或一個界面提示)。
  • 初始提示——對於初次使用的用戶,或者當用戶不知所措時,你可以顯示提示或建議,方便繼續進行語音交互。
終極設計師指南:語音用戶界面(VUI)

3. 反饋用戶體驗

反饋用戶體驗對於成功的語音界面是至關重要的,它允許用戶將他們認爲一致且立即確認的語音,被設備攝入和處理;反饋還允許用戶糾正或者肯定他的行爲。

終極設計師指南:語音用戶界面(VUI)終極設計師指南:語音用戶界面(VUI)

以下是一些有助於提供 VUI 有效反饋的交互原則:

  • 實時、響應式視覺效果——這種視覺反饋在本機語音設備交互中最常見(例如:手機),它可以在多個聲音維度上創建即時的認知反饋:音調、音色、強度和持續時間——這些都可以改變實時響應的方案。
  • 音頻播放——確認語音的解釋。
  • 實時文本——文本反饋將在用戶說話時逐漸顯示。
  • 輸出文本——在用戶完成語音後,轉換和修改文本反饋,在將音頻確認或轉換爲行爲動作之前,將這視爲第一層的糾正處理。
  • 非屏幕視覺提示(燈光,燈光模式)——上面提到的響應式視覺效果,不僅限於數字屏幕,這些響應模式也可以以簡單的LED燈或燈光模式體現。

4. 結束提示

該提示意味着設備停止接收用戶語音,並且開始處理命令。許多相同的“引導提示”原則,也適用於最終提示(即時、簡短、清晰、一致和區分)。

不過,還有一些其他原則也需要注意:

  • 充足的時間——確保用戶有足夠的時間完成命令;
  • 適應時間——被分配的時間應該適應用例的預期響應,例如:如果用戶被問到“是”或“否”的問題,則結尾提示應該在一個音節之後期望合理的暫停;
  • 合理的暫停——上一刻接收的語音有合理的停頓時間嗎?計算這個時間非常複雜,但也取決於交互用例本身。

三、會話式交互

像“打開我的鬧鐘”這樣的簡單命令,不一定需要冗長的對話,但更復雜的命令卻需要。與傳統的人與人交互不同,人與 AI 的交互需要額外的確認、冗餘和糾正。

更復雜的命令或迭代對話通常需要更多次語音交互、選項驗證,以確保準確。更爲複雜的是,用戶常常不知道該問什麼,也不知道該怎麼問。因此,VUI 的工作就是理解消息,並允許用戶提供上下文。

  • 肯定性——當 AI 確實理解語音時,它回覆肯定消息,同時這條消息也確認了對語音的理解。例如:人工智能不是說“當然”,而是說“當然,我會把燈關掉”——或者“你確定要我關燈嗎?”
  • 修正性——當 AI 無法解讀用戶意圖時,應使用修正選項進行響應,允許用戶選擇另一個或重新對話。
  • 善解人意——當 AI 無法滿足用戶的請求時,它應該因缺乏理解而獲得所有權,然後爲用戶提供糾正措施,同理心對於建立一種更和藹可親的關係非常重要。

四、擬人化交互

將類人特徵賦予語音交互,會在人與設備之間建立一種關係。這種擬人化以各種方式展現:燈光模式、反彈形狀、抽象球形圖案、計算機生成的語音和聲音。

終極設計師指南:語音用戶界面(VUI)終極設計師指南:語音用戶界面(VUI)

擬人化是指給事物(非人類實體)賦予人類特徵、情感或意圖。

終極設計師指南:語音用戶界面(VUI)

擬人化在用戶和機器之間建立了一種更緊密的聯繫,這也可以跨越具有類似操作平臺的產品(例如:谷歌的助手、亞馬遜的 Alexa 和蘋果的 Siri)。

  • 個性化——爲交互帶來額外的維度,允許事物的虛擬人格與用戶建立聯繫和共鳴,有助於減輕語音處理錯誤的負面影響;
  • 積極性——積極鼓勵重複性的互動和肯定的語調;
  • 信心和信任——鼓勵更多的互動和複雜的對話,因爲用戶更有信心結果是積極的,從而增加了價值。

五、端到端的交互

語音交互應該是流動的和動態的(彼此一言一語的對話)。當我們面對面交談時,我們常會使用大量的面部表情、音調變化、肢體語言和動作。語音交互的挑戰在於,在數字化環境中捕捉這種不固定的交互變化是很困難的。

如果可能,整個語音交互體驗感覺應該像是一種有益的互動。當然,更多短暫的互動,如:“關燈”並不一定需要一個完整的關係。但是,任何一種更強大的互動,如與語音助理一起烹飪,確需要長時間的對話。

終極設計師指南:語音用戶界面(VUI)終極設計師指南:語音用戶界面(VUI)

有效的語音交互體驗將受益於以下原則:

  • 短暫的——無縫處理不同狀態之間的轉換,用戶應該感覺到他們沒有等待時間,且助理在爲他們工作。
  • 生動的——鮮豔的色彩傳達喜悅和未來主義,它爲互動增添了一種未來主義優雅的元素,鼓勵重複性互動。
  • 響應式——迴應用戶輸入語音和手勢,給出關於正在處理信息的提示,並允許用戶查看語音、意圖是否被準確的解析。
終極設計師指南:語音用戶界面(VUI)

六、結論和資源

VUI 非常複雜,且有多個方面,通常是複雜的混合(多種交互手段)交互。

事實上,它還沒有一個全面的定義。不過要記住重要的一點——一個日益數字化的世界意味着,我們在設備上花費的時間,可能比在彼此上花費的時間要多。VUI 是否會成爲我們與世界互動的主要方式嗎?讓我們拭目以待。

與此同時,你是否打算構建一個世界級的 VUI?

作者:Justin Baker

原文鏈接:https://medium.muz.li/voice-user-interfaces-vui-the-ultimate-designers-guide-8756cb2578a1

譯者:Anne

本文由 @Anne 翻譯發佈於人人都是產品經理。未經許可,禁止轉載

題圖來自 Pixabay,基於 CC0 協議

相關文章