可能人人都希望自己有個“賈維斯”。

  雖然已經退出漫威電影很多年,但是我們還是能夠記起那個鋼鐵俠戰衣裏無所不能的AI助手。獨特的幽默、優雅的語調,以及非常靠譜的人設,讓無數科幻迷對這個看不見聽得到的角色產生了無盡好感。

  對賈維斯的迷戀有多瘋狂呢?我見過賈維斯版本的電腦桌面程序,賈維斯模樣的手機UI,以及以賈維斯命名的AI算法。設計師和極客們,迄今爲止想了無數辦法來“復活”屬於自己的賈維斯。

  然而畫面越來越逼真的賈維斯界面,顯然無法得到它的精髓:像朋友一樣的溝通與陪伴。

  假如說有某種技術希望能夠在“本質”上尋找賈維斯,那麼一定非語音助手莫屬。

  由於身處一個科技爆炸的年代,日常生活中我們可能不太留心某種技術的發展。但是如果一旦停下來回頭看看,會驚奇地發現一門技術原來經歷了相當驚人的變化。比如說手機中的語音助手,已經成爲了日常生活的一部分。而如果回首一下它的歷史,說不定會大吃一驚:原來用語音助手復活賈維斯,並不是說着玩玩的。回看這些年語音助手的成長,會發現在人性化交互、應用能力拓展,以及功能集成上,語音助手的體驗確實在一步步逼近“賈維斯”這個終極目標。

  最近好像流行寫各種簡史,那不妨讓咱們今天來講一段,關於“尋找賈維斯”的簡史。不難發現,語音助手的進化軌道,其實已經非常清晰明確。

  語音助手初長成

  大家都知道,最早的語音助手是蘋果推出的Siri。

  想當年,在大家都沒跟手機說過話的時候,Siri小姐姐真的可謂是叱吒江湖。《生活大爆炸》裏甚至有一集,專門安排拉傑什和Siri談了回戀愛。

  然而要承認的是,技術必然有其階段性。就像老爺車雖然經典,但是肯定無法開上21世紀的高速路。初始階段的Siri,在今天來體驗其實是很初級的。

  語音助手這件事,之所以得到了蘋果的大規模投入,其實主要是雲計算系統的功勞。其實更早時候,語音助手的雛形已經出現。只是當時雲計算體系沒有鋪開,只能把若干語音指令存儲在手機中,這導致用戶的問答模板過分單調。

  而從Siri開始,語音助手完成了雲端部署。這樣可以在雲端存儲大量的對應模板,並且實時更新,從而讓語音服務成爲可能。

  這時候的Siri雖然知道的多了,但是智商卻十分堪憂。由於當時的語音助手完全是模板化的,換句話說你必須準確說出了問題,並且被Siri準確識別了,才能給你找出對應的答案。

  然而套路終歸是套路。那個時候,應用Siri的體驗大概是這樣的:

  Siri,幫我給xx打電話

  好的,已經撥打

  Siri,幫我打個電話,我要聯繫xx

  對不起,Siri沒有聽懂……

  總之就是,模板不能錯一點點,否則就是推到重來。好在,這種語音助手完全比拼模板數量的時代,很快就過去了——因爲AI來了。

  AI來了之後

  早期語音助手的最大缺點,在於問答只能模板化。用戶實際上不是在跟語音助手聊天,只是把遙控器換成了語音操作而已。這在某種程度反而是增加了用戶的交互成本,同時也讓用戶心中對於“語音助手”這個概念的智能化期待大打折扣。

  好在AI來了。

  隨着深度學習的復興,以神經網絡處理語音任務逐漸成爲主流。隨着AI加入,語音助手開始呈現語義理解、多輪對話,聲音合成等能力,並且在這幾條軌道上不斷髮展。於是我們看到了語音助手的聽力越來越敏捷,很多情況能夠和用戶像正常聊天一樣說下去。甚至方言、兒童音等問題都得到了一定程度的解決。

  這個時期的語音助手,最具特色的代表應該是谷歌語音助手Google Assistant和微軟小冰。前者去年曾經創造過模仿真人打電話而不露餡的“壯舉“,而後者也常年活躍於聊天界,以不被發現是AI而著稱。

  這個時候的語音助手體驗,已經有了比較明顯的升級。比如用戶說我想打個電話/幫我打個電話/幫我查一下某人的號碼,然後打電話,語音助手基本都能明白。

  而且在深度學習的幫助下,語音助手還能記住用戶的聊天習慣,時不常還能跟用戶逗個悶子,聊天時立個人設。

  然而這並不是終點。隨着AI語音助手的普及,尤其是在手機中的廣泛應用,用戶發現它能幹的事情還是太少了。基本就停留在打電話、發短信、整理日程表等幾種。然而這幾種在今天已經是名副其實的邊緣應用。

  只能聊而沒啥用的語音助手,就好像賈維斯只能陪着託尼瞎聊天,卻無法啓動鋼鐵俠戰衣——這顯然是嚴重影響票房的。

  在移動AI覺醒的這兩年,隨着終端AI處理能力越發強大,事情開始有了更多發展。

  摺疊出人性化交互

  在語音助手的進化上,有兩件事決定了今天的故事走向。一個是客觀上來說,無論是端側還是雲側的AI處理能力都在變強。許多之前無法觸發的AI應用開始變爲現實,這些能力就像鋼鐵俠的裝甲和武器,讓語音助手有更多可以操縱的空間。

  更明顯的改變來自於消費者和廠商,對語音助手這件事發生了主觀上的升級。過去語音助手作爲一個“嚐鮮品“,主要能力是顯露自己多麼智能強大。而在今天,已經習慣語音交互的用戶需要的是”以我爲主”,讓語音助手提供服務,而不是炫技。

  衆所周知,我們在手機中的主要服務,是基於APP產生的。那麼語音助手的下一步也就是要融合到APP當中,把服務抽象出來,帶給用戶方便。比如三星的Bixby最先嚐試了打穿APP的方案。

  這主客觀兩個條件結合,構成了今天語音助手的主要升級方案:摺疊交互,融合應用,體現人性化。

  在這條路上已經有了不少參賽者,而目前能夠看到將語音助手這件事推到新高度的,是剛剛更新的EMUI9.1。

  小藝這個名字,對於華爲用戶來說並不陌生。而EMUI 9.1版本的小藝經歷了一個跨度非常大的升級。從整個語音助手發展歷史的角度看,這些升級也可能十分重要。咱們還是基於幾個場景的變化,來研究一下小藝剛剛帶來了什麼。

  1、能聽能說,也要能看

  語音助手這東西,大家已經默認其能力就是聽和說。然而實際上,一個真正的“助手“還需要一個基本的能力,那就是“察言觀色”。

  之所以語音助手一直缺乏“看”這個層面的能力,原因很大程度在於大部分手機還無法承載複雜的AI視覺計算。這個領域華爲這兩年一騎當先,自然也就孕育出讓語音助手走向聽說看全能的基礎。

  在EMUI9.1版本中,小藝開啓了多模態融合交互。之前,用戶想用手機識別花草、汽車之類的,需要點開攝像頭或者專用APP。這個流程其實有點繁瑣,而且很多一閃而逝的風景可能就要錯過。

  而新的小藝,則可以讓用戶長按電源1秒就喚醒它,直接對手機說“這是什麼”,語音助手就會自動識別花草、汽車等等。這個能力更有用的地方是識別食物卡路里,可以直接語音問手機“我吃這個會不會胖”,然後小藝就會自動開啓卡路里識別,報出食物的卡路里數量。小藝還會根據識物的卡路里級別,建議你少吃還是放心吃。估計也就是小藝才如此友善,同樣的問題問朋友,他們大概會說“你吃空氣也會胖”。

  看的目標不僅是基於攝像頭,同樣也可以看到手機裏的圖片。小藝的視覺結合,另一個玩法是用語音搜圖。比如用戶可以說“找到我女朋友去年的照片”,手機就會在圖庫衆多的圖片中找到你想要的。

  2、穿透APP來服務你

  我們今天的生活,就是在無數APP中穿梭。同時也要承認,很多功能其實隱藏在APP深處,想要完成是有點麻煩的。

  舉個例子,在你口渴難耐時,想要去自動售貨機買瓶水。一頓操作終於選到了合適的飲料,這時提示你要掃碼付款,然後此時要先經歷找到支付寶,打開支付寶,點擊掃碼——這個過程中每一秒都是煎熬。

  而在EMUI9.1的升級中,小藝加入了更多用語音解鎖APP場景的功能。比如上面這些操作,現在可以直接對手機說“掃碼”,一句話喚醒。這個技能適用於各種着急買東西的場景,其中滋味大家不妨自己體會。

  另一個很有代表性的場景是在微信裏。現在微信語音似乎已經完全取代了電話,但是在茫茫然一片的微信裏,想找到合適的人其實還挺難。要經歷點開搜索,打字,完成搜索點入對話框,發起語音,一共四個步驟。而小藝則可以直接說一句“給微信裏的某人打電話”來一步完成。

  此外,不同應用中觸發小藝,據說還有不同驚喜。

  3、可學習和可定義

  小藝的另一個升級點,在於學習用戶語音習慣和使用習慣的能力得到了加強,同時開啓了自定義組合技能的新模式。

  比如我們週五下班坐進車裏,這時候其實是有很多事先要用手機完成的。比如說,打開導航確認目的地,放首《今天是個好日子》聽聽,給哥們發微信約去看球,給老婆發短信說今天要加班不回家吃飯了……這種做法並不值得提倡。

  可以看到的是,這一波操作雖然心情愉快,但是未免複雜了點。手速慢的人分分鐘就會被晚高峯給追上。而在新版的小藝中,用戶可以自定義這些操作,整合成同一個語音命令。比如說對小藝大吼“勞資下班了!”小藝就會自動進行用戶設定的上述操作,又簡單又解氣。

  從小藝的故事可以看到的是,手機語音助手走到今天,已經不僅僅是一個語音軟件本身的智能程度問題,而是整部手機的能力,都要通過語音助手來集成和調動。把多種能力、多個應用,多個交互進行摺疊,最終摺疊出的纔是更省時省力,更符合用戶期待的自然交互。

  而從語音助手誕生時的套模板,再到AI的入場,隨後發展到手機軟硬一體化的智能摺疊時代,語音助手的變遷史中,似乎可以總結出一個公式。

  語音助手的“賈維斯公式”

  到底怎麼才能做出大家心目中的賈維斯?通過手機和語音助手的不斷耦合,我們可以發現這樣幾件事是先覺條件:

  1、不斷升級的AI綜合體

  從谷歌、微軟、亞馬遜激烈競爭的語音助手,到國內的智能音箱熱潮、手機語音助手不斷升級,而AI能力始終是這個故事的“主線劇情”。

  而隨着步入移動AI時代,語音助手現在的任務,從整合AI技術,開始發展到了整合AI應用、AI能力和AI技術的三合一模式。

  回望華爲手機開啓AI進化的這兩年,從EMUI在8.0時期開始,諸多智慧能力開始顯現。到 9.0時代,開始加強視覺AI應用,並且對AI能力進行整合。而到9.1當中,語音助手開始整合更多AI應用。可以看出,AI的從無到有,從弱到強,從分散到整合,是手機助手進化的主線。

  2、軟硬件不分彼此

  在手機當中,一款軟件的能力總歸有限,只有與應用、內容和硬件層面更好結合,才能真正讓用戶獲得智能的體驗和實際的應用價值。

  這就好比只會逗悶子的賈維斯並不招人喜歡,天文地理無所不知,還能操縱鋼鐵俠戰衣的纔是“真·賈維斯”。語音助手之所以今天的領軍者變成華爲和EMUI,很大程度在於華爲手機這幾年在軟硬件一體化能力上的積極探索,一定程度打破了舊有手機模式的藩籬。

  當語音助手可以調動智慧視覺和各種應用,其價值就好像你的朋友突然由員工升級成了老總……

  3、基於人性,去摺疊每一個交互

  要注意的是,語音助手始終伴隨着一條炫技之路:由於AI帶來的技術非常充沛,開發者很容易把語音交互搞得複雜無比。雖然初心是讓消費者感受到技術爆發的魅力,但實際應用中消費者往往不勝其擾,只能敬而遠之。

  所以在語音助手的進化中,需要基於人性化的產品思考,基於用戶感受去摺疊和省略交互。只要技術複雜同時交互簡單,語音助手纔有親和力可言。

  至此,不難發現,這條尋找賈維斯之路,似乎可以被總結成這樣的公式:智能技術更復雜,產品融合度更強,交互更人性=語音助手更像賈維斯。

  並且我們有理由相信,所有尋找終歸能夠抵達終點。

相关文章