“尋找賈維斯”簡史

　　可能人人都希望自己有個“賈維斯”。

　　雖然已經退出漫威電影很多年，但是我們還是能夠記起那個鋼鐵俠戰衣裏無所不能的AI助手。獨特的幽默、優雅的語調，以及非常靠譜的人設，讓無數科幻迷對這個看不見聽得到的角色產生了無盡好感。

　　對賈維斯的迷戀有多瘋狂呢？我見過賈維斯版本的電腦桌面程序，賈維斯模樣的手機UI，以及以賈維斯命名的AI算法。設計師和極客們，迄今爲止想了無數辦法來“復活”屬於自己的賈維斯。

　　然而畫面越來越逼真的賈維斯界面，顯然無法得到它的精髓：像朋友一樣的溝通與陪伴。

　　假如說有某種技術希望能夠在“本質”上尋找賈維斯，那麼一定非語音助手莫屬。

　　由於身處一個科技爆炸的年代，日常生活中我們可能不太留心某種技術的發展。但是如果一旦停下來回頭看看，會驚奇地發現一門技術原來經歷了相當驚人的變化。比如說手機中的語音助手，已經成爲了日常生活的一部分。而如果回首一下它的歷史，說不定會大吃一驚：原來用語音助手復活賈維斯，並不是說着玩玩的。回看這些年語音助手的成長，會發現在人性化交互、應用能力拓展，以及功能集成上，語音助手的體驗確實在一步步逼近“賈維斯”這個終極目標。

　　最近好像流行寫各種簡史，那不妨讓咱們今天來講一段，關於“尋找賈維斯”的簡史。不難發現，語音助手的進化軌道，其實已經非常清晰明確。

　　語音助手初長成

　　大家都知道，最早的語音助手是蘋果推出的Siri。

　　想當年，在大家都沒跟手機說過話的時候，Siri小姐姐真的可謂是叱吒江湖。《生活大爆炸》裏甚至有一集，專門安排拉傑什和Siri談了回戀愛。

　　然而要承認的是，技術必然有其階段性。就像老爺車雖然經典，但是肯定無法開上21世紀的高速路。初始階段的Siri，在今天來體驗其實是很初級的。

　　語音助手這件事，之所以得到了蘋果的大規模投入，其實主要是雲計算系統的功勞。其實更早時候，語音助手的雛形已經出現。只是當時雲計算體系沒有鋪開，只能把若干語音指令存儲在手機中，這導致用戶的問答模板過分單調。

　　而從Siri開始，語音助手完成了雲端部署。這樣可以在雲端存儲大量的對應模板，並且實時更新，從而讓語音服務成爲可能。

　　這時候的Siri雖然知道的多了，但是智商卻十分堪憂。由於當時的語音助手完全是模板化的，換句話說你必須準確說出了問題，並且被Siri準確識別了，才能給你找出對應的答案。

　　然而套路終歸是套路。那個時候，應用Siri的體驗大概是這樣的：

　　Siri，幫我給xx打電話

　　好的，已經撥打

　　Siri，幫我打個電話，我要聯繫xx

　　對不起，Siri沒有聽懂……

　　總之就是，模板不能錯一點點，否則就是推到重來。好在，這種語音助手完全比拼模板數量的時代，很快就過去了——因爲AI來了。

　　AI來了之後

　　早期語音助手的最大缺點，在於問答只能模板化。用戶實際上不是在跟語音助手聊天，只是把遙控器換成了語音操作而已。這在某種程度反而是增加了用戶的交互成本，同時也讓用戶心中對於“語音助手”這個概念的智能化期待大打折扣。

　　好在AI來了。

　　隨着深度學習的復興，以神經網絡處理語音任務逐漸成爲主流。隨着AI加入，語音助手開始呈現語義理解、多輪對話，聲音合成等能力，並且在這幾條軌道上不斷髮展。於是我們看到了語音助手的聽力越來越敏捷，很多情況能夠和用戶像正常聊天一樣說下去。甚至方言、兒童音等問題都得到了一定程度的解決。

　　這個時期的語音助手，最具特色的代表應該是谷歌語音助手Google Assistant和微軟小冰。前者去年曾經創造過模仿真人打電話而不露餡的“壯舉“，而後者也常年活躍於聊天界，以不被發現是AI而著稱。

　　這個時候的語音助手體驗，已經有了比較明顯的升級。比如用戶說我想打個電話/幫我打個電話/幫我查一下某人的號碼，然後打電話，語音助手基本都能明白。

　　而且在深度學習的幫助下，語音助手還能記住用戶的聊天習慣，時不常還能跟用戶逗個悶子，聊天時立個人設。

　　然而這並不是終點。隨着AI語音助手的普及，尤其是在手機中的廣泛應用，用戶發現它能幹的事情還是太少了。基本就停留在打電話、發短信、整理日程表等幾種。然而這幾種在今天已經是名副其實的邊緣應用。

　　只能聊而沒啥用的語音助手，就好像賈維斯只能陪着託尼瞎聊天，卻無法啓動鋼鐵俠戰衣——這顯然是嚴重影響票房的。

　　在移動AI覺醒的這兩年，隨着終端AI處理能力越發強大，事情開始有了更多發展。

　　摺疊出人性化交互

　　在語音助手的進化上，有兩件事決定了今天的故事走向。一個是客觀上來說，無論是端側還是雲側的AI處理能力都在變強。許多之前無法觸發的AI應用開始變爲現實，這些能力就像鋼鐵俠的裝甲和武器，讓語音助手有更多可以操縱的空間。

　　更明顯的改變來自於消費者和廠商，對語音助手這件事發生了主觀上的升級。過去語音助手作爲一個“嚐鮮品“，主要能力是顯露自己多麼智能強大。而在今天，已經習慣語音交互的用戶需要的是”以我爲主”，讓語音助手提供服務，而不是炫技。

　　衆所周知，我們在手機中的主要服務，是基於APP產生的。那麼語音助手的下一步也就是要融合到APP當中，把服務抽象出來，帶給用戶方便。比如三星的Bixby最先嚐試了打穿APP的方案。

　　這主客觀兩個條件結合，構成了今天語音助手的主要升級方案：摺疊交互，融合應用，體現人性化。

　　在這條路上已經有了不少參賽者，而目前能夠看到將語音助手這件事推到新高度的，是剛剛更新的EMUI9.1。

　　小藝這個名字，對於華爲用戶來說並不陌生。而EMUI 9.1版本的小藝經歷了一個跨度非常大的升級。從整個語音助手發展歷史的角度看，這些升級也可能十分重要。咱們還是基於幾個場景的變化，來研究一下小藝剛剛帶來了什麼。

　　1、能聽能說，也要能看

　　語音助手這東西，大家已經默認其能力就是聽和說。然而實際上，一個真正的“助手“還需要一個基本的能力，那就是“察言觀色”。

　　之所以語音助手一直缺乏“看”這個層面的能力，原因很大程度在於大部分手機還無法承載複雜的AI視覺計算。這個領域華爲這兩年一騎當先，自然也就孕育出讓語音助手走向聽說看全能的基礎。

　　在EMUI9.1版本中，小藝開啓了多模態融合交互。之前，用戶想用手機識別花草、汽車之類的，需要點開攝像頭或者專用APP。這個流程其實有點繁瑣，而且很多一閃而逝的風景可能就要錯過。

　　而新的小藝，則可以讓用戶長按電源1秒就喚醒它，直接對手機說“這是什麼”，語音助手就會自動識別花草、汽車等等。這個能力更有用的地方是識別食物卡路里，可以直接語音問手機“我吃這個會不會胖”，然後小藝就會自動開啓卡路里識別，報出食物的卡路里數量。小藝還會根據識物的卡路里級別，建議你少吃還是放心吃。估計也就是小藝才如此友善，同樣的問題問朋友，他們大概會說“你吃空氣也會胖”。

　　看的目標不僅是基於攝像頭，同樣也可以看到手機裏的圖片。小藝的視覺結合，另一個玩法是用語音搜圖。比如用戶可以說“找到我女朋友去年的照片”,手機就會在圖庫衆多的圖片中找到你想要的。

　　2、穿透APP來服務你

　　我們今天的生活，就是在無數APP中穿梭。同時也要承認，很多功能其實隱藏在APP深處，想要完成是有點麻煩的。

　　舉個例子，在你口渴難耐時，想要去自動售貨機買瓶水。一頓操作終於選到了合適的飲料，這時提示你要掃碼付款，然後此時要先經歷找到支付寶，打開支付寶，點擊掃碼——這個過程中每一秒都是煎熬。

　　而在EMUI9.1的升級中，小藝加入了更多用語音解鎖APP場景的功能。比如上面這些操作，現在可以直接對手機說“掃碼”，一句話喚醒。這個技能適用於各種着急買東西的場景，其中滋味大家不妨自己體會。

　　另一個很有代表性的場景是在微信裏。現在微信語音似乎已經完全取代了電話，但是在茫茫然一片的微信裏，想找到合適的人其實還挺難。要經歷點開搜索，打字，完成搜索點入對話框，發起語音，一共四個步驟。而小藝則可以直接說一句“給微信裏的某人打電話”來一步完成。

　　此外，不同應用中觸發小藝，據說還有不同驚喜。

　　3、可學習和可定義

　　小藝的另一個升級點，在於學習用戶語音習慣和使用習慣的能力得到了加強，同時開啓了自定義組合技能的新模式。

　　比如我們週五下班坐進車裏，這時候其實是有很多事先要用手機完成的。比如說，打開導航確認目的地，放首《今天是個好日子》聽聽，給哥們發微信約去看球，給老婆發短信說今天要加班不回家吃飯了……這種做法並不值得提倡。

　　可以看到的是，這一波操作雖然心情愉快，但是未免複雜了點。手速慢的人分分鐘就會被晚高峯給追上。而在新版的小藝中，用戶可以自定義這些操作，整合成同一個語音命令。比如說對小藝大吼“勞資下班了！”小藝就會自動進行用戶設定的上述操作，又簡單又解氣。

　　從小藝的故事可以看到的是，手機語音助手走到今天，已經不僅僅是一個語音軟件本身的智能程度問題，而是整部手機的能力，都要通過語音助手來集成和調動。把多種能力、多個應用，多個交互進行摺疊，最終摺疊出的纔是更省時省力，更符合用戶期待的自然交互。

　　而從語音助手誕生時的套模板，再到AI的入場，隨後發展到手機軟硬一體化的智能摺疊時代，語音助手的變遷史中，似乎可以總結出一個公式。

　　語音助手的“賈維斯公式”

　　到底怎麼才能做出大家心目中的賈維斯？通過手機和語音助手的不斷耦合，我們可以發現這樣幾件事是先覺條件：

　　1、不斷升級的AI綜合體

　　從谷歌、微軟、亞馬遜激烈競爭的語音助手，到國內的智能音箱熱潮、手機語音助手不斷升級，而AI能力始終是這個故事的“主線劇情”。

　　而隨着步入移動AI時代，語音助手現在的任務，從整合AI技術，開始發展到了整合AI應用、AI能力和AI技術的三合一模式。

　　回望華爲手機開啓AI進化的這兩年，從EMUI在8.0時期開始，諸多智慧能力開始顯現。到 9.0時代，開始加強視覺AI應用，並且對AI能力進行整合。而到9.1當中，語音助手開始整合更多AI應用。可以看出，AI的從無到有，從弱到強，從分散到整合，是手機助手進化的主線。

　　2、軟硬件不分彼此

　　在手機當中，一款軟件的能力總歸有限，只有與應用、內容和硬件層面更好結合，才能真正讓用戶獲得智能的體驗和實際的應用價值。

　　這就好比只會逗悶子的賈維斯並不招人喜歡，天文地理無所不知，還能操縱鋼鐵俠戰衣的纔是“真·賈維斯”。語音助手之所以今天的領軍者變成華爲和EMUI，很大程度在於華爲手機這幾年在軟硬件一體化能力上的積極探索，一定程度打破了舊有手機模式的藩籬。

　　當語音助手可以調動智慧視覺和各種應用，其價值就好像你的朋友突然由員工升級成了老總……

　　3、基於人性，去摺疊每一個交互

　　要注意的是，語音助手始終伴隨着一條炫技之路：由於AI帶來的技術非常充沛，開發者很容易把語音交互搞得複雜無比。雖然初心是讓消費者感受到技術爆發的魅力，但實際應用中消費者往往不勝其擾，只能敬而遠之。

　　所以在語音助手的進化中，需要基於人性化的產品思考，基於用戶感受去摺疊和省略交互。只要技術複雜同時交互簡單，語音助手纔有親和力可言。

　　至此，不難發現，這條尋找賈維斯之路，似乎可以被總結成這樣的公式：智能技術更復雜，產品融合度更強，交互更人性=語音助手更像賈維斯。

　　並且我們有理由相信，所有尋找終歸能夠抵達終點。

“尋找賈維斯”簡史

热门新闻

周热门

“尋找賈維斯”簡史

蘋果siri突然沒有聲音了怎麼回事?

智能語音對話機器人發展前景如何？

請問有人iOS14有叫不出Siri的問題嘛？

Siri 記錄隱私錄音發給蘋果承包商是否屬實？可能有哪些風險？

如何評價蘋果對 Siri 隱私問題道歉：將不再保留 Siri 互動錄音？

iphone12的siri不能語音播報?

為什麼電腦上沒有像siri一樣的語音控制呢？電腦比手機應用程序開發難嗎？電腦不需要語音控制嗎？

如何評價榮耀Magic2的語音助手yoyo？

手機語音助手叫什麼名字比較好？

在什麼情況下，你會想去使用語音助手？

手機上的語音助手是偽需求嗎？

什麼手機的語音助手最好最智能，陪聊天都可以？

手機語音助手對人的影響？

1970年的賈維斯認出了托尼嗎？

鋼鐵俠死的時候星期五會說什麼，如果是賈維斯呢？

热门新闻

周热门