搜索引擎巨頭,正在加速統治智能音箱市場


智能音箱是個有趣的品類。互聯網巨頭們心心念唸的硬件入口,放在以前不能成爲入口,在智能音箱上,可能夢想成真。

在智能音箱火熱之前,路由器、智能電視和機頂盒等,都曾被視作智能家居入口且不乏巨頭湧入,但這一次,相較以往,陣容和聲勢都要雄壯得多。華爲加入這場戰爭的邏輯更清奇,他們推出的智能音箱,將路由器和智能音箱合二爲一,這樣成爲“入口”的概率更高了點。

先把市場佔了,不管有棗沒棗,先打一竿子再說。

2019年1月,Voicebot 和 Voicify 聯合發佈了一份報告,按照智能音箱的三種使用頻度,給出了美國用戶的使用習慣:


搜索引擎巨頭,正在加速統治智能音箱市場


在每日重複的動作中,38.2%的美國用戶會用智能音箱聽音樂,36.9%的用戶會詢問問題,35.6%的用戶每天都要諮詢天氣。每月重複和至少一次的動作裏,排名前三的依然是音樂、提問、天氣諮詢。

發佈這份報告的Vocify是橫跨Amazon Alex,Google Assitant 和 Cortana的語音內容管理平臺。他們對調查結果給出的觀點是,

“智能語音助手在不同的硬件載體上會有不同的殺手級應用,在智能音箱上,就是音樂播放。因爲過去常見的收音機和家庭音響系統在美國許多家庭消失了,智能音箱正好填補了這塊空白。”

值得注意的是,排名第二和第三的“次高頻”應用 ,提問和天氣諮詢,過去人們的解決方式,很大一部分是由線上的搜索引擎來完成。

智能音箱究竟是資本催熟的“智能玩具”,還是真的有內生的強大生命力,另一份最近美國市場的報告我們也可以窺視一二。

2018年年底EdisonResearch 和NPR電話調研了1002個美國人後,給出這樣一份報告:


搜索引擎巨頭,正在加速統治智能音箱市場


1. 截止去年年底,估計美國18歲以上的成年人中有5300萬擁有智能音箱,佔全體美國人的21%,大約每5個美國人就擁有一部,2018年全年的新增用戶大約爲1400萬。

2. 51%以上的用戶每天都會使用智能音箱。注意,是每天都會使用。

這份報告定義的First adopters,指的是擁有智能音箱超過一年的用戶,顯現出越發複雜和高級的使用行爲,典型的是遙控家庭安防設施和其他家居設備。與此對比,Early mainstream,那些擁有智能音箱少於一年的用戶,依賴設備進行的日常活動有訂餐,打電話,交通信息播報,搜索產品信息,購物,甚至讓家人交流的時間增長。

語音助手成爲了人們日常生活中的一部分,甚至顯著地改變了人們的日常習慣,“報告顯示,智能音箱用戶開始關閉電視,合上手提電腦,花更多時間在聽新聞、聽音樂、聽廣播和語音書,刺激更多對音頻形式的內容需求。”

“買了智能音箱一年的用戶,智能音箱成爲了排行第一位的音頻內容消費的硬件。智能音箱正在對媒體和廣告產生新的深遠影響。對於數百萬的美國人來說,智能音箱正在像過去的收音機一樣,進入千家萬戶,成爲‘新收音機’”。

2018年7月份的另一份Edison Research 和NPR的電話調研,許多用戶還表示,以前花在智能手機上的時間正在向智能音箱進行轉移。

每當一種新的硬件興起,一定是滿足了一個和多個未被挖掘的需求,或者給出了相比以往更好的解決方案。未來,智能音箱的邊界會向哪裏擴張,殺手級應用又可能出現在哪個領域呢?

我們換一個角度來解答這個問題。

13年、14年移動互聯網用戶開始爆發式增長,中國的360,美國的Facebook 和亞馬遜都想推出自己的手機,都想用硬件捆綁自家服務,來給自己導流量。360開發過廉價手機來推廣自己的安全衛士,後來周鴻禕感悟硬件免費的方式不可行;亞馬遜推出Firephone,掃碼精準識別商品和裸眼3D功能極具噱頭,但是很快就半賣半送;Facebook和HTC合作推出了HTC First 、HTCSalsa 、HTC ChaCha三款手機,想讓社交應用成爲智能手機上超越操作系統級的存在,讓用戶全天候沉浸在自家的社交王國裏,最後也沒了下文。

反過來,硬件廠商開發互聯網服務,也鮮有成功的。

2010 年 12 月,小米發佈了中國第一款模仿 Kik 的產品,先是 Android 版,繼而是 iPhone 版。2011 年 4 月,米聊又借鑑香港一款名爲 Talkbox 的同類產品,爲米聊增加了對講機功能,用戶猛增到 100 萬。手機即時通信的風口來了,馬化騰並不比雷軍遲鈍,米聊漸漸完善的時候,偏安廣州的張小龍已經在潛心打磨微信了。

2011 年 1 月騰訊推出了微信,同樣與米聊站在手機即時通信的起跑線上,微信的快速爆發式增長直接導致了米聊的墜落。微信依靠 8 億 QQ 用戶的成熟關係鏈,僅用1 年時間就獲得 1 億用戶,將米聊遠遠地甩在身後。

米聊幹不過微信,從現在看是單純的硬件廠商沒有用戶數據的積累,也沒有在多個硬件平臺的開放和兼容性上下功夫,直面用戶的產品思維欠缺、對用戶需求的深入洞察可能也不夠。硬件的壁壘在品牌和產品效用本身,互聯網服務的護城河,則是用戶個人習慣,軟件沉澱的個人數據,這些東西的存在意味着,當你要切換平臺的時候,有巨大的切換成本。

智能音箱被一些媒體稱爲是繼智能手機之後,短時間爆發最快也最暢銷的消費電子產品。互聯網巨頭在智能音箱上,沒有隻滿足只做一個AI底層的智能語音助手去適配硬件廠商,而是做軟硬一體的自有品牌,親自下場肉搏。

硬件講求普適,用品牌來達成橫向適配。軟件講求往深層挖掘,用習慣、數據和其他關聯服務來挖出一道垂直的鴻溝。但是智能音箱是一個鮮明的反例,它可能是少數幾個模糊了硬件廠商和軟件廠商各自核心競爭力的新物種。因爲帶領的這個市場的,並不是單純的硬件廠商,而是提供特定服務的互聯網巨頭。

2014年11月,剛經歷過Fire Phone銷售慘敗的亞馬遜十分低調上線了智能音箱Echo,Jeff Bezos甚至沒有單獨爲它開一場發佈會。那時他的期待應該是很低的,因爲FirePhone 那樣大張旗鼓耗費巨大的產品都沒有起色,智能音箱這樣投入少量資源做的試驗品類,能好到哪裏去。

第一臺Echo音箱發佈於2014年11月,15年Echo 年度出貨250萬臺,2016年激增到520萬臺。2017年,綜合各方數據,Echo的整體銷量應該在1700萬臺到2000萬臺之間。2015、2016兩年時間,沒有費什麼力,很輕鬆地就敗了原來這個領域的霸主,家庭無線音響的領頭羊Sonos。


搜索引擎巨頭,正在加速統治智能音箱市場


然後Google Home開始登場。Google Home 在16年5月對外公佈,11月份發貨,僅僅兩個月的時間,就搶到了2016年全年市場份額的6.7%。

2016年和2017年的整體市場變化,谷歌也差不多增長了一倍。


搜索引擎巨頭,正在加速統治智能音箱市場


根據Strategy Analytics的報告,智能音箱在2016年的全球整體銷量在600萬臺,2017年整體增長預估爲2400萬臺。2016年,Amazon 市場份額佔到了91.7%,Google Home 佔到了6.7%。2017年,這個數據變成了Amazon71.3% , Google Home 14.7%。

而到了2018年Q3和Q4,谷歌更快地彌補跟亞馬遜之間的差距,份額從23%增長到29.9%。外界預言,谷歌將很快超越亞馬遜,很可能在2019年成爲智能音箱的領頭羊。


搜索引擎巨頭,正在加速統治智能音箱市場


前面我們提到,橫跨三大智能語音助手Vocify的調研結果,獲取產品訊息和購物,分別列爲倒數第八和倒數第一的應用,綜合語音搜索內容,前三大應用裏面佔了兩個,亞馬遜和谷歌在智能音箱領域的市場份額,也蹊蹺地發生了變化。

可能智能音箱的競爭,很快就會變成語音交互和搜索精準度的競爭。這些都是谷歌的強項。搜索引擎巨頭快速在智能音箱領域獲得成功,同樣在中國發生了。

百度真正發力智能音箱是在2018年中,“小度在家“這款全球首款帶屏智能音箱在2018年4月份才公開招募內測。而短短幾個月,百度的智能音箱就如核彈爆炸一般急速增長,到了2018年Q3,已經是三巨頭之一,Q4超越排名第二的小米,快速接近阿里巴巴。


搜索引擎巨頭,正在加速統治智能音箱市場


谷歌和百度的例子都證明瞭一點,智能硬件看似是一個硬件產品,而實際上它的核心技術並不是硬件。音質和產品本身不能完全保證智能音箱在市場上領先,AI的語音識別與搜索的重要性正越來越高。

從百度超越小米就能看出一些端倪。小米在智能硬件方面的開發經驗、品牌積澱和營銷聲量,在中國獨樹一幟,產品常常以性價比著稱。百度很少有跨領域做硬件的成功案例,如此短時間超越小米躋身中國市場第二,逼近阿里巴巴,某種程度上是個奇蹟。“百度的產品較弱”曾是貼在這家中國搜索引擎巨頭身上的標籤,但是如果我們足夠認真審視的話,百度在智能音箱領域的成功,並不是偶然。

語音識別技術已經存在很久了,但是要讓智能音箱有優秀的體驗,不僅僅是正確識別語音就夠了,而是要判別說話者的意圖,給予正確的迴應。國內很多所謂的智能音箱,只是買了科大訊飛的語音識別技術,而百度的智能音箱核心技術是自己研發的。

百度對AI的研發,可以追溯到多年之前。早在2014年(亞馬遜推出Echo之前),百度的研發團隊,就利用深度學習技術,研發出Deep Speech系統。到了2016年,百度的Deep Speech系統已經進化到第三代。

傳統上,對語音識別的人工智能技術是RNN(循環神經網絡)。RNN是在DNN(深度神經網絡)的基礎上發展出時間戳,發展出長短時記憶單元,可以有解決時間序列的應用。語音識別是有時間序列的,所以業界對RNN用於語音識別的研究比較多。

而百度將深層卷積神經網絡技術(Deep CNN)應用於語音識別聲學建模中,將其與基於長短時記憶單元(LSTM)和連接時序分類(CTC)的端對端語音識別技術相結合,大幅度提升語音識別產品性能。這項技術借鑑了圖像識別在近些年的成果,以及語音與圖像在利用 CNN 模型訓練的共通性,在語音識別技術上取得了革命性的進展。

《麻省理工科技評論》(MIT Technology Review)雜誌在2016年度十大突破技術的榜單中把百度語音識別技術列爲十大突破技術。

實際上早在2016年,百度已經有了頂尖的語音識別技術。李彥宏在百度科技大會的上發言可以由AI同聲傳譯。李彥宏在Tech World大會上展示了AI與人的多輪對話。這些展示,遠遠超過市面上在售的智能音箱所擁有的水平,百度只是缺少一款轉化的產品。

語音識別和交互,以及語音搜索,大概率會成爲智能音箱的核心應用,AI 的技術實力,以及誰能沉澱了更多的用戶數據和關聯服務,讓用戶更難離開平臺,將是未來智能音箱的競爭焦點。

未來不久的智能音箱市場,谷歌超越亞馬遜,百度與阿里在智能音箱上並駕齊驅,可不要太驚訝。

相關文章