昨天的锤子科技发布会,TNT已经引起了知乎大佬们广泛的讨论(吐槽)。题主则对语音交互功能产生了些疑问。一些人谈到语音的实用性很差,例如大多数人不会有独立的办公室,不可能在嘈杂的环境下还让机器听到我的话,或者说对机器奇言怪语「红色,加粗」会显得很zz等等。

在题主看来这不是语音交互的通病么?(不知道这么说合不合适)这个病又该怎么治?语音交互的意义应该是什么?

萌新第一次提问,不合理之处请见谅(=_=)


如何评价锤子科技此次发布的坚果 TNT 工作站(显示器)??

www.zhihu.com图标


智能音箱,应该去上山下乡

前些日子,妻子给在乡下的父母买了一个天猫精灵。面对这个新玩意儿,两位老人显得颇有兴致。

一开始用方言对话,天猫精灵总是会回答「你再讲一遍,人家没听清楚。」这让两位老人很不好意思。但现在他们相处得似乎不错,岳父岳母努力说著蹩脚的普通话,而天猫精灵也逐渐开始回应,终于让老人们放下了「白花钱」的顾虑。

农村生活很安逸,串门是乡亲们打发时间的主要方式。「把灯打开」以及「天气预报」是岳父的拿手好戏,每当有人串门的时候,岳父总要热情地给邻里演示一遍。

说起来,岳父一直都是农村的科技先锋。不管什么新鲜的玩意儿,他总愿意去研究一下。相比邻居们对电子产品的需求仅止于发微信和打电话,岳父抖音快手玩得贼溜,网上购物也是操作自如。举个例子来佐证岳父在这方面的地位,那就是全村人需要交手机话费的时候,都会登门拜访,请求代操作。

岳母有时候会觉得烦,举手之劳本来没什么了不起的,但时间久了,有人进来左手交钱右手就等著话费缴纳,交完了就扭头出去了,把家里搞得像营业厅一样。

「他们就不能学一学?这手机缴费这么方便的事。」岳母抱怨道。

「诶呀,都是乡亲。再说了,你咋不学?」岳父笑著反问。

在乡下,岳父这样的是特例。大多数人相比捣鼓手机,更喜欢打麻将。

但智能音箱的到来却改变了这一现状,大伙儿对这个小盒子都颇感兴趣,再打听了一下价格,这个看似比电脑还高科技的玩意儿居然才几百块钱。

截止写稿的今天,已经有十四家下了单,喜迎家庭新成员。

老实说,这是个偶然事件。我们自己家尚且不用智能音箱,觉得没什么特殊的功能,妻子给家里买这东西,也不过是念及老丈人一直喜欢这些新鲜玩意,买来哄老人高兴罢了。

岳父大人喜欢是向来如此的事情。让我真正动笔想写这篇文章的,是乡亲们的反应。

之前的时候,曾买过一次扫地机器人。邻里们看了,或多或少都表现出了嘲弄的语气,心说金贵得连地都不扫了。又挑剔机器人打扫不干净打扫不彻底等之类的毛病,一通宏论发表之后再打听一下价格,更是连连咂舌。吐槽这是一次极不理性的消费。

事实上,广大的农民们有著极其完备的消费观,未必符合主流,但对他们来说是精明的,且完美符合自身所处的环境。

电子科技类产品,尤其是新兴的电子科技类产品,在他们的消费观里,向来都是垫底的东西。可在我们年轻人看起来甚至有些鸡肋的智能音箱,在他们之间竟然可以受到如此广泛的欢迎,这多少让我有些意外。

仔细想来,仅仅是「攀比」这一条,很难解释得通。尽管现在农村有钱了,但为了赶个时髦就扔个几百块,在他们看来是非常「不划算」的事。

经过一番思考后我认为,智能音箱挖掘出了新的需求,而且这一新需求对他们而言,可以说是「刚需」。

这一需求便是:接入互联网。

谁能拒绝互联网呢?没人能拒绝,但我们总是能看到父辈们以「麻烦」,「闹不清楚」,「没什么意思」为理由,拒绝电脑和智能手机的应用探索。

其背后的原因并不是他们自甘落在时代的后面,我们看到太多父辈在电脑面前的茫然失措,用一根指头一下下慢慢戳著键盘,并自我调侃,称之为「一指禅」。

相比语音交互,键鼠也好,触摸屏也好,丰富的智能软体应用也好,对他们来说,都具备著极高的学习成本。

这一道门槛,将他们生生拦在了互联网世界的大门之外。

智能音箱则提供了这一错觉,他们以为自己进来了,并确实看到了一个新鲜的世界。

互联网时代下,所有的线上服务可大致分为九大领域。其中信息交互最浅的有4种,分别是搜索,通讯,资讯,音乐。交互情况适中的有3种,分别是电商,视频,生活服务。交互情况最深的则有2种,社交与游戏。

就智能音箱而言,目前只在交互最浅的四个领域中进行了初步突破。但这已足够。

回想起我们在网上冲浪的青葱岁月,几乎都是从搜索引擎开始的。而对广大村民来说,搜索这一功能的应用场景,频次极低。搜索,是智能音箱帮他们推开的第一道门。

而资讯,在传统的互联网模式下,极大地分散于各类不同的平台之上。对广大村民来说,倘若用手机的话,能接触到的往往也都是一些低质量的内容信息,并且都是被动接受的状态。主动去筛选资讯播报,对他们来说又是一件新鲜事。

相比真正的互联网世界,智能音箱所能给他们带来的并不多,但相比过去,这样的新需求的满足,会让他们进一步享受互联网带来的利好。

而另一方面,就各大互联网公司而言,这样的一笔巨大的流量接入,其背后所蕴含的商业价值,绝对是不可忽视的。

事实上扩大流量入口也正是互联网入局智能音箱领域的原动力,但随著物联网技术的发展,智能音箱又常常作为「家庭大脑」的定位,出现在以智能家电为主的想像远景中。现如今,智能音箱身上背负的,是两个或许并不兼容的目标:流量入口,家庭大脑。

去年的时候,罗永浩开了发布会,花了近两个小时去介绍锤子的PC工作站TNT,在发布会现场状况频出,老罗一口一个「理解万岁」,沦为笑谈。

随著这件事一同被推到大众眼前的,便是「语音交互办公」的可能性。「喊麦式」办公,「把办公室变成菜市场」等一系列梗,都被用来当作对老罗的调侃。

对高度熟悉键鼠交互的人来说,语音交互这一模式,总有著说不出的奇怪。

然而,整个人类的工具进化史,就是一部直觉战胜非直觉,低学习成本战胜高学习成本,便利战胜非便利的历史。从这个角度来说,语音交互迟早会革了键鼠的命。而所有关于「文化」,关于「怪怪的」,关于「隐私性」的讨论,都只是终将被克服的阻力。

新生事物是不可战胜的。所谓新事物,就是指符合事物发展的客观规律和前进趋势、具有强大生命力和远大前途的事物。

语音交互和键鼠同时摆在了农村人民的面前,键鼠早来了五六年,但人民凭借著直觉,终究还是选择了语音交互。这不是新生事物又是什么?

相比之下,对键鼠的高度熟悉,从某种程度来说,阻碍了人们向语音交互的转化。正如在欧美地区,高度成熟的信用卡支付体系,在一定程度上遏制著移动扫码支付的发展一样。

这也是智能音箱在一线城市,一直以来「火而不爆」的重要原因。

总的来说,由于智能音箱提供的功能均可被手机覆盖,因此对一线城市的人群而言,智能音箱目前唯一的吸引点就是「远场景下的语音交互」,但由于这类人群均属于键鼠的重度用户,因此在操作习惯上很难改变,同时没有任何改变的意愿,因此在一线城市人群中,智能音箱的普及度并不高。

而另一方面,由于农村人群对互联网世界的陌生,以及对语音交互的天然倾向,导致智能音箱在该类人群中有极大的潜质得到进一步的发展。但需要指出的是,对农村人口而言,率先配套足够的智能家具显然不太可能。

这也就是为什么我一开始所说,流量入口和家庭大脑,在现阶段实际上是两个无法兼容的目标。

但是,回到进场目标而言,互联网公司,为的是夺取新的流量入口。硬体厂商,为的是获取新的业绩增长项。单从这一目标出发,以农村以及三四线城市为重点推广区域,是完全可行的。

在国内,三线以下城市及农村乡镇地区居民规模多达10亿,而中国的本科生占比只有4.43%。在这10亿人群中,我们先刨除五千万的极度贫困人口,再刨除3亿~4亿的键鼠高度熟练使用者,依然还有6亿人口。他们有能力支付起几百块的智能音箱,他们有意愿接入互联网世界,他们更适合智能音箱的交互方式。

而「音乐,搜索,资讯」等领域,将在这样的人群中间,率先对接到全新的流量增长。

至于「家庭大脑」这样的远景,完全可以等IoT再发展发展,5G再普及普及,智能家具的成本再降一降,或者干脆成立另外一条业务线去进行推广。

至于智能语音交互,作为新一代的人机交互方式,需要走一条「农村包围城市」的战略路线。

要知道,马车的重度用户,是讨厌汽车的。

本文来自微信公众号:互联网圈内事(quanneishi),作者:贾琦


目前智能语音技术是人工智慧产业链上的重要一环,目前也取得了重大的技术突破,目前的商业化落地已经成为了可能。人工智慧产业链主要分为三个层次:

底层是一些基础的设施,包括晶元、模组、感测器、以及大数据平台、云计算服务和网路运营商。主要的参与者为晶元厂商、科技巨头和运营商为主。

中间层是一些基础的技术研究和服务提供商,所设计的内容包括深度学习、机器学习、计算机视觉、语音技术和自然语言处理以及机器人等领域,在这一模块当中需要有海量的数据,强大的演算法以及高性能的运算平台支撑。

最上层的是行业应用,大致分为2B和2C两个方向。2B代表领域为安防、金融、医疗、教育、呼叫中心等。2C是代表领域为智能家居、无人驾驶、虚拟助力、家庭机器人等。

人工智慧的深度学习、高性能运算平台和大数据是人工智慧技术取得突破的核心助推力。深度学习功能解决了特征表示与序列映射的问题,使得人工智慧的性能得到快速提升,而互联网时代的海量数据又不断为演算法模型提供了训练材料。

人工智慧语音产品的发展非常迅速,并且应用也越来越广泛。


语音交互技术是让机器听懂世界的技术。如今的语音交互虽然囊括了大部分场景对话,但还有更多复杂场景的问题需要解决。而听懂人类情感,则是一个更加复杂的过程,这涉及到情感识别、声纹识别等等,这也会是将来语音交互的目标之一。进一步语音交互还要会听动物的声音、自然的声音等。让机器听懂世界的技术正在全球快速的演化,相信不久的将来,我们肯定能看到更加智能的机器。分享一篇文章,让我们看看离机器听懂世界还有多远。

陈孝良:让机器听懂世界,触及人类梦想还有多远??

zhuanlan.zhihu.com图标

揭秘「语音交互」背后的AI硬核黑科技!


过去几年,语音交互无疑是人工智慧领域发展的热门方向,不管是科技巨头大力推广的智能音箱,还是各种智能设备都在植入语音交互能力,我们看到语音已经成为一种通用能力,并逐步演变为人机交互的新入口。

根据国际市场调研公司Strategy Analytics发布的数据,2019年智能音箱出货量高达1.469亿台,同比增长70.4%,预计2020年将继续保持高速增长的态势。

在科技巨头的补贴混战下,智能音箱已经渗透到越来越多的家庭场景中,用户的语音交互习惯正在养成。

智能音箱虽然市场热度很高,但其仅仅是语音交互技术的终端载体之一。我们认为,在未来的家庭场景中,语音交互的入口应该是无处不在的,但智能音箱有其天然的短板。比如语音交互识别距离有限,在房间或者卫生间等场所,放在客厅的智能音箱就很难识别语音指令;再比如断网状态,智能音箱就无法控制IoT设备。

所以,我们判断,语音入口不可能局限于智能音箱单品形态,语音交互作为一种基础能力,将会拓展到各种智能设备中,才能实现无处不在。

AI语音产品或将朝著轻量化、小系统、低成本方向发展,「离线语音+在线语音」并存是未来AIoT场景的趋势。


交互方式大概有两个评价标准:交互效率,学习成本。

有深度学习加持的情况下,语音交互的学习成本比较低,自然语言识别可以在你不知道确切指令(或者最快速的指令)的情况下实现你需要的操作。

交互效率这个标准是要在应用场景下评判的,一般认为语音文字输入代替键盘文字输入是个效率提升的场景,可惜语音交互受限于技术,语音识别的速度精度抗噪能力都明显不够,交互效率非常的低。另外用户的疲劳,场所要求都限制了语音交互的应用场景

语音交互适用的场景中目前最契合的应该是车载语音交互,在用户手眼都被占用的情况下辅助交互,车内可以认为是私人空间,用户不会尴尬,也不存在远场拾音的问题,开车的情况下需要语音操作的功能效率要求不高,输入输出都可以通过语音解决。

另外一个场景就是智能家居,还是私人空间,效率要求低的辅助交互场景。

主流操作方式的效率是很大的优势,新型交互在技术还不能达到流畅体验的情况下只有在娱乐以及辅助操作等等特定场景下才有价值。


百度、小米、阿里、谷歌、苹果、亚马逊……国内外的多数科技公司现在都在大力发展智能语音服务业务,然后这项调研的结果却如此不尽人意,这个偏差来源于行业误判还是另有原由?

虽然用户对智能助手的了解越来越多,但智能助手的使用率并不高,这是导致语音购物普及率低的一个重要原因。报告显示,65%的受访者表示从未或几乎没有使用过Siri、Google Assistant、Alexa等语音助手,经常使用语音助手的受访者不足三成(29%)。

图注:65%的受访者表示从未或几乎没有使用过语音助手 ( 来源:Sumo Heavy)

虽然大多数人还没有习惯语音购物,但在经常使用语音助手的消费群体中,智能语音的使用率提高到了42%。SUMO Heavy联合创始人兼首席执行官Bart Mroz说,「这是一个好苗头。当人们再次意识到,语音助手能做到的,不仅仅是播放音乐、播报天气预报这种简单的操作以后,大家就会去做一些新尝试,比如语音购物。」

德外5号:800亿的市场规模:语音购物会是下一个风口?|德外视窗?

zhuanlan.zhihu.com图标

很简单,人类还没有跟机器沟通的习惯而已。因为以前的机器只是机器,无法像人类一样沟通。

如果机器智能到一定程度,我觉得语音交互一定是未来,因为用嘴说话,用手势辅助是人类的自然交流方式。至于什么时候才能流行起来,那就要看机器什么时候能听得「懂」人们说什么了。

肯定会有人说那办公室吵吵闹闹,相互影响,怎么个语音法...

我只想说,之所以需要办公室,就是因为目前大多数工种还在做一些常规的,相对重复的工作。等机器人能真正理解人类语言的时候,那些简单的活早就不用你干了。你只用多想想一些创意点子,然后跟你的机器交流一下,他会做好稿子给你审的。通过大数据来分析,做的方案很靠谱的。

科大讯飞语音合成连续十几次全世界第一,技术先进毋庸置疑,最关键是尽快落实产品到第一线,快快快快快快快快快落实产品,执行力第一,有技术有能力没有结果不行,必须转化为实实在在的生产力


噪音很早就有解了。语音技术的前沿对于特定讲述人的识别以及环境噪音的处理应该已经有比较有效的方案了。即使在办公室里,人类大部分时间下不会听不清身边人说的话。

语音交互,意义还是重大的。这是一个交互界面,也是自然语言理解的一个应用。


推荐阅读:
相关文章