我们在训练机器,让它们错误地认为这才是人类真正的交流方式

原作者 Orin Hargraves

原出处 Medium

Gmail 用户们,很有可能也包括你,最近应该注意到了一项“升级”,你可以用几个简短的短语来回复信息。你可能已经频繁收到过这样的自动回复,又或许你已经在使用这项功能了。它们简单易用,通常还很直观,可以大大减少收件箱的杂乱。甚至已经有人开始撰文对新功能表达喜爱和吹捧。

话说回来,某些时候,一个简短的程序回复邮件也许能奏效。比如你只需要接受或拒绝一个简单的提议,确认会议的时间或地点,或者标明你已经完成一项任务时,这些寿命已经接近尾声的电子邮件自然是能越高效地清理掉就越好。

但这些情况绝不能代表其他大多数邮件。尝试用这样的方式对待其他相对复杂或存在细微差别的邮件,通常都不会有好结果。

下面是几周前我的一个朋友发来的邮件:

Gmail 推荐我用下面的其中一个选项来作为回复:

我都可以想到在什么情况下我可能会用到其中一条回复:比如我准备跟我的好朋友永不相见了,或者要向他证明我得了老年痴呆的时候。但是,那天的情形好像并不适配于上述任何一种情况,所以我以朋友该有的方式进行了回复——用体贴和同情的方式表达了我对他生活中变化的想法和感受。

这是个极端的例子,但也说明了 Google 对人类交流的复杂性所采取的算法方式是多么的愚蠢。它所呈现的选项或许会随着时间的推移而改善,因为大家都在为其提供帮助。即使你选择不使用 Gmail 的自动回复,也仍然为 Google 庞大的大数据提供了一个有用的数据点,表明“好吧,这样做没用。”

当然了,你选择自动回复邮件(如 Google 所说的“智能回复”)对 Google 来说会更有用。在后台中,实际可能发生的情况是这样的:

Google 拥有全球最大量级的表达人类动态交流的书面自然语言数据,它能够利用深度学习结合自然语言处理的方法对你的电子邮件的关键内容和意图做出推断,并将其分类。

使用这些相同的机器学习方法,就会生成并测试给定类型的电子邮件的三种可能回复。每当人们使用其中一个回复时,就会向Google提供一个数据点,意思是“给定消息类型 A ,人类选择了 X 做为恰当的回复。”

将最后一步乘以一千次、一百万次或更多次,直到出现一个清晰的统计模式后,Google 就可以信心十足地得出结论,当一个人的表达可以被归类为 A 型的想法、感受或问题时,另一个人用话语 X 来回应是合情合理的。

现在想想 Google 能用这些数据做什么吧。也许会出现一个美好的新世界,在那里,数字助手实际上和人类差不多。这些助手在回应人类的输入时所说的话或提出的问题,与一个真正的人类所说的几乎没有区别。

除了下面这种情况:当你用“谢谢分享!”或是“很高兴你能喜欢!”或者“很酷!”来回复邮件时,你不是以一个“野生”人类的身份在回答,而是以一个已经被机器人影响的人类在做出回应。

所以 Google 在将机器人变得更具特色,将它们的沟通方式变得与人类没有太大区别的同时,也在把人类变得更像机器人。他们不是在评估你作为一个不可复制的人所做出的反应,而是在审视作为一个已经适应了机器人表达的人会怎么做。

你正在训练复杂的机器人,并且让其认为这才是人类通常会做的事情。

例如:我和某个家人经常就照顾一个年长亲属的问题进行沟通。我们三个人都生活在不同的地方,所以我和他经常通过邮件进行交流。当我有值得分享的消息,或者我希望他告诉我一些新的变化时,我会给他发邮件。

而如今,有好几次我发出的类似邮件后,收到的是类似于“有意思!”或者“听起来不错。”这样的回复。嗯,好吧。如果不是有趣的话,我也不会费心把它写进电子邮件发给你们了。我写邮件的目的不是为了判断你的兴趣。他用手机回复。他很忙。他很着急。他现在显然不想被打扰。大家放弃了像人类一样做出回应的选择,因为 Google 为他提供了这样做的后盾。

关于电子邮件,需要记住的一点是,它是一次对话。当我们想到“交谈”这个词的时候,我们应该想到保罗·格赖斯(Paul Grice)和他 1967 年在哈佛所做的演讲。格赖斯敏锐而直观地观察到,一场普通的谈话就像是一个合营企业。

因此,它遵循的原则是,对话的贡献应该在于促进实现交流的目的——参与者普遍理解和分享的目的。格赖斯制定了四条准则,适用于几乎任何对话。即便我们没有接受过相关的正式教育,绝大多数时候我们也都在遵循这些原则。

l 数量准则,人们应试图尽可能多地提供信息,而且是尽可能多地只提供所需的信息。

l 质量准则,人们应试图真诚,不提供虚假或没有证据支持的信息。

l 关系准则,人们应试图让自己参与到讨论中,说一些与讨论有关的内容。

l 礼貌准则,人们应试图尽可能清晰、简洁和有序地说话,避免含糊不清和模棱两可。

现在扪心自问一下,在将你的手指或鼠标移向 Gmail 的“智能回复”中的某个选项时,是否会违反上述准则中的任何一个。如果违反了,你不仅是在欺骗与你通信的人,也是在训练复杂的机器人,让其认为这就是人类通常会做的事情。

大家可能听说过图灵测试(Turing Test),这是艾伦·图灵(Alan Turing)在 1950 年提出的一项测试,用来测试计算机是否有能力表现出与人类智力相当或做出难以与人类行为区分的行动。许多人依然致力于这项工作,并在近年来取得了诸多进展。

也许有一天我们回顾图灵测试,会认为这是一个历史性的里程碑。理想的状态下,我希望这是因为计算机真的变得无比复杂,以至于我们无法从人类的角度去了解它们。而不仅仅是因为人类抛弃了人性的一部分,最终麻木地与我们的机器人领主保持一致的步调。

相关文章