亚马逊,和许多其他在人工智能领域投入巨资的科技公司一样,一直直截了当地说它的Alexa语音助手正取得进展。在该公司Alexa常见问题解答中如此写道,“我们用来训练这些系统的数据越多,Alexa的工作就越好,并且通过来自不同客户的语音记录训练Alexa有助于确保它对每个人都适用。”

  正如彭博社发表的一项深入调查所强调的那样,公司没有明确告诉你的是,Alexa随着时间的推移而改进的唯一且通常是最好的方法是让人们倾听你的请求记录。这一切都掩藏在很少有人会去细读的产品和服务条款中,并且亚马逊经常低估在全球数百万家庭中安装摄像头和麦克风所带来的隐私影响。但是关注它是如何被训练成为我们日常生活中越来越普遍的事物时,尤其是当我们对这项技术如何运作一无所知,并且亚马逊也不愿意透露改进的方式时,将使人们变得更为警醒。

  在这种情形下,这个过程被称为数据注释,它静悄悄地成为了机器学习革命的基石,使得其在自然语言处理、机器翻译以及图像和对象识别方面取得了巨大进展。人们的想法是,人工智能算法只能随着时间的推移而改进,前提是它们能够很容易地解析和分类所访问的数据——它们不一定要训练自己去做这件事。也许Alexa听错了,或者系统认为你不是在问英国城市布莱顿,而是在问纽约西部的郊区。在处理不同语言时,还有无数的细微差别,如区域俚语和方言,甚至在开发过程中可能没有考虑到Alexa对该语言的支持。

  在大多数情况下,人类通过监听交换记录并正确地标记数据以便将其反馈到系统中来进行对话。这个过程被广泛地称为监督学习,在某些情况下,它与其他更自主的技术相结合,这就是所谓的半监督学习。苹果、谷歌和Facebook都以类似的方式利用这些技术,随着时间的推移,Siri和谷歌助手都得到了改进,这得益于有着人的眼睛和耳朵参与的有监督的学习。

  在这种情况下,彭博社揭露了亚马逊公司字面意义而非夸张的数以千计的员工、承包商和全职工人组成的队伍,他们的任务是分析Alexa的记录,以帮助改进助手。虽然这种方法毫无恶意,但彭博社指出,大多数用户并没有意识到这正在发生。此外,其中可能还存在滥用的空间。录音可能包含明显的可识别特征和关于谁在讲话的人物资料。没有人知道这些录音的存储时间有多长,也没人知道这些信息是否曾被恶意的第三方窃取或被员工滥用。

  彭博社的报告指出,一些注释员听到了他们认为可能是性侵犯或其他形式的犯罪活动,在这种情况下,亚马逊有相应的执行程序。(有很多备受关注的案例,其中Alexa语音数据被用来起诉犯罪。)在其他案例中,报告说,一些办公室的员工与同事分享他们觉得有趣或尴尬的谈话片段。

  在一份声明中,亚马逊告诉彭博社,“我们只标注了一个非常小的Alexa语音记录样本,以改善客户体验。例如,这些信息帮我们训练语音识别和自然语言理解系统,使Alexa能够更好地理解您的请求,并确保服务对每个人都有效。”该公司声称,它“有严格的技术和操作保障,对滥用我们的系统实施零容忍政策。”员工无权访问参与到Alexa语音请求中的人员的身份,并且该类型的任何信息都“以高度机密处理”,并受到“多因素认证以限制访问、服务加密以及控制环境审核”的保护。

  尽管如此,对人工智能发展的这种方法的批评已经敲响了一段时间的警钟。通常是当亚马逊犯错误,不小心把记录发送给了错误的个人,或者显示它已经将这些记录存储了数月甚至数年之久。去年,代表Alexa的一系列奇怪且极其复杂的错误最终向用户丈夫的同事发送了一个私人对话。此外,去年12月,一位德国居民详细描述了他是如何从亚马逊收到1700个录音的,尽管此人并没有Alexa设备。通过分析这些文件,德国杂志c’t的记者们能够通过使用用户与Alexa的互动中收集到的信息来识别记录的实际用户。

  亚马逊正在积极寻找摆脱这种需要大量转录和注释的监督学习的方法。《连线》在去年晚些时候的一份报告中提到,亚马逊是如何使用新的、更先进的技术,比如所谓的主动学习和迁移学习,以降低错误率,扩大Alexa的知识库,即使它增加了更多的技能,也不需要增加更多人手进入。

  亚马逊的Ruhi Sarikaya,Alexa的应用科学总监,本月早些时候在《科学美国人》杂志上发表了一篇题为“Alexa是如何学习的”的文章,他详细阐述了这种大规模机器学习的目标是如何减少仅仅为了纠正错误而需要的冗长的人力。“在最近的人工智能研究中,监督学习占主导地位。但是今天,商业人工智能系统产生的客户交互远远超过了我们可以手工标注的数量,”Sarikaya写道。“迄今为止,商业人工智能持续快速改进的唯一途径是将自己重新定位到半监督、弱监督和无监督的学习。我们的系统需要学习如何改进自己。”

  然而,目前亚马逊可能需要真正了解人类语言和文化的人来解析这些Alexa交互数据并理解它们。不舒服的现实意味着有人藏在背后,有时甚至远在印度和罗马尼亚,在你的客厅、卧室甚至浴室里,听你和一个无实体的人工智能交谈。这就是人工智能提供便利的成本,至少在亚马逊看来确实如此。

相关文章