【新智元导读】近日,2018 图灵奖获得者公布,深度学习三巨头中的 Geoffrey Hinton 荣获桂冠。而早在 2016 年底,美国微软研究院深度学习技术中心的 Partner 研究经理和 AI 首席科学家邓力先生 (Dr. Li Deng) 便由合作者的身份高度举荐 Hinton 荣获图灵奖。新智元得到邓力先生的授权,公开他写的图灵奖推荐信。

Geoffrey Hinton,被称为 「神经网路之父」、「深度学习鼻祖」, 他将神经网路带入到研究与应用的热潮,将 「深度学习」 从边缘课题变成了谷歌,脸书,微软,亚马逊, 苹果等互联网和 IT 巨头仰赖的核心技术.

近期,Hinton 获得图灵奖的消息刷爆全网,可谓是实至名归。而早在 2016 年底,时任美国微软研究院深度学习技术中心的 Partner 研究经理和人工智慧首席科学家的邓力先生便高度推荐和支持 Geoffrey Hinton 获得该奖项。纽约时报在 3 月 27 日首次报道 Hinton 等获图灵奖的消息时,引用了作为语音识别合作者的邓力先生对 Hinton 在深度学习开创性工作的评价。

(见 nytimes.com/2019/03/27/

本文经邓立先生授权,公开其推荐信。 这是他在离职微软入职城堡基金前夕受多伦多大学委托为 Hinton 教授写的。以下为推荐信的具体内容。

邓力博士为 Hinton 获图灵奖的推荐信

2016 年 11 月 24 日

致:图灵奖评选委员会主席

关于:推荐和支持 Geoffrey Hinton 获奖

尊敬的图灵奖评选委员会主席,

我是美国微软研究院深度学习技术中心的 Partner 研究经理,过去与 Geoff Hinton 教授一同在诸方面做过卓有成效的合作。 我强烈推荐和支持 Geoff 获得图灵奖,因为他在深度学习方面的开创性工作和成就引领了现代整个语音识别、图像识别和人类语言处理行业的发展趋势。Geoff 对我本人的工作也产生了深刻地影响。我的公司微软,以及美国和世界上许多大大小小的 IT 公司,都从 Geoff 的深度学习的原创工作中在多维度上大大受益。

Geoff 是我所认识和共事过的最卓越及才华横溢的科学家和研究员。他的工作不仅有助于了解人类大脑如何处理信息,更重要的是,他能够有效地将这些知识嵌入到工程和人工智慧系统中,从而创造出潜在的类似大脑的能力。在接下来的这封推荐信中,我想将 Geoff 在工业语音识别方面工作的影响作为一个具体的案例,因为这是 Geoff 所做出的最具代表性的杰出成就之一, 而我本人恰恰能作为他的合作者的身份证明他的伟大功绩。

Geoff 在 2009-2012 年期间与美国微软研究院紧密合作,在深度学习方面进行了开创性的工作,从根本上改变了语音识别在工业界和学术界的应用方式。这次合作及其产生的结果打破了 20 多年来语音声学表征的传统,即使用数目巨大的但基本上平坦的高斯混合模型作为每个隐马尔可夫状态。接下来,让我简要地描述一下 Geoff 和我的合作是如何展开的,以及这项工作后来在微软和整个行业产生了怎样的影响。

在 2009 年 11 月至 12 月期间 (加上 2010 年的另一段时间),我有幸 「聘请」 Geoff 为我和微软雷蒙德研究院进行咨询,研究如何将深度学习方法应用于语音特征编码和语音识别问题。在此之前,基于高斯混合统计模型和隐马尔可夫模型的语音识别长期以来一直处于非常令人沮丧的 「局部最优」 状态,因为语音识别的准确率很难大幅提升。自 20 世纪 80 年代以来,这些模型在语音识别中可是一直占据主导地位。 现在让我将这种情况置于当时的历史背景吧。 2006 年秋季,美国政府的 Office of the Director of National Intelligence』s Office of Science and Technology(即 IARPA 的前身组织) 敏锐的观察到了语音识别中出现的这一尴尬状态, 就同时呼吁成立一支专家小组(我是其中之一)在首都华盛顿会面决策怎样跳出这种状态。这个小组开了几天会,剧烈争论的焦点是 --- 在 15 年的时间内并在(假设的)无限制资源情况下如何开发语音识别的颠覆性技术, 才能摆脱 「局部最优」 的难题。大部分的讨论都集中在了深层统计生成模型上,以及如何获取和整合有关动态人类语音感知和生成的知识,并将其整合到复杂的统计框架中。而我们当中所有的专家小组成员当时没有一个人谈论过神经网路,因为神经网路在当时的 2006 年之前许多年就已经 「过时」 了。

这次会议产生了一份冗长的报告。 几年后,微软和其他组织都按照报告中提出的方向进行了许多尝试。特别是,我在微软带领一个团队,继续使用当时流行的现代机器学习演算法 (如变分推理和贝叶斯学习) 进行深度和动态生成建模。对于一些基准测试任务 (例如 TIMIT),这种方法提供了最高的准确性。 但是对于大型辞汇量的语音问题的推断和解码,运行时的复杂性是如此之高,甚至我自己的公司微软也不想将这种深入的统计模型应用到我们的语音产品中。所以那时,我们微软一直在寻找新的技术。在我阅读了 Geoff 于 2006 年发表的两篇开创性的深度学习论文,以及 Geoff 亲自与我(在 NIPS 2008 上)讨论过这些论文的重要性之后,我邀请 Geoff Hinton 来为我和我的研究团体做咨询。那时,语音研究社团几乎没人读过或重视过 Geoff 的深度学习论文和思想。

在他 2009 年咨询之旅期间,Geoff 和我在 Redmond 的办公室里密切合作,共同开发了和分析了训练 Geoff 的深层信念网路的方法 「食谱」 及在语音特征提取上的应用。这是一种深层模型的生成形式,但是参数化形式和深度神经网路一样。 我们当时实验中用的声学数据来自于常用的小型语音识别实验。因为数据集相当小,这就允许快速的实验周转。所使用的网路比以前的神经网路要深得多、大得多,有多达 6 到 10 个隐含层,每层有几千个隐含单元,相邻层之间完全连接。最后对网路进行微调,使用标准的反向传播演算法计算梯度,利用动量随机梯度下降更新权值。 这就将生成信念网路转化为判别神经网路。在微调开始之前,通过使用由 Geoff 和其学生开发的无监督学习演算法来初始化神经网路的权重,该演算法无需知道用于微调的标签。无监督学习演算法一次学习一个二元随机特征的隐含层,目的是在学习第一个隐含层时,对下一层或原始语音特征中特征激活模式的统计结构建模。这种深度神经网路的结果在对同一任务进行评估时仅略优于当时文献中性能最好的,基于我和同事开发的深层 / 动态生成模型的单一系统。然而,我们仔细分析了这两种不同的系统产生的语音识别的错误样本,发现它们的错误模式迥然不同。这种不同的错误模式的发现反映了两种方法不同的核心能力,并推动了对深度学习方法的进一步研究。2010 年和 2011 年在微软内部的进一步研究使得大规模语音识别系统的错误率大幅减少,首先由微软的大型语音识别实验所证实,然后由 IBM、谷歌、科大讯飞 和百度再证实,而后更由全球几乎所有从事语音识别的行业和学术团体证实。

这种语音识别系统中使用的基本演算法是基于 Geoff 开创性的深度学习的工作。如果没有 Geoff 的洞察力,没有他对深度学习在成功前的宗教般的信念,没有他对此的热切追求和他劝说的力量,没有他亲自实践的指导来运行他的 「食谱」(甚至实践到同我手把手一起研究语音数据时的计算机编码水平),语音识别行业就不会有今天这种革命性的成功。

Geoff 在运行针对大规模人工智慧问题 (如语音识别) 的深度学习演算法时,及时采用现代计算基础设施的巧妙本能令我感到见到大神般的惊讶。具体来说,GPU/CUDA 库是在 2007/2008 年发布的,当时不少语音识别领域的研究人员都在追求深度 / 动态生成模型,希望能够为大规模语音识别提供正确的解决方案但一直没有成功。「最完美的时刻」 出现在 2009 年,当时 GPU/CUDA 变得流行起来,微软发现由于与这些方法相关的可扩展性问题,严格的方法无法交付我们需要的东西。当才华横溢的学者 Geoff 和业界抓住这个机会,利用 GPU 的及时大计算资源和深度神经网路方法 (这种方法最适合 GPU 计算) 共同解决最紧迫的问题时,革命发生了。

综上所述,Geoff 的工作和成就对语音识别行业的革命性变革做出了巨大的贡献,因为在很长一段时间内,整个领域都陷入了 「局部极小值」。Geoff 在将深度学习和深度神经网路引入语音识别方面所做的工作,其重要性超过了语音识别整个 50 年历史中任何一项单独的技术。在计算机视觉、自然语言处理和多模态机器学习 (我的研究也涉及到这些) 方面,Geoff 的贡献同样重要。 我相信,其他推荐人会很详细说明 Geoff 在这些方面的贡献和他们的重要性。

如果您需要更多信息,请通过 [email protected] 或者拨打 425-xx-xxxx 与我联系。

Li Deng, Ph.D.

Partner Research Manager, & Chief Scientist of AI

Microsoft AI and Research, Microsoft Corporation

One Microsoft Way,

Redmond, WA, USA, 98052

Tel: 425-xxx-xxxx


新智元 · AI_era

每日推送 AI 领域前沿学术解读、AI 产业最新资讯

戳右上角【+ 关注】↗↗

喜欢请分享、点赞吧


推荐阅读:
相关文章