【新智元導讀】近日,2018 圖靈獎獲得者公布,深度學習三巨頭中的 Geoffrey Hinton 榮獲桂冠。而早在 2016 年底,美國微軟研究院深度學習技術中心的 Partner 研究經理和 AI 首席科學家鄧力先生 (Dr. Li Deng) 便由合作者的身份高度舉薦 Hinton 榮獲圖靈獎。新智元得到鄧力先生的授權,公開他寫的圖靈獎推薦信。

Geoffrey Hinton,被稱為 「神經網路之父」、「深度學習鼻祖」, 他將神經網路帶入到研究與應用的熱潮,將 「深度學習」 從邊緣課題變成了谷歌,臉書,微軟,亞馬遜, 蘋果等互聯網和 IT 巨頭仰賴的核心技術.

近期,Hinton 獲得圖靈獎的消息刷爆全網,可謂是實至名歸。而早在 2016 年底,時任美國微軟研究院深度學習技術中心的 Partner 研究經理和人工智慧首席科學家的鄧力先生便高度推薦和支持 Geoffrey Hinton 獲得該獎項。紐約時報在 3 月 27 日首次報道 Hinton 等獲圖靈獎的消息時,引用了作為語音識別合作者的鄧力先生對 Hinton 在深度學習開創性工作的評價。

(見 nytimes.com/2019/03/27/

本文經鄧立先生授權,公開其推薦信。 這是他在離職微軟入職城堡基金前夕受多倫多大學委託為 Hinton 教授寫的。以下為推薦信的具體內容。

鄧力博士為 Hinton 獲圖靈獎的推薦信

2016 年 11 月 24 日

致:圖靈獎評選委員會主席

關於:推薦和支持 Geoffrey Hinton 獲獎

尊敬的圖靈獎評選委員會主席,

我是美國微軟研究院深度學習技術中心的 Partner 研究經理,過去與 Geoff Hinton 教授一同在諸方面做過卓有成效的合作。 我強烈推薦和支持 Geoff 獲得圖靈獎,因為他在深度學習方面的開創性工作和成就引領了現代整個語音識別、圖像識別和人類語言處理行業的發展趨勢。Geoff 對我本人的工作也產生了深刻地影響。我的公司微軟,以及美國和世界上許多大大小小的 IT 公司,都從 Geoff 的深度學習的原創工作中在多維度上大大受益。

Geoff 是我所認識和共事過的最卓越及才華橫溢的科學家和研究員。他的工作不僅有助於了解人類大腦如何處理信息,更重要的是,他能夠有效地將這些知識嵌入到工程和人工智慧系統中,從而創造出潛在的類似大腦的能力。在接下來的這封推薦信中,我想將 Geoff 在工業語音識別方面工作的影響作為一個具體的案例,因為這是 Geoff 所做出的最具代表性的傑出成就之一, 而我本人恰恰能作為他的合作者的身份證明他的偉大功績。

Geoff 在 2009-2012 年期間與美國微軟研究院緊密合作,在深度學習方面進行了開創性的工作,從根本上改變了語音識別在工業界和學術界的應用方式。這次合作及其產生的結果打破了 20 多年來語音聲學表徵的傳統,即使用數目巨大的但基本上平坦的高斯混合模型作為每個隱馬爾可夫狀態。接下來,讓我簡要地描述一下 Geoff 和我的合作是如何展開的,以及這項工作後來在微軟和整個行業產生了怎樣的影響。

在 2009 年 11 月至 12 月期間 (加上 2010 年的另一段時間),我有幸 「聘請」 Geoff 為我和微軟雷蒙德研究院進行諮詢,研究如何將深度學習方法應用於語音特徵編碼和語音識別問題。在此之前,基於高斯混合統計模型和隱馬爾可夫模型的語音識別長期以來一直處於非常令人沮喪的 「局部最優」 狀態,因為語音識別的準確率很難大幅提升。自 20 世紀 80 年代以來,這些模型在語音識別中可是一直佔據主導地位。 現在讓我將這種情況置於當時的歷史背景吧。 2006 年秋季,美國政府的 Office of the Director of National Intelligence』s Office of Science and Technology(即 IARPA 的前身組織) 敏銳的觀察到了語音識別中出現的這一尷尬狀態, 就同時呼籲成立一支專家小組(我是其中之一)在首都華盛頓會面決策怎樣跳出這種狀態。這個小組開了幾天會,劇烈爭論的焦點是 --- 在 15 年的時間內並在(假設的)無限制資源情況下如何開發語音識別的顛覆性技術, 才能擺脫 「局部最優」 的難題。大部分的討論都集中在了深層統計生成模型上,以及如何獲取和整合有關動態人類語音感知和生成的知識,並將其整合到複雜的統計框架中。而我們當中所有的專家小組成員當時沒有一個人談論過神經網路,因為神經網路在當時的 2006 年之前許多年就已經 「過時」 了。

這次會議產生了一份冗長的報告。 幾年後,微軟和其他組織都按照報告中提出的方向進行了許多嘗試。特別是,我在微軟帶領一個團隊,繼續使用當時流行的現代機器學習演算法 (如變分推理和貝葉斯學習) 進行深度和動態生成建模。對於一些基準測試任務 (例如 TIMIT),這種方法提供了最高的準確性。 但是對於大型辭彙量的語音問題的推斷和解碼,運行時的複雜性是如此之高,甚至我自己的公司微軟也不想將這種深入的統計模型應用到我們的語音產品中。所以那時,我們微軟一直在尋找新的技術。在我閱讀了 Geoff 於 2006 年發表的兩篇開創性的深度學習論文,以及 Geoff 親自與我(在 NIPS 2008 上)討論過這些論文的重要性之後,我邀請 Geoff Hinton 來為我和我的研究團體做諮詢。那時,語音研究社團幾乎沒人讀過或重視過 Geoff 的深度學習論文和思想。

在他 2009 年諮詢之旅期間,Geoff 和我在 Redmond 的辦公室里密切合作,共同開發了和分析了訓練 Geoff 的深層信念網路的方法 「食譜」 及在語音特徵提取上的應用。這是一種深層模型的生成形式,但是參數化形式和深度神經網路一樣。 我們當時實驗中用的聲學數據來自於常用的小型語音識別實驗。因為數據集相當小,這就允許快速的實驗周轉。所使用的網路比以前的神經網路要深得多、大得多,有多達 6 到 10 個隱含層,每層有幾千個隱含單元,相鄰層之間完全連接。最後對網路進行微調,使用標準的反向傳播演算法計算梯度,利用動量隨機梯度下降更新權值。 這就將生成信念網路轉化為判別神經網路。在微調開始之前,通過使用由 Geoff 和其學生開發的無監督學習演算法來初始化神經網路的權重,該演算法無需知道用於微調的標籤。無監督學習演算法一次學習一個二元隨機特徵的隱含層,目的是在學習第一個隱含層時,對下一層或原始語音特徵中特徵激活模式的統計結構建模。這種深度神經網路的結果在對同一任務進行評估時僅略優於當時文獻中性能最好的,基於我和同事開發的深層 / 動態生成模型的單一系統。然而,我們仔細分析了這兩種不同的系統產生的語音識別的錯誤樣本,發現它們的錯誤模式迥然不同。這種不同的錯誤模式的發現反映了兩種方法不同的核心能力,並推動了對深度學習方法的進一步研究。2010 年和 2011 年在微軟內部的進一步研究使得大規模語音識別系統的錯誤率大幅減少,首先由微軟的大型語音識別實驗所證實,然後由 IBM、谷歌、科大訊飛 和百度再證實,而後更由全球幾乎所有從事語音識別的行業和學術團體證實。

這種語音識別系統中使用的基本演算法是基於 Geoff 開創性的深度學習的工作。如果沒有 Geoff 的洞察力,沒有他對深度學習在成功前的宗教般的信念,沒有他對此的熱切追求和他勸說的力量,沒有他親自實踐的指導來運行他的 「食譜」(甚至實踐到同我手把手一起研究語音數據時的計算機編碼水平),語音識別行業就不會有今天這種革命性的成功。

Geoff 在運行針對大規模人工智慧問題 (如語音識別) 的深度學習演算法時,及時採用現代計算基礎設施的巧妙本能令我感到見到大神般的驚訝。具體來說,GPU/CUDA 庫是在 2007/2008 年發布的,當時不少語音識別領域的研究人員都在追求深度 / 動態生成模型,希望能夠為大規模語音識別提供正確的解決方案但一直沒有成功。「最完美的時刻」 出現在 2009 年,當時 GPU/CUDA 變得流行起來,微軟發現由於與這些方法相關的可擴展性問題,嚴格的方法無法交付我們需要的東西。當才華橫溢的學者 Geoff 和業界抓住這個機會,利用 GPU 的及時大計算資源和深度神經網路方法 (這種方法最適合 GPU 計算) 共同解決最緊迫的問題時,革命發生了。

綜上所述,Geoff 的工作和成就對語音識別行業的革命性變革做出了巨大的貢獻,因為在很長一段時間內,整個領域都陷入了 「局部極小值」。Geoff 在將深度學習和深度神經網路引入語音識別方面所做的工作,其重要性超過了語音識別整個 50 年歷史中任何一項單獨的技術。在計算機視覺、自然語言處理和多模態機器學習 (我的研究也涉及到這些) 方面,Geoff 的貢獻同樣重要。 我相信,其他推薦人會很詳細說明 Geoff 在這些方面的貢獻和他們的重要性。

如果您需要更多信息,請通過 [email protected] 或者撥打 425-xx-xxxx 與我聯繫。

Li Deng, Ph.D.

Partner Research Manager, & Chief Scientist of AI

Microsoft AI and Research, Microsoft Corporation

One Microsoft Way,

Redmond, WA, USA, 98052

Tel: 425-xxx-xxxx


新智元 · AI_era

每日推送 AI 領域前沿學術解讀、AI 產業最新資訊

戳右上角【+ 關注】↗↗

喜歡請分享、點贊吧


推薦閱讀:
相关文章