深度學習並未走進死衚衕

來源:科技日報

不久前，全球人工智能計算機視覺領域奠基人之一、約翰霍普金斯大學教授艾倫·尤爾拋出“深度學習（Deep learning）在計算機視覺領域的瓶頸已至”的觀點，引發業內許多專家的共鳴和熱議。

目前，作爲實現人工智能的一種形式，深度學習旨在更密切地模仿人類大腦。那麼，業內專家學者是否認同這種說法？作爲人工智能技術的重要基礎，深度學習在發展中究竟遇到哪些困難？如果深度學習瓶頸已至，我們該如何破解這個難題？帶着相關問題，科技日報記者近日採訪了中外人工智能的知名專家對尤爾教授的觀點深入解讀。

深度學習精到之處

最初，深度學習剛剛進入大多數人工智能研究人員的視線時，被嗤之以鼻，但短短几年後，它的觸角在諸多高科技領域延伸，橫跨谷歌、微軟、百度乃至推特等多家企業。

很多高科技公司熱衷探索深度學習的一種特殊形態——卷積神經網絡。卷積網絡是由相互連通的卷積層組成，與大腦中處理視覺信息的視覺皮層十分類似，不同之處在於，其可以重複使用一張圖像中多個位置的相同過濾器。一旦卷積網絡學會在某個位置識別人臉，也可以自動在其他位置識別人臉。這種原理也適用於聲波和手寫文字。

業內人士認爲，卷積神經網絡可以使得人工神經網絡能夠快速接受培訓，因爲“內存佔用空間小，不需要對圖像中每個位置的過濾器進行單獨存儲，從而使神經網絡非常適合於創建可擴展的深網（Deep nets）”。這也令卷積神經網絡具有善於識別圖形的優點。正是基於此，谷歌開發出安卓手機的語音識別系統、百度對可視化新型搜索引擎進行研發。

當然，要讓卷積神經網絡正常運作需要功能強大的計算機和龐大的數據集，而其在收集數據或計算平均值時，效果並非十全十美。

卷積神經網絡的力挺者、臉譜（Facebook）人工智能實驗室負責人伊恩·勒坤錶示，目前使用最廣泛的卷積神經網絡幾乎完全依賴於監督學習。這意味着，如果想讓卷積神經網絡學會如何識別某一特定對象，必須對幾個樣本進行標註。而無監督學習（Unsupervised learning）可以從未經標記的數據展開學習，更接近人腦的學習方式。而在此基礎上開發的反向傳播算法，能有效使錯誤率最小化，只是不太可能體現出人類大腦的運作機理。

勒坤錶示：“我們對大腦如何學習幾乎是完全陌生的。儘管人們已經知道神經元突觸能夠自我調整，但對大腦皮層的機理尚不明晰，所知道的最終答案是無監督學習是一種更接近人腦的學習方式，但對於大腦的認知機制卻無力解答。”

瓶頸凸顯需警惕

“雖然深度學習優於其他技術，但它不是通用的，經過數年的發展，它的瓶頸已經凸顯出來。”不久前，艾倫·尤爾指出。

尤爾認爲，深度學習有三大侷限：首先，深度學習幾乎總是需要大量的標註數據。這使得視覺研究人員的焦點過度集中於容易標註的任務，而不是重要的任務。

其次，深網在基準數據集上表現良好，但在數據集之外的真實世界圖像上，可能會出現嚴重失敗。特別是，深網難以應付數據集中不經常發生的“罕見事件”。而在現實世界的應用中，這些情況則會產生潛在風險，因爲它們對應的視覺系統故障可能導致可怕的後果。比如，用於訓練自動駕駛汽車的數據集幾乎從不包含“嬰兒坐在路上”的情況。

第三，深網對圖像中的變化過度敏感。這種過度敏感不僅反映在對圖像中難以察覺變化的標準上，還反映在對上下文的變化上，由於數據集大小的侷限，過度敏感會導致系統做出錯誤判斷，但這種因過度敏感而導致的圖像變化卻難以欺騙人類觀察者。

例如，在一張叢林裏有隻猴子的照片中，PS上一把吉他。這會導致AI將猴子誤認爲人類，同時將吉他誤認爲鳥。大概是因爲它認爲人類比猴子更可能攜帶吉他，而鳥類比吉他更可能出現在附近的叢林中。

尤爾認爲，瓶頸背後的原因是一個叫做“組合爆炸”的概念：就視覺領域而言，從組合學觀點來看，真實世界的圖像量太大了。任何一個數據集，不管多大，都很難表達出現實的複雜程度。更何況每個人選擇物體、擺放物體的方式不一樣，搭出的場景數量可以呈指數增長。而這需要無限大的數據集，無疑對訓練和測試數據集提出巨大挑戰。

業內專家表示，這三大侷限性問題雖還殺不死深度學習，但它們都是亟待需要警惕的信號。

“已死”之說值得商榷

去年，深度學習領域一位知名學者曾在臉譜發佈驚人之語——深度學習已死，引起業內一片譁然，以至於現在網上機器學習社區的一些人說，搞深度學習是在走死衚衕。

“我認爲‘深度學習已死’這種說法，是出自那些曾經極爲看好深度學習、後來卻意識到其侷限的業內人士。而侷限並不意味着這個事物已經死亡，我們可以補充一些東西進去。”法國泰雷茲集團首席技術官馬克·厄曼向科技日報記者表示。

“我不贊同‘深度學習已死’的提法。”新一代人工智能產業技術創新戰略聯盟聯合祕書長、科大訊飛副總裁兼AI研究院聯席院長李世鵬指出。

李世鵬說，深度學習作爲一個新的計算科學領域的方法，當然有其自身的限制和缺陷。這個在外界被炒作成萬能的AI工具，其實科學界一直都很謹慎地對待，從一開始大家就知道它的一些侷限性，比如對標註了的大數據依賴、非解釋性、沒有推理功能、對訓練集裏包括的樣本就能工作得很好而對沒有包括的樣本就很差、系統模型處於非穩態（相對人類智能而言，對抗擾動攻擊能力比較差）等。

“我比較贊成尤爾教授的客觀說法——深度學習在計算機視覺領域的瓶頸已至，特別是他討論問題的這個時間點很有必要，在方向上有矯枉過正的提示作用。現在大家對深度學習熱衷得有些過度，在學術界，甚至在產業界，給人一種似乎‘非深度學習非AI’的感覺。實際上這是有很大問題的，因爲深度學習確實只是人工智能領域裏一個被實現出來的，卻比較窄的成功經驗。”遠望智庫人工智能事業部部長、圖靈機器人首席戰略官譚茗洲指出。

總而言之，李世鵬表示，深度學習已死之說法值得商榷。在未來相當一段時間裏，深度學習會對人工智能發展起着積極推動作用，並具有很大的應用價值，同時，科學家對深度學習天生的缺陷和侷限已明晰，正在嘗試一些方法補足其現階段發展的不足，並在各自的領域內探索着下一代人工智能的突破。（記者華凌）