為什麼IBM谷歌Imagenet都喜歡從喵星人入手研究AI？

敲黑板，這裡是重點。這個問題，寶寶思考了兩年。。。終於有人問了。。。

知識點：
● 喵星人與AI近現代簡史
● 為什麼是貓

● AI進化里的喵星人
° 模擬貓腦
° 62000張喵星人自拍照
° 自學：貓臉識別
° 簡筆成喵
° 雲吸貓
● 小心喵大爺正盯著你
關鍵公司：IBM、ImageNet、谷歌、YouTube

為什麼是貓？

白雪公主的後媽問魔鏡，誰是全世界最漂亮的女人的時候，希望出來的當然是自己。可為什麼，自戀的人類在研究圖像識別的時候，選擇了我們喵星人？

你真的以為臭美人類的自拍照數量不足夠支撐訓練集嗎？NO！搞圖像識別的科學家們，都是喵奴而已。

以上並不是一本正經的胡說八道，要知道，在數據科學界，管理一個程序員團隊通常被形容為牧養貓——試圖想控制一種不受控制的人的努力是徒勞的。

這種理念甚至被著書成冊，一本叫做《養貓：管理程序員要領(Herding Cats: APrimer for Programmers Who Lead Programmers)》的書在程序員間風靡。

本喵還發現一個很奇怪的關聯，就是AI這個十八線網紅總是喜歡蹭喵大人的熱點，從貓腦識別到ImageNet 62000張貓圖做樣本集，開啟了圖像識別新時代，再到谷歌相冊自動分類功能出來，立馬變成貓奴「雲吸貓」的利器（也不知道是谷歌利用了貓奴，還是貓奴利用了谷歌），甚至簡筆生成圖像里，唯一火了的只有簡筆成喵。

在谷歌搜索的新聞類別，本喵星人不只是是比AI和alphago這種十八線網紅強到哪裡去了。

（圖說： kaggle 上還有一個競賽：Dogs vs. Cats，訓練集有25000張，貓狗各佔一半，讓大家各顯神通判定是貓還是狗。真是唯恐天下不亂~）

為什麼IBM、ImageNet、谷歌都從喵星人開始研究AI ？

1、IBM模擬貓腦

IBM可能是最早打貓主意的企業，即使到現在，他們當時的行為看起來依然備具爭議，在人工智慧還在第二輪沉睡期時，IBM的科學家們試圖模擬貓腦——貓腦智能。

2009年11月，IBM的科學家聲稱使用超級計算機來模擬一隻貓的大腦，其中包含24,576個處理器。IBM稱其成功使用超級計算機模擬了貓腦大小的大腦皮層的活動狀況，這次模擬運算中，IBM共模擬了大腦皮層里10億個神經元以及10萬億個神經末梢的活動狀況，此次研究還獲得了ACM Gordon Bell獎項。

為什麼當時的科學家要模擬貓？原因很多：貓是熟悉和容易保存的動物，所以貓的生理學已經被特別好的研究。人類大腦和貓腦的物理結構非常相似。貓和人類一樣，有雙眼視力，讓他們深度知覺。建立人工哺乳動物的大腦需要更強大的電腦作為大腦變得越來越複雜，從小鼠大腦中，給大鼠腦（2007年），貓的大腦，最終以人類的大腦。

2、李飛飛和ImageNet里62000張喵星人自拍照

如果說數據是新時代的石油，那麼在2009年，它還只是恐龍的骨頭。喵星人在AI的地位，離不開AI領域最出色的女性——李飛飛

她參與建立了兩個被AI研究者廣泛使用的機器分類物體學習資料庫——Caltech 101和ImageNet.

因為李飛飛和她的數據集ImageNet里62000張喵星人照片的存在，2009年可以稱作喵星人參與AI元年。

過去15年中，李飛飛一直在教計算機看東西。她希望能教會機器像你我一樣，只凝視一個畫面一眼就能理清整個故事中的人物、地點、事件。

實現這一目標的第一步是教計算機看到「對象」，這是建造視覺世界的基石。

一開始李飛飛團隊只是用數學的語言，告訴計算機這種演算法：「貓」長啥樣：有著圓臉、胖身子、兩個尖尖的耳朵，還有一條長尾巴。

但很快發現喵咪們千奇百怪的凹造型。

2007年，李飛飛有了一個更大膽的想法。像教小孩認識貓一樣教機器，不斷讓他看貓的照片：如果你只看過5張貓咪圖片，那就只有5個拍攝視角、光線環境，可能也只看過5個品種的貓。但如果你看過500張貓咪圖片，那就可以有更多的例子來得出它們之間的共性。

所以，與其孤立地關注於演算法的優化、再優化，李飛飛的關注點放在了給演算法提供大量的訓練數據。於是，發起了ImageNet（圖片網路）計劃。

2009年，ImageNet項目誕生了—— 一個含有1500萬張照片的資料庫，涵蓋了22000種物品。這些物品是根據日常英語單詞進行分類組織的，規模空前。

舉個例子，在"貓"這個對象中，就有超過62000隻貓長相各異，姿勢五花八門，而且涵蓋了各種品種的家貓和野貓。

因為ImageNet的橫空出世，它提供的信息財富完美地適用於一些特定類別的機器學習演算法。

「卷積神經網路」藉助ImageNet提供的巨大規模數據支持，通過大量最先進的CPU和GPU，來訓練這些堆積如山的模型，以難以想像的方式蓬勃發展起來。

2012 年 ImageNet 競賽 Geoffrey Hinton和他的學生用深度卷積神經網路在圖像識別任務上取得了長足的進步。很多人都將此視作當今這輪人工智慧浪潮的催化劑。

神經網路用於解讀圖片，包括一些分層排列的人工神經元，神經元數量從幾十到幾百、幾千，甚至上百萬不等。每層神經元負責識別圖像的不同成分，有的識別像素，有的識別顏色差異，還有的識別形狀。到頂層時計算機就能對圖像識別出個大概了。

目前為止，AI還只是教會了計算機去看對象，就像一個嬰兒學會幾個名詞，但這還只是第一步，很快機器將不止是說這張圖裡有隻「貓」，而是「這隻貓是坐在床上的」。

當然，計算機還是會犯很多錯誤的。比如：「一隻貓躺在床上的毯子上。」當然——如果它看過太多種的貓，它就會覺得什麼東西都長得像貓……

為了教計算機看懂圖片並生成句子，計算機需要從圖片和人類創造的自然語言句子中同時進行學習。這必然又將促進自然語言處理的發展。

總之，ImageNet改變了AI領域人們對數據集的認識，人們真正開始意識到它在研究中的地位，就像演算法一樣重要。這其中62000張喵星人的自拍照功不可沒。

3、從人臉識別到貓臉識別：神經網路如何自學識貓

機器學習的模型可大體分為兩類，判別模型（DiscriminativeModel）和生成模型（Generative Model）。

講喵話就是：

● 判別模型：給定一張圖，判斷這張圖裡的動物是貓還是狗

● 生成模型：給一系列貓的圖片，生成一張新的貓咪（不在數據集里）

對於貓奴來說，識別一隻貓可以在瞬間完成，而對於計算機來說，由於它不具備人類大腦高度發達的神經反射系統，所以識別一隻貓很難，這不是計算機有了高速運算的能力就可以做得到的。

2012年，谷歌研究人員開始訓練電腦識別YouTube視頻中的貓。該項目花費數年時間，動用1.6萬顆計算機處理器分析了1000萬張圖片，讓神經網路自己學習如何識別貓。

這就是人工智慧領域新一代的機器學習（machine learning）形式——深度學習(deep learning)。換句話說，就是讓計算機像人腦一樣去學習和思考。

和過去常見的人臉識別是由程序員預先將整套鑒別系統寫好，告訴計算機人臉應該是怎樣的不同，谷歌的研究者不會向系統輸入任何諸如「貓是什麼樣子」的信息。一旦系統發現了重複出現的圖像信息，計算機就會自動創建一個「圖像地圖」，該地圖稍後會幫助系統自動檢測與前述圖像信息類似的物體。

亞馬遜Echo和特斯拉無人駕駛汽車都在使用同類技術，此外，還能應用於語音和臉部識別、醫療診斷等領域。

4、雲吸貓：不知是谷歌利用了貓奴，還是貓奴利用了谷歌

深度學習演算法並不是生來就全知全能的。一個基於深度識別的圖像識別應用需要「學習」很久才能學會識別某個東西。而學習的過程其實是無比枯燥的：將一堆喵星人圖片丟給AI，等他分好類之後從中選出正確的，然後再讓他分類。

Google試圖讓這一過程變得簡單起來：讓用戶幫忙進行篩選。

Google ImageLabeler是一個讓網民幫助識別圖片的項目，它的功能就是向用戶展示一個可能含有某種東西的圖片，然後用戶只需要點擊是或不是。

2016年Google把它和Google Photos連接在一起——Image Labeler會開始展示那些你經常拍的圖片類別，讓用戶在識別圖片的過程中不那麼枯燥。

Image Labeler功能簡單，沒有廣告，無限刷貓，可以說是目前市面上能找到的最純凈的擼貓App了。

進入Image Labeler的入口有一點隱秘，想要知道，如何雲上吸貓？敬請關注我們的下一篇文章。

5、生成對抗網路：簡筆成喵

edges2cats 是最近網路中火爆的開源應用，它能以你隨手鼠繪的單色線圖為基礎自動生成一張「真實圖片」。其中繪製貓的版本最受歡迎。

甚至連 Yann LeCun 這樣的重量級人物也在其中開始了自己的「創作」。（顯然他的腦洞大了點）

這款應用無疑獲得了大量「貓奴」的喜愛，下面的圖片都來自於他們在這款應用上的作品。

（猜猜哪張是本喵的作品）

相信，看到你們出神入畫的作品，喵主子只能說「為何不跪」。

開發這款應用的Christopher Hesse 使用了來自加州大學伯克利分校的pix2pix演算法和谷歌的Tensorflow 深度學習框架，edges2cats是他先讓程序學習了2000張貓咪圖片之後的成果。

程序工作的流程大致是這樣：先把用戶畫的內容生成一張黑白的圖片，然後猜測用戶畫的究竟是一張貓臉還是貓的全身，然後在現有的素材庫中尋找對應的素材，將可能符合這一部分的素材進行剪切拼湊，形成一張完整的彩色「貓片」。

你還想要更正常一點喵片，怎麼辦？

近日，畢業於魁北克大學的 Alexia Jolicoeur-Martineau 開始嘗試使用貓咪圖片來訓練不同的生成式對抗網路，其中包括 DCGAN、WGAN 和 WGAN-GP，以及低和高解析度等方法。不過，目前只能生成，貓臉大頭貼~~

生成式對抗網路（GAN）被認為是近年來機器學習界的一大發現，在它的基礎上開發各種新演算法是很多科研人員努力的方向。

請上貓圖，AI就能更了解你

《北京摺疊》引發科幻小說熱，2016年的雨果獎短篇小說獲得者叫《請上貓圖》，故事講述了一個關於人工智慧的故事：一個承擔搜索項演算法工作的AI在空閑時喜歡看貓咪的照片，也希望默默地幫助貓咪的主人——人類，並為此做了許多努力。

故事中，AI不斷強調「請上貓圖」，她就能更了解你。

這不僅是科幻也是現實。我們來看看下面的圖片，你看到了什麼？

對我們來說，人類非常容易和快速地了解形象：有一張桌子，可能在戶外，一些杯子，蓋子，一個咖啡壺，似乎是一個牛奶壺和一隻貓。

那麼對於谷歌、facebook、微軟來說，他知道你的貓又將知道什麼。

機器通過分析大量數據來學習和改進，哪怕這些數據不一定是你的個人數據。

經過一些訓練，機器將能夠從：

圖片 → 一隻貓在圖片→ 你的貓在一張照片→ 你

「她」能夠告訴你，特定的貓是你的貓，她也可以近似一些關於你的信息，如：

● 你喜歡貓

● 你喝咖啡

● 你擁有一定的相機型號

● 你從某個IP地址上傳了圖片

所有這些信息涉及到一個假設的「你」，但是。然而，當她決定在Facebook上標記自己的時候，或者因為你的名字出現在論文的作者之間，那麼「她」就會認識你，機器會馬上把這個圖片中的一個元素鏈接到建議你：

● 最新的咖啡混合

● 相機升級後的型號

● 一隻非常健康的食物為您的貓

● 你所在地區的餐館

這不是嚇唬任何人，而是為了思考。

你將明白貓只是一個借口。

尾聲

兩年前AI還很蠢，韓國一個藝術家團體把一堆喵星人的照片扔給人臉識別程序（OpenCV），結果很多隻都被認成了人；又把一堆人臉的照片扔給貓臉識別程序（KITTYDAR），發現很多人真的被識別成了貓。

借用李飛飛的話：

雖然現在電腦或許能用簡單的語言來描述它所「看見」的喵星人圖片，但它卻無法描述喵星人照片背後的故事。

相信當機器可以「看到」的時候，醫生和護士會獲得一雙額外的、不知疲倦的眼睛，幫他們診斷病情、照顧病人。汽車可以在道路上行駛得更智能、更安全。機器人，而不只是人類，會幫我們救助災區被困和受傷的人員。我們會發現新的物種、更好的材料，還可以在機器的幫助下探索從未見到過的前沿地帶。

貓奴拯救全世界！

為什麼IBM谷歌Imagenet都喜歡從喵星人入手研究AI？

热门新闻

周热门

為什麼IBM谷歌Imagenet都喜歡從喵星人入手研究AI？

通訊/無線電塔的輻射會影響附近的居民區嗎？

怎樣用日常生活中簡易的工具製造靜電?

如果世界上有魔法，人類還會需要科技嗎？

你為什麼相信上古文明是遠超現世的高科技文明？

有沒有大佬知道上海傑爾訊科技發展有限公司是幹什麼的，突然打電話給我，不過我沒接(電話95214232？

如何評價位元組跳動已同意出售TikTok給微軟？

如何設置GIF作為電腦的桌面背景？

如何評價 5 月 25 日舉辦的 realme（真我）破次元發布會？有哪些亮點和不足？

如果外星人命令地球上的所有國家在不用核武器的情況下進入吃雞模式互毆，否則滅絕人類，最終那個國家會勝出？

怎樣可搓出完美的球體？

飛機為什麼沒能像汽車一樣走進千家萬戶？

美國阻撓錢學森回國是否合理？

火箭的飛行原理和飛機的飛行原理有什麼不同？

如何看待迷你世界下架？

Mac比Windows好在哪裡，有什麼不足？

热门新闻

周热门