熱度逐漸從爆火轉涼。那麼近兩年人工智慧在學術與工業界有哪些和Alpha Go一樣有趣的進展呢?或者未來幾年,你覺得哪個方面會有更大的進展?


有人說,AI技術經過最近十多年的快速發展,近一兩年已經進入了下半場,取得的進展不如從前了。我並不這樣認為,也許AI基礎模型方面的發展一定程度上告別了之前大跨步前進,進入了穩步發展的階段,但對於將AI技術應用於各行各業來說,黃金時代才剛剛開啟。各種有趣的進展層出不窮,今天我們就談一談其中的一個領域:基於生成對抗網路的圖像生成

-------枯燥的理論部分,不感興趣的可跳過--------

生成對抗網路(GANs)是Goodfellow等人在2014年提出的一個基於深度學習的生成模型。GANs包括兩個深層神經網路:一個是用來捕獲真實數據分佈的生成器G和一個用來確定樣本是來自模型分佈還是真實數據分佈的判別器D。該框架利用損失函數V(D,G)進行零和博弈,具體優化公式如下:

[公式]

其中 [公式] 為真實數據, [公式] 為真實數據分佈, [公式] 為雜訊, [公式] 為雜訊分佈(通常為高斯分佈或均勻分佈)。

以上公式可解釋為: [公式] 的目標是根據真實數據分佈來生成儘可能「真」的樣本,通過最小化上述公式中的[公式]來實現; [公式] 的作用是將 [公式] 生成的樣本判別為「假」,將真實數據判別為「真」,通過最大化上述公式中的D進行優化。整個框架可以通過反向傳播進行訓練,這意味著 [公式][公式] 的決策中獲得反饋,然後在下一次迭代中學習如何更好地欺騙 [公式]

-------枯燥的理論部分結束--------

將以上零和博弈原則應用到圖像生成領域,催生了一些有趣的任務,包括:從無到有生成高精度人臉圖像,從低解析度到高解析度的圖像超解析度,還有圖像風格轉換

這些任務在前幾年陸續被提出來,但兩年之前,這些任務上的生成能力還不夠強大,效果還不那麼逼真。這兩年取得的進展可以用amazing來形容。看下面三個具體例子。

1、高精度人臉圖像生成

首先介紹英偉達公司在2018年12月提出的一個高精度人臉圖像生成的工作。這個算是一個石破驚天的工作,首先看下arXiv論文鏈接(https://arxiv.org/pdf/1812.04948.pdf)中的兩個生成效果圖。

從圖片中可以看到,該論文方法生成的人臉與真實人臉幾無差異,無論是整體上還是細節上。至少從我站上一個普通人的角度上來看,若是沒有人告訴我些圖像這是生成的,我是發現不了。而在此之前,雖然可以生成比較像的人臉,但大多解析度不高,而且細節部分不夠精緻。

這個工作更大的意義在於人工智慧圖像生成進入了「眼見不再為實」的階段,我第一次看到這些圖片時的巨大心理衝擊主要也在於此。

技術的發展進入到新的階段,一方面凸顯了人工智慧安全、可控發展的必要性,比如控制不要讓本著不良目的虛擬生成的內容在網路上流傳,發展其有效鑒別技術,另一方面,也催生了一批新型應用場景,例如下圖所示的卡通化人臉生成。圖像生成技術的發展讓人臉卡通化變成一個低門檻,可快速複製的行業,這恐怕是一個讓很多漫畫從業者顫抖的消息。

2、圖像超解析度

接下來再介紹一個圖像超解析度方面有趣的工作《PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models》,發表在CVPR 2020。

雖然說圖像超分辨在三四年前就有一些激動人心的工作,比如CVPR 2017上的SRGAN。但是,超解析度的倍數一般還在寬高4倍(對應超解析度到面積大16倍的圖像)左右的範疇,PULSE做到了將一個16*16的小圖像超解析度到1024*1024,效果如下圖所示:

可以看到,這個生成效果也是非常驚人的。

更重要的是,這意味著現在的技術已經可以從一個個非常小的人臉,例如照片拍到的比賽看臺上的成百上千個人臉,生成出一個個高清晰度的人臉,雖然是虛擬生成的,但論文作者以及廣大網友的測試表明,生成的人臉與真實人臉還是有一定的相似度。

更寬泛一點來說,對於監控視頻分析等業務,從視頻流中遠處的小人臉重構出相似的高精度人臉,便於案情分析等,也在一定程度上成為可能。

另外值得一提的是,作者代碼和模型開源後,人們發現基於作者的開源模型,大部分時候傾向於生成白人人臉,把美國前總統奧巴馬的小圖像輸進去也是。這一現象引起了一場關於種族歧視的大辯論,以至於深度學習先驅,圖靈獎得主Yann LeCun教授只不過針對這個問題發表了一些技術性的觀點,也受到了網路暴民的羣起攻之,最後不得不在推特上說farewell everyone。

3、圖像風格轉換—虛擬試衣

最後再介紹一個圖像風格轉換方面的工作,具體的,虛擬試衣。這是圖像風格轉換在電商這一垂直應用領域中的一個具體場景。具體來說,人們在購物網站瀏覽時,看到漂亮的衣服但經常困擾的是衣服究竟適不適合自己。不同於在實體店可以馬上試穿,網路上只能靠腦補想像,失手的時候不可避免。對於賣家來說,會導致退貨率高居不下,對於買家來說,也會浪費時間和精力。

隨著這兩年圖像生成技術的進步,生成圖像的質量和細節得到顯著提升,虛擬試衣的實用性也得到了極大的提升,下圖是亞馬遜在2018年的虛擬試衣效果圖

可以看到,衣服上身後什麼效果,已經大致有譜了。最近,亞馬遜在CVPR 2020上又進一步將這項工作進行了擴展,可以生成混搭的虛擬試衣。具體的,給定一張自己圖像,以及一張甚至多張購物網站上參考圖像的情況下,該方法能夠生成混搭的穿衣效果,如下圖所示。

以上。


必須要給藝術家大廠 OpenAI 排面,當然了,我是肯定不會講使用了鈔能力的 GPT-3 的。

之所以把 OpenAI 叫做藝術家大廠,是因為他們的網站前端與博客封面做得太美了,充滿了抽象藝術的迷幻色彩。讓我感覺這是一個脫離了工程師低級趣味的工程師團隊,真的太喜歡逛他們的網站了。

截個主頁瞧瞧:

說到近兩年有趣的進展,值得一提的是 OpenAI 在機器人靈巧手單手擰魔方上的進展

隨手一截就是壁紙啊

這是一篇2019年10月的paper,所以也算是近兩年吧。這個領域發展的太快了,我差點以為這是五年前的工作了。Paper 鏈接:Solving Rubiks Cube with a Robot Hand。視頻如下:

OpenAI機械手單手擰魔方劉浚嘉的視頻 · 1841 播放

說實話,讓我單手擰個魔方都可能會擰到手抽筋,更不用說視頻後面的外界幹擾實驗了。所以第一次看到這項工作的時候,我心中只有一個詞:驚艷。

此外,作為一個顏控,機械臂的噴漆滿足了我對美學的追求,曾經被我用到了專欄文章的封面。

劉浚嘉:MuJoCo自定義機器人建模指南?

zhuanlan.zhihu.com圖標

視頻中有句話我很喜歡:

We tried to build robots learn a little bit like humans do by trial and error.

Trial and error 的精神纔是 Reinforcement Learning 這個分支留給我們的寶貴財富。


第二項工作還是強化學習,利用多智能體協作、對抗實現捉迷藏。

Paper Link: Emergent Tool Use From Multi-Agent Autocurricula

OpenAI 多智能體實現捉迷藏劉浚嘉的視頻 · 1280 播放

視頻中的藍色小人逐漸學會:

  1. 利用地形躲藏;
  2. 移動可移動物體堵住房門;
  3. 多個小人分工合作,同時移動多個物體堵門;
  4. 搶先一步收走紅色小人的斜坡狀物體(66666);
  5. 甚至利用可移動物體搭建一個安全的封閉空間;
  6. 提前鎖定紅色小人可以surf的物體。

紅色小人呢:

  1. 學會利用斜坡狀的可移動物體搭梯子翻牆;
  2. 爬上方塊,來一場box surfing衝進藍色小人的保護圈;

即使這是大規模分散式學習的結果,可能學了不知多少億次,但是其體現出的智能性和策略性都讓人耳目一新。

The most important: all of these works are learning from scratch!

就像 @Flood Sung 在 Deep Reasoning 開篇中提到的,我們現在想要讓機器去解決人也需要思考一下的任務。

Flood Sung:OpenRes 0: 從頭開始研究Deep Reasoning?

zhuanlan.zhihu.com圖標

最後感慨一句,一個有情懷的研究院,會把每一項 project 當作獨一無二的藝術品來看待。


人工智慧的圍棋水平超越人類,如今已是不爭的事實。但更加細思恐極的是,機器能做的絕不只是遊戲。很多人的確已經感到了,未來被 AI 支配的恐懼


從物理學角度來看,並沒有一條物理定律規定,基於電子晶元的人工智慧不可能超越人類大腦機能。也並沒有一條物理定律規定,人工智慧一定會對人類言聽計從,絕不可能違反指令。


有人說,AlphaGo 象徵著人工智慧時代的黎明。


而這,或許也是人類的落日……

棋逢對手

這場人機大戰,已經載入世界圍棋史冊。


2016 年 3 月 9 日-12 日,AlphaGo 連下三城,根據五局三勝的賽制,李世石九段已提前被淘汰,無緣 100 萬美元獎金。


3 月 13 日,李世石扳回一局;3 月 15 日收官戰,AlphaGo 再下一城,最終比分定格在 4:1。



這一刻標誌著,從五子棋、魔方到象棋的一切智力遊戲, 人類已經沒有一項是機器的對手


僅半年多後的 2016 年 12 月 29 日,世界棋壇又出大事了,神祕圍棋高手震驚江湖!



在中國最火的圍棋對戰平臺「弈城」上,這個自稱 Master 的怪人,不知疲倦地找頂尖高手單挑,完事後一言不發。

最變態的是,他從沒輸過。



唯一的一場平局,是在和新科冠軍陳耀燁下到第 7 手時,機智的耀哥突然掉線——30 秒沒有落子,系統自動判定和棋!


不過翌日再戰,還是敗給了 Master……


短短一週內,Master 豪取 60 連勝,幹掉了 10 多位中韓世界冠軍,包括曾經排名第一的柯潔「大棋渣」,史稱「七日之戰」。



Top20 的大佬,凡是敢單挑 Master 的都被幹掉了!


看著一大波九段們被活活團滅,大家終於悟出來了:地球上根本沒有人這麼強!

這種事情,只有「狗」做得出來!



1 月 4 日 ,AlphaGo 的主人,DeepMind 團隊終於官方宣佈:Master 就 是「AlphaGo」的馬甲!


「我們最近很努力地開發 AlphaGo,剛過去的幾天我們在網路的對弈平臺進行了一些非正式的快棋對局,目的是為了檢驗我們最新版本的 A lphaGo 是 否如我們的預期。」


AlphaGo 又雙叒叕贏了!


去年,AlphaGo 4:1 擊敗李世石的時候,人人都記得柯潔撂下一句狠話。



「狗」真的來了,柯潔一樣是輸,連續 3 次 。唯一的區別是,去年李世石好歹還扳回一局啊!


在這個歡樂的打臉時刻,令圍觀羣眾失望的是,年少輕狂的柯潔居然一反常態地保持沉默。第二天早上才知道,原來是到醫院去了……



圍棋作為象徵著人類智力高度的最後一塊處女地,在我們的眼皮底下徹底淪陷。


面對這樣的結局,高曉松悲鳴:人類的路已經走完了!



作為一種遊戲,圍棋肯定會繼續流傳下去,至少會比 LOL 的壽命長;但是對於那些把圍棋當作真理般探索的情懷主義者,人類的求道之路已經走完了,以後只能指望 A I 老司機帶路了。


現在,地球上已經沒有人能下過 AlphaGo;但是,我們至少有能力理解,人工智慧究竟是如何超越人類思維的。


這是我們最後的尊嚴。


弱肉強食,不要重蹈 7 萬年前尼安德特人的覆轍。





將來,會不會有更多,我們曾經引以為豪的東西,被 AI 碾壓呢?


一切還要從 2014 年說起……

人工智慧崛起

2014 年 ,谷歌豪擲 4 億英鎊,收購位於倫敦的人工智慧公司 DeepMind。作為一個沒有產品、沒有盈利、純靠發論文攢人品的研究院性質的公司,當時沒有人知道這一切究竟是為什麼。



不過坊間傳言,DeepMind 正在研發三款產品:


一款具有高級人工智慧的遊戲;


一個電子商務智能推薦系統;


一款與圖片處理相關的產品。


2015 年,「一款具有高級人工智慧的遊戲」來了。這就是一年後顛覆棋壇的人工智慧:AlphaGo。



這裡的「Go」不是跑路,而是英文中「圍棋」的意思,來源於日語「碁」的音譯。



那麼「Alpha」呢?它是希臘字母表的第一個字母,一定要翻譯成中文的話,對應的詞應該是 「頭兒」「老大」「首領」之類。



「AlphaGo」,翻譯過來就是,圍棋大 Boss——人家的名字取得夠赤裸裸吧。


作為第一個具備真正學習能力的圍棋 AI,「AlphaGo」在內部訓練中進步神速,讓 4 子 ,戰勝了此前最負盛名的圍棋 AI: CrazyStone 和 Zen。團隊內部會下圍棋的幾個兄弟自然早已被虐得體無完膚。


到了 2015 年 8 月,DeepMind 團隊覺得,必須找個職業選手才能填飽這條「餓狗」的胃口了。


他們盯上了當時正在捷克參加歐洲冠軍杯的職業二段:樊麾,反正這裡離倫敦不遠。


2015 年 10 月,在五局三勝的賽制中,不滿一歲的 AlphaGo 把這位三屆歐洲圍棋冠軍掃地出門,用一種摧枯拉朽的方式——5:0。



由於簽了保密協議,樊麾當時不能透露 AlphaGo 的任何細節,甚至連和「狗狗」下過棋都不能說。以下是後來樊麾接受採訪時的吐槽:

「只要我一犯錯,棋局就進入它的軌道了,我就再也翻不了身了。在出錯之前,我一直認為我是會贏的,但是一出錯我就知道自己要輸了。

但它沒犯什麼錯……我就是感覺下不過它。我當時的心情非常不好——電腦第一次打敗職業棋手,這是個歷史時刻,這是以前從來沒有過的事情。」

樊老師,您說得太好了——這是個歷史時刻!作為第一個被電腦擊敗的職業圍棋手,您和 AlphaGo 將一起被載入史冊,就像關雲長刀下的顏良、文丑一樣。



我們不知道接下來的四個月裏,DeepMind 實驗室究竟發生了什麼,但是有一件事是肯定的——一口吞下樊麾後,AlphaGo 會長得更快。


這一次,它又「餓」了。

世石勝於雄辯

2016 年 1 月 27 日,谷歌宣佈 2016 年 3 月將懸賞 100 萬美元,和傳奇棋手李世石(職業九段)進行五番棋較量。


如果你對小李同志的光輝戰績不感興趣,那麼只需要瞭解以下基礎知識:


圍棋分業餘級(1~9 段 )和職業級(1~9 段 )共 18 個等級;


職業九段是金字塔的頂端;


中國從 20 世紀 80 年代至今近 40 年,總共只出了 39 位職業九段選手。


而今年 33 歲的李世石,是當時世界職業九段的 Top4 之 一(2015 年 7 月排名)。



李世石究竟有多牛?

最低 0.3 元/天開通會員,查看完整內容

購買該電子書查看完整內容

電子書

機器新腦:人工智慧將如何進化?

神們自己

是 AI 統治人類,還是人類掌控 AI?

¥9.99 會員免費


沒看到大佬們提過情感AI[1](Artificial Emotional Intelligence)。

---------------定義---------------

情感AI是一個跨學科領域,涉及計算機科學、 心理學和認知科學,旨在研發能夠識別、解釋、處理、模擬人類情感的系統。[雖然該學科最早可追溯至早期的哲學研究,即人們對情緒的剖析,但真正使其成為現代計算機科學分支的,則是1995年羅莎琳·皮卡德發表的關於情感計算的論文。人們研究情感計算很大程度上是為了能夠模擬共情——機器應該能夠解釋人類的情緒狀態,做出相適應的行為,對情緒給予恰當的回應。

情感AI技術的基礎在於心理學層面的情感識別分析技術,在該技術出現前,人類的情感只能用語言去描述,屬於純粹主觀經驗判斷。而情感識別和量化技術由美國心理學家保羅·艾克曼教授創立,其最大的學術貢獻是面部動作編碼系統(FACS)[2]。通過該技術,人類第一次可以通過科學標記計量的方法將高興、傷心、害怕、憤怒、厭惡、驚訝、輕蔑等七種基本情緒進行科學定性定量分析。

---------------技術實現---------------

儘管人類目前可能在情感識別方面佔上風,但是機器正在利用自己的優勢在不斷進步。麻省理工學院斯隆(MIT Sloan)教授Erik Brynjolfsson解釋說,機器非常擅長分析大量數據,他們可以聆聽聲音變化,並開始識別這些變化與情緒變化的關係。同時機器可以分析圖像並在人類面部微表情中識別出細微之處,速度比人類甚至還要快[3]

情感AI現在主要通過視頻、 聲音和文本展開。

  • 視頻或圖片的情感AI主要通過深度神經網路訓練模型然後進行情感預測。

人類的表情豐富多樣,種類大致有7類,但微表情種類則異常豐富,主要表情+微表情可以很好的反映受試者的情感狀態即變化。

比如下圖,預測結果:最有可能:安靜,次之: 高興。

  • 對於聲音情感AI,一般採用音頻情緒識別等方法。

人類處理聲音的方式異常複雜,從音頻剪輯中感知情感的方式涉及很多因素。一個人的性別,其語氣變化,甚至所用詞語的類型都會影響我們理解所說內容的方式。

梅爾頻率倒譜[4](MFC)是數據的短期功率譜,對語音分析特別有用。人發出的聲音會受到聲道形狀(包括聲帶,喉,舌頭,牙齒等)的影響。從最基本的意義上說,梅爾頻率倒譜在數字上代表了這種聲音通道。梅爾音階的目的是模仿低頻的人耳對聲音的感知,方法是在較低頻率下更具判別力,而在較高頻率下則具有較少判別力。它可以縮放頻率,使其與人耳聽到的聲音緊密匹配(人類更擅長識別低頻下語音的細微變化)。

詳細的技術原理可以參考下面的文章。

九三山人:語音識別中的聲學特徵提取:梅爾頻率倒譜係數MFCC?

zhuanlan.zhihu.com圖標
  • 對於文本級別的情感AI分析,一般採用的是文本情感分析

文本情感分析[5](也稱為意見挖掘)是指用自然語言處理、文本挖掘以及計算機語言學等方法來識別和提取原素材中的主觀信息。通常來說,情感分析的目的是為了找出說話者/作者在某些話題上或者針對一個文本兩極的觀點的態度。這個態度或許是他或她的個人判斷或是評估,也許是他當時的情感狀態(就是說,作者在做出這個言論時的情緒狀態),或是作者有意向的情感交流(就是作者想要讀者所體驗的情緒)。

---------------進展---------------

十多年來,一些大公司以及規模較小的初創公司已經在情感AI方面進行了投資,它使用計算機視覺或語音分析來識別人類情感。這些公司中的許多公司開始專註於市場研究,抓取和分析人類對產品反應。其中一些進展包括:

  • 醫學診斷。該軟體可以通過語音分析幫助醫生診斷諸如抑鬱症和癡呆症等疾病。

其中2018年一項研究[6],對來自30名來自不同文化背景下的兒童視頻研究,通過深度學習對於視頻的處理,對於自閉症兒童的個體和文化差異的影響進行了實證研究,為自閉症的進一步研究提供了數據基礎。

  • 員工安全。情緒AI可以幫助分析工作量很大的員工(例如急救人員)的壓力和焦慮程度。

位於阿姆斯特丹的Koninklijke Philips Electronics NV和ABN AMRO Bank NV開發的技術[7],目的降低金融市場的交易風險。研究表明,處於情緒高漲狀態的交易者將為資產和輕描淡寫的風險支付過多的費用,這種情況被稱為「競價熱」或「競標狂潮」。為瞭解決這個問題,兩家公司共同開發了一種稱為Rationalizer的工具,該工具具有兩個部分:連接在交易者手腕上的手環,該手環通過皮膚電活動(類似於測謊儀的工作方式)來測量情緒,而顯示屏則顯示手腕的力量。研究人員發現,當用戶意識到自己情緒高漲時,他們更有可能重新考慮自己的決定。

  • 視頻遊戲。遊戲機/視頻遊戲使用計算機視覺,在遊戲過程中通過面部表情檢測情緒並適應性調整。

Facebook的「情緒檢測自拍濾鏡」專利,這個想法是根據照片中檢測到的情緒自動選擇合適的自拍「面具」。例如,如果自拍者看起來很悲傷,則過濾器默認為卡通淚滴;如果看起來很開心則會得到「Happy Panda」。

  • 教育。已經開發了學習軟體原型以適應孩子的情緒。當孩子由於一項任務太困難或太簡單而感到沮喪時,該程序會適應該任務,從而使任務變得或多或少。
  • 病人護理。「護士機器人」不僅提醒長期醫療計劃中的老年患者服用藥物,而且每天與他們交談以監控他們的總體健康狀況。
  • 汽車安全。汽車銷售商可以使用計算機視覺技術來監視駕駛員的情緒狀態。極端的情緒狀態或嗜睡可能會觸發駕駛員警報。
  • 自動駕駛汽車。未來,自動駕駛汽車的內部將配備許多感測器,包括攝像頭和麥克風,以監視發生的情況並瞭解用戶駕駛體驗的反饋。
  • 欺詐識別。保險公司使用語音分析來檢測客戶在提交索賠時是否在說真話。根據獨立調查,高達30%的用戶承認向其汽車保險公司撒謊以獲取保險。
  • 呼叫中心智能路由。可以從一開始就發現生氣的客戶,並將其路由到訓練有素的業務代表,後者還可以實時監控對話的進行和調整。
  • 公共服務。情感AI技術供應商和監控攝像頭提供商之間已經建立了合作關係。阿拉伯聯合大公國公共場所的攝像機可以檢測人們的面部表情,因此可以瞭解人們的總體情緒。
  • 零售。零售商已開始研究在商店中安裝計算機視覺情感AI技術,以獲取人口統計信息以及訪客的情緒和反應。

---------------總結---------------

現在情感AI已經慢慢滲透到我們生活的方方面面了,雖然可能我們感知不到,但它實實在在的在幫助我們構建一個更安全,更友好,更intelligent的世界,現在的應用大多數只是基於單個數據維度,未來融合技術對於情感AI或是一個契機。

參考

  1. ^https://zh.wikipedia.org/wiki/%E6%83%85%E6%84%9F%E8%AE%A1%E7%AE%97
  2. ^https://mitpress.mit.edu/books/affective-computing
  3. ^https://mitsloan.mit.edu/ideas-made-to-matter/emotion-ai-explained
  4. ^https://zh.wikipedia.org/zh/%E6%A2%85%E5%B0%94%E9%A2%91%E7%8E%87%E5%80%92%E8%B0%B1%E7%B3%BB%E6%95%B0
  5. ^https://zh.wikipedia.org/wiki/%E6%96%87%E6%9C%AC%E6%83%85%E6%84%9F%E5%88%86%E6%9E%90
  6. ^https://www.media.mit.edu/publications/culturenet-a-deep-learning-approach-for-engagement-intensity-estimation-from-face-images-of-children-with-autism/
  7. ^https://sloanreview.mit.edu/article/how-emotion-sensing-technology-can-reshape-the-workplace/


好多大佬都講了很多,我這裡做個總結性的,分年份介紹下2018-2020年AI的一些進展。可能會和上面說過的有小部分重疊,但僅僅為概括性介紹,並不深入細節。


2018年

2018年AI屆大大小小發生了不少事,我選了一些技術方面比較能代表2018年的人工智慧發展的進展。

Deepfake引發擔憂

在2018年deepfake技術成熟,某站上面換臉的視頻就多起來了。deepfake這個技術最早起源於2016年,在2018年時遇到了輿論上的指責。2018年一月份發布了桌面版FakeApp,二月份被reddit禁了話題。deepfake引發的擔憂並非毫無道理。4月份,印度記者Rana Ayyub被人用她的照片做了那種視頻,人身受到嚴重侮辱。

但deepfake如果利用得當,也是能做得很好的。新華社就做了個合成AI主播[1],可以一天24小時讀新聞,視頻中音頻和表情、脣動能保持自然一致,展現與真人主播無異的信息傳達效果。

谷歌 Duplex 代替人類自動接打電話

2018年的 Google I/O 大會上,Google 展示了一項名為Duplex的AI ,現場演示了它以假亂真地使用自然語言與真實人類對話溝通,而人類竟然完全沒有意識到電話的另一邊並非真人,而是 Google的Duplex。

Google IO 大會演示Duplex桔了個仔的視頻 · 1148 播放

不過後來因為輿論壓力,google在duplex里加入了表明身份的提示,以免給對方造成誤會。

OpenAI DOTA 5v5 AI 接連完勝人類團隊

6月,OpenAI 宣佈 OpenAI Five 在 Dota2 5V5 團戰中戰勝人類。在這次人機大戰中,AI 先後對戰了 5 支人類玩家團隊:OpenAI 員工組成的團隊、現場觀眾隨機組成的路人團隊、Valve 員工組成的團隊、一支業餘 Dota2 玩家組成的團隊以及一支半職業團隊。AI 很輕鬆地在幾輪對抗中碾壓了前 3 支業餘隊伍,而在與後兩支專業隊伍的對戰中,OpenAI Five 三局兩勝。

Google AI 團隊發布 BERT 模型,為 NLP 帶來歷史性的突破

這個得重點吹一下。前面講的是應用,和很多AI從業者並不有直接交集,而BERT可以說是造福了很多AI從業者。

公司AI團隊發布的BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中全面超越人類,並且還在11種不同NLP測試中創出最佳成績,包括將GLUE基準推至80.4%,MultiNLI準確度達到86.7% (絕對改進率5.6%)等。

谷歌團隊的Thang Luong發推:BERT模型開啟了NLP的新時代!

BERT這篇論文[2]的最重要意義不在於用了什麼模型或者怎麼訓練的,而是它提出一種船新(渣渣輝語氣)規則,利用深層雙向的encoding,學習句子和句對的關係表示。

這實驗效果,看懂的,掌聲在哪???

AI首次在超過兩名玩家的德普遊戲中擊敗人類精英

CMU與Facebook聯合研發的AI撲克機器玩家Pluribus,在六人無限注德州撲克遊戲中打敗了15名人類頂級職業撲克手。這是AI系統首次在超過兩名玩家的遊戲中擊敗人類精英玩家,表明人類向利用人工智慧解決不完全、非對稱性多方博弈類複雜問題方面邁出了一大步。


2019年

2019年比起2018年似乎有點降溫,但依然有一些令人振奮的消息。

谷歌宣佈實現「量子霸權」

谷歌聲稱已經達到「量子霸權」[3],打造出第一臺能夠超越當今最強大的超級計算機能力的量子計算機,能夠在3分20秒內完成當今最強大的超級計算機Summit需要約10000年才能完成的計算量。

Process for demonstrating quantum supremacy.

當然這是個令人振奮的消息,不過我們離著實現量子計算的完全功力還有很遠的距離。簡單來說,如下圖,第四層是容錯通用量子計算機,能實現量子計算的完全功力,但谷歌只達到第一層。谷歌實現了量子霸權嗎?可以說是,也可以說不是。因為他確實只用200s實現了經典計算機要用1萬年,但因為它完成了個什麼計算呢?產生隨機數而已。宣佈霸權時,除了產生隨機數,它其他活也幹不了。

含光800發布

2019年的杭州雲棲大會上,阿里推出了這款全球最強的 AI晶元——含光800。在業界標準的 ResNet-50 測試中,含光 800 推理性能達到 78563 IPS,比目前業界最好的 AI 晶元性能高 4 倍;能效比500 IPS/W,一個含光800相當於10個GPU的算力。

GPT-2發布

這個在2019年是當時最大的模型,擁有15億參數。(當然你看到2020年會發現沒什麼)。GPT-2[4]是OpenAI訓練的大型無監督語言模型,能夠生產連貫的文本段落,在許多語言建模基準上取得了 SOTA 表現。該模型在沒有任務特定訓練的情況下,能夠做到初步的閱讀理解、機器翻譯、自動摘要等,無需做任何微調,就能取得令人驚艷的結果,但其結果仍不及專門系統。

GPT-2剛發布時還被稱作「假新聞生成神器」,這說明GPT-2的效果好,也說明對其可能被濫用的擔憂。不過後面確實沒有被濫用,可能實驗效果和實際效果有出入吧哈哈哈,不過這種擔憂,我覺得GPT-3纔是需要擔憂的。

由於等下要吹GPT-3,這裡就不好意思展開篇幅介紹GPT-2了。但無可否認,GPT-2還是2019年的王者。


2020年

有人覺得,2020年AI的發展似乎到了瓶頸。其實並不準確,對於很多小公司,確實遇到了很多瓶頸,但2020年至今也有一些令人滿意的進展。

谷歌發布TensorFlow新版本,支持基於量子計算的機器學習

3月12號朕熬夜加早期看Tensorflow 2.2發布會,就是為了看看TF Quantum。TensorFlow Quantum (TFQ) 是一個量子機器學習庫,可用於快速設計量子-經典機器學習混合模型的原型。量子演算法和應用的研究可以利用 Google 的量子計算框架,所有這些框架都可以在 TensorFlow 中找到。[5]

2020 TensorFlow Dev Summit 什麼讓你印象最深刻??

www.zhihu.com圖標

量子計算裡面,單位是Qubit。

雖然量子計算概念不太好理解,但看起來TF quantum的使用看起來沒講的那麼難。我把我個人理解寫在了發布會當天寫的回答裏了。

2020 TensorFlow Dev Summit 什麼讓你印象最深刻??

www.zhihu.com圖標

GPT-3

雖然回答區有個說過了,但我還是必須要再次吹爆這個了。什麼叫大力出奇蹟呢?看看下圖你就懂了。

這裡有幾組試驗,分別是隻用13億個參數,用130億個參數,和用1750億個參數。我們前面講到GPT-2用了15億個參數達到了不錯的效果,如果同樣數量的參數用在GPT-3,可以說是沒效果。GPT-3比GPT-2」鋪得更廣「,所以參數數量的起點也更高。

GPT-3對於AI從業者吸引力多大?看下圖就懂了。

GPT-3也許會帶來的生產力與生產工具的重大變化,有人已經用GPT-3做了自動生成UI,生成代碼的工具了

甚至還有人拿GPT-3用在Google sheets上

GPT-3的使用範圍有點顛覆我的認知了。我申請了OpenAI API,但隊伍太長了,我排隊可能已經排到外太空了。現在 GPT-3 體驗許可權的申請入口仍然開放,到 OpenAI 的網站上即可申請。

https://beta.openai.com/?

beta.openai.com

正如霍華德大神在他的答案裏說「弱人工智慧的極限就在於用超級模型把整個人類的語料都學習一遍。」,而這個GPT-3在逼近這個極限。但我認為GPT系列並不會帶來強人工智慧,當會帶來」越來越強的弱人工智慧「。現在GPT也許再出幾代,現在基於統計學派的深度學習會走到發展的天花板,不知道到時會不會出現新的學派,給人工智慧帶來突破性發展。

參考

  1. ^全球首個「AI合成主播」在新華社上崗 http://www.xinhuanet.com/politics/2018-11/07/c_1123678126.htm
  2. ^BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/pdf/1810.04805.pdf
  3. ^Quantum Supremacy Using a Programmable Superconducting Processor https://ai.googleblog.com/2019/10/quantum-supremacy-using-programmable.html
  4. ^GPT-2 https://github.com/openai/gpt-2
  5. ^TensorFlow Quantum 是一種量子-經典混合機器學習庫。 https://www.tensorflow.org/quantum


推薦閱讀:
相關文章