從技術鬥士到衆矢之的：NLP模型GPT 2.0的喫瓜指南

想要有技術、有品位地喫瓜，先得了解一下，能攪亂技術社區的一池春水、讓OpenAI心甘情願背鍋的“罪魁禍首”——GPT2.0，到底有什麼神奇之處？

元宵一過，年就算正式過完了。沒曾想OpenAI和馬斯克，居然抓住了春節的小尾巴，攜手爲全球人民貢獻出一個大瓜。

事情是這樣的，上週OpenAI推出了一個號稱“史上最強通用NLP模型”的新算法GPT-2.0，卻沒有按照慣例開放該模型和數據集。

研究人員們的溢美之詞還沒來得及說完，立馬被OpenAI這波操作氣得怒從心頭起，紛紛斥責它全忘初心、惡意炒作。

有人吐槽它應該改名叫“ClosedAI”，還有人把怒火燒到了OPENAI的資助者之一的埃隆·馬斯克身上。後者卻立馬甩鍋，表示“沒有參與OpenAI 公司事務已超過一年”，“早就理念不合”，正式發推要求“和平分手”……

不但惹了衆怒，還把創始人兼金主爸爸給玩跑了，OpenAI這是攤上大事，順手承包了一個瓜田啊。

想要有技術、有品位地喫瓜，先得了解一下，能攪亂技術社區的一池春水、讓OpenAI心甘情願背鍋的“罪魁禍首”——GPT2.0，到底有什麼神奇之處？

風暴中心的GPT2.0究竟有多特別？

我們知道，訓練大型神經網絡語言模型一直是NLP領域最具含金量的研究。其中，語義的連貫性，也就是語言生成模型預測上下文的準確度，一直是一個“老大難”問題。

爲了解決這個難題，性能更好的通用語言模型就成了研究人員關注的重點。從AI2的 ELMo，到OpenAI的GPT1.0，再到前不久Google的BERT，都是爲了讓機器不再尬言尬語顛三倒四，說話更加通順連貫。

但萬萬沒想到，幾個月前號稱“引領NLP走進新時代”的BERT，這麼快就被GPT2.0取代了。

按照深度學習四大要素來對比一下，GPT 2.0到底強在哪裏呢？

（1）訓練數據

引發廣泛關注的BERT，使用了3億參數量進行訓練，刷新了11項NLP紀錄，這在當時是前所未有的。

而OpenAI推出的GPT-2，則參數量則“喪心病狂”地達到了15億之多，在一個800 萬網頁數據集上訓練而成，覆蓋的主題五花八門。不誇張的說，GPT-2 可能是當前最大的深度模型了。

（2）模型

在深度學習方法上，“先進代表”BERT和GPT-2都採用了Transformer 技術。與傳統的特徵抽取器RNN、CNN相比，Transformer無論是特徵抽取、計算效率，還是翻譯任務的綜合能力上，都穩操勝券。

不同之處在於，BERT用雙向語言模型做預訓練，而GPT2.0則使用了古早時代的單向語言模型。坦率地說，GPT-2在預訓練中可以使用的架構類型因此受到了限制，無法全面地融合語境，結果就是在下游任務中展現出來的性能遠沒有當初BERT來得驚豔。

至於爲什麼不“見賢思齊”，採用更先進的雙向語言模型，大概是用長矛幹翻步槍這種挑戰，更能彰顯出“藝高人膽大”的極客風範吧。

（3）算力

“巨無霸”GPT-2的預訓練數據量規模橫掃所有玩家，使用了約 1000 萬篇文章的數據集，文本集合達 40GB。這樣訓練出來的語言模型優勢很明顯，比使用專有數據集來的通用性更強，更能理解語言和知識邏輯，可以用於任意領域的下游任務。

但要完成這項任務，必須使用超大規模的GPU機器學習集羣，OpenAI爲此不得不去爭奪緊張而昂貴的GPU訓練時間，光是龐大的開銷就足以勸退很多想復現其工作的研究者了。

（4）應用

說了這麼多，GPT-2的實際應用效果究竟如何呢？來欣賞一下它的文學作品：

輸入喬治·奧威爾《一九八四》的開場白：“這是四月的一天，天氣晴朗而寒冷，鐘敲了十三下”。系統就識別出模糊的未來主義基調和小說風格，並繼續寫道：

“我在去西雅圖找新工作的路上開着車。我把汽油放進去，把鑰匙放進去，然後讓它跑。我只是想象着那天會是什麼樣子。一百年後的今天。2045 年，我在中國農村的一所學校教書，我從中國歷史和科學史開始。”

不僅情緒模仿到位，GPT-2還能創新觀點（哪怕是錯誤的）。比如發表“回收對世界不利。這對環境有害，對我們的健康有害，對經濟不利。”這樣毫不政治正確、似是而非的言論。

從實際效果來看，GPT-2理解上下文、生成段落、語序連貫性的能力還是有目共睹的。難怪有專家說，未來加上情節的約束，GPT-2續寫《紅樓夢》後40回也是有可能的。

儼然是一顆冉冉升起的寫作新星，也確實能忽悠到一大部分不明所以的羣衆。但連“跨時代”的BERT都爽快開源了，也就優秀了那麼一小點的GPT-2的閉源，就顯得有些耐人尋味了。

從技術鬥士到衆矢之的：OpenAI是如何打錯一手好牌的？

甩出一個“怕被惡意用來製造假新聞”的說辭，自然說服不了經歷過大風大浪的人民羣衆。假視頻都見識過了，機器人代筆寫點新聞算什麼呢，何況也就是小學生水平，至於“敝帚自珍”嗎？

同業們開始口誅筆伐，馬斯克走得是瀟灑無比。細數一下，OpenAI爲之詬病的三宗罪：

1. 違背了開放的行業“潛規則”

今日的互聯網，開源文化早已枝繁葉茂，在AI領域，開放更是默認選項了。

底層技術的更新換代，需要更廣泛的生態系統、更多的頂尖技術人員、更多的機構參與才能做好，開放合作顯然能最快地催生出更多尖端的創新。

正是因此，絕大多數研究成果及源碼，都可以通過博客、會議、社區等公開形式獲取，這樣做的另一個好處是，避免研究資源被浪費，最大限度地保證研究的合理性和真實性。OPENAI的閉源顯然違背了這一基本規則。

2. 慣性炒作帶來的“暈輪效應”

心理學上有個規律，叫“暈輪效應”，當認知者對一個人的某種特徵形成固定印象後，還會再從這個判斷推論其他方面的特徵。OPENAI就很不幸地背上了一個“欺騙性炒作”前科的“光環”，併成功引發了大家的聯想。

之前在一對一DOTA2中打敗頂級人類玩家 “Dendi”，OPENAI就發出了諸如“攻陷DOTA2”“AI完虐人類”“碾壓AlphaGo”等宣言，就被指過於浮誇。

過度誇大、誘導媒體報道的事情OPENAI實在沒少幹。目光回到GPT-2，普遍觀點是，爲了避免造假風險而不開放，既對安全毫無幫助，也對技術進步無益。

面對非要採用過氣模型的固執，和“碾壓人類作者”的語氣，大家立馬從熟悉的套路中嗅到了“同樣的配方和味道”。那點可取之處，也被既往炒作“AI焦慮”的後遺症所反噬了。

3. 助長AI集權的真實陰影

如果說上述指責都難免帶點理想主義情緒的話，那麼GPT-2私有化帶來的實實在在的影響，恐怕纔是點燃大衆恐慌的真正導火索。

作爲“新的石油”，數據資源早就顯示出封閉的跡象。谷歌、亞馬遜、Facebook這些科技巨頭手裏積累了大量的數據財富，並且越來越強大。各國都將AI成果視爲國家戰略資源，德法等已經開始對數據收集及使用徵稅。

而以GPT-2爲代表的無監督學習趨勢，又意味着技術進步與創新愈加依賴於更大容量的模型和超大規模的數據集支持。也就是說，一旦大公司不願意開放源碼和數據集，財力不足的學府和中小開發者極有可能就會被請出牌桌。

當初說要“爲全人類AI 技術保駕護航”的OpenAI都搞起了私有化，顯然令開源文化“腹背受敵”，起到了很惡劣的示範作用，怎麼懟都不冤。

不過，只是一味指責，咱們這瓜就喫的太沒有技術含量了。關鍵要搞清楚，爲什麼明知會被噴，OpenAI還非要這麼幹呢？

開源和私有化：算法公司的商業困境

OpenAI選擇技術私有化，雖然有着種種的不合情，在知識產權歸屬上卻並沒有什麼可指摘的地方。而逼得它不得不違背理想的根本原因，或許纔是AI和全人類真正的敵人。

簡單來說，正是算法公司們集體商業化失守。

美國當代技術哲學家芬伯格（Andrew Feenberg）在上個世紀90年代就曾經提出過，技術的開放是爲了提高全社會的技術福利，而非打擊技術的商業價值。但直到今天，算法的商業化之路依然道阻且長。

在高昂的數據及研發成本下，算法公司想要支撐長期的研究，主要有三種方式：

（1）售賣專利：算法研發可算是AI產業鏈中最上游、最具價值的業務，但即便算法公司手握專利，在更深層次的軟硬件應用方案不成熟的大環境下，也很難養活自己。

（2）開源：從其他業務獲益。借鑑互聯網“羊毛出在豬身上”的商業模式，算法的價值可以通過其他業務的補充來實現。

比如Facebook一直致力於開放其所有代碼和技術架構的源代碼，吸引來不少優秀的開發者，品牌和口碑也藉此大漲。但前提是，Facebook不靠售賣軟件盈利，開源不會衝擊自有業務。對於單純的算法公司來說，顯然不可行。

（3）找金主“包養”：目前看來，尋找一個大型商業機構得到資助，幾乎是算法公司最好的歸宿了，比如谷歌之於Deepmind，特斯拉之於OpenAI。但受制於人的日子顯然也並不好過。

兩者結合的結果就是，一邊需要滿足投資人追求回報的願望；一邊還要提防着主業務受創耽擱自己搞技術。此次馬斯克退出董事會，OpenAI的未來頓時就不明朗起來。

總結

總而言之，OpenAI的開源困境背後，也暴露出一種純技術公司的集體無奈：你得開源，要不然沒法維持技術生態；又不能啥都開源，捧着金碗要飯。這個度真的是很難把握。

不難意識到，隨着數據封閉的浪潮，AI開源的未來不容樂觀已是既定事實，OpenAI只不過是加了一把火而已，私有化的鍋它一個可背不動。

要解決這個問題，靠的不是道德綁架或者祈求大機構的仁慈，口水戰可以休矣。而是集全社會之力，更快催熟完善的產業鏈體系，激活更多元的商業模式和應用場景。

算法的商業化價值初現曙光的時候，纔是科技企業有力量承擔社會責任的時候。

作者：腦極體，微信公衆號：腦極體

本文由 @腦極體原創發佈於人人都是產品經理。未經許可，禁止轉載。

題圖來源於 Unsplash，基於CC0協議

從技術鬥士到衆矢之的：NLP模型GPT 2.0的喫瓜指南

風暴中心的GPT2.0究竟有多特別？