生物信息遇上Deep learning(5): FBGAN

前言

近來總算閑下來不少，我有更多的時間看些自己想看的東西，之前就一直想學習下這兩年來風聲水起的GAN(Generative Adversarial Networks, 生成對抗網路)，比如生成很逼真的假臉呀，虛假的音頻，生成假新聞等等，還是非常有意思的。於是乎去找了重新回顧了之前看的生物信息學和深度學習一些綜述的文章，果然被我發現了一篇，這兩天就爬出來仔細研究了下，順道把GAN網路也學習了，也來和大家分享下。

今天講的是斯坦福大學AI lab發表在bioarxiv 上的一篇preprint的文章，名字叫做：Feedback GAN (FBGAN) for DNA: a Novel Feedback-Loop Architecture for Optimizing Protein Functions。標題就已經把作者要做的說了，用帶反饋的生成對抗網路做蛋白質的功能優化操作，在文中其實指的就是生成可編碼成蛋白質的DNA序列。

論文地址：https://arxiv.org/pdf/1804.01694.pdf

源碼地址：https://github.com/av1659/fbgan，源碼我不確定是不是作者寫的，不過看了下，主體的功能都有，前兩天想跑下來著，不過由於實驗室伺服器畢業用不了，單機我這小本本估計也跑不動，所以有啥問題別來找我（手動黑臉。。）

Motivation

這篇論文的動機是希望通過GANs網路去生成一些逼近與現實分布的基因，蛋白質甚至是一些醫用的藥物，因此，這個研究也屬於合成生物學(synthetic biology) 的範疇了, 通過GANs合成DNA序列編碼可變長度的蛋白質，因此作者做了兩個實驗：

產生抗菌肽的合成編碼DNA序列
優化合成基因的多肽二級結構

並驗證通過GANs網路生成的合成蛋白質具有一定的生物學特性。

GANs技術簡介

用一句最簡單的話來說，GANs網路設計的實質就是左右互博大法，GANs網路主要有兩個子網路構成，分別是生成網路G(Generator)和判別網路D(Discriminator), G網路接收一個隨機的雜訊，D用於判斷G網路生成的數據的可靠性。在訓練過程中，兩個網路不斷博弈，生成網路G的目標就是盡量生成真實的數據去欺騙判別網路D。而D的目標就是盡量辨別出G生成的假數據和真實的數據。這樣，G和D構成了一個動態的「博弈過程」，最終的平衡點即納什均衡點。

找個圖像的原理示意圖如下：