你這個問題算是邀請對人了。因為我最近正好在研究這塊。

文字生成圖片,屬於NLP(自然語言處理)和深度學習領域一個新興和熱門的問題——多模態

不同的模態就是不同的信息形式,文字、語音、圖像等等就是不同的模態。

無論是具體地描述圖片特徵,還是反過來完全從無到有由描述生成圖片,都屬於多模態的問題。

最近看到這方面的講座,下面的圖也是講座錄像裏截的。

可以參考一下(在20分鐘左右)

自然語言與多模態交互前沿技術(北大場)?

www.xuetangx.com

提到的AttnGAN有Github項目:taoxugit/AttnGAN

論文:http://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_AttnGAN_Fine-Grained_Text_CVPR_2018_paper.pdf


Google圖片搜索


人工智慧吧,好像有,比如說貓,就能畫出來一個。


涉及到

1、自然語言處理及語意識別

2、語言畢竟是抽象的 是不全面的 要補全大量的細節

3、繪畫的風格、色彩表達 等等很複雜的

太難了。


有相關研究,比如直接把摩登原始人的劇本臺詞場景變成卡通畫面的工作。從描述生成圖片和視頻的工作還有不少。


推薦閱讀:
相關文章