本文來自微信公眾號“量子位”(ID:QbitAI),作者:明敏、蕭簫

終於,我小學時的夢想有人實現了!

只需要我拍下自己的筆跡,AI就能幫我謄抄英語作業,畫風“完全一致”的那種:

甚至幫別人抄作業也沒問題……

簡直屌打一批只能仿手寫、價格還動輒幾百上千的“作業神器”。

咳咳,劃重點

雖然功能很強大,但這可不是給你們抄英語作業的。(作業就得認真做!)

這是Facebook AI最新出品的“文字風格刷”(TextStyleBrush)

它只需要一張筆蹟的照片,就能完美還原出一整套文字筆跡來。

不僅能移花接木,憑空將“醬油瓶”變成“茶壺”:

還能直接實現風格替換,讓超市店裡的所有印刷字都變成手寫體:

這樣看來,現在就連照片文字,也不一定是真實的了。

比格式刷還強:文本也能換

在實際使用過程中,TextStyleBrush真的就是個格式刷,哪裡需要刷哪裡。

它真正厲害的就是模擬手寫字體。

只需輸入一段文本內容,加上你的筆跡,1個單詞即可,它就能生成“手寫版”。

這個效果,用肉眼看真的是分辨不出真偽!

把菜場中價籤的印刷體都換成手寫體的過程中,它還能識別出不是印刷體的樣本,自動跳過轉換合成。

模擬特定字體格式時,TextStyleBrush表現也很不錯。

包括海報、垃圾桶、路牌、飲料瓶、店面裝飾……各種文字的風格都能handle:

除了直觀的效果,開發人員對合成圖片也做了數據上的分析。

TextStyleBrush生成的圖片在合成誤差(MSE)上大幅降低,峰值信噪比(PSNR)和結構相似性(SSIM)也提高不少。

在文字識別的準確性上,TextStyleBrush在三組數據集中的表現都不錯:

準確率都高達95%以上。

拿GAN改一改,真假文字難辨認

據Facebook介紹,“文字風格刷”TextStyleBrush是一個基於自監督方法訓練的模型,可以對相同文本內容的文字進行風格轉換,就像格式刷一樣。

當然,不只是Word的格式刷,它甚至能直接對照片中的文字進行替換,因此模型還需要學習文字識別圖像分割的方法。

為了同時實現圖像分割和文字風格轉換,TextStyleBrush模型基於StyleGAN2進行了設計,後者能生成非常逼真的圖像照片。

然而,StyleGAN2存在兩個問題:

首先,它生成圖像的方式是“隨便亂打”的,也就是沒辦法控制輸出圖像特徵。但TextStyleBrush必須要生成指定文本的圖像。

其次,StyleGAN2的整體風格不受控制,但TextStyleBrush中的風格涉及大量信息組合,包括顏色、尺度和風格轉換等特徵,甚至是帶有個人特色的筆跡細節差異。

為此,TextStyleBrush首先通過將文本信息和風格作為兩個“附加條件”控制模型輸出,來解決模型隨機生成圖像的問題。

然後,為了進一步更精細地控製文本的風格特徵,還會提取神經網絡層中的各種風格信息,並將這些信息注入文本生成器中,便於從各種尺度(顏色、整體風格、細節)上控製文字的風格。

除此之外,由於不同的圖片分辨率不同,生成器還必須生成和替換區域分辨率相似的文字。

為此,這一模型加入了能夠控制高低分辨率的結構,使得生成的文字圖像能匹配輸入圖像的分辨率。

就像這樣,替換前後也不會出現字體清晰度差異大的問題:

但不同於照片,文字的風格其實要更加自由,所以有時候畫風的真實性不好說。

為此,在訓練的時候,Facebook引入了一種創新的自監督訓練方法,結合風格分類、文本識別(OCR)和GAN三種模型來保留輸入的風格/文字內容,再決定要替換哪個。

例如,在文本識別上,讓TextStyleBrush生成文本圖像後,模型會用一個預訓練文本識別結構來“判斷”圖像的文字內容,並給它打分。

事實證明,這樣訓練出來的模型,確實很好用。

網友:以假亂真?我真有點擔心……

合成人臉已經玩太多了,合成筆跡還是頭一回。

而且它的效果真的還不錯!

所以,TextStyleBrush一經發布,就引來了很多人的圍觀。

已經有網友開始想像它的用途了:

歡迎來到花式簽名的世界!

LeCun也轉發了一波。

不過,能看不能玩實在是太難受了,有手癢的網友就跑來提問:

TextStyleBrush會對大眾開放使用嗎?

這自然也就引出來一個會引起爭議的點:

合成後的筆跡足以以假亂真,如果被濫用或惡意使用怎麼辦?

假設任何一個人的筆跡都能被非常輕鬆地合成,那許多需要簽字的場合該怎麼辦呢?

例如,有網友表示,要是連醫生們的“草書”處方都能模仿……

而除了安全隱私問題上的擔憂,這對字體設計師來說也不是個好消息。

畢竟各款字體其實都是有版權的,如果可以被輕鬆模擬出來,那豈不是盜版滿天飛,甚至連作者本尊都分辨不出來真偽。

有網友就表示:這離真假難辨的反烏托邦世界更近了一點……

對此,Facebook的CTO作出了回應:

因為可能會被用來偽造筆跡,所以我們只發布論文和數據集,源代碼並不會開源

分享研究和數據集,也更多是為了預防文本版Deepfakes。

你覺得呢?

TextStyleBrush數據集:

https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

論文地址:

按一下以存取 10000000_944085403038430_3779849959048683283_n.pdf

相关文章