摘要: 近些年,深度學習飛速發展,在很多領域(圖像、語音、自然語言處理、推薦搜素等)展現出了巨大的優勢。多模態表徵研究也進行入深度學習時代,各種模態融合策略層出不窮。
阿里妹導讀:在現實世界中,信息通常以不同的模態同時出現。這裡提到的模態主要指信息的來源或者形式。例如在淘寶場景中,每個商品通常包含標題、商品短視頻、主圖、附圖、各種商品屬性(類目,價格,銷量,評價信息等)、詳情描述等,這裡的每一個維度的信息就代表了一個模態。如何將所有模態的信息進行融合,進而獲得一個綜合的特徵表示,這就是多模態表徵要解決的問題。今天,我們就來探索多模態表徵感知網路,了解這項拿過冠軍的技術。作者 | 越豐、簫瘋、裕宏、華棠
阿里妹導讀:在現實世界中,信息通常以不同的模態同時出現。這裡提到的模態主要指信息的來源或者形式。例如在淘寶場景中,每個商品通常包含標題、商品短視頻、主圖、附圖、各種商品屬性(類目,價格,銷量,評價信息等)、詳情描述等,這裡的每一個維度的信息就代表了一個模態。如何將所有模態的信息進行融合,進而獲得一個綜合的特徵表示,這就是多模態表徵要解決的問題。今天,我們就來探索多模態表徵感知網路,了解這項拿過冠軍的技術。
近些年,深度學習飛速發展,在很多領域(圖像、語音、自然語言處理、推薦搜素等)展現出了巨大的優勢。多模態表徵研究也進行入深度學習時代,各種模態融合策略層出不窮。
在這裡,我們主要對圖像和文本這兩個最常見的模型融合進行探索,並在2個多模態融合場景中取得了目前最好的效果。
圖像編輯是指對模擬圖像內容的改動或者修飾,使之滿足我們的需要,常見的圖像處理軟體有Photoshop、ImageReady等。隨著人們對於圖像編輯需求的日益提升,越來越多的圖像要經過類似的後處理。但是圖像處理軟體使用複雜且需要經過專業的培訓,這導致圖像編輯流程消耗了大量人力以及時間成本,為解決該問題,一種基於文本的圖像編輯手段被提出。基於文本的圖像編輯方法通過一段文本描述,自動地編輯源圖像使其符合給出的文本描述,從而簡化圖像編輯流程。例如圖1所示,通過基於文本的圖像編輯技術可以通過文字命令改變模特衣服的顏色,紋理甚至款式。
現有方法
目前已有一些針對基於文本的圖像編輯所提出的方法。他們都採用了強大的圖像生成模型GAN(Generative adversarial network)作為基本框架。Hao[1]訓練了一個conditional GAN,它將提取出來的text embeddings作為conditional vector和圖像特徵連接在一起,作為兩個模態信息的混合表示,然後通過反卷積操作生成目標圖像 (如圖2)。
我們的工作
我們的工作從理論角度分析了連接操作和特徵線性調製操作間特徵表示能力的優劣,並將這兩種方法推廣到更一般的形式:雙線性 (Bilinear representation)。據此,我們提出表示學習能力更加優越的雙線性殘差層 (Bilinear Residual Layer),用來自動學習圖像特徵和文本特徵間更優的融合方式。
Conditioning的原始形式
FiLM源自於將特徵乘以0-1之間的向量來模擬注意力機制的想法,FiLM進行特徵維度上的仿射變換,即:
Bilinear的Low-rank簡化形式
我們的方法在Caltech-200 bird[5]、Oxford-102 flower[6]以及Fashion Synthesis[7]三個數據集上進行了驗證。定性結果如圖5所示,第一列為原圖,第二列表示Conditional GAN原始形式的方法,第三列表示基於FiLM的方法,最後一列是論文提出的方法。很明顯前兩者對於複雜圖像的編輯會失敗,而論文提出的方法得到的圖像質量都較高。
除此之外,實驗還進行了定量分析,儘管對於圖像生成任務還很難定量評估,但是本工作採用了近期提出的近似評價指標Inception Score (IS)[8]作為度量標準。由表6可見,我們的方法獲得了更高的IS得分,同時在矩陣秩設定為256時,IS得分最高。
在調研多模態融合技術的時候,有一個難點就是文本的描述其實對應到圖像上局部區域的特性。例如圖7,Long sleeve對應了圖像中衣服袖子的區域,並且是長袖。另外,整個文本描述的特性對應的是整個圖像的區域。基於這個考慮,我們認為圖像和文本需要全局和局部特徵描述,圖像全局特徵描述對應到整個圖像的特徵,局部特徵對應圖像每個區域的特徵。文本的全局特徵對應整個句子的特徵,文本的局部特徵對應每個單詞的特徵。然後文本和圖像的全局和局部區域進行特徵融合。
針對這種融合策略,我們在時尚圖像生成任務上進行了實驗。時尚圖像生成(FashionGEN)是第一屆Workshop On Computer VisionFor Fashion, Art And Design中一個比賽,這個比賽的任務是通過文本的描述生成高清晰度且符合文本描述的商品圖像。我們在這個比賽中客觀評分和人工評分上均獲得的第一,並取得了這個比賽的冠軍。
我們的方法
我們方法基於細粒度的跨模態注意力,主要思路是將不同模態的數據(文本、圖像)映射到同一特徵空間中計算相似度,從而學習文本中每個單詞語義和圖像局部區域特徵的對應關係,輔助生成符合文本描述的細粒度時尚圖像,如圖7所示。
傳統的基於文本的圖像生成方法通常只學習句子和圖像整體的語義關聯,缺乏對服裝細節紋理或設計的建模。為了改進這一問題,我們引入了跨模態注意力機制。如圖8左邊區域,已知圖像的局部特徵,可以計算句子中不同單詞對區域特徵的重要性,而句子語義可以視為基於重要性權重的動態表示。跨模態注意力可以將圖片與文字的語義關聯在更加精細的局部特徵層級上建模,有益於細粒度時尚圖像的生成。
對抗生成網路
傳統的生成式對抗網路由判別器和生成器兩部分組成,判別器的目標是判別生成圖像是否在真實數據集的分布中,而生成器的目標是儘可能的騙過判別器生成逼近真實數據集的圖像,通過兩者的迭代更新,最終達到理論上的納什均衡點。這個過程被稱為對抗訓練,對抗訓練的提出為建立圖像等複雜數據分布建立了可能性。
基於跨模態注意力的相似性
圖像-文本相似性
對於第i個單詞,我們最終可以建立不同區域特徵的加權和(越相似賦予越大的權重):
文本-圖像相似性
同理的,文本-圖像的相似性可以形式化為:
全局相似性
附上演算法效果圖:
我們主要對圖像和文本這兩個最常見的模型融合進行探索,在文本編輯圖像任務上,我們提出基於雙線性殘差層 (Bilinear Residual Layer)的圖文融合策略,並取得了最好的效果,相關工作已經發表在ICASSP 2019上,點擊文末「閱讀原文」即可查看論文。在時尚圖像生成任務上,我們使用了細粒度的跨模態融合策略,並在FashionGen競賽中取得第一。
關於我們
阿里安全圖靈實驗室專註於AI在安全和平台治理領域的應用,涵蓋風控、知識產權、智能雲服務和新零售等商業場景,以及醫療、教育、出行等數億用戶相關的生活場景,已申請專利上百項。2018年12月,阿里安全圖靈實驗室正式對外推出「安全AI」,並總結其在知識產權保護、新零售、內容安全等領域進行深度應用的成果:2018年全年,內容安全AI調用量達到1.5萬億次;知識產權AI正在為上千個原創商家的3000多個原創商品提供電子「出生證」——線上與全平台商品圖片對比,智能化完成原創性校驗,作為原創商家電子備案及後續維權的重要依據;新零售場景的防盜損對小偷等識別精準度達到100%。
本文作者:越豐
原文鏈接
更多技術乾貨敬請關注云棲社區知乎機構號:阿里云云棲社區 - 知乎
本文來自雲棲社區合作夥伴「 阿里技術」,如需轉載請聯繫原作者。