模態缺失問題——兩篇論文解決

數據是由一個、兩個或者多個模態組成，模態都有其特有的特徵表示形式，在現實世界中，部分數據通常會存在缺失某些組成的模態，因此在進行多模態學習(檢索、分類，聚類)等問題時將會使性能降低。

Unified subspace learning for incomplete and unlabeled multi-view data

來源：Yin Q, Wu S, Wang L. Unified subspace learning for incomplete and unlabeled multi-view data[J]. Pattern Recognition, 2017, 67(67):313-327.

一、摘要

目的：無標籤跨模態檢索。
挑戰：模態數據缺失；大多數數據無標籤。
貢獻：

提出了一種新的基於不完全和無標籤的子空間學習方法，該方法綜合考慮了特徵選擇、模態間和模態內的相似性保持，用以增強了子空間學習。
本文提出了一種迭代優化演算法，有效地解決了這一問題，並給出了理論分析以保證其收斂性。
我們在兩個任務即多模態聚類和跨模態檢索方面，通過大量的實驗驗證了我們提出的方法，獲得了比現有方法更好的性能。

二、模型

圖1 對不完整和無標籤數據的子空間學習模型框架

我們的模型的概述有兩個模態，即文本和圖像。對於不完全的多模態數據集，我們使用投影矩陣將原始特徵投影到類指示符矩陣中，該類指示符矩陣顯式地捕獲了聚類結構，並充當了潛在空間。此外，對投影矩陣施加組稀疏性進行特徵選擇。此外，保留模態間和模態內數據相似性來增強模型。最後，我們的模型可以應用於聚類和檢索任務。

三、實驗

評價指標：MAP, PR-curve
比較方法

跨模態聚類：SingleV1, SingleV2，CCA，PairwiseSC, CentroidSC，MultiCF，RMSC，PVC。
跨模態檢索：CCA，PLS，BLM，CDFE，GMLDA，GMMFA。

資料庫：USPS Dataset，Cora Dataset，BBC Dataset，3Source dataset，VOC Dataset ，Wiki Dataset，NUS-WIDE Dataset 。

Unconstrained Multimodal Multi-Label Learning

來源：Huang Y, Wang W, Wang L. Unconstrained Multimodal Multi-Label Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):1923-1935.

一、摘要

目的：多模態分類、可視化以及多模態檢索。
挑戰：不同的語義標註往往存在較強的相關關係，且多模態數據缺失。
貢獻：

研究了一個很少被研究但實際上很重要的問題，即無約束多模態多標籤學習，並提出了一種新的RBM-style模型，它可以共同處理不完全的模式、數據融合和標籤關係。
這是第一部將條件限制玻爾茲曼機(RBM)的思想應用於多模態學習的作品，證明了模態生成的有效性。
發現所提出的多任務編碼對於標籤共現的建模是有效的，可以顯著提高分類性能。
與已有的條件RBMs無監督學習不同，我們探索了兩種有效的有監督學習演算法。

二、模型

圖2 非受限多模態多標籤學習模態框架

非受限多模態多標籤學習方法。對於不完整的多模態數據(如雙模態圖像和標籤)，在訓練過程中，我們首先提取圖像的特徵，然後使用它們生成缺失的標籤特徵。通過使用共同出現的標籤作為監督，所有特徵被區分地融合到共享表示中。在測試過程中，僅給定圖像，模型就可以生成相應缺失的標籤特徵，然後獲取共享的表示來執行分類和檢索任務。