數據是由一個、兩個或者多個模態組成,模態都有其特有的特徵表示形式,在現實世界中,部分數據通常會存在缺失某些組成的模態,因此在進行多模態學習(檢索、分類,聚類)等問題時將會使性能降低。

Unified subspace learning for incomplete and unlabeled multi-view data

來源:Yin Q, Wu S, Wang L. Unified subspace learning for incomplete and unlabeled multi-view data[J]. Pattern Recognition, 2017, 67(67):313-327.

一、摘要

  1. 目的:無標籤跨模態檢索。
  2. 挑戰:模態數據缺失;大多數數據無標籤。
  3. 貢獻:
  • 提出了一種新的基於不完全和無標籤的子空間學習方法,該方法綜合考慮了特徵選擇、模態間和模態內的相似性保持,用以增強了子空間學習。
  • 本文提出了一種迭代優化演算法,有效地解決了這一問題,並給出了理論分析以保證其收斂性。
  • 我們在兩個任務即多模態聚類和跨模態檢索方面,通過大量的實驗驗證了我們提出的方法,獲得了比現有方法更好的性能。

二、模型

圖1 對不完整和無標籤數據的子空間學習模型框架

我們的模型的概述有兩個模態,即文本和圖像。對於不完全的多模態數據集,我們使用投影矩陣將原始特徵投影到類指示符矩陣中,該類指示符矩陣顯式地捕獲了聚類結構,並充當了潛在空間。此外,對投影矩陣施加組稀疏性進行特徵選擇。此外,保留模態間和模態內數據相似性來增強模型。最後,我們的模型可以應用於聚類和檢索任務。

三、實驗

  1. 評價指標:MAP, PR-curve
  2. 比較方法
  • 跨模態聚類:SingleV1, SingleV2,CCA,PairwiseSC, CentroidSC,MultiCF,RMSC,PVC。
  • 跨模態檢索:CCA,PLS,BLM,CDFE,GMLDA,GMMFA。
  1. 資料庫:USPS Dataset,Cora Dataset,BBC Dataset,3Source dataset,VOC Dataset ,Wiki Dataset,NUS-WIDE Dataset 。

Unconstrained Multimodal Multi-Label Learning

來源:Huang Y, Wang W, Wang L. Unconstrained Multimodal Multi-Label Learning[J]. IEEE Transactions on Multimedia, 2015, 17(11):1923-1935.

一、摘要

  1. 目的:多模態分類、可視化以及多模態檢索。
  2. 挑戰:不同的語義標註往往存在較強的相關關係,且多模態數據缺失。
  3. 貢獻:
  • 研究了一個很少被研究但實際上很重要的問題,即無約束多模態多標籤學習,並提出了一種新的RBM-style模型,它可以共同處理不完全的模式、數據融合和標籤關係。
  • 這是第一部將條件限制玻爾茲曼機(RBM)的思想應用於多模態學習的作品,證明了模態生成的有效性。
  • 發現所提出的多任務編碼對於標籤共現的建模是有效的,可以顯著提高分類性能。
  • 與已有的條件RBMs無監督學習不同,我們探索了兩種有效的有監督學習演算法。

二、模型

圖2 非受限多模態多標籤學習模態框架

非受限多模態多標籤學習方法。對於不完整的多模態數據(如雙模態圖像和標籤),在訓練過程中,我們首先提取圖像的特徵,然後使用它們生成缺失的標籤特徵。通過使用共同出現的標籤作為監督,所有特徵被區分地融合到共享表示中。在測試過程中,僅給定圖像,模型就可以生成相應缺失的標籤特徵,然後獲取共享的表示來執行分類和檢索任務。

三、實驗

  1. 評價指標:MAP,PR curve
  2. 比較方法
  • 非受限多模態多標籤分類:Image SVM,Image DBM, Image DBN,DBM,DBN, ML-CRBM
  • 非受限多模態多標籤檢索:Image Raw Features,Image DBM,,DBM,DBN,MMNN, ML-CRBM

3.數據集:MIR Flickr Dataset,NUS-WIDE Dataset


推薦閱讀:
查看原文 >>
相关文章