看過上百部片子的這個人教你視頻標籤演算法解析

本文由雲+社區發表

隨著內容時代的來臨，多媒體信息，特別是視頻信息的分析和理解需求，如圖像分類、圖像打標籤、視頻處理等等，變得越發迫切。目前圖像分類已經發展了多年，在一定條件下已經取得了很好的效果。本文因實際產品需求，主要探討一下視頻打標籤的問題。

查閱了部分資料，筆者拙見，打標籤問題無論是文本、圖像和視頻，涉及到較多對內容的「理解」，目前沒有解決得很好。主要原因有以下一些方面，標籤具有多樣性，有背景內容標籤，細節內容標籤，內容屬性標籤，風格標籤等等；一些標籤的樣本的實際表現方式多種多樣，樣本的規律不明顯則不利於模型學習；標籤問題沒有唯一的標準答案，也存在一定的主觀性，不好評估的問題則更不利於模型學習。

依然筆者拙見，視頻打標籤問題目前還沒有很好的解決辦法，也處於探索階段。方法上主要有以下一些思路：可以從視頻角度出發，可以從圖像角度出發；可以利用caption生成的思路，可以轉化為多分類問題。

直接從視頻角度出發，即從視頻整體的角度出發，提取圖像幀，甚至字幕或者語音信息，進一步處理得出視頻標籤的結果。Deep Learning YouTube Video Tags，這篇文章提出一個hybrid CNN-RNN結構，將視頻的圖像特徵，以及利用LSTM模型對標籤考慮標籤相關性和依賴性的word embeddings，聯合起來，網路結構如下圖。