本文由雲+社區發表
隨著內容時代的來臨,多媒體信息,特別是視頻信息的分析和理解需求,如圖像分類、圖像打標籤、視頻處理等等,變得越發迫切。目前圖像分類已經發展了多年,在一定條件下已經取得了很好的效果。本文因實際產品需求,主要探討一下視頻打標籤的問題。
查閱了部分資料,筆者拙見,打標籤問題無論是文本、圖像和視頻,涉及到較多對內容的「理解」,目前沒有解決得很好。主要原因有以下一些方面,標籤具有多樣性,有背景內容標籤,細節內容標籤,內容屬性標籤,風格標籤等等;一些標籤的樣本的實際表現方式多種多樣,樣本的規律不明顯則不利於模型學習;標籤問題沒有唯一的標準答案,也存在一定的主觀性,不好評估的問題則更不利於模型學習。
依然筆者拙見,視頻打標籤問題目前還沒有很好的解決辦法,也處於探索階段。方法上主要有以下一些思路:可以從視頻角度出發,可以從圖像角度出發;可以利用caption生成的思路,可以轉化為多分類問題。
直接從視頻角度出發,即從視頻整體的角度出發,提取圖像幀,甚至字幕或者語音信息,進一步處理得出視頻標籤的結果。Deep Learning YouTube Video Tags,這篇文章提出一個hybrid CNN-RNN結構,將視頻的圖像特徵,以及利用LSTM模型對標籤考慮標籤相關性和依賴性的word embeddings,聯合起來,網路結構如下圖。