泛娛樂應用成為主流,社交與互動性強是共性,而具備這些特性的產品往往都集中在直播、短視頻、圖片分享社區等社交化娛樂產品,而在這些產品背後的黑科技持續成為關注重點,網易雲信在網易MCtalk 泛娛樂創新峯會上重點介紹了超越像素的AI視頻黑科技「超分」。

超解析度(Super-Resolution)通過硬體或軟體方法提高原有圖像的解析度,通過一幅或者多幅低解析度的圖像來得到一幅高解析度的圖像過程就是超解析度重建,可以通過人工智慧深度學習將低解析度視頻重建成高解析度視頻模糊圖像、視頻瞬間變高清,為移動端為用戶帶來極致視頻體驗。

什麼是超解析度

廣義的超解析度 (SR, Super Resolution) 是指一類用於提升圖像解析度的技術。這類技術已經存在了很長一段時間,應用也非常廣泛。事實上,每當我們需要以不同於原始解析度的尺寸來顯示或存儲圖像時,就已經使用了SR,只不過使用的是其中最為簡單的那類演算法而已。

隨著圖像處理理論的發展,以及機器學習的普及和更高性能的處理器的出現,各類更優秀的SR演算法陸續出現。現在我們提及SR時,往往是特指依靠機器學習來實現的圖像放大演算法。下文提到SR時也均特指這類演算法。它能夠提供遠超於傳統圖像放大演算法的圖像質量。當然,運算量也要高得多。

圖1. 將原始圖像縮小3倍後分別使用Bicubic (一種傳統圖像放大演算法) 和SRCNN (一種基於CNN的圖像放大演算法) 進行放大[1]。

超解析度理論描述

SR演算法本質上和傳統圖像放大演算法沒什麼不同,都是利用已有的圖像信息去預測需要的像素點。只不過傳統演算法的預測模型非常簡單,可以通過人工設計的方式實現。例如雙線性插值,就是利用目標像素周圍的四個點來做預測,離目標位置越近的點權重越大,通過一個簡單的公式就能得到結果: f(x,y)=f(0,0)(1-x)(1-y)+f(1,0)x(1-y)+f(0,1)(1-x)y+f(1,1)xy

圖2. 雙線性插值,通過Q11~Q22這四個點預測點P

而現代SR演算法為了得到更精確的預測結果,其預測模型則複雜了很多。一般有多個卷積層和激活層,會利用到目標像素周圍很大一片區域的圖像信息,包含成千上萬個模型參數,純靠人工設計是不現實的。所以人們才會依靠機器學習的方式來決定參數。這種做法還附帶有不少好處。例如你無需對圖像處理有深厚的理解就可以訓練模型,再比如你可以根據自己的應用場景調整訓練集,從而得到更適合你的預測模型。

下圖是一個簡單的例子,來自經典的超分演算法SRCNN[1]。模型基於卷積神經網路,以原始圖像為輸入,先是用廉價的上採樣演算法將解析度提升到期望的大小, 然後經過3層分別為9x9x128,3x3x64,5x5的卷積運算,得到超分輸出。

圖3. SRCNN網路結構

這幾年每屆超分競賽都會出現不少值得借鑒的新理論和新實現,SR的效果上限被不斷提高。介紹這些演算法的文章有很多,感興趣的讀者可以自行搜索。

什麼時候用超解析度

雖然視覺效果很好,但SR在使用上有幾方面限制需要我們注意。其中最重要的就是性能這個硬性指標。即便是極為簡單的SR演算法,其運算量也是傳統放大演算法的上千倍,能否滿足應用的性能需求是需要經過測試和優化的。

另外,目前的SR演算法主要分兩個流派,一派的目標是儘可能地還原信息,另一派則允許在不影響視覺體驗的前提下對內容進行一些修改。我們需要根據應用場景來選擇不同的演算法。如果在對圖像還原度要求較高的場合下使用了不適當的SR演算法,可能帶來不好的後果。

圖4. 上圖左側為SRGAN模型[2]放大4倍生成的圖片,可以看到首飾的紋理被大幅修改。

還有一點,目前的SR演算法大都針對自然圖像。對於一些特殊的圖像,例如因為縮小而失真的文字,直接使用SR演算法去放大的效果實際測試下來並不理想。

圖5. 直接使用SR並不能較好地還原失真的文字

超解析度的優勢

基於深度學習的超分技術能較好的恢復圖像細節. 在視頻發送源可能因為種種客觀限制, 無法提供高解析度的視頻. 比如攝像頭採集能力不足, 網路帶寬不足,源端處理能力不足等, 在這些情形下, 如果雲端或者接收端的處理能力滿足要求, 可以藉助超分技術, 對於視頻質量做恢復, 呈現給用戶高質量的視頻. 所以超分技術為在惡劣的客觀條件下的視頻應用提供了高質量呈現的可能, 是傳統的應用藉助人工智慧技術提升使用體驗的一種典型落地場景.

網易雲信在超解析度的實踐

網易雲信提供了點播直播和實時音視頻等技術能力。 支持的終端包括Windows PC, MAC, iPhone, iPad, Android手機, 機頂盒, 智能手錶等可穿戴設備。其中可穿戴設備, 機頂盒等終端的成本控制比較嚴格, 通常CPU處理能力相對較弱, 無法支持高清, 甚至標清的視頻規格, 但是作為這些終端的使用者, 它們依然希望看到高清或標清的視頻質量, 接收的終端可能是PC或者性能較好的手機, 平板電腦等設備,他們自己可能有能力提供優秀的計算資源。在這種場景下, 網易雲信可以在接收的終端上通過超解析度技術, 恢復視頻質量,極大地提升了移動端用戶的體驗。如果接收的終端本身運算能力不足以支撐深度學習, 但是有能力處理高清視頻的解碼, 網易雲信依然可以在雲端對低解析度的視頻進行處理, 採用包括超分在內的技術,對質量恢復後,將高質量的視頻提供到接收終端。

尤其針對弱網情況,雲信將在雲端或者接收終端通過超分技術對質量進行補償, 為用戶呈現超高質量視頻。雲信通過人工智慧深度學習將低解析度視頻重建成高解析度視頻模糊圖像、視頻瞬間變高清,為移動端為用戶帶來極致視頻體驗。

[1] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deep convolutional network for image super-resolution. In European Conference on Computer Vision (ECCV), pages 184–199. Springer,

2014.

[2] Ledig C, Theis L,Huszar F, et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network[J]. 2016:105-114.

想要閱讀更多技術乾貨、行業洞察,歡迎關注網易雲信博客。

瞭解網易雲信,來自網易核心架構的通信與視頻雲服務。


網易雲信(NeteaseYunXin)是集網易18年IM以及音視頻技術打造的PaaS服務產品,來自網易核心技術架構的通信與視頻雲服務,穩定易用且功能全面,致力於提供全球領先的技術能力和場景化解決方案。開發者通過集成客戶端SDK和雲端OPEN API,即可快速實現包含IM、音視頻通話、直播、點播、互動白板、簡訊等功能。


推薦閱讀:
相關文章