即構科技金健忠：回顧20年音視頻技術演進

來自專欄即構科技Zego實時語音視頻技術專欄1 人贊了文章

多媒體技術是一個傳統行業，從模擬到數字，VCD到藍光，從窄帶到寬頻，標清到高清，技術演進讓人的視聽體驗發生了顛覆式的改變。LiveVideoStack採訪了即構科技CTO金健忠，他回顧了過去20年多媒體技術的發展，並展望了未來的技術趨勢。

文 / 金健忠策劃 / LiveVideoStack

LiveVideoStack：能否向LiveVideoStack讀者簡單介紹下自己，當初是如何進入音視頻這個領域的，以及這些年的工作體會。

金健忠：大家好，我是金健忠，目前擔任即構科技CTO。從2001年開始到現在，先後在InterVideo、ST意法半導體從事音視頻軟硬體方面的開發，2010年加入騰訊，組建QQ語音團隊，做互聯網音視頻。5年時間裡，我們逐漸發現互聯網有很多應用都需要用到音視頻。2015年和林友堯（即構科技創始人&CEO，QQ前總經理）等人出來創業，思考怎麼把這些年在音視頻領域積累的經驗轉化為平臺，服務更多的應用，到現在，我們創立即構已經3年多。

即構主要為企業提供互聯網+音視頻整體解決方案，覆蓋音視頻的產生、接入、存儲、分發、回放等方面，幫助各個行業快速接入和應用音視頻，讓客戶更專註在自己的領域發展。這些年的工作體會主要有三點：第一，音視頻是需要長期積累的技術，數字音視頻技術可以追溯到模擬信號彩色電視時代，複合視頻信號本身在時間、幀、場方面已經離散化處理了，裡面還涉及顏色空間轉換、色差信號壓縮以及各種複雜的同步。第二，音視頻技術涉及的範圍很廣，比如雙工通訊的回聲消除是屬於演算法方面的，性能優化ARM-NEON/SSE等屬於CPU結構方面，音頻播放線程緩衝屬於OS方面的，帶寬預測/FEC/ARQ屬於網路傳輸方面，還有高包量低延遲服務、GPU等。第三，音視頻技術應用場景非常豐富，我自己經歷過的就有DVD（數字視頻光碟）、DVB（數字視頻廣播）、VOD（視頻點播系統）、LIVE（直播）、Communication（通話）等應用場景。

LiveVideoStack：在音視頻領域從業近20年，能否從你的角度給我們分享一下近20年來音視頻（技術）領域的發展歷程？金健忠：我認為整個音視頻行業大致圍繞以下3條線索在發展演進：線索1：數字化進程和協議分層

首先我理解音視頻發展是一個數字化和協議分層的一個過程。大家知道一開始電影是一秒鐘拍24張照片，放出來看效果就是連續的，這是時間軸上的採樣。接下來模擬電視信號又在掃描線上採樣，然後再放入色差信號、音頻信號形成複合視頻信號。將複合視頻信號進行調製發送就完成音視頻傳輸，將複合視頻信號記錄到磁帶上就完成音視頻的存儲。這一階段整個音視頻需要作為一個整體考慮。這些技術發生在很久之前。

接下來發生的事情就是音視頻信號純數字化的過程，這個過程產生了VCD/DVD/藍光BD/數字電視DVB/ATSC等一系列存儲傳輸方式，技術上也把整個音視頻技術分為若干層，包括如MPEG編解碼codec、存儲冗餘編碼糾錯技術如Reed-Solomon、傳輸編碼、傳輸數字調製如QAM/COFDM、物理傳輸如Cable、存儲介質如DVD等等。這些技術都互相獨立和發展。

第三個重要的階段是通用硬體的介入以及互聯網化。通用硬體和互聯網的介入使得各個層次之間的分解更細緻。比如容器和編碼的分離，MPEG2 PS/TS可能還算是codec的一部分，到了MP4/mkv等容器就已經和codec沒有太多關係了。H.264提出NAL概念，明確建立codec和容器/協議的邊界。存儲可以有各種容器和介質，傳輸也可以有各種協議和物理介質。應用更是豐富多彩。以前一個視頻廣播業務需要地面廣播或者Cable或者衛星+接受機+電視一整套系統。現在無論是專用接收機、電腦，還是手機都可以完成視頻廣播的接收，基於IP的網路協議可以通過光纖或者衛星鏈路實時地傳送到各個邊緣節點，再通過Cable、Wifi、Cellular傳輸到終端。線索2：硬體和質量提升

第二條線索可以從硬體和質量上看。記得我剛上大學的時候，在電腦上看VCD還需要一個MPEG解碼卡的專用硬體。隨後不久，CPU等硬體能力持續增強，出現MMX等專門為多媒體設計的指令，這些讓軟解成為可能。但是好景不長，更高質量DVD的出現又讓老舊硬體性能捉襟見肘。接著又是更強的CPU，帶硬體加速的顯卡。這種硬體的升級和質量的需求互相促進形成閉環。模擬信號一個頻道可以傳輸一路標清視頻，MPEG2一條TS流可以傳輸五路標清或一路高清，升級H.264後高清也能傳五路了。以前手機只能窄帶語音，現在則需要全帶全雙工。音視頻開發需要不斷更新技術，適配新硬體，滿足新的需求。線索3：互動和場景豐富

場景豐富，尤其是互動的需求是不可忽略的一個趨勢。在IP化/互聯網化之前，早有DVD加入互動菜單，藍光BD引入BD-J可以跑Java程序進行互動，數字廣播DVB加入MHP ，使用一個撥號網路作為回傳通道。DVB-H則在COFDM+TS上加入DSM-CC把音視頻IP化。互聯網化之後，基於互聯網實時傳輸分發網路，可以方便的實現全雙工多方互動。

LiveVideoStack：經歷了眾多產品的音視頻架構底層開發，包括之前的QQ語音以及現在的即構科技。相比於過往的產品，你認為即構的音視頻架構有哪些變化與不同？金健忠：QQ語音架構是我在2010年加入騰訊後，針對騰訊互聯網+實時音視頻場景應用開發的。後續又經歷騰訊音視頻中心、騰訊互娛、騰訊雲等多個團隊的打磨，可以說性能已經非常出色。在即構，為豐富互聯網+音視頻應用場景，我們重新設計了一套音視頻架構，旨在希望以平臺的方式滿足各個行業對音視頻需求。在思路上，我們吸取了以往架構的經驗，比如我們同樣設計靈活的模塊結構，讓音視頻處理管道可以合理安排線程、buffer，保證整個管道實時、高效。同時，我們也針對更複雜的場景在技術上進行一些優化，比如：

音視頻引擎的整體設計
更好的音視頻同步設計
支持多協議以及多協議互通
支持時鐘注入，進一步優化數據驅動鏈路
優化元數據處理流程，媒體數據和元數據有強相關性，管道結構中需要維護這種相關性，包括有緩衝節點和無緩衝節點
更靈活的buffer機制，同時支持可引用和不可引用buffer，支持CVPixelBuffer/SurfaceTexture等傳遞方式
靈活的模塊間協商機制，靜態協商、事件觸發協商、動態協商。比如切換硬體codec的時候可以觸發事件協商改用SurfaceTexture
就近接入調度支持、最優線路調度支持、分發調度支持

LiveVideoStack：市面上很多實時音視頻方案是基於WebRTC，即構在最初技術選型時，為什麼沒有選用WebRTC，而選擇了走自研這條路？金健忠：即構提供完整的互聯網+音視頻平臺服務，包括內容產生、接入、分發、回放等環節，支持多端互通，包括WebRTC協議的Web端。Web端互通只是即構音視頻平臺服務中眾多特性中的一個。WebRTC開源框架沒有原生支持即構的眾多特性，相比從WebRTC框架開始修改打磨來說，自研可以從一開始就融入即構的設計原則，從架構、演算法、平臺支持、協議等方面最優化設計。

例如：

技術架構上，我們希望原生支持多路音視頻，支持AUX輸入環回或混音到遠端，支持低延遲耳返，原生支持多協議，支持外部採集、渲染、外部編碼、解碼音視頻外部濾鏡等。

演算法設計上，一開始就考慮到架構和場景，比如Jitter Buffer，幀率碼率控制，視頻分層編解碼等都會匹配多協議設計。帶寬預測，反饋能夠適應多跳選路（例如國際加速優化），分發到需求。3A設計採用全頻帶，適應多場景多平臺多需求。平臺支持上，能夠更好適應通用/嵌入平臺，如CVPixelBuffer，SurfaceTexture原生支持等。協議支持上，就近接入調度，支持多跳路由優化，支持分發，支持秒開特性。媒體層協議進行合理安排減少連接建立時間。

LiveVideoStack：隨著5G商用時間表的臨近，VR場景將會得到釋放，最可能帶來變革的就是音視頻領域。你覺得5G將會給音視頻行業帶來怎樣的機遇與挑戰？金健忠：VR/AR是交互方式革新，本身還有許多技術問題需要解決。為了營造沉浸式環境，需要給用戶提供極快速的響應。100Hz的刷新頻率、LCD（液晶顯示器）的一點點拖尾都會讓用戶覺得頭暈。高解析度、高刷新頻率需要的高帶寬讓頭戴設備很難擺脫物理聯線。精準的定位和不到10ms的響應時間也是需要突破的難點。我覺得整個VR/AR的革新主要還是在其本身，只有這些問題解決後才會引起音視頻的進一步變革。相比VR來說，5G商用已經有時間表。5G可能會帶來帶寬、延遲、密度方面的變化。這些提升主要來自毫米波段的使用，QAM256，100MHz頻道。一般認為5G可以帶來Gb/s級別的用戶帶寬，ms級別空口延遲。這個水平相當於使用網線連接千兆以太區域網。整個系統的瓶頸會轉移到如國內網路環境50ms RTT，國外直連 >200ms RTT，雲虛擬機負載，雲虛擬機單鏈接性能，存儲性能等其他方面。可以從伺服器接入調度，優化負載調度，單鏈接性能等方面優化整體性能。

LiveVideoStack：展望未來，你對音視頻領域有哪些期待？

金健忠：我認為有以下幾個方面，

變聲和聲音特效
更好的語音去背景雜訊。當前實用的降噪演算法主要集中在噪音學習和陣列降噪上。但是人耳人腦的能力遠超現在演算法能達到的水平，比如人在嘈雜環境下，也有很大可能「過濾掉」雜訊和其他人的語音集中理解某個人說話。
聲紋識別，說話人識別
語音分離，音樂分離。比如兩個人說話，能把一個人的語音完整分離出來。能夠從交響樂分離出大提琴的聲音。
語音識別音樂識別，哼唱識別。這個也很有意思，哼一哼就能找到對應歌曲。這個領域好像有一些接近實用的應用了。

其它還包括以下領域，都非常令人期待：