AI分身技術的落地應用,遠比人們想象中發展的要更快。

2018年11月,烏鎮世界互聯網大會上,以新華社CNC主持人邱浩爲原型的AI合成主播首次亮相,引發公衆極爲熱烈討論。

到了今年2月19日,全球首個AI合成女主播“新小萌”推出時,不僅能坐着播報新聞,還能站起來,帶着手勢、姿態等多種肢體動作,讓主播的表達方式更加多元化。

接下來,在線教育AI公開課老師、客服、教育以及一些娛樂等等方向,都將是AI分身技術的下一步落地應用方向。

1/24小時工作,且不擔心出錯

截止目前,入職新華社的AI合成主播,已生產幾千條新聞報道。參與包括第五屆世界互聯網大會、首屆進博會、2019春運、春節、兩會等若干重要事件的報道。

在不少媒體看來,一個國家級主流媒體大量運用AI合成主播,這項舉動本身具有強烈的象徵性意義。包括“今日俄羅斯”電視臺網站、英國Daily Mail、美國Futurism等多家海外媒體,對此進行了大幅報道,並稱“近年來,中國已成爲全球領先的人工智能發展中心之一”。

其實,相比烏鎮互聯網的第一次亮相,AI合成主播技術已經快速升級——讀起新聞聲情並茂的新小萌,就進一步採用了“搜狗分身”最新的wavernn波形建模技術,可以實現逼真的語音合成效果,讓AI聲音更具有真實情感和表現力。

“我們提供的系統,新華社只要每天在想要播報的新聞,過幾秒鐘生成一個完整的視頻,中文、英文不同類型的新聞視頻就可以馬上出來。”作爲新華社AI主播背後的技術負責人,搜狗語音交互技術中心高級總監陳偉,對此感慨頗多。

陳偉透露,通常而言,AI分身技術需要幾步,第一步通過使用人臉關鍵點檢測、人臉特徵提取、人臉重構、脣語識別、情感遷移等多項前沿技術,第二步是結合語音、圖像等多模態信息進行聯合建模訓練後,最後生成與真人無異的AI分身模型。

搜狗分身技術的魅力在於,讓機器能夠逼真地模擬人類說話時的聲音、嘴脣動作和表情,並且將三者自然匹配,與真人幾乎一致。

在陳偉看來,使用AI主播最大的意義在於解決了新聞播報領域的效率問題,在建模完成後,編輯人員僅需要輸入文字資料,即可讓AI形象按照文字播報。無需進行二次視頻編輯,AI主播將自動識別語義並配上對應音調及表情。

“播報一個新聞一般會有場地、時間、主播本身精力的限制,每天的產出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必擔心有錯誤出現。

2/以“語言”爲核心展開佈局

在看似用戶只用輸入文本即可創造AI分身背後,背後難點攻破並不輕鬆,比如逼真度。

“逼真度”是團隊衡量AI分身技術的一個重要指標——根據陳偉的說法,所謂逼真度,就是大家看到的表情、脣語、動作、聲音,最基本的需求是保證表情、聲音和真人完全同步。

“早期是通過人工來評價的,逼真與否也是內部產品、算法的同事掃一眼,比較主觀。現在搜狗在做一些指標, 通過大量的假設錄製視頻切一小部分做一個測試集,與真人的相關視頻做對比。壓縮在一個相同的時間維度下面來看,逐幀對比,整個表情、嘴型、姿態上面的差異度有多大。”陳偉表示。

“實際上我們每前進一步都很難,比如讓AI主播動起來、擺頭,這一動作都比單純的正面播報要困難得多。要想做到電影裏展示那樣與真人無異,至少還需要5-10年。”陳偉表示,拿AI主播來說,其功能還停留在播報階段,更多交互功能有待於進一步開發。

陳偉也透露,未來,團隊將會更關注眼神、挑眉等微表情的自然表達。在圖像上面要考慮2D+3D混合的技術,在語音基礎上面有更多NLP的能力進來,讓AI分身的認知能力加強。

事實上,AI分身背後,伴隨的是搜狗AI多年的研究發展腳步——根據記者瞭解,早在2012年搜狗圍繞感知層面的交互,開始了語音識別相關研究。

過去幾年來,人工智能就此成爲搜狗產品的賦能原力,搜狗以“語言”爲核心展開佈局,縱向向技術天花板不斷突破,提升機器翻譯技術的準確率和智能服務的深度。與此同時,加大橫向的產業佈局,拓展更爲廣闊的應用場景,在搜索、社交、旅遊、醫療、法律、翻譯等領域,推動人工智能的產業化落地。

2016年世界互聯網大會上,搜狗展示了同聲傳譯,那時候搜狗還沒有上市,但專注於完善語言處理技能已經成爲其未來戰略之一。2017年世界互聯網大會上,搜狗掌門人王小川對外界表態:“現在很多人認爲,語音搜索已經足夠方便了,但這還不夠智能。”

1年後的2018年7月,王小川在香港公佈了“搜狗分身”技術——在現場,王小川展示了一段結合脣語合成、語音合成、音視頻聯合建模與深度學習技術,可驅動機器生成對應的脣語圖像與聲音,進而輸出統一的音視頻素材。

彼時業界很少有人會預料到,如此高逼真的AI合成主播,會如此快與大衆見面,甚至影響衝擊了整個新聞媒體的生產方式。

3/AI語音應用場景考量

客觀而言,目前AI分身的真實度並未達到令人恐慌的階段。此外,新華社的AI主播目前主要在單個頻道運營,如果想要普及到更大規模的媒體頻道,高併發要求將對雲端調度提出一定挑戰。

陳偉表示,目前搜狗提出兩套方案,一套提供公有云服務;另外也支持部署在企業本地的私有云服務器上。“我們的服務在資源佔用和實時性上都能滿足要求。”

不過,新小萌等AI合成主播的出現,絕非只是播報新聞稿而已。這位美女虛擬主播背後被寄予厚望,搜狗希望在未來將AI語音合成這項技術個性化,爲AI語音賦予各種形象和場景。

在陳偉的預想中,在“分身”技術的支持下,視頻製作成本將會大大降低,最終惠及用戶。首要的就是與搜狗現有產品線打通。像在輸入法搜索,包括搜狗AI硬件上面“分身”技術將如何落地,都正在探討中。

比如在AI老師上,已經有項目正在進行中。“像公開課這種老師單向輸出的形態,特別適合做AI分身。老師只需要準備教案和文稿,通過這種方式形成各種教學視頻,後期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學效果要好得多。”

此外,法律,醫療,娛樂等領域,也是搜狗AI分身未來發力的方向。而在技術使用的規範問題上,陳偉如此表示:“搜狗選擇和明確的公司、在明確的領域合作,儘量通過場景圈定技術的使用範圍,這樣的好處就是不會把技術濫用。”

這一切,將建立在搜狗如何將人工智能發展戰略,延伸到更廣闊的應用場景考量上。

對此,王小川曾說:“在AI領域,搜狗在技術和應用層面均取得豐厚成果,奠定了在語音、計算機視覺、機器翻譯和問答等多個賽道上的領先地位。展望2019,我們會將AI技術與業務深度融合,持續提升核心競爭力。”

儘管對於所有人工智能公司而言,在大環境變化如此快的當下,想把AI的故事講得更好,這都並不容易。

王小川對此已有了自己的判斷——那就是以搜狗擅長的語言爲核心。今年 2 月,在發佈完 2018 年 Q4 財報後,王小川在公司的內部信中寫道:日後將強化以語言爲核心的 AI 技術的積累和探索,保持搜狗技術領先性的核心優勢。

這一點上,王小川的看法從未變過,在他看來,“語言”是AI的未來,“掌握一種語言就是掌握了一種靈魂”,而語言則是人工智能皇冠上的明珠。無論是百箱大戰中Amazon Echo、Google Home等多款圍繞着語音交互打造的智能音箱,還是會打電話的Google Duplex、會辯論的IBM Projector Debater,都聚焦於讓機器擁有“語言”這顆明珠。

因此,誰敢妄下斷言,AI分身合成主播,將在教育、法律、娛樂等更多領域,會帶來多大的衝擊浪花?

相關文章