AI分身進化之旅：年內將提升交互能力

AI分身技術的落地應用，遠比人們想象中發展的要更快。

2018年11月，烏鎮世界互聯網大會上，以新華社CNC主持人邱浩爲原型的AI合成主播首次亮相，引發公衆極爲熱烈討論。

到了今年2月19日，全球首個AI合成女主播“新小萌”推出時，不僅能坐着播報新聞，還能站起來，帶着手勢、姿態等多種肢體動作，讓主播的表達方式更加多元化。

接下來，在線教育AI公開課老師、客服、教育以及一些娛樂等等方向，都將是AI分身技術的下一步落地應用方向。

1/24小時工作，且不擔心出錯

截止目前，入職新華社的AI合成主播，已生產幾千條新聞報道。參與包括第五屆世界互聯網大會、首屆進博會、2019春運、春節、兩會等若干重要事件的報道。

在不少媒體看來，一個國家級主流媒體大量運用AI合成主播，這項舉動本身具有強烈的象徵性意義。包括“今日俄羅斯”電視臺網站、英國Daily Mail、美國Futurism等多家海外媒體，對此進行了大幅報道,並稱“近年來,中國已成爲全球領先的人工智能發展中心之一”。

其實，相比烏鎮互聯網的第一次亮相，AI合成主播技術已經快速升級——讀起新聞聲情並茂的新小萌，就進一步採用了“搜狗分身”最新的wavernn波形建模技術,可以實現逼真的語音合成效果,讓AI聲音更具有真實情感和表現力。

“我們提供的系統，新華社只要每天在想要播報的新聞，過幾秒鐘生成一個完整的視頻，中文、英文不同類型的新聞視頻就可以馬上出來。”作爲新華社AI主播背後的技術負責人，搜狗語音交互技術中心高級總監陳偉，對此感慨頗多。

陳偉透露，通常而言，AI分身技術需要幾步，第一步通過使用人臉關鍵點檢測、人臉特徵提取、人臉重構、脣語識別、情感遷移等多項前沿技術，第二步是結合語音、圖像等多模態信息進行聯合建模訓練後，最後生成與真人無異的AI分身模型。

搜狗分身技術的魅力在於，讓機器能夠逼真地模擬人類說話時的聲音、嘴脣動作和表情，並且將三者自然匹配，與真人幾乎一致。

在陳偉看來，使用AI主播最大的意義在於解決了新聞播報領域的效率問題，在建模完成後，編輯人員僅需要輸入文字資料，即可讓AI形象按照文字播報。無需進行二次視頻編輯，AI主播將自動識別語義並配上對應音調及表情。

“播報一個新聞一般會有場地、時間、主播本身精力的限制，每天的產出很有限，資源本身又是受限。但AI主播不同，可以工作24h，也不必擔心有錯誤出現。

2/以“語言”爲核心展開佈局

在看似用戶只用輸入文本即可創造AI分身背後，背後難點攻破並不輕鬆，比如逼真度。

“逼真度”是團隊衡量AI分身技術的一個重要指標——根據陳偉的說法，所謂逼真度，就是大家看到的表情、脣語、動作、聲音，最基本的需求是保證表情、聲音和真人完全同步。

“早期是通過人工來評價的，逼真與否也是內部產品、算法的同事掃一眼，比較主觀。現在搜狗在做一些指標，通過大量的假設錄製視頻切一小部分做一個測試集，與真人的相關視頻做對比。壓縮在一個相同的時間維度下面來看，逐幀對比，整個表情、嘴型、姿態上面的差異度有多大。”陳偉表示。

“實際上我們每前進一步都很難，比如讓AI主播動起來、擺頭，這一動作都比單純的正面播報要困難得多。要想做到電影裏展示那樣與真人無異，至少還需要5-10年。”陳偉表示，拿AI主播來說，其功能還停留在播報階段，更多交互功能有待於進一步開發。

陳偉也透露，未來，團隊將會更關注眼神、挑眉等微表情的自然表達。在圖像上面要考慮2D+3D混合的技術，在語音基礎上面有更多NLP的能力進來，讓AI分身的認知能力加強。

事實上，AI分身背後，伴隨的是搜狗AI多年的研究發展腳步——根據記者瞭解，早在2012年搜狗圍繞感知層面的交互，開始了語音識別相關研究。

過去幾年來，人工智能就此成爲搜狗產品的賦能原力，搜狗以“語言”爲核心展開佈局，縱向向技術天花板不斷突破，提升機器翻譯技術的準確率和智能服務的深度。與此同時，加大橫向的產業佈局，拓展更爲廣闊的應用場景，在搜索、社交、旅遊、醫療、法律、翻譯等領域，推動人工智能的產業化落地。

2016年世界互聯網大會上，搜狗展示了同聲傳譯，那時候搜狗還沒有上市，但專注於完善語言處理技能已經成爲其未來戰略之一。2017年世界互聯網大會上，搜狗掌門人王小川對外界表態：“現在很多人認爲，語音搜索已經足夠方便了，但這還不夠智能。”

1年後的2018年7月，王小川在香港公佈了“搜狗分身”技術——在現場，王小川展示了一段結合脣語合成、語音合成、音視頻聯合建模與深度學習技術，可驅動機器生成對應的脣語圖像與聲音，進而輸出統一的音視頻素材。

彼時業界很少有人會預料到，如此高逼真的AI合成主播，會如此快與大衆見面，甚至影響衝擊了整個新聞媒體的生產方式。

3/AI語音應用場景考量

客觀而言，目前AI分身的真實度並未達到令人恐慌的階段。此外，新華社的AI主播目前主要在單個頻道運營，如果想要普及到更大規模的媒體頻道，高併發要求將對雲端調度提出一定挑戰。

陳偉表示，目前搜狗提出兩套方案，一套提供公有云服務；另外也支持部署在企業本地的私有云服務器上。“我們的服務在資源佔用和實時性上都能滿足要求。”

不過，新小萌等AI合成主播的出現，絕非只是播報新聞稿而已。這位美女虛擬主播背後被寄予厚望，搜狗希望在未來將AI語音合成這項技術個性化，爲AI語音賦予各種形象和場景。

在陳偉的預想中，在“分身”技術的支持下，視頻製作成本將會大大降低，最終惠及用戶。首要的就是與搜狗現有產品線打通。像在輸入法搜索，包括搜狗AI硬件上面“分身”技術將如何落地，都正在探討中。

比如在AI老師上，已經有項目正在進行中。“像公開課這種老師單向輸出的形態，特別適合做AI分身。老師只需要準備教案和文稿，通過這種方式形成各種教學視頻，後期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學效果要好得多。”

此外，法律，醫療，娛樂等領域，也是搜狗AI分身未來發力的方向。而在技術使用的規範問題上，陳偉如此表示：“搜狗選擇和明確的公司、在明確的領域合作，儘量通過場景圈定技術的使用範圍，這樣的好處就是不會把技術濫用。”

這一切，將建立在搜狗如何將人工智能發展戰略，延伸到更廣闊的應用場景考量上。

對此，王小川曾說：“在AI領域，搜狗在技術和應用層面均取得豐厚成果，奠定了在語音、計算機視覺、機器翻譯和問答等多個賽道上的領先地位。展望2019，我們會將AI技術與業務深度融合，持續提升核心競爭力。”

儘管對於所有人工智能公司而言，在大環境變化如此快的當下，想把AI的故事講得更好，這都並不容易。

王小川對此已有了自己的判斷——那就是以搜狗擅長的語言爲核心。今年 2 月，在發佈完 2018 年 Q4 財報後，王小川在公司的內部信中寫道：日後將強化以語言爲核心的 AI 技術的積累和探索，保持搜狗技術領先性的核心優勢。

這一點上，王小川的看法從未變過，在他看來，“語言”是AI的未來，“掌握一種語言就是掌握了一種靈魂”，而語言則是人工智能皇冠上的明珠。無論是百箱大戰中Amazon Echo、Google Home等多款圍繞着語音交互打造的智能音箱，還是會打電話的Google Duplex、會辯論的IBM Projector Debater，都聚焦於讓機器擁有“語言”這顆明珠。

因此，誰敢妄下斷言，AI分身合成主播，將在教育、法律、娛樂等更多領域，會帶來多大的衝擊浪花？

AI分身進化之旅：年內將提升交互能力

熱門新聞

週熱門

AI分身進化之旅：年內將提升交互能力

什麼時候才能出一個比愛因斯坦更厲害的天才解救全人類？

人工智能發展的越來越好，許多人沒有了工作，未來人們怎麼消費，資本家怎麼去賺錢?

投資AI牴觸信仰？ 英聖公會展開研究

IG用AI系統識別冒犯內容 遇關鍵字即警告遭批過度敏感

「新興工作」排行榜 人工智能專家最搶手

惡補閱讀理解奏效 AI考日本大學入學試英文科達標

AI黑客整合資料 度身定造釣魚電郵

FB將設獨立委員會 決定是否刪除貼文

從金融到人工智慧，搜狗王小川為何頻頻「遲到」？

搜狗號適合做攝影類自媒體嗎？有什麼建議嗎？

搜狗與新華社新媒體中心聯合發布全球首個站立式AI合成主播，你怎麼看？

搜狗在美上市，如何挑戰獨大搜索格局？

搜狗終於要上市了，下一個故事是人工智慧？

如何看搜狗發布脣語識別技術？

2019世界人工智慧大會有哪些亮點？

熱門新聞

週熱門

投資AI牴觸信仰？英聖公會展開研究

IG用AI系統識別冒犯內容遇關鍵字即警告遭批過度敏感

「新興工作」排行榜人工智能專家最搶手

AI黑客整合資料度身定造釣魚電郵

FB將設獨立委員會決定是否刪除貼文