如何看待搜狗聯合新華社發的全球首個3D AI合成主播？

5G時代，AI還會開啟哪些想像空間？

廢話少說，你們自己看看吧:-)

閃亮登場~

人工智慧長這樣，希望能出個男聲版的，給她找個搭檔。

突然能夠理解「沒有情感的工作機器」

這AI在哪。。就是個3D模型。。

手部殘疾，表情怪異。妖怪

這種建模~~最主要的是眼睛~~眼睛有神了~~臉僵一點兒也不會彆扭~~

主持人真的不適合替代，每個新聞主播有自己個性特色，特別是說話聲音，感覺人工智慧還是替代重複勞動，不能替代具有個性和特色的崗位

認知正在被顛覆

AI?，這語氣，這外形

現在的遊戲是啥樣的，這好意思吹…

16年的古墓麗影勞拉都比這像人

剛好最近也跟搜狗的朋友聊了這個話題，講真這個3D AI合成主播是一個不錯的成果，我的第一個感受是真的好逼真：

大家可以去找視頻看看，無論是五官、表情、肢體動作，已經非常生動自然了。你看這五官多麼自然，這表情神態多麼生動形象，包括肢體動作太逼真了相信用不了多久，當你看視頻時，可能再也分不清你面前的是真人還是虛擬人。

先科普一下3D AI合成主播的打造歷程：

搜狗先是找來了新華社一位記者做真人原型，通過幾百個攝像頭，在她身體各個部位進行全方位打點掃描，採集每一處細節。畢竟數據是模型的靈魂，數據越精細，標註越精準，細節就越好，逼真度就越高。

接著就是3D建模了，需要通過掃描還原演算法，對面部肌肉、表情、肢體動作進行捕捉與綁定，還需要通過演算法對3D模型進行實時渲染，讓面部表情、肢體動作和語言表達達到一個比較高的契合度。

為了動作更加自然逼真，他們在3D建模時，採用了肌肉模型，而不是骨骼動畫或Blendshape 。想像一下當你在運動過程中，每一個動作都是由一系列肌肉運動產生，肌肉之間會有很多協同工作，讓機器去學習肌肉的運動規律，可以讓動作、表情更加自然。

更重要的是，跟遊戲、影視中的3D卡通人物或數字人不同，它是完全由人工智慧驅動的，而非人工。傳統遊戲影視中的3D人物，往往需要預先找來演員，讓他先表演一遍，然後對他的動作進行掃描、捕捉，進行真人與卡通人物綁定，還需要採集他們的聲音等等，然後美術師再一幀一幀勾畫出來，這個過程非常耗時耗力，一部動漫電影往往要製作好幾年。

但3D AI主播可不一樣，模型訓練好以後，直接丟一個文本進去，就能輸出一個視頻，這個過程往往以分鐘計。

可以想像，對於3D設計、影視、遊戲以及傳媒行業，無論是用虛擬主播替代真人主播，還是減少3D設計的時間成本、勞動成本，3D AI合成主播未來都大有潛力。

但這個潛力倒不是說完全替代人，而是成為一種工具，人機協作，去更高效的工作。比如一個一分鐘的轉場動畫，一個美術師可能要製作1~2天，有了AI驅動之後，能不能半天或者數小時搞定，AI做基礎生成、渲染，然後美術師去做個性化設計，這樣生產效率相信會有質的提升。

首先從觀感和效果層面來說，AI合成主播的播音流暢性還是非常有保障的，沒有出現卡殼之類的局面。但從面部表情來看，與真人還是有非常明顯的區別的，表情比較僵硬，也非常固定化，比如眨眼睛、臉部肌肉的運動等能夠看出來有固定的規律，比較不自然。

對於一部分媒體來說，AI合成主播的吸引力還是比較強的，不過對於省台或者CCTV這樣的電視台來說，還是真人播音員更有感情，能夠更好的傳達信息。

其實3D AI合成主播之前已經有了，後面就是如何去精進的問題。而從5G和AI延伸到其他領域，有許多是和我們生活息息相關的。

比如簡單的翻譯、無人超市、機器人服務員等等。鎂客君之前採訪的一家公司做得就是智能的耳機，這個耳機是這樣用的，假設你和一個德國人需要交流，但你不懂德語，就可以他用一個耳機你用一個耳機去同步翻譯，然後交流。

無人超市不用講，現在國內不少公司已經在嘗試了，另外還有比較有趣的就是機器人服務員，可以幫酒店、餐廳送菜、消毒等，比較方便和有趣。

另外在智能家居、汽車這塊，AI和5G的到來，會促使將來大部分家裝修的傢具都會變成智能化的，且一體的。比如回家之前可以先空調，用手機直接關燈、拉好窗帘等。汽車方面的輔助駕駛乃至無人駕駛等。

發佈於 2020-06-01繼續瀏覽內容