11月7日,第五屆世界互聯網大會在浙江烏鎮拉開帷幕。新華社一張前所未有的海報吸引了很多人的注意。

這次新華社的神祕人物,既不是什麼國際政要,也不是什麼企業名流,而TA——新華社和搜狗聯合開發的「AI合成主播」。第二天也即11月8日便是中國記者節,不知道過節的記者們看到來「搶飯碗」的AI主播,心裡會作何感想?

新華社:全球首個AI主播

「大家好,我是今天的新聞主播……」在博覽會1號展館的搜狗公司展位,與真人主播真假難辨的「AI虛擬主播」,正進行著當日新聞播報。

這是如何做到的?現場工作人員介紹,由一位真人主播面對鏡頭錄製播報1個小時的新聞,再通過「搜狗分身」技術,對真人主播的視頻和語音數據進行特徵提取,再通過語音合成、脣形合成以及深度學習等技術,「AI虛擬主播」便具備了和真人主播一樣的播報能力。在此基礎上,只需要提供文字,「AI虛擬主播」就能準確無誤地像真人主播一樣播出新聞。

在建社87週年之際,新華社聯合搜狗發布的全球首個合成新聞主播——「AI合成主播」,運用最新人工智慧技術,「克隆」出與真人主播擁有同樣播報能力的「分身」。這不僅在全球AI合成領域實現了技術創新和突破,更是在新聞領域開創了實時音視頻與AI真人形象合成的先河。

此次「AI合成主播」亮相,可以讓網民感受到新華社「新員工」的業務能力,不僅中文「AI合成主播」實力「上崗」,同時還有以「聯接中外、溝通世界」為使命的英文「AI合成主播」。

從主播「真人」到「分身」,「AI合成主播」可謂是經歷了「九九八十一關」,有了多項人工智慧前沿技術的「加持」,才走到了今天。從發布的這一刻起,「AI合成主播」正式成為新華社報道隊伍中一員,TA將同其他主播一起,為我們帶來權威、及時、準確的中英文新聞資訊。

與「真人」主播不同的是,「AI合成主播」竟然開了「外掛」!「真人」主播一天工作8小時,但「分身」能夠不知疲倦地工作24小時!只要小編們將文本輸入系統,TA們就能隨時工作,並且一直工作下去……

無論是在日常報道中提升電視新聞的製作效率,降低製作成本,還是在突發報道中快速生成新聞視頻,提高報道時效和質量,「AI合成主播」在不同的新聞場景運用中都擁有著不可限量的未來。

據介紹,「搜狗分身」技術可以讓機器以更逼真自然的形象呈現在用戶面前,而不是冷冰冰的「機器人」。該技術能通過人臉關鍵點檢測、人臉特徵提取、人臉重構、脣語識別、情感遷移等多項前沿技術,並結合語音、圖像等多模態信息進行聯合建模訓練後,生成與真人無異的AI分身模型。「搜狗分身」技術是搜狗人工智慧的核心技術之一,誕生於搜狗「自然交互+知識計算」這一人工智慧理念之下。

搜狗公司CEO王小川表示,AI合成主播的誕生,將為媒體生產端帶來無限想像空間,是智能時代大幅提升新聞生產、傳播效率、新聞價值的有效手段。

據搜狗方面介紹,未來「搜狗分身」技術將在娛樂、醫療、健康、教育、法律等多個領域提供個性化的內容,顯著提高社會生產和服務效率。

日本:Kizuna AI到Yomiko

雖然標榜全球首個合成新聞主播,但我們也要看到,去年十一月日本一個被玩家愛稱為「人工智障愛醬」的虛擬主播便在Youtube上開始流傳開來。這個名叫「Kizuna AI」的3D萌妹是個神經粗線條,偶爾又有些腹黑的人物。在視頻鏡頭裡,她時而惡意賣萌地說一些不著邊際的話,時而顏藝豐富地自我吐槽,一下子就吸引了眾多宅男的目光。

在這之後,日本放送協會(NHK)宣佈將從今年4月開始在節目中使用人工智慧(AI)主播Yomiko。通過CG技術製作的「主播」將在工作日晚間11時10分播出的「NEWS CHECK 11」節目中登場,每週播報一次約5分鐘的新聞。「新聞主播Yomiko」將模擬真人主播的聲音播報記者寫成的新聞稿件。  

技術人員事先請NHK旗下的主播閱讀大量新聞稿件並錄音,然後將這些語音數據分解為10萬個音素。此外,還讓Yomiko事先記住日本全國的地名、專有名詞、口音等。  

回到Kizuna AI身上,我們把片假名翻譯成漢字,Kizuna的名字叫做「絆愛」,叫她作小愛似乎是為了暗合AI這個新的技術潮流。小愛在影片中對自己「人工智慧」的身份有十足的認知。而她背後的運營團隊甚至還組織過一次人工智慧之間的對話,讓小愛和蘋果旗下的Siri對話。結果似乎是小愛完勝,把只會死板應答的Siri打得體無完膚。(和SIRI的會話,大家可以去youtube或B站觀看)

技術:在變革中演進

小愛超人一等的表現讓粉絲們不禁猜測,這個虛擬人物背後的支持引擎究竟是怎樣強勢的人工智慧?有人甚至猜測,她背後的支持軟體是日本文部科學省祕密研製的強人工智慧,用虛擬偶像的面目出現在大眾面前只是為了偽裝和調試她的性能。這個推測顯然是受到了去年10月份日本人工智慧演員Rinna的啟發。日本微軟出品的這一款女演員機器人就是為了提高人工智慧在各種情況下的表現能力。畢竟體驗各種人生的最佳職業,莫過於演員了。

但熟悉現在人工智慧技術發展潮流的人都會意識到,說小愛這個虛擬偶像是強人工智慧顯然還並不合適。以現在的技術進展來看,要像她這樣能夠對遊戲畫面也做出實時的正確反饋幾乎是不可能的。用人工合成的說話聲音,也沒有辦法達到像她一般流暢自然的水平。你只消看看別家合成出來的唱歌聲音是多不自然就會對這個判斷持支持的態度。

與其說是人工智慧做出的實時反饋,倒不如說小愛其實背後有一個真實的演員在藉助她的面具做表演。沒錯,把一個真人通過動態捕捉技術、人臉識別和人物建模技術結合起來,變成一個可愛的虛擬人物,在今天的技術條件下並不是什麼天方夜譚。

首先是動作捕捉技術。這種技術最早被用於上個世紀的物理研究,專門用來分析物體的移動特性。後來,檢測人體關節移動的設備被應用到了體育訓練當中。隨著體育界大量應用動作捕捉技術,影視動畫和遊戲行業也加入了這個行列。在探訪大片製作現場的時候,如果你看到有人穿著一件鑲嵌著無數白點的黑衣服在做奇怪的動作,就一定是在給動態捕捉拍攝底板。通過把人體關節動作在計算機中重新解析和配上肌肉,動畫人物就能做出和演員一模一樣的動作了。今年Adobe大會上動作摳圖的展示也正是這個原理。

儘管動態捕捉技術相當省事,但它也有自己的破綻。最經常會出現的兩個問題是翻關節和穿模。所謂翻關節就是在人物的運動中,關節處出現了有悖常理的翻著,比如俗語所說的「胳膊肘往外拐」。出現這種問題很有可能是計算機在識別關節位點時出現了誤讀,把不是關節的點認作關節了。而穿模問題的發生則和演員與動畫人物的身材拉伸失調有關係。如果讓一個瘦演員演胖人物,那動畫胖子的手就會常年穿透自己的肚子出現在奇怪的地方。

小愛身上就經常發生這兩個問題,關節反轉不說,有時候還會在手放在胸口時穿透胸部,伸到裡面去。其實這兩個問題都是可以通過人工調試消除的,否則動態捕捉的真實性就沒有價值了。可惜小愛在Youtube上的視頻需要做到每日一更,主創人員對有的失誤就只能聽之任之了。

面部捕捉技術其實也並不令我們陌生。無論是習慣看國外直播平臺還是國內直播平臺的觀眾,都會在2015年開始發現有些房間的主播界面是一隻可愛的動物。或貓或狗或浣熊的動物腦袋伴隨著主播節奏在搖頭晃腦、做出奇特的表情。完成這一創舉的是一款叫做Facerig的應用,經常看遊戲直播的讀者想必都聽說過這個名號。

應用於電影製作的人臉識別技術並不是什麼新鮮事物,早在《阿凡達》和《猩球崛起》的時代,好萊塢就已經擁有成熟的人臉識別套路了。人臉識別其實和動作捕捉在原理上沒有太多的區別,只是人臉肌肉的移動精密度更高,更難以捕捉細節而已。

十年前的人臉識別仍然需要在演員臉上貼上反光紙或者點上熒光染料,無論如何總還是會有點影響表演。而且當時的人臉識別需要很複雜的標定流程,只要一臺攝像機的位置稍有變化,整個現場就需要全部重新標定。

隨著對人臉識別的演算法進步,這個問題至少在短距離上已經解決了。軟體通過攝像頭捕捉到的面部表情被簡化成80多個位點,在卡通人物的臉上移動相應的位點就能模擬出人做的表情。當然這樣的模擬不可能做到十全十美,有時候多少還是會有點變形。但只要神似,人們在快樂之間也就不會去深究什麼了。虛擬偶像小愛在打遊戲受到驚嚇、感到驚喜時的豐富表情經常有一定的時滯,幾乎已經可以確定是類似技術的產物了。

人物建模就更不是什麼難題,事實上這往往是現實人物構建虛擬人物的第一步。小愛讓人覺得可愛本就是題中應有之義。有了這樣的人物形象,即使小愛並非真正的人工智慧而只是一個把配音演員二次元化的動畫人物,又有什麼關係呢?

所以我們看到現在的新華社虛擬主播,其所應用的技術在很早之前就已經開始研究,只是在目前的情況下藉助技術和演算法的突破,採用真實人臉模式,讓虛擬人物更加鮮活有生命,而不再只是一個語言和表情都很僵硬的機器存在。隨著人工智慧數據的積累、技術的發展,真的能讓支持節目的主播真假難辨也說不定。

未來已來,我們一起期待。

推薦閱讀:

相關文章