作者|宇伊

  出品|新芒X    公衆號|GOwithAI

  有這麼兩個案例還挺有意思,在面對的應用場景上,形成了強烈的反差,但在本質上都是AI在發揮效力。

  谷歌母公司Alphabet的DeepMind的研究人員最近在一篇學術論文中透露,他們開發了一種能夠以“近乎人類的表現”對CT掃描進行分割的系統。

  另一邊,德國波茨坦大學的科學家開發了另一種系統:AI分割工具,用於處理稍微卡通的媒體:漫畫。

  前一種谷歌的研究成果我們也習以爲常了,AI在醫療領域的應用,而後者則頗爲新穎。我們也將重點放在這個有意思的案例上,和大家分享,以下Enjoy:

  這位科學家在Arxiv.org上發表的一篇論文: 基於CNN的深度氣泡文字檢測和漫畫分割 ,他們描述了一種可以用於檢測和分離的神經網絡(即模擬生物神經元的數學函數層)。

  漫畫書中的泡泡,在涉及包含帶有“搖擺尾巴”和“彎曲角落”的氣泡的數據集的測試期間,它獲得了0.94的F1分數(測試精度的度量),研究人員聲稱這是最先進的。

  也很好理解,對於漫畫中的氣泡文字通常由載體,也就是用於體現文本的符號和將載體連接到其根文字符的尾部組成,文本從中出現。

  尾巴和載體都有各種形狀,輪廓和晃動程度各不相同,這個系統將氣泡文字分類爲不同的類別,因爲它們具有不同的功能:與通常用於敘述目的的字幕相比,氣泡通常包含漫畫中的直接言語或人物思想。

  圖注:研究人員的AI模型設法提取的語音泡沫

  該團隊開發了一個完全卷積的神經網絡, 一種常用於分析視覺圖像的AI , 最初用於醫學圖像分割,並經過訓練用於“自然圖像”的分類。他們略微修改了它,並從90本漫畫書中提取了750個帶註釋的頁面在圖形敘事語料庫中,一個用英語寫成的圖畫小說,回憶錄和非小說類的數字圖書館。

  隨着時間的推移,它學會了對漫畫中的每個像素是否屬於氣泡文字進行分類。

  爲了驗證他們的方法,研究人員在他們從圖形敘事語料庫中提取的750張圖像的子集(15%)中測試了訓練有素的人工智能系統。令人印象深刻的是,它成功地接近了虛幻的輪廓,不是由物理線條勾勒出的氣泡文字的邊界,而是定義面板之間空間線條的延續。

  研究人員認爲,他們的AI氣泡文字檢測系統可用於創建帶註釋的漫畫書的語料庫,或者作爲歷史手稿,科學文章,圖表和報紙文章的一般分割任務的第一步。

  他們說,有一天它可能有助於爲視力不佳的人開發輔助技術。

  這並不是說它是完美的,日本漫畫中的氣泡文字表現不佳,研究人員稱這可能是拉丁字母編碼的“文化特定”特徵和訓練數據集中文本行語音氣球的水平方向的結果。

  但是已經開始有更多漫畫樣本的更新模型,以及擴展到細分字幕,角色和其他元素的模型。

  值得注意的是,這個識別過程需要人工輔助驗證,但考慮到現在的水平,模型的性能至少接近人類表現,在能夠解決幾個繁瑣的註釋任務的同事,更能釋放人力資源。

  Reference:

  VentureBeat:

  AI extracts speech bubbles from comic strips

  https://venturebeat.com/2019/02/22/ai-extracts-speech-bubbles-from-comic-strips/

相關文章