連漫畫都被AI盯上了！用分割工具從氣泡中提取文本，還釋放了人力

　　作者｜宇伊

　　出品｜新芒X　　　　公衆號｜GOwithAI

　　有這麼兩個案例還挺有意思，在面對的應用場景上，形成了強烈的反差，但在本質上都是AI在發揮效力。

　　谷歌母公司Alphabet的DeepMind的研究人員最近在一篇學術論文中透露，他們開發了一種能夠以“近乎人類的表現”對CT掃描進行分割的系統。

　　另一邊，德國波茨坦大學的科學家開發了另一種系統：AI分割工具，用於處理稍微卡通的媒體：漫畫。

　　前一種谷歌的研究成果我們也習以爲常了，AI在醫療領域的應用，而後者則頗爲新穎。我們也將重點放在這個有意思的案例上，和大家分享，以下Enjoy：

　　這位科學家在Arxiv.org上發表的一篇論文：基於CNN的深度氣泡文字檢測和漫畫分割，他們描述了一種可以用於檢測和分離的神經網絡（即模擬生物神經元的數學函數層）。

　　漫畫書中的泡泡，在涉及包含帶有“搖擺尾巴”和“彎曲角落”的氣泡的數據集的測試期間，它獲得了0.94的F1分數（測試精度的度量），研究人員聲稱這是最先進的。

　　也很好理解，對於漫畫中的氣泡文字通常由載體，也就是用於體現文本的符號和將載體連接到其根文字符的尾部組成，文本從中出現。

　　尾巴和載體都有各種形狀，輪廓和晃動程度各不相同，這個系統將氣泡文字分類爲不同的類別，因爲它們具有不同的功能：與通常用於敘述目的的字幕相比，氣泡通常包含漫畫中的直接言語或人物思想。

　　圖注：研究人員的AI模型設法提取的語音泡沫

　　該團隊開發了一個完全卷積的神經網絡，一種常用於分析視覺圖像的AI ，最初用於醫學圖像分割，並經過訓練用於“自然圖像”的分類。他們略微修改了它，並從90本漫畫書中提取了750個帶註釋的頁面在圖形敘事語料庫中，一個用英語寫成的圖畫小說，回憶錄和非小說類的數字圖書館。

　　隨着時間的推移，它學會了對漫畫中的每個像素是否屬於氣泡文字進行分類。

　　爲了驗證他們的方法，研究人員在他們從圖形敘事語料庫中提取的750張圖像的子集（15％）中測試了訓練有素的人工智能系統。令人印象深刻的是，它成功地接近了虛幻的輪廓，不是由物理線條勾勒出的氣泡文字的邊界，而是定義面板之間空間線條的延續。

　　研究人員認爲，他們的AI氣泡文字檢測系統可用於創建帶註釋的漫畫書的語料庫，或者作爲歷史手稿，科學文章，圖表和報紙文章的一般分割任務的第一步。

　　他們說，有一天它可能有助於爲視力不佳的人開發輔助技術。

　　這並不是說它是完美的，日本漫畫中的氣泡文字表現不佳，研究人員稱這可能是拉丁字母編碼的“文化特定”特徵和訓練數據集中文本行語音氣球的水平方向的結果。

　　但是已經開始有更多漫畫樣本的更新模型，以及擴展到細分字幕，角色和其他元素的模型。

　　值得注意的是，這個識別過程需要人工輔助驗證，但考慮到現在的水平，模型的性能至少接近人類表現，在能夠解決幾個繁瑣的註釋任務的同事，更能釋放人力資源。

　　Reference：

　　VentureBeat：

　　AI extracts speech bubbles from comic strips

　　https://venturebeat.com/2019/02/22/ai-extracts-speech-bubbles-from-comic-strips/

連漫畫都被AI盯上了！用分割工具從氣泡中提取文本，還釋放了人力

熱門新聞

週熱門

連漫畫都被AI盯上了！用分割工具從氣泡中提取文本，還釋放了人力

什麼時候才能出一個比愛因斯坦更厲害的天才解救全人類？

人工智能發展的越來越好，許多人沒有了工作，未來人們怎麼消費，資本家怎麼去賺錢?

投資AI牴觸信仰？ 英聖公會展開研究

IG用AI系統識別冒犯內容 遇關鍵字即警告遭批過度敏感

「新興工作」排行榜 人工智能專家最搶手

惡補閱讀理解奏效 AI考日本大學入學試英文科達標

AI黑客整合資料 度身定造釣魚電郵

谷歌行政總裁年酬金近22億港元

阿里有份投資Magic Leap重組 裁員千人

美國批准谷歌使用連接美臺海底光纖但不包括香港部分

任正非：華為沒有谷歌仍能成全球第一

聽王陸語料庫第一遍正確率只有百分之三十多，怎麼辦？

做雅思王陸語料庫第一遍看我別人都對50%、30%，我基本就沒幾個聽到的，還要繼續聽嗎？

王陸的語料庫真的很有用嗎？

如何理解用大數據計算研究語言學的方法？

熱門新聞

週熱門

投資AI牴觸信仰？英聖公會展開研究

IG用AI系統識別冒犯內容遇關鍵字即警告遭批過度敏感

「新興工作」排行榜人工智能專家最搶手

AI黑客整合資料度身定造釣魚電郵

阿里有份投資Magic Leap重組裁員千人