場景文本識別由於其挑戰和廣泛的應用,在計算機視覺和人工智慧社區中引起了極大的關注。最先進的基於遞歸神經網路(RNN)的模型將輸入序列映射到可變長度輸出序列,但通常以黑盒方式應用,缺乏透明度以進一步改進,並保持整個過去隱藏狀態阻止序列中的並行計算。本文研究了文本識別的內在特徵,並在閱讀文本中受人類認知機制的啟發,提出了一種基於滑動卷積關注網路(SCAN)的場景文本識別方法。與閱讀過程中的眼球運動類似,SCAN的過程可視為眼跳和視覺注視之間的交替。與之前的循環模型相比,SCAN的所有元素的計算可以在訓練期間完全並行化。幾個具有挑戰性的基準測試的實驗結果,包括IIIT5k,SVT和ICDAR 2003/2013數據集,證明了SCAN在模型可解釋性和性能方面優於最先進的方法。

圖 1. SCAN的框架。 它由三部分組成:滑動窗口層,卷積特徵提取器和卷積序列到序列的學習網路

Wu, Y. C., Yin, F., Zhang, X. Y., Liu, L., & Liu, C. L. (2018). SCAN: Sliding Convolutional Attention Network for Scene Text Recognition.arXiv preprint arXiv:1806.00578.

推薦閱讀:

相关文章