SCAN：用於場景文本識別的滑動卷積關注網路

場景文本識別由於其挑戰和廣泛的應用，在計算機視覺和人工智慧社區中引起了極大的關注。最先進的基於遞歸神經網路（RNN）的模型將輸入序列映射到可變長度輸出序列，但通常以黑盒方式應用，缺乏透明度以進一步改進，並保持整個過去隱藏狀態阻止序列中的並行計算。本文研究了文本識別的內在特徵，並在閱讀文本中受人類認知機制的啟發，提出了一種基於滑動卷積關注網路（SCAN）的場景文本識別方法。與閱讀過程中的眼球運動類似，SCAN的過程可視為眼跳和視覺注視之間的交替。與之前的循環模型相比，SCAN的所有元素的計算可以在訓練期間完全並行化。幾個具有挑戰性的基準測試的實驗結果，包括IIIT5k，SVT和ICDAR 2003/2013數據集，證明了SCAN在模型可解釋性和性能方面優於最先進的方法。