全文
内容
- 总结场景文本识别的基本问题和研究现状
- 提出新的见解和想法
- 对公共资源进行全面审查
- 指出今后的工作方向
INTRODUCTION
分析了场景文本与扫描文本相比:
- 字体更不规则,更具多样性
- 噪声更多
- 摄影角度更复杂
对于场景识别领域:
- by form
- Handwritten Text
- Printed Text
- by script / language
- Latin Text
- Chinese Text
- …
- by generation
- Graphic Text
- Scene Text
BACKGROUND
对于一个 End-to-end system 端到端系统:
- 输入 Full Image
- 文本检测 Text Dection(分为基于回归 和 基于实例分割)
- 文本本地化 Text Localization(画框框:DNN)
- 文本验证 Text Verification(判断框框是文本还是非文本:先验知识、支持向量机 SVM、条件随机场 CRFs、CNN)
- 文本分割 Text Segmentation
- 文本行分割
- 字符分割(早期)
- 文本识别 Text Recognition(将文本实例图像转换为目标图像序列 早期:梯度描述符直方图、连接组件、笔画宽度变换,最近 deep learning encoder-decoder)
- 识别后处理:NLP
特殊问题:
- 字母识别 Script identification 预测给定文本的图像的字母
- 文本增强 Text enhancement 恢复退化的文本,提高文本分辨率,除去文本的扭曲、去除背景
- 文本跟踪 Text tracking 保持文本位置的完整性,在视频中相邻帧之间跟踪文本
- 自然语言处理 NLP
METHODOLOGIES
STR 两个类别:
- 基于分割的方法(将文本行视为一个整体)
- 无分割方法(需要准确检测单个字符,字符检测器 / 分割器的质量通常制约着识别性能,基于分割的识别器无法建模单个字符以外的上下文信息)
- CTC (Connectionist Temporal Classification)是一种避开输入与输出手动对齐的一种方式,是非常适合语音识别或者 OCR 这种应用的
- 注意力
无分割 STR 中,Image Preprocessing Stage 和 Sequence Modeling Stage 不是必须的
- Image Preprocessing Stage 图像预处理
- Background Removal 背景去除,使用 GAN [128]
- Text Image Super-Resolution 文字图像超分辨率 TextSR [198]
- Well-designed rectification networks 矫正图像
- STN 空间变换网络 [80]
- TPS 薄板样条插值(Thin Plate Spline) [202]
- Other networks
- Feature Extraction Stage 特征提取阶段(将输入文本图像映射到反映字符识别相关的属性表示,同时抑制不相关的特征)
- CNNs: VGGNet
- Complex CNN: ResNet, DenseNet
- Other networks
- Recursive CNN
- Gated recurrent concolution
- Binary convolution
- CNNs with attention mechanism
- Sequence Modeling Stage 序列建模 捕捉字符序列内的上下文信息,以便下一阶段预测每个字符
- RNN
- CNN
- Transformer
- Prediction Stage
- CTC [57]
- 计算成本很大,存在峰值分布,难以应用二维应用问题(不规则场景文本识别)
- 注意力机制 [6]
- 需要更多的存储和计算、文本序列太长不好训练、只集中少数字符类别类别语言、中文不一定好使
- 聚合交叉熵函数 [208]
- CTC [57]
-
Liao 等人[129]及其扩展工作[98]使用 RoIAlign[65]来保存更准确的位置信息,检索每个字符作为通用对象,并使用字符级注释组成最终文本。
-
Feng 等[45]生成密集检测四边形,并使用所提出的 RoISlide 将从每个四边形裁剪的特征转换为整流特征。然后将所有文本特征输入基于 ctc 的识别器,使框架免于字符级注释。
-
Wang 等人[188]没有将文本检测分支制定为边界盒提取或实例分割任务,而是在边界上本地化了一组点,并采用 TPS[202]变换来平坦每个文本的特征。
-
Qiao 等[148]提出了形状变换模块,迭代生成潜在基点,利用 TPS 将检测到的文本区域转化为不需要额外参数的规则形态。
-
Liu 等[115]引入参数化 Bezier 曲线自适应拟合任意形状的文本,并设计了一种新的 BezierAlign 层来精确计算弯曲形状文本实例的卷积特征。
-
上述双线性插值方法的目的是将不规则形状的特征校正为轴向特征,用于文本识别器,其区别在于生成采样网格的方式。然而,Qin 等人[150]认为特征校正是泛化不规则形状文本的关键瓶颈。他们引入了 RoI 掩蔽来过滤掉相邻的文本和背景,这使得识别器不需要校正。
-
Xing 等[210]直接在完整特征上进行字符检测和识别,没有任何 RoI 操作
EVALUATIONS AND PROTOCOLS
数据集:
- Synthetic Datasets 合成数据集
- Synth90k
- 90k 个常见英语单词的 900 万个合成文本实例图像。文字通过随机转换和效果呈现在自然图像上,例如随机字体、颜色、模糊和噪声。
- SynthText
- 80 万张图片和 600 万合成文本实例。与生成 Synth90k 数据集一样,文本示例使用随机选择的字体呈现,并根据局部表面方向进行转换。
- Verisimilar Synthesis
- 500 万合成文本实例图像。给定背景图像和源文本,首先确定语义图和显著图,然后结合它们来识别语义上合理和合适的文本嵌入位置。
- UnrealText
- 600K 合成图像和 1200 万剪裁文本实例。它是基于 虚幻引擎 4 和 UnrealCV 插件开发
- Synth90k
-
Realistic Datasets 真实数据集
-
Regular Latin Datasets 常规拉丁数据集
-
IIIT5K-Words (IIIT5K)
-
5000 个文本实例图像:2000 个用于训练,3000 个用于测试
-
Street View Text (SVT)
- 350 张图像:100 张用于训练,250 张用于测试。一些图像被噪声、模糊和低分辨率严重损坏。
-
ICDAR 2003 (IC03)
- 509 张图像:258 张用于训练,251 张用于测试
-
ICDAR 2011 (IC11)
- 485 张图像
-
ICDAR 2013 (IC13)
- 561 张图像:420 张用于训练,141 张用于测试
-
Street View House Number (SVHN)
- 自然场景中超过 600,000 位的门牌号
-
-
弯曲拉丁数据集
- StreetViewText-Perspective (SVT-P)
- 包含 238 张图像和 639 个裁剪文本实例
- CUTE80 (CUTE)
- 包含 80 张高分辨率图像和 288 个裁剪文本实例
- ICDAR 2015 (IC15)
- 1500 张图像:1000 张用于训练,500 张用于测试。具体来说,它包含 2,077 个裁剪文本实例
- COCO-Text
- 包含 63,686 张图像和 145,859 个裁剪文本实例
- Total-Text
- 包含 1555 张图片和 11459 张裁剪文本实例图片。重点研究曲面场景文本识别。
- StreetViewText-Perspective (SVT-P)
-
- Multilingual Datasets 多语言数据集
- Reading Chinese Text in the Wild (RCTW-17)
- 12514 张图片:11514 张用于训练,1000 张用于测试
- Multi-Type Web Images (MTWI)
- 包含 20,000 张图像。这是第一个由中文和拉丁文网络文本构建的数据集
- Chinese Text in the Wild (CTW)
- 32,285 张高分辨率街景图像和 1,018,402 个字符实例
- SCUT-CTW1500
- 1500 张图像:1000 张用于训练,500 张用于测试。特别是,它提供了 10,751 个裁剪文本实例图像,包括 3,530 个弯曲文本
- Large-Scale Street View Text (LSVT)
- 包含 20,000 个测试样本,30,000 个完全注释的训练样本,以及 400,000 个带有弱注释的训练样本(即带有部分标签)
- Arbitrary-Shaped Text (ArT)
- 10,166 张图像:5,603 张用于训练,4,563 张用于测试
- Reading Chinese Text on Signboard (ReCTS-25k)
- 25,000 张图像:20,000 张用于训练,5,000 张用于测试
- Multi-lingual Text (MLT-2019)
- 2 万张图像:1 万张用于训练(每种语言 1000 张),1 万张用于测试。该数据集包括 10 种语言,代表 7 种不同的语言:阿拉伯语、孟加拉语、中文、德文、英语、法语、德语、意大利语、日语和韩语。每个语言的图像数量是相等的
- Reading Chinese Text in the Wild (RCTW-17)
评估协议:
-
拉丁字符
-
Recognition Protocols
-
End-to-End Protocols
- 在端到端识别下,对场景文本图像中的所有单词进行检测和识别。在单词检测下,只检测和识别词汇表中提供的单词。此外,还为候选转录提供了三个不同的词汇表:强上下文化、弱上下文化和通用(分别简称为S、W和G)
-
-
多语言
- Recognition Protocols
- 传统的评价指标-归一化编辑距离(NED):
- End-to-End Protocols
- 基于 NED 的 F-score
- 平均 NED,AED
- Recognition Protocols
DISCUSSION AND FUTURE DIRECTIONS
-
泛化能力有待加强,模型在 COCO-Text 上都不太好使
-
评估协议
-
数据集不太好找
-
实际场景中噪声更多
-
图像预处理
-
端到端系统
-
大多数算法只对拉丁文本好使,对非拉丁文本不好使
-
安全性
-
STR 与 NLP 的结合