前言
 收集一下有关文本的各种数据集!感谢师兄的分享。
正文
真实数据集
CTW 数据集 (Chinese Text in the Wild)
一个自然场景下的中文字符数据集。
 资源:
 包含:
- 32,285 张高分辨率图像(high resolution images)
- 1,018,402 个字符实例(character instances)
- 3850 种汉字(character categories)
- 6 种类别(attributes)
 数据集结构:

- 训练集 + 验证集:images-trainval
- 测试集:images-test
- 预训练好的模型:trained-models- alexnet
- inception
- overfeat
- resnet
- vgg
- yolo
 
- 注释文档:ctw-annotations

    举例,对于训练数据集下的文件 0000172.jpg:

| 1 |  | 
 对应的注释,每个字都有:
- 
adjusted_bbox:调整后的边界框
- 
attributes:文字属性- distorted:扭曲
- raised:浮雕
- occluded:被遮挡
- bgcomplex:复杂背景
- handwritten:手写
- wordart:艺术字
 
- 
is_chinese:是否为中文
- 
polygon:实际边界框
- 
text:以 Unicode 形式存储的中文
SVT (Street View Text Dataset)
The Street View Text (SVT) dataset was harvested from Google Street View. Image text in this data exhibits high variability and often has low resolution. In dealing with outdoor street level imagery, we note two characteristics.
(1) Image text often comes from business signage and
(2) business names are easily available through geographic business searches.
These factors make the SVT set uniquely suited for word spotting in the wild: given a street view image, the goal is to identify words from nearby businesses.
街景文本(SVT)数据集从谷歌街景中获取。该数据中的图像文本表现出很高的变异性,而且往往分辨率很低。在处理户外街景图像时,我们注意到两个特点。
(1) 图像文本通常来自于商业招牌,以及
(2) 企业名称很容易通过地理上的商业搜索获得。
这些因素使得 SVT 集独特地适合于在野外发现单词:给定一个街景图像,目标是识别附近企业的单词。
 资源:
- 论文(似乎不可用):SVT Dataset | Papers With Code
- 下载:The Street View Text Dataset 街景文字数据集_数据集-阿里云天池 (aliyun.com)
    举例,对于数据集下的文件 17_18.jpg:

 对应的 Ground Truth,一个单词一个文本框,还包含了地址、环境等信息:
| 1 |  | 
ICDAR
 资源:
Downloads - Focused Scene Text
Task 2.1: Text Localization (2013 edition)
- 训练集 229 张图片
- 测试集 233 张图片
    举例,对于训练数据集下的文件 img_1.jpg:

    对应的 Ground Truth gt_img_1.txt:
| 1 |  | 
 数据集可视化代码:
| 1 |  | 

Task 2.2: Text Segmentation (2013 edition)
    数据集和 2.1 一样,只不过 Ground Truth 是 segmentation masks gt_img_1.png:

Task 2.3: Word Recognition (2013 edition)
- 训练集 848 张单词图片:Challenge2_Training_Task3_Images_GT
- 测试集 1095 张单词图片:Challenge2_Test_Task3_Images和Challenge2_Test_Task3_GT.txt
 这些图片都是从之前的数据集里裁切出来的。
    举例,对于训练数据集下的文件 word_1.jpg:

    对应的 Ground Truth gt.txt 里的一行:
| 1 |  | 
Task 2.4: End to End (2015 edition)
想让网络识别单词,并且提供了单词库?
- 训练集 229 张图片
- 测试集 233 张图片
    图片img_1.jpg,对应的 Ground Truth gt_img_1.txt 和词汇表 voc_img_1.txt:

Downloads - Incidental Scene Text
Task 4.1: Text Localization (2015 edition)
 图像质量真是刁钻啊 orz
- 训练集 1000 张图片
- 测试集 500 张图片
    举例,对于测试数据集下的文件 img_2.jpg:

    对应的 Ground Truth gt_img_2.txt:
| 1 |  | 
 数据集可视化代码:
| 1 |  | 

| 1 |  | 
Task 4.2: Text Segmentation (N/A)
 不可用。
Task 4.3: Word Recognition (2015 edition)
 从上一个数据集中裁剪出单词图片。
- 训练集 4468 张裁剪好的单词图片
- 测试集 2077 张裁剪好的单词图片
    举例,对于测试数据集下的文件 word_10.png:

    对应 Challenge4_Test_Task3_GT.txt 里的一行:
| 1 |  | 
Task 4.4: End to End (2015 edition)
 emmmm 我感觉就是之前的整合,多了一个词汇表。
- 训练集 1000 张图片
- 测试集 500 张图片

ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)
这里面的图像是有够杂的……
资源:

    举例,对于训练数据集下的文件 image_0.jpg:

    对应的 Ground Truth image_0.txt:
 包围框,是否有可识别的文字,对应文字
| 1 |  | 
Total-Text
 资源:Total-Text Dataset | Papers With Code
 弯曲文本数据集:
- 训练集 1255 张图片
- 测试集 300 张图片
 大部分英文文本,少部分中文文本。
    举例,对于训练数据集下的文件 img11.jpg:

    对应的 Character_Level_Mask Ground Truth img11.jpg:

    对应的 Text_Region_Mask Ground Truth img11.png:

    还附有 mat 格式的 poly_gt_img11.mat 和 rect_gt_img11.mat,应该是存储了一些形状信息。
TextSeg
 资源:Rethinking Text Segmentation: A Novel Dataset and A Text-Specific Refinement Approach
 艺术字的文字分割数据集:
- 4024 张图片,配有文字分割图
    举例,对于数据集下image/的文件 a00001.jpg:

    bpoly_label/ 下对应的逐字分割掩码图a00001_mask.png:

    json 文件 a00001_anno.json:
| 1 |  | 
    semantic_label/ 下的分割图 a00001_maskfg.png:

CTW 1500
- [Paper-Detecting Curve Text in the Wild-New Dataset and New Solution-Zi-Zi’s Journey](…//Paper-Detecting Curve Text in the Wild-New Dataset and New Solution/)
合成数据集
SynthText
- 
[Paper-Synthetic Data for Text Localisation in Natural Images-Zi-Zi’s Journey](…//Paper-Synthetic Data for Text Localisation in Natural Images/) 
- 
[Paper-重读-Synthetic Data for Text Localisation in Natural Images-Zi-Zi’s Journey](…//Paper-重读-Synthetic Data for Text Localisation in Natural Images/) 
VISD
- [Paper-Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes-Zi-Zi’s Journey](…//Paper-Verisimilar Image Synthesis for Accurate Detection and Recognition of Texts in Scenes/)
SynthText3D
- [Paper-SynthText3D-Synthesizing Scene Text Images from 3D Virtual Worlds-Zi-Zi’s Journey](…//Paper-SynthText3D-Synthesizing Scene Text Images from 3D Virtual Worlds/)
UnrealText
- 
[Paper-UnrealText-Synthesizing Realistic Scene Text Images from the Unreal World-Zi-Zi’s Journey](…//Paper-UnrealText-Synthesizing Realistic Scene Text Images from the Unreal World/) 
 
			 
		 
		