外语OCR图片采集要求
采集目的
为了更好的提高自然场景中的文字识别率,针对一些生活中常用的场景进行模拟的图片拍摄,尽可能多的请不同的用户使用多种主流智能手机采集各种不同场景、类型、字体的文字图片。
目标语言
指定外语
场景
- Documents: business documents, magazines, newspapers, forms (including mixed printed/handwritten text), etc. – 40%
- Receipts – 10%
- Invoices – 10%
- Menus – 10%
- Street signs (street names, store names, ads, etc.) – 10%
- Product labels – 7.5%
- Slides – 7.5%
- Posters – 2.5%
- Business cards – 2.5%
( 文件:商业文件、杂志、报纸、表格(包括混合打印/手写文本)等40%
-收据- 10%
-发票- 10%
-菜单- 10%
-街道标志(街道名称、商店名称、广告等)- 10%
-产品标签- 7.5%
-幻灯片- 7.5%
-海报- 2.5%
名片- 2.5%)
采集设备
- 主流智能手机
覆盖至少3种当地最常见的手机品牌,例如:iPhone,三星,华为等
采集环境
- 室内:办公室,会议室,教室,家居,商场,店铺等
- 室外:街道,火车站,地铁站,公交站,公园,广场等
如果场景允许,应该覆盖室内和室外
采集条件
- 采集方式
所有照片必须为用户直接使用满足要求的智能手机拍摄,不得使用网上的图片,不使用专业相机及数码相机。
- 拍摄角度
水平方向的角度应在15度以内,符合常规的拍照习惯。
- 分辨率
至少800万像素
- 主体大小
根据不同的场景,目标文本区域应占据整张照片的5%-90%,例如拍摄远处的交通路牌,可能文字区域占比就小,拍摄一张名片或者文档,文字区域占比就大。
- 光照条件
覆盖自然光/灯光,强光/弱光
- 背景
同一背景采集图片不要超过5张
- 字体与大小
尽可能多的覆盖不同字体和文字大小
- 文字方向
水平>=80%,竖直>=5%
- 重复
同一目标物体只拍摄一张,避免拍摄同样文字内容的图片,例如同一连锁店的店名招牌,同样文字内容的指示牌,路牌
- 语言
部分场景允许出现双语的情况,但目标外语必须是主要部分,例如:双语的菜单,商品包装上包含部分英文Logo等
- 清晰度
对焦准确,文字边缘清晰无模糊,人眼可以很容易的辨认出文字内容,避免强烈的反光的阴影造成的文字辨认困难。
- 文字数量
如果场景允许,每张图片的文字内容应至少有10行,例如Documents,有些场景不会出现这么多文字不必考虑,例如路牌,名片等。
场景定义(所有样例以中文举例)
- Document(文档):商业文档,杂志,报纸,书籍,表格(可以包含印刷体或手写的内容)等,通常文字内容较多,同一本书刊杂志拍摄的照片数最多不要超过3张(尽量选取版面字体差异较大的不同页面),并尽量避免同一背景同一角度连续拍摄多张。 |