Method: ocr_densenet - Task 2 - Text Line Recognition - ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard

method: ocr_densenet2019-04-24

Authors: 朱虹图像处理研究室—— 潘晓容（Xiaorong Pan）熊鸽（Ge Xiong）侯倩（Qian Hou）杨恺庆（Kaiqing Yang）

Description: 单位：西安理工大学——朱虹图像处理研究室
联系电话：18292875242
邮箱：pxrsun@163.com
1. 模型
采用densenet网络，根据长宽比将数据分为两类：横和竖。分别训练两个模型进行预测。
模型1：用长宽比大于0.7的数据训练模型。将图像Resize到(512×64)大小，输入densenet网络进行特征提取，将图像划分为多个(8×8)的方格，在每个方格预测3958个字符的概率，则输出为(64×8×3958)的概率。在垂直方向取概率最大值，得到(64×3958)的概率，分别代表了64个位置上每个位置预测出3958个类别字符的概率。概率大于0.5则预测出字符。
模型2：用长宽比小于0.7的数据训练模型。对输入图像进行旋转，再Resize到(512×64)大小，输入densenet网络进行特征提取，将图像划分为多个(8×8)的方格，在每个方格预测3958个字符的概率，则输出为(64×8×3958)的概率。在垂直方向取概率最大值，得到(64×3958)的概率，分别代表了64个位置上每个位置预测出3958个类别字符的概率。概率大于0.5则预测出字符。
2. Loss
将(64×8×3958)的概率沿着长宽方向取最大值，得到(3958)的概率，表示这张图片里有对应字符的概率，与图像标签计算交叉熵损失。
3.长图分割
对长宽比大于8的图像进行图像分割，分割为若干个小图输入模型1进行预测，将预测结果拼接作为其预测结果。

https://github.com/yinchangchang/ocr_densenet