method: ocr_densenet2019-04-24
Authors: 朱虹图像处理研究室—— 潘晓容(Xiaorong Pan)熊鸽(Ge Xiong)侯倩(Qian Hou)杨恺庆(Kaiqing Yang)
Description: 单位:西安理工大学——朱虹图像处理研究室
联系电话:18292875242
邮箱:pxrsun@163.com
1. 模型
采用densenet网络,根据长宽比将数据分为两类:横和竖。分别训练两个模型进行预测。
模型1:用长宽比大于0.7的数据训练模型。将图像Resize到(512×64)大小,输入densenet网络进行特征提取,将图像划分为多个(8×8)的方格,在每个方格预测3958个字符的概率,则输出为(64×8×3958)的概率。在垂直方向取概率最大值,得到(64×3958)的概率,分别代表了64个位置上每个位置预测出3958个类别字符的概率。概率大于0.5则预测出字符。
模型2:用长宽比小于0.7的数据训练模型。对输入图像进行旋转,再Resize到(512×64)大小,输入densenet网络进行特征提取,将图像划分为多个(8×8)的方格,在每个方格预测3958个字符的概率,则输出为(64×8×3958)的概率。在垂直方向取概率最大值,得到(64×3958)的概率,分别代表了64个位置上每个位置预测出3958个类别字符的概率。概率大于0.5则预测出字符。
2. Loss
将(64×8×3958)的概率沿着长宽方向取最大值,得到(3958)的概率,表示这张图片里有对应字符的概率,与图像标签计算交叉熵损失。
3.长图分割
对长宽比大于8的图像进行图像分割,分割为若干个小图输入模型1进行预测,将预测结果拼接作为其预测结果。
https://github.com/yinchangchang/ocr_densenet