《表3 基于深度学习的端到端的自然场景文本识别方法》

《表3 基于深度学习的端到端的自然场景文本识别方法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的自然场景文本检测与识别综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

目前,大部分研究者将自然场景文本检测和识别分割为两个独立的任务,即首先利用检测网络得到图像中文本框,再将根据文本框得到剪裁的文本实例图像输入到文本识别网络识别文本内容.文献[80]尝试将文本检测和识别结合起来,利用基于滑动窗口的文本检测和字符识别模型构建一个端到端的文本识别系统,但本质上该系统依然将文本检测和识别分割为两个单独的模型,其中,滑动窗口的方法需要进行大量的计算,且复杂的后处理在实际应用效率并不高.与此不同的是,基于深度学习的端到端的自然场景文本识别方法将文本检测任务和文本识别任务结合在统一的网络模型中.该类方法通常共享底层卷积特征,根据共享特征检测文本区域,再将文本区域共享特征馈送到识别模块中识别文本内容.相较于将文本检测和识别分割为不同任务的方法,端到端的识别方法更具有挑战性,其优点在于,共享底层特征的方式降低了文本检测到识别过程的运算参数,并且其文本识别损失根据反向传播算法能够优化底层特征的提取和文本检测.本节将对端到端的自然场景文本识别方法(见表3)的特点、关键技术和主要优缺点进行分析介绍.