-
公开(公告)号:CN113343707A
公开(公告)日:2021-09-03
申请号:CN202110625864.2
申请日:2021-06-04
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括:将待识别的图像输入文本矫正网络,得到矫正图像;将矫正图像输入编码器,编码器利用坐标编码模块提取图像的空间纹理信息,利用上下文建模网络提取文本的语义建模特征,输出文本的语义建模特征给全局语义提取模块和解码器;全局语义提取模对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器;解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测,输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布,有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。
-
公开(公告)号:CN113343707B
公开(公告)日:2022-04-08
申请号:CN202110625864.2
申请日:2021-06-04
Applicant: 北京邮电大学
Abstract: 本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括:将待识别的图像输入文本矫正网络,得到矫正图像;将矫正图像输入编码器,编码器利用坐标编码模块提取图像的空间纹理信息,利用上下文建模网络提取文本的语义建模特征,输出文本的语义建模特征给全局语义提取模块和解码器;全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器;解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测,输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布,有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。
-