-
公开(公告)号:CN113255646A
公开(公告)日:2021-08-13
申请号:CN202110612702.5
申请日:2021-06-02
Applicant: 北京理工大学
Abstract: 本发明涉及一种实时场景文本检测方法,属于计算机视觉处理技术领域。首先提取当前自然场景图像的特征。然后采用交叉池化注意力方式,对深层特征的权重进行重新分配。之后对不同尺度的特征自下而上进行融合,将不同尺度特征进行合并。使用特征分块Transformer编码器处理文本多样性。分割出文本实例的“核”,从文本“核”中构建文本实例。本方法,仅需要少量的计算量即可增强骨架网络的特征表示能力。首次提出引用Transformer编码器结构并对其进行修改,得到特征分块Transformer编码器以处理文本多样性问题,对模型性能有较大的提升。本方法在满足实时性的前提下,性能领先于现有的实时场景文本检测方法,在实时性与精度之间实现了更好的平衡。
-
公开(公告)号:CN110866938A
公开(公告)日:2020-03-06
申请号:CN201911147521.9
申请日:2019-11-21
Applicant: 北京理工大学
Abstract: 本发明提出了一种全自动视频运动目标分割方法,属于计算机视觉处理技术领域。本方法旨在提取视频中运动物体的精确区域,将其与背景进行分离,是实现视频编辑、视频内容表示的重要环节。通过使用双流网络同时提取视频帧信息和运动信息,通过相邻帧运动信息获得的粗糙的结果,指导视频帧的分割。本发明方法,相比于现有的技术,充分挖掘了运动信息,在使用注意力机制充分利用运动信息的同时节省了空间的消耗,精度高。
-
公开(公告)号:CN113255646B
公开(公告)日:2022-10-18
申请号:CN202110612702.5
申请日:2021-06-02
Applicant: 北京理工大学
Abstract: 本发明涉及一种实时场景文本检测方法,属于计算机视觉处理技术领域。首先提取当前自然场景图像的特征。然后采用交叉池化注意力方式,对深层特征的权重进行重新分配。之后对不同尺度的特征自下而上进行融合,将不同尺度特征进行合并。使用特征分块Transformer编码器处理文本多样性。分割出文本实例的“核”,从文本“核”中构建文本实例。本方法,仅需要少量的计算量即可增强骨架网络的特征表示能力。首次提出引用Transformer编码器结构并对其进行修改,得到特征分块Transformer编码器以处理文本多样性问题,对模型性能有较大的提升。本方法在满足实时性的前提下,性能领先于现有的实时场景文本检测方法,在实时性与精度之间实现了更好的平衡。
-
公开(公告)号:CN110866938B
公开(公告)日:2021-04-27
申请号:CN201911147521.9
申请日:2019-11-21
Applicant: 北京理工大学
Abstract: 本发明提出了一种全自动视频运动目标分割方法,属于计算机视觉处理技术领域。本方法旨在提取视频中运动物体的精确区域,将其与背景进行分离,是实现视频编辑、视频内容表示的重要环节。通过使用双流网络同时提取视频帧信息和运动信息,通过相邻帧运动信息获得的粗糙的结果,指导视频帧的分割。本发明方法,相比于现有的技术,充分挖掘了运动信息,在使用注意力机制充分利用运动信息的同时节省了空间的消耗,精度高。
-
-
-