-
公开(公告)号:CN118351475A
公开(公告)日:2024-07-16
申请号:CN202410541425.7
申请日:2024-04-30
Applicant: 西安电子科技大学
IPC: G06V20/40 , G06V40/20 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/045
Abstract: 一种基于代理注意力及多尺度Transformer的视频时序动作定位方法、系统、设备及介质,方法:利用预训练的特征提取器从输入视频中提取特征;构建基于代理自注意力和多尺度Transformer的时序动作定位模型,堆叠七个Transformer模块,用于对输入的视频特征进行编码,提取关键信息;将多尺度Transformer模块和代理Transformer模块输出的不同尺度特征送入到回归头和分类头中,得到定位结果,即未裁剪视频中动作实例的开始时刻、结束时刻以及动作的类别标签;系统、设备及介质用于实现该方法;本发明通过结合卷积和Transformer架构的混合模块及细粒度代理自注意力模块,降低视频特征间的相似度,减少模型的参数量和计算复杂度,提高模型的表征能力,进而提高视频动作定位精度。