Patent search ap:("西安电子科技大学") AND inv:"孙博文" Page 1

1.

发明公开
一种基于代理注意力及多尺度Transformer的视频时序动作定位方法、系统、设备及介质审中-实审

公开(公告)号：CN118351475A

公开(公告)日：2024-07-16

申请号：CN202410541425.7

申请日：2024-04-30

Applicant: 西安电子科技大学

Inventor： 古晶 , 张炜 , 孙博文 , 侯彪 , 毛莎莎 , 冯婕 , 杨淑媛 , 刘芳 , 焦李成

IPC: G06V20/40 , G06V40/20 , G06V10/52 , G06V10/764 , G06V10/766 , G06V10/82 , G06N3/0464 , G06N3/045

Abstract: 一种基于代理注意力及多尺度Transformer的视频时序动作定位方法、系统、设备及介质，方法：利用预训练的特征提取器从输入视频中提取特征；构建基于代理自注意力和多尺度Transformer的时序动作定位模型，堆叠七个Transformer模块，用于对输入的视频特征进行编码，提取关键信息；将多尺度Transformer模块和代理Transformer模块输出的不同尺度特征送入到回归头和分类头中，得到定位结果，即未裁剪视频中动作实例的开始时刻、结束时刻以及动作的类别标签；系统、设备及介质用于实现该方法；本发明通过结合卷积和Transformer架构的混合模块及细粒度代理自注意力模块，降低视频特征间的相似度，减少模型的参数量和计算复杂度，提高模型的表征能力，进而提高视频动作定位精度。

Patent Agency Ranking