基于双重语义对齐的视频时刻检索和高光检测方法及系统

    公开(公告)号:CN120011593A

    公开(公告)日:2025-05-16

    申请号:CN202510072981.9

    申请日:2025-01-17

    Applicant: 安徽大学

    Abstract: 本发明涉及计算机视觉技术领域,具体涉及基于双重语义对齐的视频时刻检索和高光检测方法,包括:利用视觉编码器和文本编码器分别提取视觉特征和文本特征;对视觉特征和文本特征进行交叉注意力运算得到联合特征;利用编码器和解码器对联合特征进行处理,编码器输出用于高光检测,解码器输出用于时刻检索;基于显著性对比学习实现片段级语义对齐;基于时刻中心距离实现时刻级语义对齐;采用匈牙利算法进行二分匹配,将预测时刻与真实时刻建立最优对应关系;联合优化高光检测损失和时刻检索损失更新编码器、解码器参数。本发明通过显著性对比学习方法和中心距离回归方法进行双重语义对齐,实现更准确地高光检测以及输出更准确的时刻检索。

Patent Agency Ranking