-
公开(公告)号:CN116883886A
公开(公告)日:2023-10-13
申请号:CN202310598246.2
申请日:2023-05-25
Applicant: 中国科学院信息工程研究所
IPC: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。该方法包括:提取初始的视频特征和初始的文本特征,分别输入自注意力模块以提取自注意力特征;通过互注意力模块提取跨模态语义特征,并利用时序提案生成网络对跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码,并分别与初始的视频特征结合,生成前景、背景与整个视频的三种视频特征,然后通过跨模态关联去噪模块得到的鲁棒视频特征表示,并进行文本语义重建与双级对比学习;利用高斯建模参数对目标视频片段进行时序语言定位。本发明能够解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。
-
公开(公告)号:CN116883886B
公开(公告)日:2024-05-28
申请号:CN202310598246.2
申请日:2023-05-25
Applicant: 中国科学院信息工程研究所
IPC: G06V20/40 , G06V10/82 , G06N3/0455 , G06N3/0895
Abstract: 本发明涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。该方法包括:提取初始的视频特征和初始的文本特征,分别输入自注意力模块以提取自注意力特征;通过互注意力模块提取跨模态语义特征,并利用时序提案生成网络对跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码,并分别与初始的视频特征结合,生成前景、背景与整个视频的三种视频特征,然后通过跨模态关联去噪模块得到的鲁棒视频特征表示,并进行文本语义重建与双级对比学习;利用高斯建模参数对目标视频片段进行时序语言定位。本发明能够解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。
-
公开(公告)号:CN114049582A
公开(公告)日:2022-02-15
申请号:CN202111135223.5
申请日:2021-09-27
Applicant: 中国科学院信息工程研究所
IPC: G06V20/40 , G06V40/20 , G06V10/62 , G06V10/56 , G06V10/764 , G06V10/82 , G06K9/62 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于网络结构搜索和背景‑动作增强的弱监督行为检测方法和装置,包括提取目标视频的视频特征;对预定义的自注意力模块进行网络结构搜索,构建优化自注意力模块,并将视频特征输入优化自注意力模块,计算基于局部‑全局信息的自注意力权重向量;利用自注意力权重向量对视频特征进行加权融合,得到视频特征向量,并基于视频特征向量进行分类,获取视频分类结果;根据自注意力权重向量与视频分类结果,进行时序类别激活映射计算,以获取行为检测结果。本发明同时整合了丰富的动作知识和有建设性的背景信息,实现细粒度的背景建模,更好的学习长视频特征,降低了计算复杂度以及时序标注的时间。
-
-