深度视频理解方法、装置、设备及可读存储介质
Abstract:
本申请涉及一种深度视频理解方法、装置、设备及可读存储介质,涉及视频理解技术领域,包括获取待理解视频中每个切片对应的文本特征;对每个切片进行特征提取得到每个切片的切片整体特征;对每个切片中的人物进行人脸检测与追踪生成追踪序列视频,并对追踪序列视频进行特征提取得到人物追踪视频特征;基于残差网络和切片整体特征确定每个切片对应的地点类型;基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合得到每个切片的目标特征;将文本特征、切片整体特征及目标特征进行拼接得到每个切片的多模态特征;根据多模态特征对人物与人物、人物与地点之间的交互及关系进行预测。本申请可有效提高关系、交互等预测结果的准确性。
Patent Agency Ranking
0/0