深度视频理解方法、装置、设备及可读存储介质

Invention Publication

CN115909170A 深度视频理解方法、装置、设备及可读存储介质审中-实审

Please log in to see more content

Patent Title: 深度视频理解方法、装置、设备及可读存储介质
Application No.: CN202211604376.4

Application Date: 2022-12-13
Publication No.: CN115909170A

Publication Date: 2023-04-04
Inventor: 梁超 , 郭佳昊 , 鲁安康 , 赵匡益 , 孙莺菲 , 李睿哲
Applicant: 武汉大学
Applicant Address: 湖北省武汉市武昌区珞珈山
Assignee: 武汉大学
Current Assignee: 武汉大学
Current Assignee Address: 湖北省武汉市武昌区珞珈山
Agency: 武汉智权专利代理事务所
Agent 罗成
Main IPC: G06V20/40
IPC: G06V20/40 ; G06V20/62 ; G06V40/16 ; G06V10/82 ; G06V10/62 ; G06V10/10 ; G06V10/80 ; G06F16/36 ; G06N3/045 ; G06N3/0464 ; G06N3/048

Abstract:

本申请涉及一种深度视频理解方法、装置、设备及可读存储介质，涉及视频理解技术领域，包括获取待理解视频中每个切片对应的文本特征；对每个切片进行特征提取得到每个切片的切片整体特征；对每个切片中的人物进行人脸检测与追踪生成追踪序列视频，并对追踪序列视频进行特征提取得到人物追踪视频特征；基于残差网络和切片整体特征确定每个切片对应的地点类型；基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合得到每个切片的目标特征；将文本特征、切片整体特征及目标特征进行拼接得到每个切片的多模态特征；根据多模态特征对人物与人物、人物与地点之间的交互及关系进行预测。本申请可有效提高关系、交互等预测结果的准确性。

Information query

Chinese Patent Announcement Global Dossier Espacenet

IPC分类:

G	物理
G06	计算；推算或计数
G06V	图像或视频识别或理解
G06V20/00	场景；特定场景元素（控制数码相机 H04N5/232）
G06V20/40	.在视频内容中（提取叠加文本 G06V20/62）（视频检索 G06F16/70）（在视频服务器中处理视频基本流H04N21/234）（在视频客户端中处理视频基本流H04N21/44）