-
公开(公告)号:CN115909170A
公开(公告)日:2023-04-04
申请号:CN202211604376.4
申请日:2022-12-13
Applicant: 武汉大学
IPC: G06V20/40 , G06V20/62 , G06V40/16 , G06V10/82 , G06V10/62 , G06V10/10 , G06V10/80 , G06F16/36 , G06N3/045 , G06N3/0464 , G06N3/048
Abstract: 本申请涉及一种深度视频理解方法、装置、设备及可读存储介质,涉及视频理解技术领域,包括获取待理解视频中每个切片对应的文本特征;对每个切片进行特征提取得到每个切片的切片整体特征;对每个切片中的人物进行人脸检测与追踪生成追踪序列视频,并对追踪序列视频进行特征提取得到人物追踪视频特征;基于残差网络和切片整体特征确定每个切片对应的地点类型;基于人物追踪视频特征和地点类型对每个切片中的人物和地点进行随机组合得到每个切片的目标特征;将文本特征、切片整体特征及目标特征进行拼接得到每个切片的多模态特征;根据多模态特征对人物与人物、人物与地点之间的交互及关系进行预测。本申请可有效提高关系、交互等预测结果的准确性。
-
公开(公告)号:CN118916802A
公开(公告)日:2024-11-08
申请号:CN202410851527.9
申请日:2024-06-28
Applicant: 武汉大学
IPC: G06F18/2431 , G06F18/213 , G06V10/764 , G06V40/16 , G06V10/82 , G06N3/0464
Abstract: 本发明提供了一种基于重构故事剧本的自动化二创方法与系统。该方法首先对影视剧镜头进行多模态信息标注,其中视觉标注包括人物身份、人物情绪、面部朝向以及服装切片,音频标注通过声纹识别构建身份音频库,文本标注拟合台词时长与长度的关系并统计台词长度分布。随后进入创作流程,首先在大语言模型的帮助下进行剧本创作,其次在所提出的两阶段素材选择算法下基于台词对素材进行筛选,最后对素材进行音频生成以及唇形同步两项后期处理。本发明所提出的基于重构故事剧本的自动化二创方法充分结构了影视剧特点,极大的降低了二创作品的创作门槛,并能使整体流程自动化。
-
公开(公告)号:CN117708287A
公开(公告)日:2024-03-15
申请号:CN202311674762.5
申请日:2023-12-06
Applicant: 武汉大学
IPC: G06F16/332 , G06F16/36 , G06V40/16 , G06V10/764 , G06N3/0464 , G06N3/08 , G06Q50/20
Abstract: 本发明提供了一种基于多模态信息的表演系电影教育视频理解方法和系统,包括问题生成和问题回答两个关键部分。首先,本发明通过语音识别技术,将电影中的台词文本提取出来,并将其用于问题生成。问题生成部分通过自动语音识别技术识别视频中的字幕,并使用在问题‑回答文本语料库上进行预训练的语言模型生成问题和相应的答案列表。此外,引入了大型语言模型来对获得的字幕进行浓缩,生成精炼的摘要,以供问题生成和答案提取使用。其次,本发明还能对用户提出的问题或现存的问题进行回答,系统本身对电影视频的深度理解是问题回答的关键。本发明为表演系学生提供了更多的资源和工具,以提高他们对电影的理解和表演技巧。
-
公开(公告)号:CN118283367A
公开(公告)日:2024-07-02
申请号:CN202410342817.0
申请日:2024-03-25
Applicant: 武汉大学
IPC: H04N21/472 , H04N21/8545 , H04N21/845 , H04N21/8547 , H04N21/8549
Abstract: 本发明公开了一种可定制故事剧情的对话式视频剪辑方法、装置及设备,引入多模态大型语言模型进行深度视频理解,将电影内容映射为文本描述。具体地,为视频内容的理解设计了一种提示词模板,以引导MLLM理解人物互动、关系和故事情节,并生成详细的脚本式描述。其次,视频创作者可以与大型语言模型进行对话,生成目标脚本。为目标剧本的生成设计了一种提示词模板,根据创作者输入的定制故事情节和相应的时间戳,生成关于故事内容和时间戳的目标脚本。通过多轮对话,可以精炼目标脚本。最后,可以根据目标脚本中的时间戳组合出剪辑后的视频。本发明通过强大的MLLM和LLM实现了视频内容理解和剪辑脚本生成,从而完成具有定制故事情节的对话式电影编辑。
-
-
-