-
公开(公告)号:CN117216580A
公开(公告)日:2023-12-12
申请号:CN202310550454.5
申请日:2023-05-15
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。
-
公开(公告)号:CN116980699A
公开(公告)日:2023-10-31
申请号:CN202310859976.3
申请日:2023-07-12
Applicant: 腾讯科技(深圳)有限公司
IPC: H04N21/4402 , H04N21/44 , H04N21/466 , H04N21/472 , H04N19/20
Abstract: 本申请实施例公开了一种数据处理方法、装置、设备及存储介质,该方法包括:获取视频数据,对视频数据进行视频上下文编码处理,得到视频记忆矩阵;对视频数据对应的视频剧情文本进行文本上下文编码处理,得到编码文本特征;基于视频记忆矩阵与编码文本特征之间的跨模态匹配关系以及至少两种文本划分粒度,对编码文本特征进行递进式解码,得到N个目标类文本实体分别对应的目标文本向量;N个目标文本向量用于预测N个目标类文本实体在视频数据中分别对应的剧情视频时间范围;视频剧情文本包含基于目标文本划分粒度所划分得到的N个目标类文本实体。采用本申请实施例,可以提高剧情时间区间预测的效率以及准确性。
-
公开(公告)号:CN114528762B
公开(公告)日:2024-02-20
申请号:CN202210148011.9
申请日:2022-02-17
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F18/214 , G06F18/25 , G06N3/0455 , G06N3/098
Abstract: 本申请公开一种模型训练方法、装置、设备和存储介质,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。获取舞蹈视频中的视觉信息和音频信息,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本申请将视觉信息和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得预训练模型更好地适应于各种舞蹈类型的下游任务,并且性能表现理想。
-
公开(公告)号:CN115359161A
公开(公告)日:2022-11-18
申请号:CN202210979086.1
申请日:2022-08-16
Applicant: 腾讯科技(深圳)有限公司
IPC: G06T13/80 , G06V10/764 , G06V10/82 , G06N3/04
Abstract: 本发明实施例公开了一种动作视频合成方法、系统及存储介质和终端设备,应用于基于人工智能的信息处理技术领域。动作视频合成系统会将一段音频数据划分为多个音频数据子段,并分别获取待处理的多个音频数据子段分别对应的第一特征信息,且确定预置的动作子片段的第二特征信息,然后根据第一特征信息及第二特征信息从预置的动作子片段中选择出多个动作子片段以构成待合成动作序列,这多个动作子片段按照一定顺序排序,进而将待合成动作序列中的多个动作子片段合成为动作合成视频。通过细粒度的音频数据子段的约束来形成待合成动作序列,用于形成动作合成视频,实现了对最终动作合成视频的有效控制,从而使得动作合成视频满足了用户的多样化需求。
-
公开(公告)号:CN114528762A
公开(公告)日:2022-05-24
申请号:CN202210148011.9
申请日:2022-02-17
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请公开一种模型训练方法、装置、设备和存储介质,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。获取舞蹈视频中的视觉信息和音频信息,提取音频信息的起始点特征,起始点特征用于表征舞蹈视频中音频的乐理要素点,并且利用初始模型预测视觉信息的乐理要素点,从而根据视觉信息的乐理要素点和音频信息的起始点特征,对初始模型进行优化,以使视觉信息的乐理要素点与音频的乐理要素点对齐,得到预训练模型。本申请将视觉信息和音频的乐理要素点对齐作为代理任务实现模型预训练,考虑到了舞蹈视频中的一些独特特征,从而在无需数据标注的情况下,使得预训练模型更好地适应于各种舞蹈类型的下游任务,并且性能表现理想。
-
-
-
-