-
公开(公告)号:CN117216374A
公开(公告)日:2023-12-12
申请号:CN202310375092.0
申请日:2023-03-29
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/9535 , G06F16/958 , G06F16/583 , G06V10/40 , G06V10/74 , G06F18/22 , G06F18/214 , G06F16/335 , G06F18/25 , G06F40/205 , G06F40/30 , G06V10/80
Abstract: 本申请实施例公开了内容推荐方法、装置、计算机可读存储介质和计算机设备;通过预设内容推荐模型在图像样本中提取第一视觉特征,在查询文本样本中提取查询文本词特征;基于第一视觉特征和查询文本词特征计算图像样本和查询文本样本的相似度,基于相似度确定第一损失信息;获取缺陷文本样本,在缺陷文本样本中提取缺陷文本词特征,获取图像样本的第二视觉特征;根据第二视觉特征和缺陷文本词特征预测缺陷词,并预测缺陷词的修正词;根据缺陷文本的缺陷词、修正词以及查询文本样本确定第二损失信息;基于第一损失信息和第二损失信息对预设内容推荐模型进行收敛处理;通过训练后内容推荐模型对查询文本进行内容推荐处理。以此,提升内容推荐准确性。
-
公开(公告)号:CN117216580A
公开(公告)日:2023-12-12
申请号:CN202310550454.5
申请日:2023-05-15
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
Abstract: 本申请公开了一种视频和文本的处理方法和装置、存储介质及电子设备。其中,该方法包括:利用目标视频的原始视频特征对目标文本的原始文本特征进行重构,得到重构文本特征,其中,原始文本特征包括N1个词向量,原始视频特征包括N2个视频帧向量;利用原始文本特征对原始视频特征进行重构,得到重构视频特征,其中,重构视频特征包括N2个重构视频帧向量,N2个重构视频帧向量包括N2个视频帧的重构视频帧向量;根据N1个词向量、N1个重构词向量、N2个视频帧向量以及N2个重构视频帧向量,确定目标文本与目标视频之间的语义相似度。本申请解决了相关技术中在在视频和文本的处理过程中出现的准确性较低的技术问题。
-
公开(公告)号:CN118333135A
公开(公告)日:2024-07-12
申请号:CN202410388726.0
申请日:2024-04-01
Applicant: 中国科学院自动化研究所
IPC: G06N3/094 , G06N3/0475 , G06N3/045 , G06N3/0464 , G06F18/24
Abstract: 本发明提供一种基于类别条件的人体动作生成模型的训练及动作生成方法,其中方法包括:获取噪声样本向量序列和动作类别标签,并对动作类别标签进行编码得到类别特征向量;将噪声样本向量序列和类别特征向量进行融合,得到融合向量;将融合向量输入至噪声预处理映射网络中,得到隐藏向量序列;将隐藏向量序列输入至生成对抗模型中的生成器中得到预测人体骨架序列;基于预测人体骨架序列,以及与预测人体骨架序列动作类别相同的真实人体骨架序列对生成对抗模型进行训练,将训练完成后的生成对抗模型作为人体动作生成模型。人体动作生成模型可以实现生成数据类别准确性与生成数据质量的平衡,实现类别条件控制的人体骨架序列数据的高质量生成。
-
公开(公告)号:CN119342233A
公开(公告)日:2025-01-21
申请号:CN202411299969.3
申请日:2024-09-18
Applicant: 中国科学院自动化研究所
Abstract: 本发明提供一种基于时空令牌合并的视频处理方法、装置、电子设备及存储介质,属于视频处理技术领域,包括:获取第一组令牌和第二组令牌,其中,第一组令牌和第二组令牌为一组视频帧中相邻的两个视频帧对应的两组令牌;将第一组令牌和第二组令牌输入第一变换器块,得到第一变换器块输出的部分第一组令牌、部分第二组令牌和一组时序合并令牌;将部分第一组令牌、部分第二组令牌和一组时序合并令牌进行拼接,得到第三组令牌;将第三组令牌输入第二变换器块,得到第二变换器块输出的第四组令牌。本发明提供的基于时空令牌合并的视频处理方法,解决了相关技术中的基于时空令牌合并的视频处理方法,存在视频信息容易丢失且处理性能有限的技术问题。
-
-
-