-
公开(公告)号:CN113591529A
公开(公告)日:2021-11-02
申请号:CN202110200497.1
申请日:2021-02-23
Applicant: 腾讯科技(深圳)有限公司 , 中国人民大学
Abstract: 本申请涉及一种动作分割模型的处理方法、装置、计算机设备和存储介质,具体涉及人工智能的计算机视觉技术,包括:对样本视频的特征向量序列进行特征增强处理,得到增强特征序列;将增强特征序列中处于对数上下文内的增强特征向量,划分至多个对数上下文层级,根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列,并根据对数上下文特征序列与增强特征序列之间的相似度,预测各视频帧对应的边界分类结果;根据增强特征序列,预测各视频帧对应的动作分类结果;基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练,直至获得训练好的动作分割模型。本申请实施例提供的方案能够提高对动作边界附近视频帧进行动作分类的准确度。
-
公开(公告)号:CN113591529B
公开(公告)日:2025-04-04
申请号:CN202110200497.1
申请日:2021-02-23
Applicant: 腾讯科技(深圳)有限公司 , 中国人民大学
IPC: G06V20/40 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0442 , G06N3/0464 , G06N3/08
Abstract: 本申请涉及一种动作分割模型的处理方法、装置、计算机设备和存储介质,具体涉及人工智能的计算机视觉技术,包括:对样本视频的特征向量序列进行特征增强处理,得到增强特征序列;将增强特征序列中处于对数上下文内的增强特征向量,划分至多个对数上下文层级,根据划分至同一层级的增强特征向量获得样本视频对应的对数上下文特征序列,并根据对数上下文特征序列与增强特征序列之间的相似度,预测各视频帧对应的边界分类结果;根据增强特征序列,预测各视频帧对应的动作分类结果;基于各视频帧的动作类别标签、边界分类结果和动作分类结果更新模型参数后继续训练,直至获得训练好的动作分割模型。本申请实施例提供的方案能够提高对动作边界附近视频帧进行动作分类的准确度。
-
公开(公告)号:CN116980699A
公开(公告)日:2023-10-31
申请号:CN202310859976.3
申请日:2023-07-12
Applicant: 腾讯科技(深圳)有限公司
IPC: H04N21/4402 , H04N21/44 , H04N21/466 , H04N21/472 , H04N19/20
Abstract: 本申请实施例公开了一种数据处理方法、装置、设备及存储介质,该方法包括:获取视频数据,对视频数据进行视频上下文编码处理,得到视频记忆矩阵;对视频数据对应的视频剧情文本进行文本上下文编码处理,得到编码文本特征;基于视频记忆矩阵与编码文本特征之间的跨模态匹配关系以及至少两种文本划分粒度,对编码文本特征进行递进式解码,得到N个目标类文本实体分别对应的目标文本向量;N个目标文本向量用于预测N个目标类文本实体在视频数据中分别对应的剧情视频时间范围;视频剧情文本包含基于目标文本划分粒度所划分得到的N个目标类文本实体。采用本申请实施例,可以提高剧情时间区间预测的效率以及准确性。
-
公开(公告)号:CN113591527A
公开(公告)日:2021-11-02
申请号:CN202110049271.6
申请日:2021-01-14
Applicant: 腾讯科技(深圳)有限公司 , 复旦大学
Abstract: 本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种对象轨迹识别方法、装置、电子设备和存储介质,用以提高视频中对象重识别的准确率。其中,方法包括:对待识别视频进行镜头分割,获得多个视频片段,每个视频片段对应一个镜头;对获得的各视频片段进行对象检测,分别确定在各视频片段中检测到的各对象的检测框;将同一对象在同一视频片段不同视频帧中的各检测框连接,分别获得各视频片段中,各对象各自的追踪轨迹;针对各对象,将同一对象在不同视频片段内的追踪轨迹进行连接,获得待识别视频中各对象的运动轨迹。本申请结合视频的特性,将对象轨迹识别过程划分为对象检测,轨迹追踪和重识别这三个部分,提高了对象重识别的准确率。
-
公开(公告)号:CN114329062B
公开(公告)日:2025-03-14
申请号:CN202111676055.0
申请日:2021-12-31
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请涉及一种视频标注方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:对于训练视频集合中的训练视频,获取训练视频对应的训练三元组;训练三元组包括视频标识、训练标签以及训练关系;分别获取视频标识、第一训练关系以及训练标签各自对应的语义表达特征;将视频标识对应的语义表达特征和视频标识对应的内容提取特征输入融合模型,得到训练融合特征;基于训练融合特征以及第一训练关系对应的语义表达特征,确定预测标签特征;基于训练标签对应的语义表达特征和预测标签特征之间的差异,调整各个语义表达特征以及融合模型的模型参数,得到各个目标语义表达特征以及目标融合模型。采用本方法能够提高视频标注时标签多样性。
-
公开(公告)号:CN117274409A
公开(公告)日:2023-12-22
申请号:CN202211261936.0
申请日:2022-10-14
Applicant: 腾讯科技(深圳)有限公司 , 厦门大学
IPC: G06T11/00 , G06V10/25 , G06V10/40 , G06V10/74 , G06V10/764 , G06V10/774 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本申请提供一种场景图生成方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及图像处理技术领域;在本申请中,针对待识别图像,获得用于表征第一目标对象和第二目标对象之间关联关系的初始谓词,第一目标对象和第二目标对象均为待识别图像中的目标对象;基于至少一类参考谓词中每类参考谓词,分别确定与第一目标对象之间的第一上下文关联度、与第二目标对象之间的第二上下文关联度,与初始谓词之间的谓词相似度;基于第一上下文关联度、第二上下文关联度和谓词相似度,在至少一类参考谓词中,选取出目标谓词;基于第一目标对象、第二目标对象和目标谓词,生成场景图。准确确定出用于表征对象之间关联关系的谓词,提升场景图的准确性。
-
公开(公告)号:CN113763420A
公开(公告)日:2021-12-07
申请号:CN202110495900.8
申请日:2021-05-07
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明实施例公开了一种目标跟踪方法、系统及存储介质和终端设备,应用于基于人工智能的信息处理技术领域。目标跟踪系统会基于图像静态的外观特征对目标对象进行定位,即根据目标图片块和待处理帧图像的第一特征信息和第二特征信息,确定目标对象的第一候选位置信息;然后结合基于图像的运动特征对目标对象的定位,即根据参考帧图像和待处理帧图像的第一光流信息和第二光流信息及目标图片块的参考位置信息,确定目标对象的第二候选位置信息,进而根据第一候选位置信息和第二候选位置信息可以实现对目标对象的最终定位。这样通过图像的运动特征可以尽可能地抵消图像静态的外观特征在目标对象定位过程中的噪声,使得最终对目标对象的定位更准确。
-
公开(公告)号:CN117216374A
公开(公告)日:2023-12-12
申请号:CN202310375092.0
申请日:2023-03-29
Applicant: 腾讯科技(深圳)有限公司 , 中国科学院自动化研究所
IPC: G06F16/9535 , G06F16/958 , G06F16/583 , G06V10/40 , G06V10/74 , G06F18/22 , G06F18/214 , G06F16/335 , G06F18/25 , G06F40/205 , G06F40/30 , G06V10/80
Abstract: 本申请实施例公开了内容推荐方法、装置、计算机可读存储介质和计算机设备;通过预设内容推荐模型在图像样本中提取第一视觉特征,在查询文本样本中提取查询文本词特征;基于第一视觉特征和查询文本词特征计算图像样本和查询文本样本的相似度,基于相似度确定第一损失信息;获取缺陷文本样本,在缺陷文本样本中提取缺陷文本词特征,获取图像样本的第二视觉特征;根据第二视觉特征和缺陷文本词特征预测缺陷词,并预测缺陷词的修正词;根据缺陷文本的缺陷词、修正词以及查询文本样本确定第二损失信息;基于第一损失信息和第二损失信息对预设内容推荐模型进行收敛处理;通过训练后内容推荐模型对查询文本进行内容推荐处理。以此,提升内容推荐准确性。
-
公开(公告)号:CN116958323A
公开(公告)日:2023-10-27
申请号:CN202310820471.6
申请日:2023-07-05
Applicant: 腾讯科技(深圳)有限公司
IPC: G06T11/60 , G06F40/126 , G06F40/30 , G06T3/00
Abstract: 本申请提供了一种基于人工智能的图像生成方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:获取内容文本,并获取具有目标风格的风格图像;对所述内容文本进行文本编码处理,得到内容文本的内容文本编码,并从所述风格图像中提取风格编码;基于对应所述风格编码以及所述内容文本编码的双路交叉注意力机制,对噪声图像进行逆扩散处理,得到目标图像;其中,所述目标图像与所述内容文本的内容匹配,且所述目标图像具有所述目标风格。通过本申请,能够高效生成兼具指定语义以及参考风格的图像。
-
公开(公告)号:CN117218461A
公开(公告)日:2023-12-12
申请号:CN202311039628.8
申请日:2023-08-16
Applicant: 腾讯科技(深圳)有限公司 , 厦门大学
IPC: G06V10/77 , G06V10/74 , G06V10/764 , G06V10/774 , G06N3/09
Abstract: 本申请公开一种基于图像的视觉关系检测方法及相关装置,将待测图像输入对象检测器进行对象检测,输出多个待测对象和其对应的多个第一对象视觉特征;对象检测器由样本图像和跨模态预训练模型中图像编码器知识蒸馏得到。将两个待测对象形成的待测对象组对应的第一对象视觉特征输入特征提取网络进行关系特征提取,输出第一关系视觉特征;将待测对象组对应的待测对象文本对输入语义编码器,基于多个样本视觉关系和新增视觉关系进行关系语义编码,输出多个第一关系语义特征;语义编码器属于跨模态预训练模型在训练时参数处于冻结状态。通过分类检测器对多个第一关系语义特征分别与第一关系视觉特征进行相似度检测,确定待测对象组对应的目标视觉关系。
-
-
-
-
-
-
-
-
-