-
公开(公告)号:CN117853967A
公开(公告)日:2024-04-09
申请号:CN202311682497.5
申请日:2023-12-06
Applicant: 中国科学院深圳先进技术研究院 , 上海人工智能创新中心
IPC: G06V20/40 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/088
Abstract: 本申请实施例提供了一种行为识别方法、装置、电子设备及存储介质,涉及行为识别技术领域。其中,该行为识别方法包括:获取待识别视频及对应的视频标签;对所述待识别视频对应的视频标签进行相应领域场景下的拓展性描述,生成所述待识别视频对应的至少一个拓展文本;根据所述待识别视频、以及对应的视频标签和至少一个拓展文本,对所述待识别视频中的行为进行类别预测,得到第一预测向量和至少一个第二预测向量;将所述第一预测向量和各所述第二预测向量进行融合,生成所述待识别视频的行为识别结果;所述行为识别结果用于指示所述待识别视频中行为的类别。本申请实施例解决了相关技术中视频行为识别鲁棒性差,准确度低的问题。
-
公开(公告)号:CN113781321B
公开(公告)日:2024-03-12
申请号:CN202110883140.8
申请日:2021-08-02
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本申请提供一种图像高亮区域的信息补偿方法、装置、设备及存储介质,涉及图像处理技术领域。图像高亮区域的信息补偿方法包括:获取待处理图像的过曝掩模图像和初始优化图像,过曝掩模图像用于指示待处理图像的高亮区域;根据初始优化图像获取全局曝光信息;根据过曝掩模图像和全局曝光信息确定高亮区域的过曝光信息;利用过曝光信息对初始优化图像的高亮区域进行补偿,得到初始优化图像的补偿图像。本申请提供的图像高亮区域的信息补偿方法可以解决图像优化处理任务中图像的高亮区域内容丢失的问题。
-
公开(公告)号:CN111325237B
公开(公告)日:2024-01-05
申请号:CN202010070791.0
申请日:2020-01-21
Applicant: 中国科学院深圳先进技术研究院
IPC: G06V10/764 , G06V10/82 , G06V10/40 , G06V10/774 , G06N3/0464 , G06N3/047 , G06N3/048 , G06N3/08
Abstract: 本发明提供一种基于注意力交互机制的图像识别方法,利用预训练的图像识别模型获得待测图片的分类,其中图像识别模型的训练过程包括:对于N种图像类别的每一类,选择K张图片输入到卷积神经网络进行特征提取,获得多个图像特征;依据不同图像特征之间的相似度组建图像特征对;对于所组建的图像特征对通过共有特征学习提取出共有特征向量;基于共有特征向量计算图像特征对中各特征对应的门特征向量;将图像特征对中的各特征与门特征向量组合后的特征输入到分类器,并根据设置的损失函数进行优化,获得经训练的卷积神经网络和分类器。本发明能够提高图像识别的准确率,尤其适用于细粒度图像识别。
-
公开(公告)号:CN111488873B
公开(公告)日:2023-10-24
申请号:CN202010260170.9
申请日:2020-04-03
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明公开了一种基于弱监督学习的字符级场景文字检测方法与装置。该方法包括:对于自然场景下的文字图像和裁剪后的文字区域图像,使用第一模型对裁剪后的文字区域图像进行强监督训练和弱监督训练,使用第二模型对自然场景下的文字图像进行强监督训练和弱监督训练,其中在弱监督训练过程中,第一模型在单词级或者文本行级的文字图像中预测字符框,以生成自然场景下的文字图像对应的假的字符热图和连接热图,提供给第二模型作为训练的监督。利用本发明能够更准确地进行文字检测。
-
公开(公告)号:CN116824195A
公开(公告)日:2023-09-29
申请号:CN202210259893.6
申请日:2022-03-16
Applicant: 中国科学院深圳先进技术研究院
IPC: G06V10/764 , G06V10/82 , G06V20/40 , G06N3/0464 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种长尾视频动作分类方法、装置、设备和存储介质。该方法包括:获取待分类视频中每帧图像的帧级别特征;根据所述每帧图像的帧级别特征对所述待分类视频中的帧图像进行分组,得到至少两组帧图像集合;将所述至少两组帧图像集合中每帧图像的帧级别特征输入目标分类模型,得到所述至少两组帧图像集合中每帧图像的分类分数;根据所述至少两组帧图像集合中每帧图像的分类分数确定所述待分类视频的分类分数。本发明实施例通过长尾视频动作分类方法,在模型基础能力较弱以及面临特别多类别的长尾数据时,引导模型对不同样本量级的类分组加以训练,使之互不干扰,从而提升整体精度。
-
公开(公告)号:CN113158822B
公开(公告)日:2023-09-29
申请号:CN202110336212.7
申请日:2021-03-29
Applicant: 中国科学院深圳先进技术研究院 , 中山大学中山眼科中心
IPC: G06V40/16 , G06V10/764 , G06V10/82 , G06N3/0464 , G06N3/048 , G06N3/08
Abstract: 本申请适用于人工智能技术领域,提供了基于跨模态关系推理的眼部检测数据的分类方法及装置,包括:获取视野VF数据和视盘数据;将VF数据和视盘数据输入已训练的卷积神经网络模型,得到VF数据和视盘数据对应的分类结果,其中,卷积神经网络模型对VF数据和视盘数据的处理过程包括:分别提取VF数据和视盘数据的数据特征,得到VF数据特征和视盘数据特征,对VF数据特征和视盘数据特征进行联合处理,得到VF数据的增强特征和视盘数据的增强特征,将VF数据的增强特征和视盘数据的增强特征进行特征融合,得到融合特征,将融合特征进行分类,得到分类结果。通过上述方法,能够得到更准确的分类结果。
-
公开(公告)号:CN116758202A
公开(公告)日:2023-09-15
申请号:CN202310321253.8
申请日:2023-03-23
Applicant: 中国科学院深圳先进技术研究院
IPC: G06T15/04 , G06T15/08 , G06T5/50 , G06T5/00 , G06T17/20 , G06T7/62 , G06V40/10 , G06V10/82 , G06N3/0464 , G06N3/0895
Abstract: 本申请公开了一种人手图像合成方法、装置、电子设备及存储介质,属于人工智能技术领域,该方法包括:获取人手图像序列,人手图像序列包括多帧人手图像,每帧人手图像是针对人手进行不同视角的拍摄得到的;计算各帧人手图像的姿态参数和形状参数,并根据姿态参数和形状参数通过参数化网格模型估计人手的三维网格;基于人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到人手在各人手图像中的体积表达分布;根据人手在各人手图像中的体积表达分布进行图像渲染,得到人手的合成图像。本申请提供的人手图像合成方法,可以驱动生成新姿态,渲染出的人手合成图像具有高保真度、清晰逼真的特点。
-
公开(公告)号:CN111950591B
公开(公告)日:2023-09-01
申请号:CN202010659501.6
申请日:2020-07-09
Applicant: 中国科学院深圳先进技术研究院
IPC: G06V10/774 , G06V10/764 , G06V40/20
Abstract: 本申请提供一种模型训练方法、交互关系识别方法、装置及电子设备,涉及数据处理技术领域。该方法包括:提取图像样本集合中的每个样本图像的第一特征信息对;将从图像样本集合中提取的多个第一特征信息对中的第一对象信息和第二对象信息进行组合,得到多个第二特征信息对和对应的第二标签信息;根据训练样本集合进行模型训练,得到交互关系识别模型,该训练样本集合包括提取到的所有第一特征信息对和对应的第一标签信息,以及至少一个第二特征信息对和对应的第二标签信息,该交互关系识别模型用于识别图像中的各对象的交互关系。该方法通过组合不同对象特征的方式获取更多交互特征样本来训练模型,提高了模型对图像中交互关系的识别准确度。
-
公开(公告)号:CN116091984B
公开(公告)日:2023-07-18
申请号:CN202310383303.5
申请日:2023-04-12
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本发明实施例公开了一种视频目标分割方法及装置,所述方法包括:分别对视频中的各视频帧和对应的描述文本进行特征提取,得到各视频帧的视觉特征和文本特征;对各视频帧进行采样得到多个视频片段;基于文本特征和各视频片段中视频帧的视觉特征进行混合时间尺度下的多模态特征学习,分别在不同时间尺度上得到第一融合特征和第二融合特征;所述第一融合特征是指混入文本的视觉特征,所述第二融合特征是指混入视觉的文本特征;基于在不同时间尺度上得到的第一融合特征和第二融合特征进行视频的视觉语言感知,得到视频的目标分割结果。本发明解决了相关技术因忽略了视频中相同目标可以使用不同描述文本而导致视频目标分割准确率不高的问题。
-
公开(公告)号:CN113298728B
公开(公告)日:2023-01-24
申请号:CN202110557336.8
申请日:2021-05-21
Applicant: 中国科学院深圳先进技术研究院
Abstract: 本申请提供一种视频优化方法、装置、终端设备及存储介质,涉及深度学习技术领域,能够提高优化视频的连续性。该视频优化方法包括:利用已训练的特征提取网络分别提取待优化的视频帧序列中的M帧锚点帧的中间特征,视频帧序列包括N帧视频帧,M帧锚点帧包括视频帧序列的第1帧视频帧和第N帧视频帧;利用已训练的光流网络分别确定N‑M帧中间帧的正向光流参数和反向光流参数;根据N‑M帧中间帧的正向光流参数和反向光流参数,以及M帧锚点帧的中间特征,确定N‑M帧中间帧的中间特征;利用已训练的特征估计网络分别对视频帧序列的N帧视频帧的中间特征进行特征估计,得到N帧优化图像,N帧优化图像构成视频帧序列的优化视频。
-
-
-
-
-
-
-
-
-