-
公开(公告)号:CN118279978A
公开(公告)日:2024-07-02
申请号:CN202410235055.4
申请日:2024-03-01
Applicant: 同济大学
IPC: G06V40/20 , G06V10/42 , G06V10/44 , G06V10/764 , G06V10/82 , G06V10/80 , G06V20/70 , G06N3/045 , G06N3/0455 , G06N3/0499 , G06N3/084
Abstract: 本发明公开了基于特征增强重组样本学习的交互动作识别方法及系统,包括:识别过程中,采集一张待识别图像,通过特征提取网络和Transformer编码器提取全局特征,通过两个Transformer解码器分别提取得到人‑物特征和交互动作特征,生成人‑物交互预测;训练过程中,选取一对包含语义相似的物体类别的待识别图像,选取其与正确标签最匹配的预测对应的人‑物特征和交互动作特征,通过交互动作解码器融合为重组交互动作特征,并生成重组人‑物交互预测,将原始样本的人‑物交互正确标签重组为重组样本的正确标签,计算原始样本和重组样本的损失函数值,加权求和得到本批样本的损失函数值。本发明增强了重组交互动作特征的表征能力与可泛化性,促进了人‑物交互视觉特征的学习,提升了识别准确性,尤其对于样本数量极少的人‑物交互类别。
-
公开(公告)号:CN118552708A
公开(公告)日:2024-08-27
申请号:CN202410511462.3
申请日:2024-04-25
Applicant: 同济大学
Abstract: 本案涉及基于多模态大模型的通用视觉关系识别检测方法,属于计算机视觉、视觉关系识别领域,用于解决目前视觉关系识别检测任务中,各细分任务的专家模型缺乏通用性、灵活性和语言理解能力的问题。本方案将多模态大模型经构造的数据样本训练后,能够应用于不同视觉关系识别检测任务和不同数据集,无需针对某一任务或数据集进行专门的架构调整或精调。并且,本案多模态大模型具有一定的对话能力,能够直接有效地利用大模型的语言模态信息及其所具有的语言和知识推理能力,根据用户回答调整任务目的和输出形式,能够灵活兼容视觉关系指代等更多任务形式。
-
公开(公告)号:CN118227812A
公开(公告)日:2024-06-21
申请号:CN202410167213.7
申请日:2024-02-05
Applicant: 同济大学
IPC: G06F16/53 , G06F16/55 , G06F16/583 , G06V10/82 , G06V10/764 , G06V10/44 , G06V10/80 , G06N3/0464 , G06N3/09
Abstract: 本案涉及基于标签修正的三维模型草图检索系统及方法,用于解决草图数据因存在标签噪声而影响检索准确度的问题。在检索时,利用训练好的三维提取网络获取三维模型的三维特征构建检索数据库,利用训练好的草图提取网络提取待检索草图的草图特征用于检索,从而实现利用草图检索三维模型。其中,草图提取网络在训练时,基于草图样本分类空间进行噪声判定并将噪声样本对应标签进行修正,降低噪声样本对模型训练的干扰,提高模型对相似草图的辨识度。训练好的草图提取网络获得的草图样本各分类的类中心向量集合,作为草图样本和对应的三维模型样本的公共特征空间,用于三维提取网络的迁移学习,从而提高用草图检索三维模型的准确性。
-
-