基于开放词汇表的场景图生成方法、系统、设备和介质

    公开(公告)号:CN119649381A

    公开(公告)日:2025-03-18

    申请号:CN202411779684.X

    申请日:2024-12-05

    Abstract: 本发明涉及一种基于开放词汇表的场景图生成方法、系统、设备和介质。方法包括:获取待处理的图像;将图像输入至场景图生成模型的目标检测网络,识别出图像中的各个实体,并生成各个实体对应的视觉嵌入;将各个实体和对应的视觉嵌入输入至场景图生成模型的关系提案网络,将输入的实体两两组合形成关系提案,并依据关系提案对应的实体及各自的视觉嵌入生成关系嵌入;将各个关系提案对应的关系嵌入和预生成的文本嵌入输入至场景图生成模型的层次预测器,预测出各个关系提案的关系类别;根据关系类别和关系提案中对应实体的实体类别,生成图像的场景图。本发明显著提升了模型在开放场景下的泛化性能和关系预测的准确性。

Patent Agency Ranking