-
公开(公告)号:CN118734857A
公开(公告)日:2024-10-01
申请号:CN202410552569.2
申请日:2024-05-07
Applicant: 北京理工大学 , 中国科学院自动化研究所
IPC: G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/084 , G06F40/211 , G06N3/0442 , G06V10/764 , G06V10/82 , G06V10/25 , G06N3/048
Abstract: 本发明涉及一种连贯性增强的图像段落语义描述方法,属于自然语言处理与计算机视觉技术领域。首先利用预训练的视觉模型提取图像中显著物体的特征向量。其次,在视觉信息增强中,先通过聚合层将特征向量的数量聚合为句子描述的数量,实现视觉特征向量直接和句子描述对齐,再通过投影层将特征向量投影到描述生成空间中。再次,利用融合门机制融合上一句已生成描述的语义向量和投影后的特征向量。最后,构建句子级损失和单词级损失,利用梯度下降方法更新模型参数。本发明有效提升了图像段落语义描述的连贯性,弥补了基于传统图像段落语义描述模型导致的段落文本不连贯、缺失图像细节等问题,为进一步提升图像段落语义描述系统性能提供了指导和参考。
-
公开(公告)号:CN112257605A
公开(公告)日:2021-01-22
申请号:CN202011146504.6
申请日:2020-10-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。
-
公开(公告)号:CN112257605B
公开(公告)日:2021-07-23
申请号:CN202011146504.6
申请日:2020-10-23
Applicant: 中国科学院自动化研究所
Abstract: 本发明属于计算机视觉、模式识别和机器学习领域,具体涉及了一种基于自标注训练样本的三维目标检测方法、系统及装置,旨在解决真实带标签数据获取难度大、代价高,而虚拟数据训练的模型无法适应真实场景的问题。本发明包括:通过训练好的模型进行输入图像序列的三维目标检测,其中,模型训练方法包括:向CARLA模拟器中嵌入高质量的模型;通过基于激光雷达引导的采样算法对CARLA模拟器生成的点云数据样本进行增强;以三维目标检测器VoxelNet为基础,通过引入体素级别和锚点级别的领域自适应模块进行领域偏移的对齐,并且增加一致性约束来搭建领域自适应的三维目标检测器DA‑VoxelNet。本发明使得由虚拟数据训练的三维目标检测模型能够适应真实场景,检测效果好、精度高。
-
公开(公告)号:CN116563370A
公开(公告)日:2023-08-08
申请号:CN202310006472.7
申请日:2023-01-04
Applicant: 北京理工大学
Abstract: 本申请涉及基于单目计算机视觉的测距方法和测速方法。该基于单目计算机视觉的测距方法包括:获取待测距图像并使用基于目标检测的神经网络模型确定所述待测距图像中的待测距对象的边界框;基于所待测距图像中的所述待测距对象的边界框确定所述待测距对象的测距像素的坐标;对所述测距像素的坐标进行透视变换以获得所述测距像素的坐标在所述待测距图像对应的鸟瞰图上的变换坐标;确定所述鸟瞰图中的标尺比例;以及,基于所述变换坐标和所述标尺比例确定所述待测距对象的实际距离。这样,通过集成基于神经网络模型的对于源图像的目标检测和透视变换和/或坐标变换,能够获得准确的距离和速度测量结果。
-
-
-