-
公开(公告)号:CN116563370A
公开(公告)日:2023-08-08
申请号:CN202310006472.7
申请日:2023-01-04
Applicant: 北京理工大学
Abstract: 本申请涉及基于单目计算机视觉的测距方法和测速方法。该基于单目计算机视觉的测距方法包括:获取待测距图像并使用基于目标检测的神经网络模型确定所述待测距图像中的待测距对象的边界框;基于所待测距图像中的所述待测距对象的边界框确定所述待测距对象的测距像素的坐标;对所述测距像素的坐标进行透视变换以获得所述测距像素的坐标在所述待测距图像对应的鸟瞰图上的变换坐标;确定所述鸟瞰图中的标尺比例;以及,基于所述变换坐标和所述标尺比例确定所述待测距对象的实际距离。这样,通过集成基于神经网络模型的对于源图像的目标检测和透视变换和/或坐标变换,能够获得准确的距离和速度测量结果。
-
公开(公告)号:CN118734857A
公开(公告)日:2024-10-01
申请号:CN202410552569.2
申请日:2024-05-07
Applicant: 北京理工大学 , 中国科学院自动化研究所
IPC: G06F40/30 , G06F18/25 , G06N3/0464 , G06N3/084 , G06F40/211 , G06N3/0442 , G06V10/764 , G06V10/82 , G06V10/25 , G06N3/048
Abstract: 本发明涉及一种连贯性增强的图像段落语义描述方法,属于自然语言处理与计算机视觉技术领域。首先利用预训练的视觉模型提取图像中显著物体的特征向量。其次,在视觉信息增强中,先通过聚合层将特征向量的数量聚合为句子描述的数量,实现视觉特征向量直接和句子描述对齐,再通过投影层将特征向量投影到描述生成空间中。再次,利用融合门机制融合上一句已生成描述的语义向量和投影后的特征向量。最后,构建句子级损失和单词级损失,利用梯度下降方法更新模型参数。本发明有效提升了图像段落语义描述的连贯性,弥补了基于传统图像段落语义描述模型导致的段落文本不连贯、缺失图像细节等问题,为进一步提升图像段落语义描述系统性能提供了指导和参考。
-