基于多模态大模型的电子数据图像文字问答指令生成方法

    公开(公告)号:CN119169641A

    公开(公告)日:2024-12-20

    申请号:CN202411271335.7

    申请日:2024-09-11

    Abstract: 本发明涉及自然语言处理技术领域,提供了一种基于多模态大模型的电子数据图像文字问答指令生成方法。方法包括:用多模态大模型对图像的文字进行提取得到文字内容;令多模态大模型对文字信息进行自问答,生成问题和回答;令多模态大模型对问题进行二次回答,并生成回答依据;令多模态大模型判断问答对是否与文字信息相关,将不相关的问答对记为无效;对问答对进行一致性检验;若问题答案前后不一致,将问答对记为无效,删除无效的问答对。本发明使用多模态大模型来自动化地生成大规模、高质量的图像文字问答数据,从而弥补当前以文字为中心的图像问答指令微调数据数量不足、质量较低的现状,且全流程不需要人工标注,节省了大量的人力与时间成本。

    一种三维目标检测方法、装置及系统

    公开(公告)号:CN118918577A

    公开(公告)日:2024-11-08

    申请号:CN202410935345.X

    申请日:2024-07-12

    Abstract: 本发明涉及一种三维目标检测方法、装置及系统。其方法部分主要包括:将初始三维体素特征按照基于窗口的三维体素划分方式进行划分,得到第一阶段的三维体素特征;将第一阶段的三维体素特征通过三维描述子进行局部的特征提取,得到第二阶段的三维体素特征;将第二阶段的三维体素特征通过扩散和合并来进行特征生成,得到第三阶段的三维体素特征;将第三阶段的三维体素特征经过基于窗口划分和线性分组循环神经网络的骨干网络进行特征提取,得到第四阶段的三维体素特征;将第四阶段的三维体素特征通过鸟瞰图骨干网络和检测头进行处理,得到最终的检测结果。本发明在三维目标检测任务中表现出更优异的性能,为该领域提供了新的理论和技术支持。

    基于多尺度信息的联机签名快速检索方法与装置

    公开(公告)号:CN118072327A

    公开(公告)日:2024-05-24

    申请号:CN202311742665.5

    申请日:2023-12-15

    Abstract: 本发明公开了一种基于多尺度信息的联机签名快速检索方法,其方法包括:首先使用合成数据对训练数据集进行扩充;其次在签名时间序列进行数据预处理和数据增强,提取有利于身份辨别的时间函数;然后采用基于多尺度融合的神经网络提取和对齐签名特征,将这些特征映射到共同的空间之中,使用三元组损失对模型进行优化;利用已登记签名建立特征向量库,在验证新签名身份时,使用近似最近邻搜索方法快速搜索并验证其身份。本发明为大规模签名认证数据库的快速检索问题提供了一种有效解决方案。本发明还提供了相应的基于多尺度信息的联机签名快速检索装置。

    基于自监督异构网络的工业场景未知类型缺陷分割方法

    公开(公告)号:CN114742799B

    公开(公告)日:2024-04-26

    申请号:CN202210401019.1

    申请日:2022-04-18

    Abstract: 本发明公开一种基于自监督异构网络的工业场景未知类型缺陷分割方法:准备大型预训练网络并固定参数,作为教师网络;构建异构学生网络,由异构特征编码模块、特征融合模块和分割模块组成;训练异构学生网络,将合成异常图像输入至教师和异构学生网络中,一方面,约束学生网络在合成图像的正常区域提取的多尺度特征与教师网络相应尺度特征相似,另一方面,约束分割模块产生的分割概率图准确回归合成的异常区域;测试阶段通过教师和异构学生网络提取的相应尺度的特征图的差异和分割概率图得到异常得分图,设置合适的阈值二值化得到异常分割图。本发明通过对特征编码模块的相关设计和自监督的引入,实现了对图像异常区域的精确分割。

    基于分类模型的甲骨文辅助破译分类方法及系统

    公开(公告)号:CN117315686A

    公开(公告)日:2023-12-29

    申请号:CN202311287573.2

    申请日:2023-10-07

    Abstract: 本发明公开了一种基于分类模型的甲骨文辅助破译分类方法,该方法包括:获取数据源,并基于所述数据源进行数据集的划分;训练分类模型,其中包括:将训练集输入训练模型中训练,在训练过程中,对训练集每一组图像中不同时期汉字图像进行特征系数加权;每轮训练结束后,输出由验证集得到的模型性能评估参数,根据这些参数的优劣筛选得到的分类模型;所有训练结束后,将测试集中的图片去除标签作为未破译甲骨文置于所述分类模型中进行预测,输出预测正确率高于预设数值的结果;基于分类模型,进行未破译甲骨文的分类和辅助破译。本方法方便地实现了甲骨文辅助破译的分类范式。本发明还提供了相应的基于分类模型的甲骨文辅助破译分类系统。

    基于视觉Transformer的弱-半监督三维点云目标检测方法与装置

    公开(公告)号:CN117115804A

    公开(公告)日:2023-11-24

    申请号:CN202311078304.5

    申请日:2023-08-23

    Abstract: 本发明涉及一种基于视觉Transformer的弱‑半监督三维点云目标检测方法:获取数据集的物体级标注数据,并在标注框内选取伪标注点;训练一个点到框的转换器,将点云场景和所选取的伪标注点编码为tokens,使用一个视觉Transformer的编码器将场景tokens和标注tokens进行交互,训练并优化生成伪标注框的质量;获取点级别标注数据,使用上一步骤训练的视觉Transformer推理并得到伪标注框数据;在物体级标注和由点级标注生成的伪标注框上训练已有的室外或室内三维点云目标检测方法;利用训练好的模型进行三维目标检测。本发明通过减少数据集的标注量,只标注少量物体级标注和剩余点级别标注,得到与100%全标注数据相近的性能。本发明还提供相应的基于视觉Transformer的弱‑半监督三维点云目标检测装置。

    一种基于边界点检测的场景文本端到端识别方法

    公开(公告)号:CN110837835B

    公开(公告)日:2022-11-08

    申请号:CN201911038568.1

    申请日:2019-10-29

    Abstract: 本发明公开了一种基于边界点检测的场景文本端到端识别方法,通过特征金字塔网络提取文本特征,用于区域提取网络生成候选文本框;然后通过多方向矩形检测网络检测文本实例的更为精准的多方向包围盒;其次在多方向包围盒内检测文本的上下两条边界点序列;最后利用检测到的边界点序列将任意形状的文本转化为水平文本供后续的基于注意力机制的序列识别网络进行识别,最后利用集束搜索算法找到给定词典中预测序列的最匹配单词得到最终的文本识别结果。该方法可以在不需要字符级别的标注情况下同时检测和识别自然图像中任意形状的场景文本,包括水平文本、多方向文本和曲形文本,并且可以完全地进行端到端训练。

    基于边界细节补偿和相似特征强化的实时道路检测方法

    公开(公告)号:CN112712011B

    公开(公告)日:2022-05-06

    申请号:CN202011583490.4

    申请日:2020-12-28

    Abstract: 本发明公开了一种基于边界细节补偿和相似特征强化的实时道路检测方法,包括:采用多尺度图像特征提取器对单目相机采集的单帧图像进行多尺度图像特征提取;采用边界细节补偿模块对提取的多尺度图像特征进行融合,得到道路边界细节补偿后的高层语义图像特征;采用相似特征强化模块对得到的道路边界细节补偿后的高层语义图像特征进行基于相似度的局部特征聚合;道路检测,采用第一分类器基于输出的强化图像特征图,输出所述单帧图像场景中的道路检测结果。该方法通过边界细节补偿模块和相似特征强化模块,解决了轻量级特征提取器道路边界预测不准确和在复杂场景条件下易产生道路误检和漏检的问题,提高了道路检测网络的实时性、鲁棒性和准确性。

    一种基于蒸馏比较的异常物体分割方法

    公开(公告)号:CN114170599A

    公开(公告)日:2022-03-11

    申请号:CN202111523499.0

    申请日:2021-12-14

    Abstract: 本发明公开了一种基于蒸馏比较的异常物体分割方法:在无异常训练集上,训练一个语义分割网络,移除语义分类头后作为教师分支;固定教师分支参数,利用语义特征分布蒸馏获得与教师分支结构相似的学生分支。两分支的输出在正常类上保持一致,在异常类上不一致。输入带异常测试图像,两分支分别对图像进行多尺度特征提取和聚合,提取的语义特征逐位置进行比较得到异常分数图,异常分数图双线性插值取阈值将图像中的所有像素划分为正常和异常两类。本方法引入了一种全新的简单灵活的蒸馏比较网络来进行异常物体分割,在推理阶段没有利用语义分类头的结果,大幅减少了对语义分割错误的正常类别像素的误判,实现了更准确的异常物体分割。

Patent Agency Ranking