一种基于细粒度锚点指导的语义信息融合网络

    公开(公告)号:CN118862962A

    公开(公告)日:2024-10-29

    申请号:CN202410911685.9

    申请日:2024-07-09

    Abstract: 本发明致力于解决复杂背景下的人与物体交互检测难题。本发明对基于多尺度上下文聚合的多重关系复用网络进行了改进,具体技术方案包括:空间感知合并模块、人体姿态融合模块以及细粒度锚点解码。针对空间感知合并模块,它充分利用了编码后多尺度特征中包含的空间结构和层级信息,通过与内容嵌入的深度融合与对齐,确保模型能够精确捕捉不同空间层级间的关联及交互细节。针对人体姿态融合模块,本发明引入人体姿态信息作为交互意图的补充表示,使模型自适应学习并关注关键的人体关节特征而无需额外标注。针对细粒度锚点解码,细粒度锚点作为位置先验,引导解码器关注特定的兴趣区域,并直接将语义信息融入内容嵌入中,后者用于预测HOI实例。

    一种多尺度可变形的人物交互关系检测方法

    公开(公告)号:CN117372706A

    公开(公告)日:2024-01-09

    申请号:CN202310846089.2

    申请日:2023-07-11

    Abstract: 本发明涉及图像理解领域中的中的人物交互关系检测领域,是一种多尺度可变形的人物交互关系检测方法。目前基于Transformer的算法由于缺少多尺度特征,难以准确地从高分辨率特征图中识别小目标,进而影响人物交互关系的预测,多尺度特征的加入虽然可以为人物交互关系检测算法提供新的特征,但是特征的增加也会导致复杂度的急剧增加。为解决上述问题,本发明提出了一种基于QPIC算法改进的人物交互关系检测算法,具体过程为:一:本发明使用Swin Transformer网络增强特征提取能力。二:引入多尺度特征提升了识别准确率。三:将特征向量通过多尺度可变形的注意力模块进行初步编码,采样特征最为显著的特征点,使算法轻量化从而降低计算复杂度。

    一种基于共同注意力机制的图像描述生成方法

    公开(公告)号:CN116452688A

    公开(公告)日:2023-07-18

    申请号:CN202310334196.7

    申请日:2023-03-31

    Abstract: 本发明公开了一种基于共同注意力机制的图像描述生成方法。该发明在图像描述算法的语义对齐上具有一定的有效性。针对生成描述与图像中区域不对齐问题,在编码器‑解码器框架中加入了先知注意力机制,先知注意力机制能够根据未来时间步骤的信息,动态地关注图像区域;针对图像描述中语义一致性的问题,通过在判别器中引入共同注意力机制,引入对抗学习的思想,训练生成器与判别器,以对生成的图像描述进行分类,从而提高其语义一致性。基于共同注意力机制的图像描述算法模型能够精准的生成符合图像内容的描述,且基于生成对抗网络生成语言多样化的图像描述。

    一种融合局部和全局特征的图像语义理解算法

    公开(公告)号:CN114708474A

    公开(公告)日:2022-07-05

    申请号:CN202210244292.8

    申请日:2022-03-14

    Abstract: 本发明属于图像描述领域,具体为一种融合局部和全局特征的图像语义理解方法。图像中包含丰富的语义信息,包括图像中的目标、目标的属性以及不同目标之间的相互关系等,传统的目标检测、图像分割等技术并不能达到挖掘所有这些信息的目的,给图片生成文字描述的图像语义理解算法可以深入挖掘图片中的各种语义信息,对于理解图片的内容,缩减图片和文字之间的“语义鸿沟”具有重大意义。当前的图像语义理解算法依赖于计算机视觉和自然语言处理技术的发展,主要使用在机器翻译领域流行的编解码框架,其中编码器提取图像特征,解码器将提取的图像特征翻译成文字描述。然而当前的编码器大多采用基于目标检测的方法,这样往往会丢失图像背景和一些细节信息,使得描述效果不够理想。因此本发明对基于编解码框架的的图像语义理解算法进行了相应改进,提高编码器提取图像特征的能力,从而使得生成的描述语句更加准确。

    一种基于fasttext的垃圾信息识别方法

    公开(公告)号:CN114385796A

    公开(公告)日:2022-04-22

    申请号:CN202111471317.X

    申请日:2021-12-04

    Abstract: 本发明公开了一种基于fasttext的垃圾信息识别方法,本发明涉及自然语言处理和机器学习领域,结合TF‑IDF算法和fasttext算法,形成新的TF‑fasttext算法提供了对垃圾信息识别的效率。本发明对传统的fasttext算法进行了三个方面的优化。首先将TF‑IDF算法进行改进,将同类文本和不同文本之间的关系考虑进去,引入参数类频,来代表特征词在某类中出现的次数。其次将改进后的TF‑IDF算法与n‑gram模型结合,形成新的TF‑IDF‑N算法对n‑gram操作后的词进行特征筛选,根据特征词权重保留高区分度的词,去掉低区分度的词。从而消减了fasttext模型的噪声数据,保留更具代表性的特征词序列。最后在fasttext算法的输出层用层次softmax函数提升了模型判断的精度,而且缩短了样本训练的时间。

Patent Agency Ranking