一种基于知识共享的跨域命名实体识别方法

    公开(公告)号:CN119129599A

    公开(公告)日:2024-12-13

    申请号:CN202411369012.1

    申请日:2024-09-29

    Applicant: 河海大学

    Abstract: 本发明公开了一种基于知识共享的跨域命名实体识别方法,使用交叉自注意力编码器交换源领域与目标领域的查询矩阵,将嵌入向量转化为注意力向量,增加来自源领域任务的共享信息以提高模型性能;使用带有标签约束的最大均值差异度量源领域与目标领域的特征表示差异,计算具有相同标签的两个样本向量表示之间的总体最大均值差异,实现源领域与目标领域的特征交换,并共享源领域知识;在源领域与目标领域的条件随机场中计算两个领域标签概率的反向相对熵,用于衡量两个领域标签概率分布之间的距离,采用L2正则化约束两个域中标签概率的相对熵,使相同的标签间分布近似,获得相同的标签输出结果。本发明能够通过与文本标注丰富的通用领域(源领域)进行知识共享,实现在标注稀疏的特定领域中(目标领域)的命名实体识别,并具有较好的识别效果。

    一种基于细粒度注意力对齐的多模态代码搜索方法

    公开(公告)号:CN118673091A

    公开(公告)日:2024-09-20

    申请号:CN202410630129.4

    申请日:2024-05-21

    Applicant: 河海大学

    Abstract: 本发明公开一种基于细粒度注意力对齐的多模态代码搜索方法,通过构建新机制从文本和结构两种模态学习源代码和自然语言查询的丰富语义,使用多模态特征网络构建代码搜索模型,对不同模态特征采用不同的构造方式,充分地表达相应代码与文本的不同特征;同时在模型训练过程中采用细粒度对齐机制,将同模态特征进行分别对齐,从而利于代码实体和文本实体的匹配;在完成所有特征的构造后,使用余弦相似度函数计算给定查询与所有代码库中代码样本之间的相似度,以此对代码样本进行相似度排序。本发明摆脱了现有代码搜索领域对代码表示和特征提取的不充分性,能够较完全地利用不同模态特征所包含的信息进行代码表示和匹配,并具有较高的识别精度与较好的收敛性能。

Patent Agency Ranking