一种基于标签提示的命名实体识别方法、装置及介质

    公开(公告)号:CN116595979A

    公开(公告)日:2023-08-15

    申请号:CN202310374346.7

    申请日:2023-04-07

    Inventor: 苏锦钿 洪瑜

    Abstract: 本发明公开了一种基于标签提示的命名实体识别方法、装置及介质,其中方法包括:通过标签提示生成器生成每类实体对应的标签提示;根据输入文本获取分词序列和分词序列所对应的隐藏层表示;筛选可能组成实体的跨度,获得每段跨度的表示;将跨度的表示和所有的标签提示进行融合,获得编码表示,将编码表示与原本的跨度编码表示进行拼接,得到跨度相对于所有标签的最终表示;将跨度相对于每种标签的表示进行分类,获取跨度相对于各类标签的概率分数;对概率分数大于分类阈值的跨度,将该跨度内的所有分词进行转化,获得最终的目标实体。本发明通过生成标签的提示信息,避免人工设计标签知识所消耗的时间和精力,可应用于神经网络和自然语言处理领域。

    一种基于RoBERTa和启发式算法的实体链接方法

    公开(公告)号:CN111125380B

    公开(公告)日:2023-04-21

    申请号:CN201911393144.7

    申请日:2019-12-30

    Abstract: 本发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。

    一种基于RoBERTa和启发式算法的实体链接方法

    公开(公告)号:CN111125380A

    公开(公告)日:2020-05-08

    申请号:CN201911393144.7

    申请日:2019-12-30

    Abstract: 本发明公开的一种基于RoBERTa和启发式算法的实体链接方法,包含以下步骤:使用基于预训练语言模型RoBERTa的序列标注模型对问题进行标注,RoBERTa模型通过堆叠12层transformer结构以获取问题中多层次的语法语义信息;而transformer中通过多头注意力机制获取问题中每个单词基于上下文的动态表示,进而获取问题中的实体提及范围;获得实体提及范围后,使用一个启发式算法,直接将该实体提及与知识库实体进行匹配,完成实体链接。本发明可以应用到各种知识库问答的场景当中,为许多应高级用提供底层基础服务。

    一种自动生成文本索引的图像检索方法

    公开(公告)号:CN108509521B

    公开(公告)日:2020-02-18

    申请号:CN201810198490.9

    申请日:2018-03-12

    Inventor: 吴良超 苏锦钿

    Abstract: 本发明公开了一种自动生成文本索引的图像检索方法,步骤如下:(1)训练自动标注模型,首先通过模型的CNN部分提取图像特征,将特征和图像的描述词作为模型的RNN部分的输入,并以交叉熵损失函数为目标函数进行反向传播;(2)为图像生成文本索引,经过训练得到自动标注模型和词典,对于未标注的图像,通过自动标注模型为其生成描述词序列以及各个词对应的置信度,对置信度进行归一化后,两者共同作为图像的文本索引,用于构建图像检索索引;(3)当查询关键词不在词典中,通过近义词查询词库找到关键词在词典中的近义词;(4)根据关键词或其近义词在图像检索索引中找到相应图像,按照置信度从高到低依次返回。

    一种结合动态词嵌入和词性标注的文本分类方法

    公开(公告)号:CN107291795A

    公开(公告)日:2017-10-24

    申请号:CN201710303328.4

    申请日:2017-05-03

    Abstract: 本发明公开了一种结合动态词嵌入和词性标注的文本分类方法,通过结合动态词嵌入和词性标注给出一种基于深层神经网络的文本分类方法,既能够充分利用大规模语料库可提供更准确的语法和语义信息的优点,又能够在模型训练过程中结合语料库的特点对词嵌入进行调整,从而更好地学习训练语料库的特点。同时,还可以结合句子中词的词性信息进一步提高分类的准确率。本方法还综合利用了LSTM在学习句子中词及词性的上下文信息方面的优势,以及CNN在学习文本局部特征方面的优势。本发明所提出的分类模型具有准确率高和通用性强等优点,在一些著名的公开语料库,包括IMDB语料库、Movie Review和TREC等,均取得很好的效果。

Patent Agency Ranking