基于特征提取与伪标签对比聚类分析方法、设备及介质

    公开(公告)号:CN119807779A

    公开(公告)日:2025-04-11

    申请号:CN202411827683.8

    申请日:2024-12-12

    Inventor: 苏锦钿 陈可悦

    Abstract: 本发明公开了一种基于特征提取与伪标签对比聚类分析方法,其中方法包括:获取英文文本序列后根据BERT分词器和BERT嵌入模块,将文本序列转换为满足BERT编码器要求的输入句子字符嵌入E;将字符嵌入E输入到包含浅层字符表征融合机制的BERT编码器模块进行字符向量建模,获得初始隐含向量H;将字符嵌入E和初始隐含向量H输入到Electra以及BERT模块中进行局部语义抽取,对字符的局部语义向量建模,获得局部语义向量空间;将向量空间中的隐含向量引入到伪标签对比聚类分析中,使用伪标签先对整体模型进行评价打分,使用对比学习进行聚类。本发明在原本的意图识别任务中取得更好的效果。本发明可广泛应用于意图识别领域。

    基于问答的多任务事件抽取方法及装置

    公开(公告)号:CN115563253A

    公开(公告)日:2023-01-03

    申请号:CN202211079899.1

    申请日:2022-09-05

    Inventor: 苏锦钿 李泽苗

    Abstract: 本发明公开了一种基于问答的多任务事件抽取方法及装置,其中方法包括:获取第一输入向量;将第一输入向量输入触发词抽取模型,获取触发词在原文本的位置信息;获取第二输入向量;将第二输入向量输入事件识别模型,筛选出触发词正确的事件样本,并获取事件样本所属的事件类型;根据能够引入触发词信息和事件类型的问题模板生成针对指定论元角色类型的问题,并获取第三输入向量;将第三输入向量输入论元角色抽取模型,筛选出触发词抽取和事件识别结果都正确的事件样本,并得到指定论元角色的论元位置。本发明通过引入辅助筛选任务,减少了误差传播对模型性能造成的负面影响。本发明可广泛应用于自然语言处理技术领域。

    一种基于输入共享的文本摘要生成方法

    公开(公告)号:CN114781356A

    公开(公告)日:2022-07-22

    申请号:CN202210248412.1

    申请日:2022-03-14

    Inventor: 苏锦钿 位慧泽

    Abstract: 本发明公开了一种基于输入共享的文本摘要生成方法。所述方法包括以下步骤:对文本进行计算得到句子,并将句子组合得到多个候选摘要文本,得到候选摘要数据集;得到模型输入序列,计算模型输入序列的注意力掩码矩阵;构建文本摘要生成模型,获取候选摘要文本对应的最终的候选摘要得分;使用候选摘要得分,以候选摘要文本的真实得分监督文本摘要生成模型的训练,得到训练好的文本摘要生成模型;获取待推理文本,进行预处理后输入训练好的文本摘要生成模型,选取候选摘要得分的候选摘要文本作为待推理文本的摘要文本。本发明能够减少输入到模型中的词数,在保留大部分生成效果的前提下,极大提高模型的训练速度与推理速度。

    应用在重复数据删除的基于内容分块方法、系统及介质

    公开(公告)号:CN114625316A

    公开(公告)日:2022-06-14

    申请号:CN202210128997.3

    申请日:2022-02-11

    Inventor: 苏锦钿 巢赟

    Abstract: 本发明公开了一种应用在重复数据删除的基于内容分块方法、系统及介质,其中方法包括:获取需分块存储的文件,将文件读取成字节流;在所述字节流上划分固定窗口,根据固定窗口更新极大值和极小值;在字节流上,采用多步长方式移动滑动窗口;比较滑动窗口中字节值与极大值和极小值之间的大小关系,判断是否满足切点条件,若满足,截断字节流,获得块;反之,返回移动滑动窗口;获取块的第一指纹值,根据所述第一指纹值对块进行存储;其中,存储系统中各块对应的指纹值不同。本发明基于内容分块,有效解决了字节偏移问题,实现了更高的重复数据删除率。本发明可广泛应用于备份系统、云存储系统以及文件增量同步等领域。

    文本细粒度情感分类方法、系统、装置及存储介质

    公开(公告)号:CN111914085A

    公开(公告)日:2020-11-10

    申请号:CN202010560649.4

    申请日:2020-06-18

    Abstract: 本发明公开了一种文本细粒度情感分类方法、系统、装置及存储介质,其中方法包括以下步骤:获取目标文本和属性词,对目标文本和属性词进行预处理,获得序列对;将序列对输入XLNet模型进行学习,并输出属性相关的词向量语义序列和全局特征表示;采用胶囊网络对词向量语义序列进行学习,获得包含局部特征及空间层次关系的局部特征表示;将全局特征表示和局部特征表示进行合并,获得目标文本的最终语义表示,根据最终语义表示对情感类别进行预测。本发明通过充分结合XLNet学习大规模文本的语义知识方面的优势,以及胶囊网络在学习文本序列的局部信息和空间结构信息方面的优势,提高情感分类的准确率,可广泛应用于自然语言处理领域。

    一种基于全文注意力机制的商品名称识别方法

    公开(公告)号:CN109062893A

    公开(公告)日:2018-12-21

    申请号:CN201810768223.0

    申请日:2018-07-13

    CPC classification number: G06F17/2775 G06F17/278 G06N3/084

    Abstract: 本发明公开了一种基于全文注意力机制的商品名称识别方法,包括:建立加入全文注意力机制的深度神经网络模型,在深度神经网络模型中加入全文注意力层,在全文注意力层当中,将全文的信息用词嵌入向量的方法来表示;接着,对于要标注的每一个词语,计算它们和全文注意力层词向量的相似性,从而让词语获得对全文的“注意力权重”,即让词语关注到文档的上下文信息,利用注意力权重和,计算出每一个词语的额外特征,用以进行商品名称的识别。本发明方法能够有效的从不规则的文本中提取出商品名,并解决了同一种商品在上下文识别不一致的问题,提高了识别的准确率。

    基于依存树和注意力机制的属性情感分类方法

    公开(公告)号:CN108399158A

    公开(公告)日:2018-08-14

    申请号:CN201810112653.7

    申请日:2018-02-05

    Abstract: 本发明公开了一种基于依存树和注意力机制的属性情感分类方法,基于整个文本的依存树分析结果,选择包含该给定属性的最小子树部分,把这部分子句作为该属性的上下文信息的表示;然后利用两个双向门限循环单元来对句子的上下文和属性的上下文进行建模,得到两个固定大小的特征表示矩阵,接下来则利用注意力机制来获取文本和特定属性的特征表示,最后利用多层感知机进行特定属性的情感极性分类。本发明提出的分类方法能够针对同一文本中的不同属性抽取不同的属性特征信息,分类准确率高。

    一种自然语言推理微调方法、系统、装置及存储介质

    公开(公告)号:CN114626529B

    公开(公告)日:2024-04-23

    申请号:CN202210179894.X

    申请日:2022-02-25

    Inventor: 苏锦钿 张明锋

    Abstract: 本发明公开了一种自然语言推理微调方法、系统、装置及存储介质,其中方法包括:获取前提文本与假设文本,对前提文本与假设文本进行分词,获得文本的离散编码;将离散编码输入预训练模型中进行句向量建模,获得隐藏向量;将隐藏向量拆分为前提隐藏向量和假设隐藏向量;将前提隐藏向量的句首向量输入到推理模块进行推理任务,并获取第一损失;将前提隐藏向量输入到文本生成模块进行生成任务,并获取第二损失;将第一损失和第二损失进行相加,根据相加获得的损失优化预训练模型、推理模块以及文本生成模块。本发明能够充分学习句子间的语义相关性,在原本的推理任务中取得更好的效果。本发明可广泛应用于自然语言推理技术领域。

    文本细粒度情感分类方法、系统、装置及存储介质

    公开(公告)号:CN111914085B

    公开(公告)日:2024-04-23

    申请号:CN202010560649.4

    申请日:2020-06-18

    Abstract: 本发明公开了一种文本细粒度情感分类方法、系统、装置及存储介质,其中方法包括以下步骤:获取目标文本和属性词,对目标文本和属性词进行预处理,获得序列对;将序列对输入XLNet模型进行学习,并输出属性相关的词向量语义序列和全局特征表示;采用胶囊网络对词向量语义序列进行学习,获得包含局部特征及空间层次关系的局部特征表示;将全局特征表示和局部特征表示进行合并,获得目标文本的最终语义表示,根据最终语义表示对情感类别进行预测。本发明通过充分结合XLNet学习大规模文本的语义知识方面的优势,以及胶囊网络在学习文本序列的局部信息和空间结构信息方面的优势,提高情感分类的准确率,可广泛应用于自然语言处理领域。

    基于预训练和注意力交互网络的知识型检索式对话方法

    公开(公告)号:CN114817494A

    公开(公告)日:2022-07-29

    申请号:CN202210346843.1

    申请日:2022-04-02

    Inventor: 苏锦钿 陈燕钊

    Abstract: 本发明公开了一种基于预训练和注意力交互网络的知识型检索式对话方法,包括如下步骤:在目标语料库上使用领域适应性预训练方法训练预训练语言模型BERT,得到领域适应性BERT;使用领域适应性BERT作为注意力交互网络的编码器,对对话上下文、背景知识和若干候选响应文本分别编码得到相应表征;最后将对话上下文、背景知识和若干候选响应的表征分别输入到注意力交互网络进行匹配,训练注意力交互网络从若干候选响应中检索出最佳响应。本发明利用预训练语言模型强大的语义表征能力,通过两个预训练任务提高预训练语言模型在特定语料库上的语义表征能力,并采用注意力交互网络缓解为提高检索速度而采用的分离编码所带来的性能下降。

Patent Agency Ranking