一种基于多语义特征融合的文本分类方法和装置

    公开(公告)号:CN117271765A

    公开(公告)日:2023-12-22

    申请号:CN202311059507.X

    申请日:2023-08-22

    Abstract: 本发明公开了一种基于多语义特征融合的文本分类方法及装置,所述方法包括:获取待分类的文本,将所述待分类的文本进行预处理,得到处理后的文本;将词级粒度向量输入训练完毕的词级语义特征提取模型,得到词级语义特征;将句子级粒度向量输入训练完毕的句子级语义特征提取模型,得到句子级语义特征;基于文章级向量对所述处理后的文本进行特征提取,得到文本级语义特征;将所述词级语义特征、句子级语义特征以及文本级语义特征进行特征拼接融合,得到融合后特征,使用分类器对所述融合后特征进行分类。本方法从词粒度、句子粒度和文章粒度等多个层面对文本进行精细语义建模,利用文本的多语义融合特征进行文本分类,提高了文本分类的准确率。

    一种融合多源信息的人名消歧方法及装置

    公开(公告)号:CN117149949A

    公开(公告)日:2023-12-01

    申请号:CN202311059658.5

    申请日:2023-08-22

    Abstract: 本发明公开了一种融合多源信息的人名消歧方法及装置,所述方法包括:将所有文本划分为若干个类;基于同名作者对应的机构名称、文本共同作者和文本主题内容,分别对每一类文本进行聚类,以得到该类文本的机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果;基于簇内机构信息及文本的共现信息,对机构名第一聚类结果、共同作者第一聚类结果和主题内容第一聚类结果进行融合,得到该类文本的初步聚类结果;提取初步聚类结果中的单簇文本,并基于所述单簇文本与该类文本中其他文本的相似度进行单簇文本的融合后,得到人名消歧结果。本发明可以实现了更好的消歧准确率。

    一种事件类型识别方法及装置

    公开(公告)号:CN106095928B

    公开(公告)日:2019-10-29

    申请号:CN201610409465.1

    申请日:2016-06-12

    Abstract: 本发明公开了一种事件类型识别方法及装置。该方法包括以下步骤:对训练集中所有文本进行分词、提取词性处理后训练词向量空间模型,提取文本的特征,将文本表示为特征向量;对于训练集进行事件类型聚类,训练带有类型聚类正则化项的神经网络模型;对于测试样本同样进行分析、提取词性处理,并利用已经训练好的词向量模型,得到特征表示;利用类型聚类正则化项的神经网络模型进行事件类别识别。借助于本发明的技术方案,能够利用同一群组中的类型共享信息来减轻标注数据不平衡带来的问题。

Patent Agency Ranking