基于BERT模型和种子LDA模型的话题检测方法及装置

    公开(公告)号:CN116975281A

    公开(公告)日:2023-10-31

    申请号:CN202310759929.1

    申请日:2023-06-26

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K‑means算法进行聚类,得到若干个话题簇;基于若干个话题簇采用TF‑IDF算法提取出话题,解决LDA模型对短文本的主题提取效果不好,同时忽略词语的上下文信息等问题。

    一种知识图谱的关系预测方法、装置、设备及存储介质

    公开(公告)号:CN116610815A

    公开(公告)日:2023-08-18

    申请号:CN202310617748.5

    申请日:2023-05-29

    Applicant: 华侨大学

    Abstract: 本发明提供了一种知识图谱的关系预测方法、装置、设备及存储介质,先通过对待预测问句进行提取生成链接实体集,将所述链接实体集结合知识图谱以生成候选查询图;接着,调用语义匹配网络对所述候选查询图和所述问句进行处理,以生成相似度值;再接着,根据所述相似度值,对所述候选查询图进行排序,以确定最优查询图,最后,根据所述最优查询图生成所述问句中所有实体之间的关系,解决了查询图生产质量不高的问题。

    基于局部上下文焦点机制和交谈注意力的方面级情感分析

    公开(公告)号:CN116541579A

    公开(公告)日:2023-08-04

    申请号:CN202310548728.7

    申请日:2023-05-16

    Applicant: 华侨大学

    Abstract: 本发明提供一种基于局部上下文焦点机制和交谈注意力的方面级情感分析,包括:步骤S1、构建分析模型;步骤S2、BERT预训练层分别对局部上下文形式序列和全局上下文形式序列中的词进行建模,得到初步局部上下文特征和初步全局上下文特征;步骤S3、在特征提取层,利用局部上下文焦点机制,通过上下文特征动态掩码技术结合交谈注意力机制来进一步提取局部上下文特征,并使用交谈注意力机制提取全局上下文特征;步骤S4、在特征学习层,将局部上下文特征和全局上下文特征进行融合得到融合向量,并采用交谈注意力机制提取融合向量的特征;步骤S5、在输出层,根据融合向量的特征获取方面级情感分析的结果。本发明能够更好地捕获不同方面中蕴含的情感。

    基于文本和图拓扑相似的问句实体链接方法、装置和介质

    公开(公告)号:CN116069919B

    公开(公告)日:2023-06-20

    申请号:CN202310206985.2

    申请日:2023-03-07

    Abstract: 本发明实施例提供基于文本和图拓扑相似的问句实体链接方法、装置和介质,涉及知识图谱问答领域。问句实体链接方法包括S1获取问句,并进行实体识别,获取实体提及集合。S2将实体提及集合中的实体提及与知识图谱进行关键词匹配,获取候选实体集。S3根据实体提及集合和候选实体集,进行相似度计算,获取各个候选实体与其对应的实体提及的第一相似度。S4根据第一相似度对各个候选实体进行排序并保留前k个候选实体,获取各个实体提及的候选实体列表。S5获取候选实体列表中的候选实体的向量表示。S6根据向量表示,通过组合相似度模型计算任意两个候选实体列表之间的组合实体向量之间的第二相似度,获取第二相似度最大的组合作链接实体集合。

    一种文本信息推荐方法、装置及可读介质

    公开(公告)号:CN113553510B

    公开(公告)日:2023-06-20

    申请号:CN202110875172.3

    申请日:2021-07-30

    Applicant: 华侨大学

    Abstract: 本发明公开了一种文本信息推荐方法、装置及可读介质,通过获取用户数据及所对应的文本语料,对文本语料进行预处理,得到文本数据;将用户数据进行处理得到用户属性特征,将文本数据通过词注意力网络生成文本特征,将用户数据利用知识图谱表示学习模型生成用户知识图谱特征,将用户属性特征、文本特征和用户知识图谱特征进行拼接,得到综合特征;将综合特征输入多层感知机,得到用户偏好类别及对应的推送数量。本发明加强对用户兴趣的识别度和扩展性,从而提高推荐结果的准确性和多样性,通过综合特征可得到多个维度的抽象特征表示,缓解传统个性化信息推荐中的数据稀疏、冷启动等问题。将注意力机制应用到文本推荐,进一步提高准确度。

    一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

    公开(公告)号:CN111985247B

    公开(公告)日:2022-08-26

    申请号:CN202010895778.9

    申请日:2020-08-31

    Applicant: 华侨大学

    Abstract: 一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;从主题层、词序层和词汇层三个方面构造文本向量;对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。本发明提供的方法,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。

    一种集成浅层语义表示向量的深度学习文本分类方法

    公开(公告)号:CN110069632B

    公开(公告)日:2022-06-07

    申请号:CN201910284980.5

    申请日:2019-04-10

    Applicant: 华侨大学

    Abstract: 本发明公开了一种集成浅层语义表示向量的深度学习文本分类方法,方法包括:首先对文本语料训练词嵌入向量,其次利用领域词汇字典作为浅层语义词汇,基于浅层语义词汇,生成文本语料中每一个词的浅层语义向量表达。接下来将两个词向量进行加权拼接作为新的词向量输入到CNN模型中,进行特征提取和模型训练,构建文本分类器。本发明解决基于大数据驱动的词向量表达缺少词法特征和知识表示,难以真正理解词汇语义信息的缺陷,使得模型具有更加丰富的特征表达和更高的分类性能。

    一种集成浅层语义预判模态的深度学习文本分类方法

    公开(公告)号:CN110059187B

    公开(公告)日:2022-06-07

    申请号:CN201910284597.X

    申请日:2019-04-10

    Applicant: 华侨大学

    Abstract: 本发明公开了一种集成浅层语义预判模态的深度学习文本分类方法,方法包括:首先对文本语料实施常规的CNN深度学习训练,包括词嵌入、卷积、池化和模式输出;其次利用领域词汇字典作为浅层语义词汇,基于浅层语义词汇,计算浅层语义预判模式;接下来将浅层语义预判模态和深度学习决策模态进行双模态融合,作为SDG‑CNN模型最终的决策模式,进而以该决策模式构建损失函数和实施参数优化。本发明解决了传统深度学习模型在模型优化过程中缺乏背景知识和语义信息,信息模态单一的缺陷,提升了深度学习文本分类模型的性能。

    一种智能侨情问句生成方法

    公开(公告)号:CN112380836A

    公开(公告)日:2021-02-19

    申请号:CN202011261252.1

    申请日:2020-11-12

    Applicant: 华侨大学

    Abstract: 本发明公开一种智能侨情问句生成方法,包括步骤:S1:通过使用爬虫技术获取侨情相关的问答对,经过人工处理与三元组抽取,生成可用于模型训练的三元组语料集S2:采用基于seq2seq的模板学习算法,通过训练构建模板问句生成模型M,实现基于关系与主题的模板问句生成,再对模板问句进行主题文本替换获得最终的生成问句qr;S3:利用智能侨情问句生成系统的接口,接收服务端所需的参数,模型处理,回传结构化的结果。本发明采用的模板学习算法利用LSTM深度学习模型学习出问句的通用模板,能在语义层面上对问句生成机制进行学习,使生成的问句更具合规性,具有重要的理论意义和实践价值。

    一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统

    公开(公告)号:CN111985247A

    公开(公告)日:2020-11-24

    申请号:CN202010895778.9

    申请日:2020-08-31

    Applicant: 华侨大学

    Abstract: 一种基于多粒度文本特征表示的微博用户兴趣识别方法,包括:对获取的语料进行预处理,包括文本清洗、分词、去停用词和数据过滤;从主题层、词序层和词汇层三个方面构造文本向量;对所述主题向量、语义向量和词义向量按顺序进行拼接融合,得到多粒度的文本特征表示;将多粒度的文本特征表示输入CNN模型中进行训练分类,得到微博用户兴趣识别的结果,并根据文本分类问题的评价指标进行效果评估。本发明提供的方法,综合多粒度文本特征的考量,提高了模型的表征能力,进而提高文本分类的准确性,达到精准分类的效果,能够解决社交网络文本表示模型解释性差、特征稀疏和词序语义表达不足的问题。

Patent Agency Ranking