基于BERT模型和种子LDA模型的话题检测方法及装置

    公开(公告)号:CN116975281A

    公开(公告)日:2023-10-31

    申请号:CN202310759929.1

    申请日:2023-06-26

    Applicant: 华侨大学

    Abstract: 本发明公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K‑means算法进行聚类,得到若干个话题簇;基于若干个话题簇采用TF‑IDF算法提取出话题,解决LDA模型对短文本的主题提取效果不好,同时忽略词语的上下文信息等问题。

Patent Agency Ranking