-
公开(公告)号:CN116975281A
公开(公告)日:2023-10-31
申请号:CN202310759929.1
申请日:2023-06-26
Applicant: 华侨大学
IPC: G06F16/35 , G06F40/289 , G06N3/045 , G06N3/0499 , G06F40/30 , G06F18/25 , G06F18/23213 , G06F40/216
Abstract: 本发明公开了一种基于BERT模型和种子LDA模型的话题检测方法及装置,涉及自然语言处理领域,获取原始文本集,对原始文本集进行预处理,得到文本集;构建种子LDA模型,将文本集中的每条文本输入BERT模型,得到每条文本的语义特征向量,通过BERT模型和种子LDA模型对文本集中每条文本的主题进行特征提取,得到每条文本的主题特征向量,将每条文本的语义特征向量和主题特征向量进行特征融合,得到每条文本的融合特征向量;将文本集中所有文本的融合特征向量输入K‑means算法进行聚类,得到若干个话题簇;基于若干个话题簇采用TF‑IDF算法提取出话题,解决LDA模型对短文本的主题提取效果不好,同时忽略词语的上下文信息等问题。