-
公开(公告)号:CN119807779A
公开(公告)日:2025-04-11
申请号:CN202411827683.8
申请日:2024-12-12
Applicant: 华南理工大学
IPC: G06F18/23 , G06F18/24 , G06F18/22 , G06F18/25 , G06F40/289 , G06F40/284 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于特征提取与伪标签对比聚类分析方法,其中方法包括:获取英文文本序列后根据BERT分词器和BERT嵌入模块,将文本序列转换为满足BERT编码器要求的输入句子字符嵌入E;将字符嵌入E输入到包含浅层字符表征融合机制的BERT编码器模块进行字符向量建模,获得初始隐含向量H;将字符嵌入E和初始隐含向量H输入到Electra以及BERT模块中进行局部语义抽取,对字符的局部语义向量建模,获得局部语义向量空间;将向量空间中的隐含向量引入到伪标签对比聚类分析中,使用伪标签先对整体模型进行评价打分,使用对比学习进行聚类。本发明在原本的意图识别任务中取得更好的效果。本发明可广泛应用于意图识别领域。