-
公开(公告)号:CN118820472A
公开(公告)日:2024-10-22
申请号:CN202410900829.0
申请日:2024-07-05
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06F16/35 , G06F40/216 , G06F40/279 , G06N3/0442 , G06N3/0464
Abstract: 本发明公开了一种大语言模型文本分类中边界模糊与固有偏差的处理方法,包括以下步骤:1)获取待分类的目标文本以及待选择的候选标签选项集Y;2)采用大语言模型基于所述目标文本从所述候选标签选项集中选择与所述目标文本相匹配的目标标签;2.1)使用LLMs在候选集Y中选择最有可能的标签选项进行模型自减,获得选择后的标签选项集合R;2.2)对集合R中剩余候选标签选项进行相似性差异决策筛选。本发明为大语言模型文本分类提出了一个新颖的两阶段分类框架,包括减少和比较阶段。该框架使用配对比较来解决模糊性和偏差问题,并引入自我减法算法,可以提高去偏差能力和分类准确率。
-
公开(公告)号:CN114912436A
公开(公告)日:2022-08-16
申请号:CN202210587889.2
申请日:2022-05-26
Applicant: 华中科技大学
IPC: G06F40/211 , G06F40/216 , G06F40/295 , G06K9/62 , G06F16/33 , G06F16/35
Abstract: 本发明公开了一种面向细粒度实体分类的噪声标签修正方法,包括以下步骤:1)获取样本中句子和句子中已经标注出的实体提及作为输入;2)将句子和句子中已经标注出的实体提及二元组按照进行转换;3)将转换后的输入作为预训练语言模型BERT的输入,对[MASK]位置进行预测,将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率;4)在步骤3)中,在模型网络过拟合前,依据模型在过拟合前输出的logits估计样本标签为正的概率;5)利用模型在过拟合前输出的logit估计数据标签为正或负的后验概率,选取潜在噪声标签,利用半监督学习方法对潜在噪声标签进行重标注。本发明方法在不引入人工先验知识的情况下,可有效修正细粒度实体分类数据中的噪声标签。
-
公开(公告)号:CN114912436B
公开(公告)日:2024-10-22
申请号:CN202210587889.2
申请日:2022-05-26
Applicant: 华中科技大学
IPC: G06F40/211 , G06F40/216 , G06F40/295 , G06F16/33 , G06F16/35 , G06F18/24 , G06N3/0455 , G06N3/0895
Abstract: 本发明公开了一种面向细粒度实体分类的噪声标签修正方法,包括以下步骤:1)获取样本中句子和句子中已经标注出的实体提及作为输入;2)将句子和句子中已经标注出的实体提及二元组按照进行转换;3)将转换后的输入作为预训练语言模型BERT的输入,对[MASK]位置进行预测,将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率;4)在步骤3)中,在模型网络过拟合前,依据模型在过拟合前输出的logits估计样本标签为正的概率;5)利用模型在过拟合前输出的logit估计数据标签为正或负的后验概率,选取潜在噪声标签,利用半监督学习方法对潜在噪声标签进行重标注。本发明方法在不引入人工先验知识的情况下,可有效修正细粒度实体分类数据中的噪声标签。
-
公开(公告)号:CN117669732A
公开(公告)日:2024-03-08
申请号:CN202311681066.7
申请日:2023-12-06
Applicant: 华中科技大学 , 中国平安财产保险股份有限公司
IPC: G06N5/04 , G06N3/0455 , G06N3/09 , G06F16/332
Abstract: 本发明公开了一种基于隐空间多属性控制的个性对话生成方法,该方法包括以下步骤:1)将复杂个性解耦为多个独立个性属性的相互组合;2)生成基于每个独立个性属性值的多轮对话,获得个性稠密数据;3)利用条件变分自编码器,将回复r从离散的文本空间,映射到同一连续隐空间,进行对话模型训练;4)实现基于复杂个性P的个性化对话生成。本发明通过将复杂个性解耦为多个个性属性的相互组合,创建个性稠密数据,并利用条件变分自编码器,将文本空间的每个单独个性属性映射到同一隐空间,实现复杂个性的细粒度建模和个性化对话可控生成的精确性。
-
-
-