-
公开(公告)号:CN116805150A
公开(公告)日:2023-09-26
申请号:CN202310529104.0
申请日:2023-05-11
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/30 , G06F18/23 , G06F18/22 , G06F40/211
Abstract: 本发明涉及到一种语义相似的短文本的聚类方法,该聚类方法包括离线模型训练和在线聚类操作环节,第一步,准备大量的相似句对作为训练的训练集;第二步,训练相似语句的分类训练离线模型,获得可以计算语义相似的句向量模型;第三步,将需要聚类的短文本,经过离线模型进行处理,得到短文本的句向量;第四步,两两计算文本向量的余弦相似度,对于每个聚类中心,选取与相似度大于阈值的文本作为同一个聚类类别;还包括聚类系统及计算机设备。本发明的方法、系统和计算机设备通过经过改进的bert模型获取短文本的具有上下文特征和全局特征的语义特征向量,同时,基于改进的bert模型使用文本向量,使聚类更加准确。
-
公开(公告)号:CN114818738A
公开(公告)日:2022-07-29
申请号:CN202210199654.6
申请日:2022-03-01
Applicant: 达而观信息科技(上海)有限公司
Abstract: 本发明涉及到一种客服热线用户意图轨迹识别的方法,该方法包括:第一步,获得行为轨迹数据和对话文本;第二步,将完整对话文本转化为对话片段,依照时间节点将对话文本片段与用户行为轨迹数据关联;第三步,分别得到文本特征表示、用户行为特征表示和上文用户意图特征表示,特征拼接后,作为样本特征表示输出;第四步,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,取最后一层的向量作为输出结果;第五步,使用Beam Search策略生成最优的用户意图轨迹;还涉及到一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的系统。本发明的方法和系统保证更高的正确率,能够有效降低上文意图错误对当前语句意图识别的错误传递。
-