-
公开(公告)号:CN116805150A
公开(公告)日:2023-09-26
申请号:CN202310529104.0
申请日:2023-05-11
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/30 , G06F18/23 , G06F18/22 , G06F40/211
Abstract: 本发明涉及到一种语义相似的短文本的聚类方法,该聚类方法包括离线模型训练和在线聚类操作环节,第一步,准备大量的相似句对作为训练的训练集;第二步,训练相似语句的分类训练离线模型,获得可以计算语义相似的句向量模型;第三步,将需要聚类的短文本,经过离线模型进行处理,得到短文本的句向量;第四步,两两计算文本向量的余弦相似度,对于每个聚类中心,选取与相似度大于阈值的文本作为同一个聚类类别;还包括聚类系统及计算机设备。本发明的方法、系统和计算机设备通过经过改进的bert模型获取短文本的具有上下文特征和全局特征的语义特征向量,同时,基于改进的bert模型使用文本向量,使聚类更加准确。
-
公开(公告)号:CN110727837A
公开(公告)日:2020-01-24
申请号:CN201910878808.2
申请日:2019-09-17
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/903 , G06F16/9535 , G06F16/957
Abstract: 本申请提供一种显示搜索推荐列表中的字符的方法及装置,从而能够根据用户输入的不同种类的字符将推荐器返回的推荐列表进行区别显示。所述方法包括:接收推荐器返回的搜索推荐列表;根据用户输入的查询关键字的类型确定关键字的匹配方式;根据所述关键字的匹配方式确定区别显示关键字;将所述搜索推荐列表中的与所述区别显示关键字对应的字符进行区别显示,以使进行区别显示的字符与所述推荐列表中的其他字符进行区别。本申请在兼顾准确,快速响应的同时,支持无论汉字输入还是拼音输入,对推荐结果中的匹配内容均能够进行区别显示。
-
公开(公告)号:CN115238070A
公开(公告)日:2022-10-25
申请号:CN202210840212.5
申请日:2022-07-18
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/35 , G06F40/205 , G06N3/08 , G06N5/04 , G06Q40/02
Abstract: 本发明公开了一种敏感信息的检测方法、装置、电子设备及存储介质。所述方法包括:对待处理的贷后检查报告文档进行解析,得到结构化解析文本,其中,在所述结构化解析文本中以句子为单位;将所述结构化解析文本中的各句子输入至预先训练的情感识别模型中,获取所述结构化解析文本中包括的敏感句子;将各所述敏感句子输入至预先训练的标签分类模型中,获取各敏感句子的敏感类型;将各所述敏感句子,以及与各所述敏感句子的敏感类型进行组合,作为对所述待处理的贷后检查报告文档的敏感信息识别结果。通过采用上述技术方案,能够对贷后检查报告中的敏感信息进行精准的检测提取和标签分类。
-
公开(公告)号:CN113627193A
公开(公告)日:2021-11-09
申请号:CN202110926242.3
申请日:2021-08-12
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/30 , G06F40/289
Abstract: 本发明实施例公开了一种中文文本中指代关系的确定方法、装置、设备及介质。该方法包括:获取目标中文文本,目标中文文本中包括待确定指代关系的目标名词和目标代词;将目标中文文本输入至预训练的,基于注意力机制的语义模型中,获取语义模型针对所述目标中文文本形成的至少一个注意力矩阵;根据各注意力矩阵,获取目标名词和目标代词之间的注意力指标,并根据注意力指标,确定目标代词和目标名词之间是否存在指代关系。通过本发明实施例的技术方案,能够直接对输入的目标中文文本数据进行预测,判断目标名词和目标代词间是否存在指代关系,不需要构建复杂的训练样本,也无需训练复杂的指代关系确定模型,提高了指代关系的判断效率。
-
-
-