一种语义相似的短文本聚类方法、系统和计算机设备

    公开(公告)号:CN116805150A

    公开(公告)日:2023-09-26

    申请号:CN202310529104.0

    申请日:2023-05-11

    Abstract: 本发明涉及到一种语义相似的短文本的聚类方法,该聚类方法包括离线模型训练和在线聚类操作环节,第一步,准备大量的相似句对作为训练的训练集;第二步,训练相似语句的分类训练离线模型,获得可以计算语义相似的句向量模型;第三步,将需要聚类的短文本,经过离线模型进行处理,得到短文本的句向量;第四步,两两计算文本向量的余弦相似度,对于每个聚类中心,选取与相似度大于阈值的文本作为同一个聚类类别;还包括聚类系统及计算机设备。本发明的方法、系统和计算机设备通过经过改进的bert模型获取短文本的具有上下文特征和全局特征的语义特征向量,同时,基于改进的bert模型使用文本向量,使聚类更加准确。

    显示搜索推荐列表中的字符的方法及装置

    公开(公告)号:CN110727837A

    公开(公告)日:2020-01-24

    申请号:CN201910878808.2

    申请日:2019-09-17

    Abstract: 本申请提供一种显示搜索推荐列表中的字符的方法及装置,从而能够根据用户输入的不同种类的字符将推荐器返回的推荐列表进行区别显示。所述方法包括:接收推荐器返回的搜索推荐列表;根据用户输入的查询关键字的类型确定关键字的匹配方式;根据所述关键字的匹配方式确定区别显示关键字;将所述搜索推荐列表中的与所述区别显示关键字对应的字符进行区别显示,以使进行区别显示的字符与所述推荐列表中的其他字符进行区别。本申请在兼顾准确,快速响应的同时,支持无论汉字输入还是拼音输入,对推荐结果中的匹配内容均能够进行区别显示。

    一种敏感信息的检测方法、装置、电子设备及存储介质

    公开(公告)号:CN115238070A

    公开(公告)日:2022-10-25

    申请号:CN202210840212.5

    申请日:2022-07-18

    Abstract: 本发明公开了一种敏感信息的检测方法、装置、电子设备及存储介质。所述方法包括:对待处理的贷后检查报告文档进行解析,得到结构化解析文本,其中,在所述结构化解析文本中以句子为单位;将所述结构化解析文本中的各句子输入至预先训练的情感识别模型中,获取所述结构化解析文本中包括的敏感句子;将各所述敏感句子输入至预先训练的标签分类模型中,获取各敏感句子的敏感类型;将各所述敏感句子,以及与各所述敏感句子的敏感类型进行组合,作为对所述待处理的贷后检查报告文档的敏感信息识别结果。通过采用上述技术方案,能够对贷后检查报告中的敏感信息进行精准的检测提取和标签分类。

Patent Agency Ranking