-
公开(公告)号:CN116805150A
公开(公告)日:2023-09-26
申请号:CN202310529104.0
申请日:2023-05-11
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/30 , G06F18/23 , G06F18/22 , G06F40/211
Abstract: 本发明涉及到一种语义相似的短文本的聚类方法,该聚类方法包括离线模型训练和在线聚类操作环节,第一步,准备大量的相似句对作为训练的训练集;第二步,训练相似语句的分类训练离线模型,获得可以计算语义相似的句向量模型;第三步,将需要聚类的短文本,经过离线模型进行处理,得到短文本的句向量;第四步,两两计算文本向量的余弦相似度,对于每个聚类中心,选取与相似度大于阈值的文本作为同一个聚类类别;还包括聚类系统及计算机设备。本发明的方法、系统和计算机设备通过经过改进的bert模型获取短文本的具有上下文特征和全局特征的语义特征向量,同时,基于改进的bert模型使用文本向量,使聚类更加准确。
-
公开(公告)号:CN114818738A
公开(公告)日:2022-07-29
申请号:CN202210199654.6
申请日:2022-03-01
Applicant: 达而观信息科技(上海)有限公司
Abstract: 本发明涉及到一种客服热线用户意图轨迹识别的方法,该方法包括:第一步,获得行为轨迹数据和对话文本;第二步,将完整对话文本转化为对话片段,依照时间节点将对话文本片段与用户行为轨迹数据关联;第三步,分别得到文本特征表示、用户行为特征表示和上文用户意图特征表示,特征拼接后,作为样本特征表示输出;第四步,使用多层感知神经网络作为意图分类算法模型,以样本特征表示作为输入,取最后一层的向量作为输出结果;第五步,使用Beam Search策略生成最优的用户意图轨迹;还涉及到一种基于用户行为轨迹和上下文进行客服热线用户意图轨迹识别的系统。本发明的方法和系统保证更高的正确率,能够有效降低上文意图错误对当前语句意图识别的错误传递。
-
公开(公告)号:CN106372123B
公开(公告)日:2020-05-08
申请号:CN201610712189.6
申请日:2016-08-23
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F16/31 , G06F16/335
Abstract: 本发明公开了一种基于标签的相关内容推荐方法和系统,系统包括:数据导入模块、自动标签提取模块、倒排索引模块、推荐结果生成模块,通过上述数据导入模块和自动标签提取模块,可获得更相关的内容列表,可实现对内容相关的文本提取自动标签,从而排除跟内容不相关的噪音。本系统中由于内容网站中内容的数量可以达到千万甚至上亿的数量级别,为了提高推荐的效率,需要利用信息检索的技术,在所述倒排索引模块中对所有的内容按照自动标签进行倒排索引,提高了推荐的效率。采用本发明提供的方法,能够获得更相关的内容列表和更高推荐效率的相关内容推荐。
-
公开(公告)号:CN115098679A
公开(公告)日:2022-09-23
申请号:CN202210749204.X
申请日:2022-06-28
Applicant: 达而观信息科技(上海)有限公司
Abstract: 本发明实施例公开了一种文本分类标注样本的异常检测方法、装置、设备及介质。该方法包括:获取待去噪的文本分类标注数据集;计算两两文本分类标注数据之间的语义相似度,对文本分类标注数据集进行聚类处理,得到至少一个聚类簇;在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。本发明实施例,解决了由于样本去噪模型识别准确率低而造成工作人员工作量大,以及样本去噪没有解释性说明的问题,实现了能够有效地对文本分类标注样本进行异常检测,提高了样本去噪的准确率,降低了样本去噪的人力成本。
-
公开(公告)号:CN108710607A
公开(公告)日:2018-10-26
申请号:CN201810345021.5
申请日:2018-04-17
Applicant: 达而观信息科技(上海)有限公司
CPC classification number: G06F17/2775 , G06F17/218 , G06F17/272 , G06F17/2785 , G06F17/2795
Abstract: 本申请公开了一种文本改写方法及装置。该文本改写方法包括:根据待改写文本确定文本的输入词集合;在所述输入词集合中提取输入词的词特征向量;根据所述词特征向量确定关键词集;根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;根据所述文本改写对照表改写所述待改写文本。本申请解决了文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的技术问题。
-
公开(公告)号:CN107330041A
公开(公告)日:2017-11-07
申请号:CN201710501375.X
申请日:2017-06-27
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F17/30
CPC classification number: G06F17/30864 , G06F17/30539 , G06F2216/03
Abstract: 本发明公开了一种基于时间衰减的相关搜索词挖掘方法及系统,挖掘方法实现以下有益效果:通过搜索词关联到相关词的频繁项集,相关词的频繁项集具有更简单、更快速的效果;通过支持度、置信度对推荐的频繁项集中的噪音进行过滤,使推荐的频繁项集过得到简化,人员可以较为容易的确定相关搜索词;通过时间衰减函数降低时间距离太久远的相关搜索词的权重,相对的升高了最近、最热门的相关搜索词的权重,使人员可以迅速找到想要的相关搜索词。挖掘系统通过其中的关联单元、计算过滤单元以及时间衰减单元实现了挖掘系统相同的有益效果。
-
公开(公告)号:CN107291914A
公开(公告)日:2017-10-24
申请号:CN201710501386.8
申请日:2017-06-27
Applicant: 达而观信息科技(上海)有限公司
CPC classification number: G06F16/9535 , G06F16/951 , G06F17/277
Abstract: 本发明公开了一种生成搜索引擎查询扩展词的方法及系统,其中方法包括如下步骤:获取网络会话日志,提取所有网络用户的查询词得到查询词语料训练库;利用查询词语料训练库对词向量模型进行训练;接收查询文本并将其输入至训练好的词向量模型后,获得扩展词。本发明实现了对查询词进行语义扩展进而提高搜索引擎查询结果的准确度和召回率,有效解决了搜索查询无结果和少结果的问题。
-
公开(公告)号:CN108710607B
公开(公告)日:2022-04-19
申请号:CN201810345021.5
申请日:2018-04-17
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/289 , G06F40/30 , G06F40/247 , G06F40/253 , G06F40/117
Abstract: 本申请公开了一种文本改写方法及装置。该文本改写方法包括:根据待改写文本确定文本的输入词集合;在所述输入词集合中提取输入词的词特征向量;根据所述词特征向量确定关键词集;根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;根据所述文本改写对照表改写所述待改写文本。本申请解决了文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的技术问题。
-
公开(公告)号:CN107357778B
公开(公告)日:2020-10-30
申请号:CN201710482689.X
申请日:2017-06-22
Applicant: 达而观信息科技(上海)有限公司
IPC: G06F40/284 , G06F40/30 , G06F16/33
Abstract: 本发明公开了一种变形词的识别验证方法及系统,识别验证方法具有以下有益效果:通过语音和字形的扩展,使变形字库可得到扩展,从而其中的变形词的数量得到扩充,质量得到提高,降低了误判的几率;通过训练样本进行上下文概率的训练,从而使变形词的语义验证的误判几率进一步降低,并且精确性得到提高;通过验证结果更新训练样本,使算法的自动更新性能提高,从而能够扩展用于语义验证的概念库,随着验证结果的积累,误判几率不断减小。识别验证系统包括:获取单元、变形训练单元、识别单元以及语义验证单元,实现了与方法相同的有益效果。
-
公开(公告)号:CN106445998A
公开(公告)日:2017-02-22
申请号:CN201610589166.0
申请日:2016-07-25
Applicant: 达而观信息科技(上海)有限公司
Inventor: 张健
Abstract: 本发明公开了一种基于敏感词的文本内容审核方法,包括如下步骤:接收待审核文本,将待审核文本进行解析、分词,获取待审核文本中的所有关键词;根据所有关键词查询预设的敏感词数据库,获取待审核文本中的敏感词,敏感词数据库包括敏感词及其同义词或近义词;获取预设文本长度中与敏感词的共现的关键词,计算敏感词及其共现的关键词的违规权重,判断违规权重是否大于预设的违规阈值;如果违规权重大于预设的违规阈值,则待审核文本为违规文本,否则为正常文本。本发明有效地降低了误判的概率,提升审核准确度,对变形词和网络新词有较快的反应能力。
-
-
-
-
-
-
-
-
-