一种基于机器学习和深度学习的中文自然语言处理工具系统

    公开(公告)号:CN110705296A

    公开(公告)日:2020-01-17

    申请号:CN201910867399.6

    申请日:2019-09-12

    Abstract: 本发明公开了一种基于机器学习和深度学习的中文自然语言处理工具系统,包括:数据处理模块,用于获取待处理中文文本和处理任务类型,并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式;任务应用模块,用于根据数据处理模块获取的数据和自然语言处理需求,使用统一接口调用算法模型库,完成全流程模型训练;并根据保存的自然语言处理模型,对外提供规范统一的任务调用接口,以完成相应自然语言处理任务;算法模型库,用于保存自然语言处理任务的算法及根据算法训练得到的模型。本发明构造了合理的系统架构,通过所有功能训练接口统一、训练流程统一、调用接口统一、调用流程统一,作为自然语言处理工具使用更加简单高效。

    一种面向细粒度实体分类的噪声标签修正方法

    公开(公告)号:CN114912436B

    公开(公告)日:2024-10-22

    申请号:CN202210587889.2

    申请日:2022-05-26

    Abstract: 本发明公开了一种面向细粒度实体分类的噪声标签修正方法,包括以下步骤:1)获取样本中句子和句子中已经标注出的实体提及作为输入;2)将句子和句子中已经标注出的实体提及二元组按照进行转换;3)将转换后的输入作为预训练语言模型BERT的输入,对[MASK]位置进行预测,将标签在[MASK]位置处的出现概率作为样本拥有该标签的概率;4)在步骤3)中,在模型网络过拟合前,依据模型在过拟合前输出的logits估计样本标签为正的概率;5)利用模型在过拟合前输出的logit估计数据标签为正或负的后验概率,选取潜在噪声标签,利用半监督学习方法对潜在噪声标签进行重标注。本发明方法在不引入人工先验知识的情况下,可有效修正细粒度实体分类数据中的噪声标签。

    基于主题对话的个性化主题选择方法

    公开(公告)号:CN118733755A

    公开(公告)日:2024-10-01

    申请号:CN202410864371.8

    申请日:2024-06-30

    Abstract: 本发明公开了一种基于主题对话的个性化主题选择方法,包括以下步骤:1)获取历史多回合对话上下文,以及对话上下文的主题路径;2)获取用户u的预定义用户个性的集合;3)根据全局共现主题与用户个性之间的相关性,解耦不同个性下的全局主题;4)为历史对话的每个轮次选择相关的用户个性;5)对于每一轮对话,将用户个性的全局主题聚合,获得全局增强的主题表示:6)对全局主题聚合后的主题路径进行编码;7)选择与下一个目标主题相关的个性;8)根据选择的用户个性,预测下一个目标主题;9)根据预测主题和对话上下文生成回复。本发明通过度量全局主题与个性相关性,利用相关性高的全局主题扩展用户个性表示,提升主题预测准确性。

    一种对话推荐方法
    15.
    发明公开

    公开(公告)号:CN117056476A

    公开(公告)日:2023-11-14

    申请号:CN202310928830.X

    申请日:2023-07-26

    Abstract: 本发明公开了一种对话推荐方法,包括以下步骤:1)获取对话历史的话语信息;2)根据对话历史的话语信息获取对话历史的相应的实体与语义表征;3)构建树结构存储对话历史当中的实体信息;4)在将预测的实体加入推理树后,根据预测的实体所在的推理分支和在该分支中提到相关实体的历史语料生成与预测的实体高度相关的语料,作为对话回复推荐。本发明通过构造一个推理树结构来存储对话历史当中的实体信息,维持了语句间的因果联系,基于该推理树对历史信息进行建模,能够更好地判断用户感兴趣的实体,从而达到更好的推荐效果与生成效果。

    一种集成闲聊、知识和任务问答的智能机器人

    公开(公告)号:CN113515613A

    公开(公告)日:2021-10-19

    申请号:CN202110711655.X

    申请日:2021-06-25

    Abstract: 本发明公开了一种集成闲聊、知识和任务问答的智能机器人,包括:系统交互模块,用于提供可视化的交互界面,接收用户的输入信息作为问题输入;对话管理模块,用于处理对话逻辑,所述对话管理模块包括问题重写子模块、意图识别子模块和问题响应子模块;对话引擎模块,用于实现各子系统内部逻辑,包含闲聊问答、知识问答和任务问答,为问答提供算法支持;对话数据模块,用于存储和管理各子引擎所涉及的模型和语料,为问答系统提供数据支持;系统支持模块,对配置文件和日志进行管理,支持模块化部署和测试。本发明通过判断用户意图和处理对话逻辑,经对话引擎模块、对话数据模块处理后得到问题答案。

    基于用户重复行为模式挖掘的短序列推荐方法

    公开(公告)号:CN112381615A

    公开(公告)日:2021-02-19

    申请号:CN202011362298.2

    申请日:2020-11-27

    Abstract: 本发明公开了一种基于用户重复行为模式挖掘的短序列推荐方法,包括以下步骤:1)对于给定的用户行为序列 进行物品表示学习,获得物品的特征表示;2)将用户的行为序列转换成重复行为模式序列,进行重复行为的物品选择概率预测:根据重复行为模式序列预测序列中每个物品在下一次被重新点击的概率;3)进行探索行为的物品选择概率预测:预测没有在用户的行为序列中出现过的每个物品在下一次行为中被点击的概率;4)计算用户进行重复行为和探索行为的概率分布;5)根据步骤2)至步骤4)的结果,获得每个物品在下一次被点击的概率。本发明通过对用户的重复行为进行建模,并捕捉序列中的长距离依赖关系,可有效提高对用户推荐物品的准确度。

    基于网络表示学习的垃圾评论用户群组检测方法

    公开(公告)号:CN110442798A

    公开(公告)日:2019-11-12

    申请号:CN201910601396.8

    申请日:2019-07-03

    Abstract: 本发明公开了一种基于网络表示学习的垃圾评论用户群组检测方法,该方法包括以下步骤:1)采集用户对商品的评论并存储;2)垃圾评论活动信息建模,获得用户之间的共谋一致性;3)根据用户之间的共谋一致性,构造用户关系网络;4)根据用户关系网络估计用户之间的低阶关联性和高阶关联性;5)基于低阶关联性和高阶关联性,获得一个完整的模型 来对用户的表示进行学习;6)根据学习到包含用户行为关系信息和网络拓扑结构信息的用户低维表示,从而计算两个用户的共谋可能性得分,通过计算ScoreF(ui,*)中最大的n个分数的平均值来获得用户ui的分数,并根据用户分数的排序获得最终的检测结果。本发明能有效提升垃圾评论群组检测的准确率。

    一种基于位置感知自注意力机制的序列标注模型与标注方法

    公开(公告)号:CN110334339A

    公开(公告)日:2019-10-15

    申请号:CN201910362637.8

    申请日:2019-04-30

    Abstract: 本发明公开了一种基于位置感知自注意力机制的序列标注模型与标注方法,该序列标注模型将自注意上下文融合层作为BiLSTM-CRF模型的扩展,构造新的序列标注模型;该模型包括自注意上下文融合层和BiLSTM组成的编码器,以及作为解码器的CRF层;所述自注意上下文融合层,用于以词的特征向量表示序列作为输入,通过位置感知自注意力机制建立结合位置信息后序列中各词语与设定特定词语间的关联,得到序列中所有词语特征向量表示的加权和作为该特定词的输出特征。本发明提出的方法通过引入自注意上下文融合层,能够充分提取单词之间的潜在关系,从而可以在Bi-LSTM的基础上提供互补的上下文信息。

Patent Agency Ranking