-
公开(公告)号:CN117828088B
公开(公告)日:2024-12-20
申请号:CN202410053934.5
申请日:2024-01-15
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F16/35 , G06N3/0455 , G06N3/08 , G06N7/01 , G06N3/0499
Abstract: 本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提供一种基于主动学习的文本标记方法、装置、设备和存储介质,用于提高文本标记的准确性和效率。该方法基于文本样本池对文本分类模型进行迭代训练时,除了使用标记文本本身外,还使用了预先标注的表征文本与标签间的因果关系的真实解释,使模型准确理解文本的深层语义信息,减少模型对文本表面语义含义的依赖,提高标签预测的泛化性和准确性;同时,还利用了各标记文本的真实解释和相应的评估值产生的损失,使模型能够准确对解释进行评估,以便选取出类别信息量较为丰富的多个候选文本进行标注,从而提高文本类别的丰富性同时降低标注占用的资源,提升文本标注效率。
-
公开(公告)号:CN118780333A
公开(公告)日:2024-10-15
申请号:CN202310390229.X
申请日:2023-04-04
Applicant: 腾讯科技(深圳)有限公司
IPC: G06N3/08 , G06N5/04 , G06F18/214 , G06F18/232
Abstract: 本申请公开了一种基于连续学习的模型推理方法、装置及存储介质。本方法通过获取目标推理任务以及目标推理任务对应的推理数据;将推理数据输入至训练后的神经网络模型中,得到模型输出数据;从记忆数据集合中获取与目标推理任务关联的关联记忆数据;根据关联记忆数据与模型输出数据之间的关联关系,在关联记忆数据中确定多个目标记忆数据;基于多个目标记忆数据对应的标签数据确定推理结果。该方法可以提升模型推理的效率。
-
公开(公告)号:CN118098222B
公开(公告)日:2024-07-05
申请号:CN202410524510.2
申请日:2024-04-29
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L15/16 , G10L15/06 , G10L15/26 , G10L15/18 , G10L15/02 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/098 , G06N3/0442 , G06F40/126 , G06F40/189 , G06F40/30
Abstract: 本公开提供了一种语音关系提取方法、装置、计算机设备及存储介质。方法通过获取语音数据;基于第一神经网络模型对目标语音数据进行语音特征提取,得到语音特征;将语音特征输入第二神经网络模型进行特征模态转换,得到文本特征;基于第三神经网络模型对文本特征进行特征解码,得到目标语音数据的语音关系文本;其中,第一神经网络模型、第二神经网络模型以及第三神经网络模型基于目标损失联合训练得到,目标损失包括第一损失以及第二损失;第一损失为基于第一样本文本特征与第二样本文本特征计算得到;第二损失为基于预测语音关系文本与语音关系标签计算得到。该方法可以提升语音关系提取的准确性。
-
公开(公告)号:CN118098222A
公开(公告)日:2024-05-28
申请号:CN202410524510.2
申请日:2024-04-29
Applicant: 腾讯科技(深圳)有限公司
IPC: G10L15/16 , G10L15/06 , G10L15/26 , G10L15/18 , G10L15/02 , G06N3/0455 , G06N3/0464 , G06N3/084 , G06N3/098 , G06N3/0442 , G06F40/126 , G06F40/189 , G06F40/30
Abstract: 本公开提供了一种语音关系提取方法、装置、计算机设备及存储介质。方法通过获取语音数据;基于第一神经网络模型对目标语音数据进行语音特征提取,得到语音特征;将语音特征输入第二神经网络模型进行特征模态转换,得到文本特征;基于第三神经网络模型对文本特征进行特征解码,得到目标语音数据的语音关系文本;其中,第一神经网络模型、第二神经网络模型以及第三神经网络模型基于目标损失联合训练得到,目标损失包括第一损失以及第二损失;第一损失为基于第一样本文本特征与第二样本文本特征计算得到;第二损失为基于预测语音关系文本与语音关系标签计算得到。该方法可以提升语音关系提取的准确性。
-
公开(公告)号:CN117688948A
公开(公告)日:2024-03-12
申请号:CN202211041422.4
申请日:2022-08-29
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/58 , G06F40/166 , G06N3/08 , G06N3/0455
Abstract: 本申请公开一种翻译推荐方法、译后编辑模型的训练方法和相关装置,获取包括多个分段和分段标识的输入序列,多个分段包括源语言片段和带有掩膜标签的目标语言片段,分段标识将源语言片段和目标语言片段进行分割,掩膜标签位于目标语言片段的待推荐位置。通过译后编辑模型对输入序列进行嵌入处理得到输入序列对应的词向量、位置向量,以及基于分段标识得到分段向量。基于输入序列对应的词向量、位置向量和分段向量,通过译后编辑模型得到输入序列的输入向量。根据输入向量通过译后编辑模型进行编码输出编码结果,并基于编码结果通过译后编辑模型进行解码输出待推荐位置的翻译推荐结果,提高翻译推荐结果的准确性,以提高译后编辑的准确性和效果。
-
公开(公告)号:CN117077656B
公开(公告)日:2024-01-02
申请号:CN202311233294.8
申请日:2023-09-22
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/205 , G06F40/30 , G06F16/35 , G06F40/117
Abstract: 本申请属于人工智能技术领域,具体涉及一种论证关系挖掘方法、论证关系挖掘装置、计算机可读介质、电子设备以及计算机程序产品。该论证关系挖掘方法包括:获取需要挖掘论证关系的文本数据,所述文本数据包括连续分布的多个命题语句,所述论证关系包括两个命题语句之间存在的反对关系、支持关系或无关系;对所述命题语句进行特征提取,得到所述命题语句的第一语义特征;对连续分布的多个命题语句的第一语义特征进行融合处理,得到所述命题语句的第二语义特征;根据所述第一语义特征和所述第二语义特征,对两个命题语句进行分类处理,得到所述两个命题语句的论证关系。本申请可以提高论证关系挖掘的准确性。
-
公开(公告)号:CN111460838A
公开(公告)日:2020-07-28
申请号:CN202010327224.9
申请日:2020-04-23
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本发明提供了智能翻译模型的预训练方法、装置和存储介质。该方法包括:获取包括源语言词语的预训练源语言语句和包括目标语言词语的预训练目标语言语句;基于源语言词语与目标语言词语之间的相似度,从目标语言词语中筛选源语言词语所对应的候选翻译词,每个源语言词语对应预设数量的候选翻译词;根据与预训练源语言语句中源语言词语对应的候选翻译词对预训练源语言语句中的至少一个源语言词语进行替换,得到预训练源语言语句对应的语言混合编码语句;基于语言混合编码语句对初始翻译模型进行预训练,得到预训练翻译模型。该方法利用源语言和目标语言单语语料中隐含的对齐信息提高翻译模型的预训练准确率,从而大幅提高翻译任务的性能。
-
公开(公告)号:CN111382568A
公开(公告)日:2020-07-07
申请号:CN202010472238.X
申请日:2020-05-29
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/289 , G06N3/04
Abstract: 本发明公开了一种分词模型的训练方法和装置、存储介质和电子设备。该方法包括:使用不带分词标注的第一语种的第一语料集合和不带分词标注的第二语种的第二语料集合对待训练分词模型进行跨语种预训练,得到预训练模型,预训练模型用于对第一语种和第二语种进行建模;使用带分词标注的第一语种的第三语料集合对预训练模型进行优化训练,得到分词模型,分词模型具备对第一语种的句子进行分词的能力;使用带分词标注的第二语种的第四语料集合对分词模型进行优化训练,得到目标分词模型,目标分词模型具备对第二语种的句子进行分词的能力。本发明可应用于人工智能的分词模型的训练和应用中。
-
公开(公告)号:CN110196713A
公开(公告)日:2019-09-03
申请号:CN201810179766.9
申请日:2018-03-05
Applicant: 腾讯科技(深圳)有限公司
Abstract: 本申请实施方式提供一种确定推荐结果的方法、装置、介质及设备,属于智能推荐技术领域,该方法包括:获取业务标识和用户属性信息共同关联的至少一套属性参数,所述属性参数包括推荐逻辑标识以及所述业务标识;调用所述至少一套属性参数中的推荐逻辑标识对应的推荐逻辑,其中,不同的推荐逻辑相互独立存储;利用调用的推荐逻辑,确定所述业务标识对应的业务场景下的推荐结果。本申请实施方式可在一定程度上减少业务逻辑的代码量,降低业务逻辑的代码结构复杂度,为代码维护提供方便。
-
公开(公告)号:CN114282549B
公开(公告)日:2024-07-12
申请号:CN202110904251.2
申请日:2021-08-06
Applicant: 腾讯科技(深圳)有限公司
IPC: G06F40/35 , G06F40/205 , G06N3/042 , G06N3/08
Abstract: 本申请涉及计算机技术领域,公开了一种信息间根因关系的识别方法、装置、电子设备及存储介质,该方法为:采用已训练的目标信息识别模型,获得所述各个历史语句各自对应的情感语句向量,再采用所述目标信息识别模型,建立图网络,以及基于所述图网络对所述各个历史语句各自对应情感语句向量进行更新,再基于更新后的各个情感语句向量,分别获得各个历史语句的根因关系识别结果。这样,能够以全局的视角,兼顾历史语句自身所表达的情感,以及历史语句中不同触发方所造成的情感影响,使得得到的识别结果中融合了历史语句中的情感信息和来自不同触发方的历史语句所产生的情感影响,能够在交互会话语境中,有效的识别出待回复语句的情感根因。
-
-
-
-
-
-
-
-
-