一种文本纠错方法和装置、电子设备及存储介质

    公开(公告)号:CN115600606A

    公开(公告)日:2023-01-13

    申请号:CN202211355820.3

    申请日:2022-11-01

    Inventor: 陈焕坤 王伟 张黔

    Abstract: 本申请实施例涉及文本纠错技术领域,提供了一种文本纠错方法和装置、电子设备及存储介质,其通过获取训练样本并构建正负样本序列,通过文本纠错模型的编码模块中对应获得第一、第二和第三编码向量,在解码模块中根据第一编码向量确定输出序列;根据输出、原始文本和正确文本序列计算第一损失函数值;根据获取的第一标签字解码向量、候选字解码向量和错别字编码向量计算第二损失函数值;根据第一、第二和第三编码向量确定第三损失函数值;根据第一、第二和第三损失函数值训练文本纠错模型得到目标模型,并进行文本纠错。通过计算序列间误差、候选字和标签字间的误差和正负样本与原始文本间的误差,提高候选字间的差异性和纠错的稳定性与准确性。

    基于偏好学习的模型训练方法、装置及其存储介质

    公开(公告)号:CN119441863A

    公开(公告)日:2025-02-14

    申请号:CN202411417884.0

    申请日:2024-10-11

    Abstract: 本发明公开了基于偏好学习的模型训练方法、装置及其存储介质,所述方法包括以下步骤:通过获取训练数据集;根据训练数据集和预训练模型的词表,得到正面回复的自回归损失函数;在词表中设置与正面回复和反面回复对应的停止标识,计算停止标识的损失函数;根据正面回复和反面回复在训练数据集中的概率值,得到概率损失函数;根据自回归损失函数、停止标识的损失函数和概率损失函数,得到预训练模型的训练损失函数。通过利用停止标识进行偏好感知,提高模型对不同回复的感知能力;其次,根据正面回复和反面回复在训练数据集中的概率值,得到概率损失函数,提升模型的偏好对齐能力,实现一种统一指令学习和偏好学习的模型训练方法。

    基于蚁群算法的知识图谱补全方法及其相关设备

    公开(公告)号:CN114840682B

    公开(公告)日:2025-01-03

    申请号:CN202210403609.8

    申请日:2022-04-18

    Abstract: 本申请实施例属于人工智能技术领域,涉及一种基于蚁群算法的知识图谱补全方法及其相关设备,包括对语料文档进行实体识别操作,获得实体,基于实体构建知识图谱,知识图谱包括实体节点和边节点;将实体节点和边节点输入向量转换模型,获得实体嵌入向量和边嵌入向量;基于实体嵌入向量和边嵌入向量,计算推理模型从当前实体节点到下一个实体节点的运动概率,将推理模型按照运动概率进行迭代推理,直至达到停止条件;迭代推理后,从推理模型经过的路径中确定最短路径,判断是否达到最大迭代次数,若是,根据最短路径补全知识图谱,获得目标知识图谱。本申请提高了补全知识图谱的效率。

    命名实体识别方法和装置、电子设备及存储介质

    公开(公告)号:CN116384399B

    公开(公告)日:2024-09-10

    申请号:CN202310330086.3

    申请日:2023-03-27

    Abstract: 本申请实施例提供了一种命名实体识别方法和装置、电子设备及存储介质,属于人工智能技术领域。该方法包括:获取具有字符标签和样本类别标签的样本文本;将样本文本输入至预设的原始实体识别模型;根据初始编码层对样本字符进行编码,得到字符向量;根据初始位置识别层对字符向量进行位置识别,得到初始位置标签;根据初始实体识别层对样本文本进行命名实体识别,得到识别实体和识别实体的初始识别类别标签;根据初始识别类别标签、初始位置标签、字符标签、样本类别标签对原始实体识别模型进行参数调整,得到目标实体识别模型;根据目标实体识别模型对获取的待识别文本进行命名实体识别。本申请实施例能够提高实体识别的准确度。

    基于联邦学习的模型训练方法和装置、设备及存储介质

    公开(公告)号:CN116306968A

    公开(公告)日:2023-06-23

    申请号:CN202310188136.9

    申请日:2023-02-21

    Abstract: 本申请实施例提供了一种基于联邦学习的模型训练方法和装置、设备及存储介质,属于人工智能技术领域。该方法应用于模型训练系统,模型训练系统包括多个初始计算设备,多个初始计算设备均存储有初始模型,方法包括:初始计算设备根据预设训练次数对初始模型进行联邦训练,得到初步模型;获取初始计算设备的设备指标数据和模型参数发送次数;根据设备指标数据和模型参数发送次数构建设备关系图;根据设备指标数据、设备关系图确定初始计算设备的邻居设备;获取邻居设备的邻居模型参数;初始计算设备根据邻居模型参数对初步模型进行参数调整,得到目标模型。本申请实施例能够提高终端训练模型的效率。

    视频分类方法、装置、电子设备及存储介质

    公开(公告)号:CN116206245A

    公开(公告)日:2023-06-02

    申请号:CN202310217671.2

    申请日:2023-02-28

    Abstract: 本申请实施例公开了一种视频分类方法、装置、电子设备及存储介质,包括获取待分类视频,对待分类视频进行分帧处理,得到多个候选视频帧;根据相邻两个候选视频帧之间的帧间差分,从多个候选视频帧中提取出多个初始边缘帧,根据相邻两个初始边缘帧之间的帧间差分,从多个初始边缘帧中提取出多个第一目标边缘帧;根据第一目标边缘帧对待分类视频进行镜头分割,得到多个初始视频片段;对各个初始视频片段中的候选视频帧进行聚类,将初始视频片段划分为多个目标视频帧簇类;确定目标视频帧簇类中的关键帧,对关键帧进行内容检测,根据检测结果对待分类视频进行分类。采用多次筛选和自适应簇类选取的方法,能够有效提高视频分类的精确率。

    招投标文件信息提取方法、装置、设备和存储介质

    公开(公告)号:CN116205212A

    公开(公告)日:2023-06-02

    申请号:CN202310217202.0

    申请日:2023-02-27

    Abstract: 本发明实施例提供招投标文件信息提取方法、装置、设备和存储介质,涉及人工智能技术领域。通过获取目标文件并基于视觉特征进行文本解析,得到多个文本块数据,将多个文本块数据输入文本块分类模型进行文本块分类,得到目标文本分类标签,再选取每个目标文本分类标签的属性规则提取目标文本分类标签对应的文本块数据的属性信息;最后得到提取信息,提取信息为招标文件的招标信息或投标文件的投标信息。基于视觉特征对目标文件进行文本分块,能够适用于具有不同的版式信息的招投标文档,同时基于提示学习的思想,充分利用文本块数据的特征得到目标文本分类标签,从而降低样本量的需求,同时提升招投标文件中招投标信息提取的准确率。

    中文语法语义纠错模型训练方法、装置、设备及存储介质

    公开(公告)号:CN115906819A

    公开(公告)日:2023-04-04

    申请号:CN202211707874.1

    申请日:2022-12-28

    Abstract: 本申请实施例涉及文本处理技术领域,特别涉及一种中文语法语义纠错模型训练方法、装置、设备及存储介质。本申请基于联邦学习思路,让多方共同参与中文语法语义纠错模型的训练,让每一个参与节点的数据可以留在本地节点,各训练参与节点之间通过同态加密梯度传输方式获取其它训练参与节点的加权梯度信息,用于优化自身的中文语法语义纠错模型的本地损失函数,在训练结束后,能够在本地得到中文语法语义纠错模型,同时保证了本地训练数据的隐私不被泄露,取得性能和数据安全之间的平衡。

    文本数据增强方法和装置、电子设备、存储介质

    公开(公告)号:CN115796141A

    公开(公告)日:2023-03-14

    申请号:CN202211480069.X

    申请日:2022-11-24

    Abstract: 本申请实施例提供了一种文本数据增强方法和装置、电子设备、存储介质,属于人工智能技术领域。该方法包括:获取训练样本文本,将训练样本文本输入预先构建的文本生成模型进行文本处理,得到文本隐藏向量和原始字符;将文本隐藏向量输入预先构建的强化学习模型进行字符强化处理,得到样本字符;根据样本字符和所述原始字符对强化学习模型的模型参数进行调整,得到目标数据增强模型;获取目标文本,将目标文本输入所述文本生成模型进行特征提取,得到目标文本隐藏向量;将目标文本隐藏向量输入目标数据增强模型进行字符强化处理,得到目标字符;根据目标字符进行字符拼接,得到增强文本。本申请实施例能够提高生成样本的质量。

Patent Agency Ranking