-
公开(公告)号:CN117787220A
公开(公告)日:2024-03-29
申请号:CN202311768374.3
申请日:2023-12-20
Applicant: 华润数字科技有限公司 , 华润数字科技(成都)有限公司
IPC: G06F40/16 , G06F40/126 , G06F16/332
Abstract: 本申请实施例提供大语言模型训练方法、文本生成方法和相关装置,涉及人工智能技术领域。该方法利用大语言模型得到包含位置标记的问答对的第一标记向量和第一答案向量,再利用位置标记得到掩码问答句,得到掩码问答句的第二标记向量和第二答案向量;根据第一标记向量和第二标记向量计算第一损失值,根据第一答案向量和第二答案向量计算第二损失值,从而根据损失值得到目标大语言模型。将问答句的位置标记融入编码器的表达过程实现对比学习,在损失函数中融入位置信息,将问答对的生成结果进行对齐,捕捉问题与答案之间的映射关系,在整体上进行指令微调,提升大语言模型在指令遵循方面的能力,提升大语言模型的文本生成准确率。
-
公开(公告)号:CN117563756A
公开(公告)日:2024-02-20
申请号:CN202311865110.X
申请日:2023-12-29
Applicant: 华润数字科技有限公司
Abstract: 本申请实施例提供了一种水泥立磨系统的控制方法、装置、设备及存储介质,属于工业控制领域。该方法包括:获取水泥立磨系统的第一实时参数;根据所述第一实时参数确定指标动态边界参数;获取水泥立磨系统的第二实时参数;将所述第二实时参数和所述指标动态边界参数输入训练好的入料控制模型,使得所述入料控制模型输出相应的目标动作信息;根据所述目标动作信息对所述水泥立磨系统进行相关控制操作。本申请实施例引入动态边界参数,通过实时计算动态边界参数从而实现对水泥立磨系统的预见性控制,提高智能化程度,尤其是相对于对系统设置固定指标更能够适应系统实际情况,帮助节约系统电耗、维持系统稳定运行。
-
公开(公告)号:CN116432705A
公开(公告)日:2023-07-14
申请号:CN202310312753.5
申请日:2023-03-20
Applicant: 华润数字科技有限公司
IPC: G06N3/0455 , G06N3/047 , G06N3/0475 , G06N3/0985 , G06F40/216 , G06F40/284 , G06F18/22
Abstract: 本申请实施例提供了一种文本生成模型构建、文本生成方法和装置、设备及介质,属于人工智能技术领域。方法包括:获取并将原始文本序列和重复文本序列输入至包括编码器、解码器、重复感知网络和全连接层的文本生成模型;通过编码器对原始文本序列进行编码得到文本向量序列;通过解码器对文本向量序列和重复文本序列进行解码得到候选文本序列;通过重复感知网络对候选文本序列进行重复字识别得到预测文本序列;通过全连接层对预测文本序列进行归一化得到预测字符概率序列;对预测字符概率序列和参考文本序列进行损失计算得到目标损失数据;根据目标损失数据对文本生成模型的参数调整。本申请实施例构建生成重复内容少的文本生成模型。
-
公开(公告)号:CN116362234A
公开(公告)日:2023-06-30
申请号:CN202310123940.9
申请日:2023-02-03
Applicant: 华润数字科技有限公司
IPC: G06F40/279 , G06F40/216
Abstract: 本发明实施例提供汉字词向量生成方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:对初始汉字进行汉字结构拆解得到字形树,根据字形树最下层级的第一偏旁结构计算第一叶子节点的第一向量以及根据第二偏旁结构计算第二节点的第二向量;根据最下层级的第一向量、第二向量和父节点的字形向量计算得到上一个层级的第二向量,按照层级自下而上的顺序,基于每一层级的第一向量和第二向量逐层计算得到根节点向量,得到初始汉字的词向量。基于二叉树对初始汉字进行汉字拆解,得到汉字对应的偏旁结构,对偏旁结构进行向量编码,降低词嵌入矩阵的参数,提升词向量生成效率。同时融合汉字本身的结构形态信息,提高词向量蕴含的信息量。
-
公开(公告)号:CN116311205A
公开(公告)日:2023-06-23
申请号:CN202310212915.8
申请日:2023-02-27
Applicant: 华润数字科技有限公司 , 广东润联信息技术有限公司
IPC: G06V20/62 , G06V30/14 , G06V30/146 , G06V30/18 , G06V30/19 , G06V10/82 , G06N3/0442
Abstract: 本申请提供了一种车牌识别方法、车牌识别装置、电子设备及存储介质,属于人工智能技术领域,通过获取目标车辆的初始车牌图像,初始车牌图像包括目标车辆的车牌,计算初始车牌图像中车牌的长宽比,得到车牌长宽比数据,根据车牌长宽比数据确定车牌的车牌类型,车牌类型包括双行车牌,若车牌类型为双行车牌,则对初始车牌图像进行裁剪,得到第一中间车牌图像和第二中间车牌图像,对第一中间车牌图像和第二中间车牌图像进行图像拼接,得到目标车牌图像,对目标车牌图像进行特征提取,得到第一车牌特征图,将第一车牌特征图输入至预设的双向长短时记忆网络进行车牌识别,得到车牌的车牌信息,提高了对双行车牌进行车牌识别的准确性。
-
公开(公告)号:CN116050352A
公开(公告)日:2023-05-02
申请号:CN202211606492.X
申请日:2022-12-12
Applicant: 华润数字科技有限公司
IPC: G06F40/126 , G06N3/04 , G06N3/08
Abstract: 本申请实施例提供了一种文本编码方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:将训练数字输入至包括第一编码网络和第二编码网络的自然语言处理模型;通过第一编码网络对训练数字编码得到第一嵌入向量;通过第二编码网络对训练数字编码得到第二嵌入向量;根据参考向量、第一嵌入向量和第二嵌入向量构建编码损失数据;根据训练数字的嵌入向量进行上下文预测得到预测数字;根据预测数字和验证数字序列构建上下文损失数据;根据编码损失数据和上下文损失数据对自然语言处理模型进行参数调整得到目标编码模型,将待编码数字输入至目标编码模型编码得到目标向量。本申请生成符合数字的向量,提升语言处理下游的处理效果。
-
公开(公告)号:CN115905512A
公开(公告)日:2023-04-04
申请号:CN202211696681.0
申请日:2022-12-28
Applicant: 华润数字科技有限公司
IPC: G06F16/34 , G06F16/35 , G06F40/268 , G06F40/295 , G06N3/126
Abstract: 本申请实施例涉及文本处理技术领域,特别涉及一种抽取式文本摘要生成方法、装置、设备及存储介质。本申请将句子中有效的信息特征作为选择摘要句子的重要指标,然后通过遗传算法迭代训练的方式得到文本摘要,减少了需要通过训练得到文本摘要的开销,也提升了摘要生成的准确性和客观程度,在实践中具有更好的适用性。
-
公开(公告)号:CN113987154B
公开(公告)日:2025-04-29
申请号:CN202111327839.2
申请日:2021-11-10
Applicant: 华润数字科技有限公司
IPC: G06F16/3329 , G06F16/335 , G06N3/045 , G06N3/0895
Abstract: 本申请实施例属于人工智能领域,涉及一种基于UniLM与对比学习的相似句生成模型训练方法,包括将样本句子输入到相似句生成模型中,其中,句子编码层用于对样本句子进行编码处理得到稠密向量,所述多头自注意力结构用于提取所述稠密向量中的关键信息,将所述关键信息与所述稠密向量组成正样本以计算对比损失函数;将所述稠密向量输入到UniLM模型中,得到输出句子,计算所述样本句子与所述输出句子之间的文本对齐损失函数;将所述对比损失函数和所述文本对齐损失函数相加后,得到总损失函数,并基于梯度下降法计算所述总损失函数的最终值,得到训练后的相似句生成模型。采用本方法提高了训练出的模型的准确率。
-
公开(公告)号:CN113221735B
公开(公告)日:2025-04-25
申请号:CN202110510150.7
申请日:2021-05-11
Applicant: 华润数字科技有限公司
IPC: G06V30/414 , G06V30/19 , G06V10/82 , G06N3/0442 , G06N3/045
Abstract: 本发明实施例公开了基于多模态的扫描件段落结构还原方法、装置及相关设备,通过预训练的OCR模型对文本扫描数据进行识别;将不含文本内容的文本框剔除,并按文本框所在的坐标位置依次排列,对每一文本框进行标注;根据每一坐标位置取出对应的文本框所在的图片区域;通过序列分类模型对文本内容和图像数据进行编码融合处理,并预测得到每个文本框的分类结果;根据分类结果进行段落重组;通过将OCR识别的文本框组合成文本框序列,并对文本框序列进行标注,同时融入对应文本框取出的图像数据,采用序列标注任务的方式,通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率,随后解码并进行重组,可以得到具有正确含义的段落结构。
-
公开(公告)号:CN114781359B
公开(公告)日:2024-12-27
申请号:CN202210457419.4
申请日:2022-04-27
Applicant: 华润数字科技有限公司
IPC: G06F40/232 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0455
Abstract: 本申请实施例属于人工智能领域,涉及一种文本纠错方法,包括获取目标文本,计算目标文本的特征向量,并计算目标文本的拼音特征和笔画特征;对特征向量和拼音特征进行融合,得到第一目标特征,根据第一目标特征计算同音错误概率,基于同音错误概率进行信息过滤,得到拼音过滤向量;对特征向量和笔画特征进行融合,得到第二目标特征,根据第二目标特征计算笔画错误概率,基于笔画错误概率进行信息过滤,得到笔画过滤向量;对特征向量、拼音过滤向量和笔画过滤向量进行特征融合,得到第三目标特征,输入第三目标特征至目标编码网络中,编码得到纠错文本。本申请还提供一种文本纠错装置、计算机设备及存储介质。本申请实现了对文本的精确纠错。
-
-
-
-
-
-
-
-
-