-
公开(公告)号:CN116432705A
公开(公告)日:2023-07-14
申请号:CN202310312753.5
申请日:2023-03-20
Applicant: 华润数字科技有限公司
IPC: G06N3/0455 , G06N3/047 , G06N3/0475 , G06N3/0985 , G06F40/216 , G06F40/284 , G06F18/22
Abstract: 本申请实施例提供了一种文本生成模型构建、文本生成方法和装置、设备及介质,属于人工智能技术领域。方法包括:获取并将原始文本序列和重复文本序列输入至包括编码器、解码器、重复感知网络和全连接层的文本生成模型;通过编码器对原始文本序列进行编码得到文本向量序列;通过解码器对文本向量序列和重复文本序列进行解码得到候选文本序列;通过重复感知网络对候选文本序列进行重复字识别得到预测文本序列;通过全连接层对预测文本序列进行归一化得到预测字符概率序列;对预测字符概率序列和参考文本序列进行损失计算得到目标损失数据;根据目标损失数据对文本生成模型的参数调整。本申请实施例构建生成重复内容少的文本生成模型。
-
公开(公告)号:CN116362234A
公开(公告)日:2023-06-30
申请号:CN202310123940.9
申请日:2023-02-03
Applicant: 华润数字科技有限公司
IPC: G06F40/279 , G06F40/216
Abstract: 本发明实施例提供汉字词向量生成方法、装置、设备和存储介质,涉及人工智能技术领域。该方法包括:对初始汉字进行汉字结构拆解得到字形树,根据字形树最下层级的第一偏旁结构计算第一叶子节点的第一向量以及根据第二偏旁结构计算第二节点的第二向量;根据最下层级的第一向量、第二向量和父节点的字形向量计算得到上一个层级的第二向量,按照层级自下而上的顺序,基于每一层级的第一向量和第二向量逐层计算得到根节点向量,得到初始汉字的词向量。基于二叉树对初始汉字进行汉字拆解,得到汉字对应的偏旁结构,对偏旁结构进行向量编码,降低词嵌入矩阵的参数,提升词向量生成效率。同时融合汉字本身的结构形态信息,提高词向量蕴含的信息量。
-
公开(公告)号:CN116050352A
公开(公告)日:2023-05-02
申请号:CN202211606492.X
申请日:2022-12-12
Applicant: 华润数字科技有限公司
IPC: G06F40/126 , G06N3/04 , G06N3/08
Abstract: 本申请实施例提供了一种文本编码方法和装置、计算机设备及存储介质,属于人工智能技术领域。该方法包括:将训练数字输入至包括第一编码网络和第二编码网络的自然语言处理模型;通过第一编码网络对训练数字编码得到第一嵌入向量;通过第二编码网络对训练数字编码得到第二嵌入向量;根据参考向量、第一嵌入向量和第二嵌入向量构建编码损失数据;根据训练数字的嵌入向量进行上下文预测得到预测数字;根据预测数字和验证数字序列构建上下文损失数据;根据编码损失数据和上下文损失数据对自然语言处理模型进行参数调整得到目标编码模型,将待编码数字输入至目标编码模型编码得到目标向量。本申请生成符合数字的向量,提升语言处理下游的处理效果。
-
公开(公告)号:CN115905512A
公开(公告)日:2023-04-04
申请号:CN202211696681.0
申请日:2022-12-28
Applicant: 华润数字科技有限公司
IPC: G06F16/34 , G06F16/35 , G06F40/268 , G06F40/295 , G06N3/126
Abstract: 本申请实施例涉及文本处理技术领域,特别涉及一种抽取式文本摘要生成方法、装置、设备及存储介质。本申请将句子中有效的信息特征作为选择摘要句子的重要指标,然后通过遗传算法迭代训练的方式得到文本摘要,减少了需要通过训练得到文本摘要的开销,也提升了摘要生成的准确性和客观程度,在实践中具有更好的适用性。
-
公开(公告)号:CN119962642A
公开(公告)日:2025-05-09
申请号:CN202510025150.6
申请日:2025-01-07
Applicant: 华润数字科技有限公司 , 华润智算科技(广东)有限公司
IPC: G06N5/022 , G06N3/042 , G06N3/048 , G06N3/0442 , G06N3/08
Abstract: 本发明提供一种大模型推理方法,包括以下步骤:S100)获取一语言模式提示;和S200)根据所述语言模式提示预测一响应结果的长度和逻辑结构。如果步骤S200预测到所述响应结果的长度大于一预设长度且所述响应结果的逻辑结构为金字塔结构,则进行以下步骤:S300)构建所述响应结果的金字塔主干,运用段落树并行解码技术生成所述响应结果的多个金字塔次要分支,以生成所述响应结果;如果步骤S200预测到所述响应结果的长度小于等于所述预设长度或所述响应结果的逻辑结构非金字塔结构,则进行以下步骤:S400)通过块并行解码技术生成所述响应结果。
-
公开(公告)号:CN113987154B
公开(公告)日:2025-04-29
申请号:CN202111327839.2
申请日:2021-11-10
Applicant: 华润数字科技有限公司
IPC: G06F16/3329 , G06F16/335 , G06N3/045 , G06N3/0895
Abstract: 本申请实施例属于人工智能领域,涉及一种基于UniLM与对比学习的相似句生成模型训练方法,包括将样本句子输入到相似句生成模型中,其中,句子编码层用于对样本句子进行编码处理得到稠密向量,所述多头自注意力结构用于提取所述稠密向量中的关键信息,将所述关键信息与所述稠密向量组成正样本以计算对比损失函数;将所述稠密向量输入到UniLM模型中,得到输出句子,计算所述样本句子与所述输出句子之间的文本对齐损失函数;将所述对比损失函数和所述文本对齐损失函数相加后,得到总损失函数,并基于梯度下降法计算所述总损失函数的最终值,得到训练后的相似句生成模型。采用本方法提高了训练出的模型的准确率。
-
公开(公告)号:CN119886092A
公开(公告)日:2025-04-25
申请号:CN202411923207.6
申请日:2024-12-23
Applicant: 华润数字科技有限公司 , 华润智算科技(广东)有限公司
IPC: G06F40/186 , G06N3/045
Abstract: 本申请提供一种提示模板自动优化方法,用于优化完成一任务的一原始任务提示模板。该提示模板自动优化方法包括以下步骤:S100)修改该原始任务提示模板,以得到一修改后的任务提示模板;S200)优化该修改后的任务提示模板前面的连续提示符,以得到优化连续提示符,其中使用随机线性投影将所述原始任务提示模板的空间投影到一个比所述原始任务提示模板的空间更小的子空间上,然后在所述子空间中使用无导数的优化器来解决所述连续提示符的最优化问题;和S300)结合所述优化连续提示符与所述修改后的任务提示模板,输入大语言模型,以得到一优化提示模板。
-
公开(公告)号:CN113221735B
公开(公告)日:2025-04-25
申请号:CN202110510150.7
申请日:2021-05-11
Applicant: 华润数字科技有限公司
IPC: G06V30/414 , G06V30/19 , G06V10/82 , G06N3/0442 , G06N3/045
Abstract: 本发明实施例公开了基于多模态的扫描件段落结构还原方法、装置及相关设备,通过预训练的OCR模型对文本扫描数据进行识别;将不含文本内容的文本框剔除,并按文本框所在的坐标位置依次排列,对每一文本框进行标注;根据每一坐标位置取出对应的文本框所在的图片区域;通过序列分类模型对文本内容和图像数据进行编码融合处理,并预测得到每个文本框的分类结果;根据分类结果进行段落重组;通过将OCR识别的文本框组合成文本框序列,并对文本框序列进行标注,同时融入对应文本框取出的图像数据,采用序列标注任务的方式,通过注意力融合和循环神经网络预测得到序列中每一文本框对应的标注概率,随后解码并进行重组,可以得到具有正确含义的段落结构。
-
公开(公告)号:CN119862854A
公开(公告)日:2025-04-22
申请号:CN202411852595.3
申请日:2024-12-16
Applicant: 华润数字科技有限公司 , 华润智算科技(广东)有限公司
IPC: G06F40/126 , G06F40/216
Abstract: 本发明实施例公开了一种文本对象的编码方法、装置、计算机设备以及存储介质。涉及文本处理技术领域,主要目的在于解决文本对象编码效率低导致的文本处理模型训练效果差的问题。包括:获取文本标识符序列;确定所述文本标识符序列中各标识符对以及目标文本对象;基于所述标识符对确定与所述目标文本对象对应的相邻对数以及非相邻对数,并基于所述相邻对数以及所述非相邻对数对所述目标文本对象进行编码,得到编码信息。
-
公开(公告)号:CN114781359B
公开(公告)日:2024-12-27
申请号:CN202210457419.4
申请日:2022-04-27
Applicant: 华润数字科技有限公司
IPC: G06F40/232 , G06V10/80 , G06V10/82 , G06N3/0442 , G06N3/0455
Abstract: 本申请实施例属于人工智能领域,涉及一种文本纠错方法,包括获取目标文本,计算目标文本的特征向量,并计算目标文本的拼音特征和笔画特征;对特征向量和拼音特征进行融合,得到第一目标特征,根据第一目标特征计算同音错误概率,基于同音错误概率进行信息过滤,得到拼音过滤向量;对特征向量和笔画特征进行融合,得到第二目标特征,根据第二目标特征计算笔画错误概率,基于笔画错误概率进行信息过滤,得到笔画过滤向量;对特征向量、拼音过滤向量和笔画过滤向量进行特征融合,得到第三目标特征,输入第三目标特征至目标编码网络中,编码得到纠错文本。本申请还提供一种文本纠错装置、计算机设备及存储介质。本申请实现了对文本的精确纠错。
-
-
-
-
-
-
-
-
-