-
公开(公告)号:CN117131945A
公开(公告)日:2023-11-28
申请号:CN202311395847.X
申请日:2023-10-26
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06N5/04 , G06F16/332
Abstract: 本发明提供了一种用于LLM模型的数据训练方法及存储介质,涉及大语言模型训练技术领域,所述方法包括:获取训练用文本集,基于特定字符,对每一训练用文本进行划分,获取中间问答文本列表,将第一指令和中间问答文本列表输入LLM模型,获取LLM模型的输出的第一预测问题语句列表,若存在第一预测问题语句属于黑名单列表,将第二指令输入LLM模型,获取LLM模型输出的第二预测问题语句,将第二预测问题语句替换问题语句,获取最终文本列表,将第一指令和最终文本列表输入LLM模型,对LLM模型进行训练,从而达到引导LLM模型的目的。
-
公开(公告)号:CN115331231B
公开(公告)日:2023-05-05
申请号:CN202210984550.6
申请日:2022-08-17
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06V30/146 , G06V30/14 , G06V30/414
Abstract: 本发明涉及一种基于文本识别目标文本的方法,所述方法包括如下步骤:对目标图像进行处理,获取文本识别区域对应的多边形标注信息;基于多边形的标注信息,进行向内长度为L的缩减,获取第一标签;基于多边形的标注信息,进行向外长度为L的扩张,获取第二标签;基于第一标签和第二标签和目标图像输入图像处理模型,获取最终文本识别区域;基于最终文本识别区域,获取目标字符串;引入预设缩减参数,使得矩形的长宽自适应的缩小,最终获得目标文字。
-
公开(公告)号:CN115205861A
公开(公告)日:2022-10-18
申请号:CN202210984470.0
申请日:2022-08-17
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06V30/146 , G06V10/82 , G06V30/16
Abstract: 本发明涉及一种获取异常文字识别区域的方法,所述方法包括如下步骤:对中间图像进行识别,当第r个文本识别区域不呈矩形时,获取第r个文本识别区域对应的第一文本识别结果列表,基于映射比例,获取第二文本识别结果列表,将第r个文本识别区域进行等比划分,获取第三文本识别结果列表,基于第一文本识别列表、第二文本识别列表和第三文本识别列表,获取第k识别区域;基于第k识别区域,获取第一增高识别区域;从而获取第σ增高区域,获取第σ增高区域对应的单字文本识别区域作为最终识别区域。本发明对文字进行逐个检测,提高了单个文字的检测精度。
-
公开(公告)号:CN117520754B
公开(公告)日:2024-04-12
申请号:CN202410019191.X
申请日:2024-01-05
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06F18/10 , G06F18/214 , G06F18/241
Abstract: 本发明涉及一种模型训练数据的预处理系统,涉及数据处理技术领域,系统包括:样本文本列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本事件列表集,获取样本标签列表,根据样本标签列表,获取第一中间文本列表集,获取第二中间文本列表集,根据每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式进行处理以获取目标训练集,本发明采用不同的处理方式获取不同标签下的文本作为目标训练集,使得目标训练数据集的类型更加多样化,基于不同标签下文本和文本中词的特征进行处理,使得每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
-
公开(公告)号:CN115331231A
公开(公告)日:2022-11-11
申请号:CN202210984550.6
申请日:2022-08-17
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06V30/146 , G06V30/14 , G06V30/414
Abstract: 本发明涉及一种基于文本识别目标文本的方法,所述方法包括如下步骤:对目标图像进行处理,获取文本识别区域对应的多边形标注信息;基于多边形的标注信息,进行向内长度为L的缩减,获取第一标签;基于多边形的标注信息,进行向外长度为L的扩张,获取第二标签;基于第一标签和第二标签和目标图像输入图像处理模型,获取最终文本识别区域;基于最终文本识别区域,获取目标字符串;引入预设缩减参数,使得矩形的长宽自适应的缩小,最终获得目标文字。
-
公开(公告)号:CN115331230B
公开(公告)日:2023-04-14
申请号:CN202210984372.7
申请日:2022-08-17
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06V30/146 , G06V10/24 , G06V10/82 , G06V30/414 , G06V20/62
Abstract: 本发明涉及一种获取文本识别区域的数据处理系统,所述系统包括摄像装置、数据库,处理器和存储有计算机程序的存储器,所述数据库中存储有指定图像列表,当所述计算机程序被处理器被处理器执行时,实现如下步骤:对目标图像进行仿射变换处理,获得目标图像对应的中间图像,目标图像是通过摄像装置获取到的目标文本对应的图像;基于中间图像,获取文本识别区域的高度和长度,使用目标图像上较特殊的点作为目标点进行仿射变换,避免了角点缺失的情况。
-
公开(公告)号:CN115186649B
公开(公告)日:2023-01-06
申请号:CN202211051608.8
申请日:2022-08-30
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06F40/205 , G06F40/295
Abstract: 本发明涉及人工智能技术领域,具体涉及一种基于关系模型的超长文本的切分方法及系统,该方法通过将原文本切割为多个子句,然后按照原文本的顺序多个子句进行重组得到多个重组子句,任意相邻的两个重组子句之间具有第一重叠长度的重叠文本,其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定,在实体被切断时,通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置,该方法最终得到的相邻重组子句之间均存在重叠文本,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,同时能够保证实体不被切断,进一步的减少了信息损失。
-
公开(公告)号:CN115358341A
公开(公告)日:2022-11-18
申请号:CN202211050793.9
申请日:2022-08-30
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06K9/62 , G06F40/30 , G06F40/295 , G06F40/268
Abstract: 本发明涉及人工智能技术领域,具体涉及一种基于关系模型的指代消歧的训练方法及系统,该方法将任意一个样本中的所有指代词作为主语分别标注为主语标签形成主语训练数据;按照指代词出现的顺序,在当前指代词为主语时,将当前指代词的两侧添加标记符并将上一个指代词作为宾语且标注为关系标签形成关系训练数据,获取所有指代词作为主语时对应的关系训练数据,得到关系训练集;获取主语训练数据和关系训练集中每个字符的特征向量,将所有样本的主语训练数据、关系训练集和特征向量输入关系模型中进行训练,使关系模型提取出正确的关系,解决了目前关系模型无法识别多次出现的同一个指代词与实体之间的关系的问题。
-
公开(公告)号:CN115186649A
公开(公告)日:2022-10-14
申请号:CN202211051608.8
申请日:2022-08-30
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06F40/205 , G06F40/295
Abstract: 本发明涉及人工智能技术领域,具体涉及一种基于关系模型的超长文本的切分方法及系统,该方法通过将原文本切割为多个子句,然后按照原文本的顺序多个子句进行重组得到多个重组子句,任意相邻的两个重组子句之间具有第一重叠长度的重叠文本,其中第一重叠长度通过预设的重叠长度以及在前重组子句中最后一个子句的长度来确定,在实体被切断时,通过预设重叠长度、切分位置、被切断的实体位置以及实体的最大长度阈值来重新调整最终的切分位置,该方法最终得到的相邻重组子句之间均存在重叠文本,减少信息的损失,使关系模型预测的结果相对于等长度直接切割来说更加准确,同时能够保证实体不被切断,进一步的减少了信息损失。
-
公开(公告)号:CN117520754A
公开(公告)日:2024-02-06
申请号:CN202410019191.X
申请日:2024-01-05
Applicant: 北京睿企信息科技有限公司 , 日照睿安信息科技有限公司
IPC: G06F18/10 , G06F18/214 , G06F18/241
Abstract: 本发明涉及一种模型训练数据的预处理系统,涉及数据处理技术领域,系统包括:样本文本列表、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:根据样本文本列表,获取样本事件列表集,获取样本标签列表,根据样本标签列表,获取第一中间文本列表集,获取第二中间文本列表集,根据每个第二中间文本列表中第二中间文本的特征分别采用第一处理方式和第二处理方式进行处理以获取目标训练集,本发明采用不同的处理方式获取不同标签下的文本作为目标训练集,使得目标训练数据集的类型更加多样化,基于不同标签下文本和文本中词的特征进行处理,使得每个标签下的文本数量是均衡的,从而提高了模型训练结果的准确度。
-
-
-
-
-
-
-
-
-