-
公开(公告)号:CN117131181B
公开(公告)日:2024-04-05
申请号:CN202311376793.2
申请日:2023-10-24
Applicant: 国家电网有限公司 , 国家电网有限公司信息通信分公司 , 国网思极数字科技(北京)有限公司
Inventor: 郑蓉蓉 , 薛文婷 , 王晨辉 , 曾京文 , 于霄洋 , 杨林傲 , 武志栋 , 罗大勇 , 张韬 , 刘亚庆 , 殷红涛 , 刘孟奇 , 夏昂 , 肖磊 , 袁韶祖 , 祝天刚
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/157 , G06F40/18
Abstract: 本发明提供了一种异构知识问答模型的构建方法、信息提取方法及系统,包括:对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;利用文本化表述的表格信息对生成式模型进行SQL隐式训练,得到能感知和理解表格的生成式模型;采用追一数据集对能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型。本发明对表格信息进行表格SQL隐式训练,提高了对表格的理解能力,克服异构数据汇总表格不满足预训练需求的问题。而且本发明采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,使得生成的异构知识问答模型具备了可以直接从表格信息中提取有用信息的功能。
-
公开(公告)号:CN117131181A
公开(公告)日:2023-11-28
申请号:CN202311376793.2
申请日:2023-10-24
Applicant: 国家电网有限公司 , 国家电网有限公司信息通信分公司 , 国网思极数字科技(北京)有限公司
Inventor: 郑蓉蓉 , 薛文婷 , 王晨辉 , 曾京文 , 于霄洋 , 杨林傲 , 武志栋 , 罗大勇 , 张韬 , 刘亚庆 , 殷红涛 , 刘孟奇 , 夏昂 , 肖磊 , 袁韶祖 , 祝天刚
IPC: G06F16/332 , G06F16/33 , G06F16/36 , G06F40/157 , G06F40/18
Abstract: 本发明提供了一种异构知识问答模型的构建方法、信息提取方法及系统,包括:对异构知识中的表格信息进行文本转换处理,得到文本化表述的表格信息;利用文本化表述的表格信息对生成式模型进行SQL隐式训练,得到能感知和理解表格的生成式模型;采用追一数据集对能感知和理解表格的生成式模型进行问答训练,得到含表格信息的异构知识问答模型。本发明对表格信息进行表格SQL隐式训练,提高了对表格的理解能力,克服异构数据汇总表格不满足预训练需求的问题。而且本发明采用追一数据集对所述能感知和理解表格的生成式模型进行问答训练,使得生成的异构知识问答模型具备了可以直接从表格信息中提取有用信息的功能。
-
公开(公告)号:CN117114103A
公开(公告)日:2023-11-24
申请号:CN202311360974.6
申请日:2023-10-20
Applicant: 国家电网有限公司 , 国家电网有限公司信息通信分公司 , 国网思极数字科技(北京)有限公司
Inventor: 郑蓉蓉 , 薛文婷 , 王晨辉 , 曾京文 , 于霄洋 , 杨林傲 , 武志栋 , 罗大勇 , 张韬 , 刘亚庆 , 殷红涛 , 张哲宁 , 魏家辉 , 曹津平 , 袁韶祖 , 祝天刚
IPC: G06N5/022 , G06N3/08 , G06F18/214 , G06F18/24 , G06N3/0464 , G06N3/042 , G06N3/045
Abstract: 本发明涉及人工智能技术领域,具体提供了一种语料库的重构方法及装置,包括:利用预先训练的预测模型对语料库中的样本数据进行预测,得到预测结果;基于所述预测结果确定所述语料库对应的混淆矩阵;基于所述混淆矩阵确定语料库中各知识库名称之间的混淆度;基于所述语料库中各知识库名称之间的混淆度对所述语料库中各知识库名称对应的样本数据进行合并。本发明提供的技术方案能够自动判别技术对知识库进行重构和优化,保证了语料的可靠性,同时可以对未知语料进行知识判别,扩充已有知识库。
-
-