-
公开(公告)号:CN119917606A
公开(公告)日:2025-05-02
申请号:CN202411716751.3
申请日:2024-11-27
Applicant: 中国科学院自动化研究所 , 北京智源人工智能研究院
IPC: G06F16/3329 , G06F16/334 , G06F16/353 , G06F40/30 , G06N5/04 , G06N3/045 , G06N3/0895
Abstract: 本发明提供一种基于检索增强的大语言模型长文本回答方法及装置,方法包括:通过第一大语言模型对候选文本中文本片段生成提问样本,构建问答训练样本数据后通过对比学习训练第二大语言模型,得到文本检索器;从外部知识数据库中获取目标检索文本,根据预设的滑动窗口在目标检索文本上滑动,调用文本检索器对滑动窗口内文本进行基于因果注意力机制的特征提取,得到每个检索句子的检索语义特征;调用文本检索器对查询语义特征进行检索,得到召回知识文本,结合目标提问文本进行文本问答。通过本申请,克服在文本问答时需要对待检索文本进行分块检索,限制了检索增强有效召回,导致大语言模型根据检索证据进行文本回答时准确率低下的缺陷。
-
公开(公告)号:CN112800177B
公开(公告)日:2021-09-07
申请号:CN202011637578.X
申请日:2020-12-31
Applicant: 北京智源人工智能研究院
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
Abstract: 本发明公开了一种基于复杂数据类型的FAQ知识库自动生成方法和装置。该方法包括:识别文档中不同格式的数据,所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据;对所述段落型文本数据进行模式识别,生成标题字段和内容字段;对所述非文本数据进行自然语言生成处理,得到自然语言文本;根据所述标题字段和内容字段生成第一问答对集合,根据所述自然语言文本和普通文本数据生成第二问答对集合;将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。采用本发明提供的方案,可以将不同格式的文档数据进行集成整合,生成的问答对可覆盖更全面、更广泛的信息,从而更加适应现实情况中更加灵活多变的问答场景。
-
公开(公告)号:CN112800032B
公开(公告)日:2021-08-31
申请号:CN202110205058.X
申请日:2021-02-24
Applicant: 北京智源人工智能研究院
IPC: G06F16/21 , G06F16/332 , G06F40/18
Abstract: 本发明公开了一种基于表格数据的FAQ知识库自动构建方法和装置,该方法包括:将表格数据区分为规范化表格和非规范化表格;利用预先训练得到的SQL语句生成器和第一问题生成器,根据所述规范化表格生成第一问答对;利用预先训练得到的自然语句生成器和第二问题生成器,根据所述非规范化表格生成第二问答对;对生成的第一问答对和第二问答对进行筛选,根据筛选出的问答对构建FAQ知识库。不仅节省了大量的人力和时间成本,而且在自动问答系统冷启动阶段生成了有效覆盖的FAQ知识库。另外,该方法能够利用规范化的表格数据和非规范化表格数据生成问答对,因此,适用于利用政务领域表格数据构建FAQ知识库。
-
公开(公告)号:CN111814433B
公开(公告)日:2022-02-18
申请号:CN202010840349.1
申请日:2020-08-20
Applicant: 北京智源人工智能研究院
IPC: G06F40/126 , G06F40/16 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种维吾尔语实体识别的方法、装置和电子设备。方法包括:将待识别的维吾尔语语句中的字符转换为拉丁字母,得到待识别的维吾尔语语句的拉丁字母表示形式;将拉丁字母表示形式输入到预先训练的字符级语言模型中,提取所述待识别的维吾尔语语句的语义特征;将所述语义特征输入到预先训练的实体识别模型中,得到所述待识别的维吾尔语语句的初步实体识别结果;从所述初步实体识别结果中提取实体词;对所述实体词进行去词缀处理,得到最终实体识别结果。本发明能够有效避免维吾尔字符变形带来的语义特征提取的复杂度,完全解决了维吾尔语词级别语言模型的缺陷。
-
公开(公告)号:CN112559550B
公开(公告)日:2021-09-07
申请号:CN202011184962.9
申请日:2020-10-30
Applicant: 北京智源人工智能研究院
IPC: G06F16/242 , G06F16/22 , G06F16/2455 , G06F40/242 , G06F40/289 , G06F40/295 , G06F40/30
Abstract: 本发明公开了一种基于语义规则和多维模型的多数据源NL2SQL系统,包括用于实现NL2SQL的业务层,所述业务层包括:配置模块,用于配置匹配规则;数据模型构建模块,用于构建可利用数据库的表和字段信息生成SQL语句的数据模型;意图识别模块,用于根据所述匹配规则将自然语句解析、匹配得到数据库的表和字段信息,并利用所述数据模型生成可执行的SQL语句。该系统不依赖标注语料和模型,通过界面简单的配置就可以实现基于意图的NL2SQL;通过数据模型构建模块支持多选择嵌套,可以灵活配置;通过意图识别模块降低对数据集的要求,提升SQL生成的成功率。所以,采用本发明提供的系统,能根据不同的项目快速构建业务场景。
-
公开(公告)号:CN112988952B
公开(公告)日:2021-08-24
申请号:CN202110421266.3
申请日:2021-04-20
Applicant: 北京智源人工智能研究院
IPC: G06F16/31 , G06F16/33 , G06F16/332 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种多层级长文本向量检索方法、装置和电子设备。所述方法包括:将开放领域的长文本切分为文本片段;利用训练好的编码器将所述文本片段和搜索请求分别编码为稠密向量;利用文本片段和搜索请求的稠密向量,基于向量检索,查询得到与所述搜索请求相似的目标文本片段;其中,所述编码器是利用包括多层级文本片段的训练数据集训练得到的。通过考虑训练数据集中的文本片段与搜索请求的多层级相关性,使得得到的模型很容易在多个相关片段中选取到合适的片段,显著提高了召回效率。
-
公开(公告)号:CN112800177A
公开(公告)日:2021-05-14
申请号:CN202011637578.X
申请日:2020-12-31
Applicant: 北京智源人工智能研究院
IPC: G06F16/33 , G06F16/332 , G06F16/951 , G06K9/62
Abstract: 本发明公开了一种基于复杂数据类型的FAQ知识库自动生成方法和装置。该方法包括:识别文档中不同格式的数据,所述不同格式的数据包括段落型文本数据、普通文本数据和非文本数据;对所述段落型文本数据进行模式识别,生成标题字段和内容字段;对所述非文本数据进行自然语言生成处理,得到自然语言文本;根据所述标题字段和内容字段生成第一问答对集合,根据所述自然语言文本和普通文本数据生成第二问答对集合;将所述第一问答对集合和第二问答对集合加入所述FAQ知识库。采用本发明提供的方案,可以将不同格式的文档数据进行集成整合,生成的问答对可覆盖更全面、更广泛的信息,从而更加适应现实情况中更加灵活多变的问答场景。
-
公开(公告)号:CN112035730B
公开(公告)日:2021-02-02
申请号:CN202011221206.9
申请日:2020-11-05
Applicant: 北京智源人工智能研究院
IPC: G06F16/953 , G06F16/33 , G06F16/36 , G06F40/232 , G06F40/247 , G06F40/30
Abstract: 本发明公开了一种语义检索方法、装置及电子设备,方法包括:接收用户发送的查询信息;对查询信息中的文本进行纠错,获得纠正文本;对纠正文本进行用户意图分析,确定所识别的用户意图的第一分值;对于简单事实问答,基于预先构建的知识图谱进行检索,获得第一候选答案集,并根据相关度确定所述第一候选答案集中的各个候选答案的第二分值;对于常见问题解答,基于预先构建的向量化FAQ问答对进行检索,获得第二候选答案集,并根据相关度确定第二候选答案集中的各个候选答案的第三分值;根据第一分值、第二分值以及第三分值对候选答案进行排序得到答案;该方法相比于基于关键词的检索能更好的满足用户查询需求。
-
公开(公告)号:CN112001188A
公开(公告)日:2020-11-27
申请号:CN202011184694.0
申请日:2020-10-30
Applicant: 北京智源人工智能研究院
IPC: G06F40/30 , G06F40/295 , G06F40/242 , G06F16/242
Abstract: 本发明公开了一种基于向量化语义规则快速实现NL2SQL的方法和装置。方法包括:对基于自然语言的第一语句进行分词处理和实体识别;利用预设的实体类型替换第一语句中对应的实体,得到第二语句;根据预设的语义规则模板对第二语句进行识别,得到语义片段;根据语义片段匹配得到业务数据库的表与字段信息;根据业务数据库的表与字段信息生成SQL语句。不依赖于复杂的系统和数据库,能快速实现NL2SQL,而且基于向量化语义规则识别自然语句中的语义片段,提高了语义搜索的精确度和泛化能力,具有较高召回率。
-
公开(公告)号:CN112559550A
公开(公告)日:2021-03-26
申请号:CN202011184962.9
申请日:2020-10-30
Applicant: 北京智源人工智能研究院
IPC: G06F16/242 , G06F16/22 , G06F16/2455 , G06F40/242 , G06F40/289 , G06F40/295 , G06F40/30
Abstract: 本发明公开了一种基于语义规则和多维模型的多数据源NL2SQL系统,包括用于实现NL2SQL的业务层,所述业务层包括:配置模块,用于配置匹配规则;数据模型构建模块,用于构建可利用数据库的表和字段信息生成SQL语句的数据模型;意图识别模块,用于根据所述匹配规则将自然语句解析、匹配得到数据库的表和字段信息,并利用所述数据模型生成可执行的SQL语句。该系统不依赖标注语料和模型,通过界面简单的配置就可以实现基于意图的NL2SQL;通过数据模型构建模块支持多选择嵌套,可以灵活配置;通过意图识别模块降低对数据集的要求,提升SQL生成的成功率。所以,采用本发明提供的系统,能根据不同的项目快速构建业务场景。
-
-
-
-
-
-
-
-
-